GPT-4o는 이미지를 어떻게 인코딩할까?

▲

xguru 6달전 | parent | favorite | on: GPT-4o는 이미지를 어떻게 인코딩할까?(oranlooney.com)

Hacker News 의견

현대적인 오픈 소스 대체품 필요성: 최신 기계 학습 기술을 기반으로 한 Tesseract의 현대적 오픈 소스 대체품이 절실히 필요함. 현재 사용 중인 LLM은 과도하게 강력하고 비용이 많이 듦.
Llava1.6, IntenVL, CogVLM2의 OCR 능력: 이 모델들은 타일 이미지 임베딩과 LLM만으로 OCR을 수행할 수 있음. Tesseract의 OCR 결과를 입력하면 신뢰성이 향상되지만 필수는 아님.
Clip 임베딩의 텍스트 인식: Clip 임베딩은 텍스트가 충분히 크면 텍스트를 "읽을" 수 있음. 타일링은 작은 텍스트를 읽을 수 있게 함.
호기심과 개방적인 탐구: 이 기술이 어떻게 작동하는지에 대한 호기심과 개방적인 탐구를 사랑함. 기계 학습 모델 해석을 위한 재규격화 그룹 이론과의 연관성도 흥미로움.
텍스트를 이미지로 전송하는 효율성: 텍스트를 이미지로 전송하는 것이 더 효율적일 수 있음. 작은 글꼴로 512x512 이미지에 400-500개의 토큰을 쉽게 담을 수 있음.
OpenAI의 문서화 부족: OpenAI가 명확하고 포괄적인 문서를 제공하지 않는 이유를 이해하지 못함. API를 사용하는 사람들에게는 이 문서 부족이 큰 장애물임.
GPT-4의 이미지 처리 오류: GPT-4 비전이 PDF의 여러 페이지를 나타내는 단일 이미지를 OCR할 때 내용이 왜곡되는 문제를 경험함. OpenAI의 명확한 문서가 있었다면 이러한 문제를 더 효과적으로 피할 수 있었을 것임.
글의 품질: 이 글이 매우 잘 쓰여졌다고 생각함. 주제를 쉽게 설명하면서도 깊이 있게 다룸. 주제를 잘 이해해야 간단하게 설명할 수 있음.
VQVAE 사용 가능성: VQVAE를 사용하여 토큰 사전을 만들고 이미지를 인코더로 변환하는 가능성이 있음.
이미지-토큰 매핑의 비용: 이미지를 토큰 임베딩으로 매핑하는 것이 토큰 ID로 매핑하는 것보다 약 170배 더 많은 계산과 공간을 소비할 가능성이 있음.
13x13 타일링 가능성: 13x13 타일링이 겹치는 수용 영역 때문에 13x13 객체 그리드를 인식할 수 없다는 것을 배제할 수 없음. 겹치는 타일링 해상도의 피라미드도 가능함.
GPT-4 성능 테스트 방법: 7x7 그리드의 색상 모양을 JSON으로 요청하여 GPT-4 성능을 테스트하는 방법이 매우 기발함.