▲neo 5달전 | parent | favorite | on: GN⁺: 비전 언어 모델의 시각적 한계(vlmsareblind.github.io)Hacker News 의견 결론이 잘못되었다고 생각함 "근시인 사람의 시야"라는 비유는 과장된 표현임 GPT-4v가 세밀한 시각 작업을 잘 수행하는 예시가 있음 큰 GenAI 모델이 많은 데이터를 학습했을 때 성능이 좋음 저자들이 제시한 증거가 부족함 Captcha에 대한 경험 공유 GPT-4o가 차고 문 문제를 해결하는 데 도움을 줌 사진에서 잘못된 설치를 식별했지만, 누락된 너트를 놓침 VLM의 객체 수 세기와 공간 관계 인식 문제 Microsoft의 Set of Marks가 도움이 될 수 있음 "말할 수 있는" 레이블 제공이 성능 향상에 기여함 현재 SOTA 모델의 성능에 대한 비판 인간에게는 쉬운 작업에서 실패함 예: 선 교차 횟수 세기, 원 겹침 감지 등 VLM의 이미지 처리 방식에 대한 의견 인간은 관심 영역에 집중할 수 있지만, VLM은 전체 이미지를 동일한 해상도로 처리함 상호작용 데이터로 모델을 훈련하는 방법에 대한 궁금증 "Vision language models are blind" 제목이 과장되었다고 생각함 VLM이 이미지 입력을 처리하는 방식이 다름 저해상도에서 세부 사항을 놓칠 수 있음 예시로 Sonnet 3.5의 답변이 대체로 정확했지만, 일부 오류가 있었음 모델의 입력 데이터 해석 방식에 대한 이해 LLM과 다중 모달 모델이 구체적인 추론 능력이 부족함 예: ChatGPT가 텍스트 요약은 잘하지만, 단어 수 세기는 잘 못함 AGI 개발의 핵심 문제는 고수준과 저수준 지능을 결합하는 것임 GPT-4의 수준에 대한 의견 GPT-4가 고등학교 수준이라는 Mira Murati의 발언 인용 AI가 학교 일정 이미지를 읽는 데 어려움을 겪음 특정 날짜를 물어보면 일부는 맞추지만, 일부는 놓치거나 새로운 날짜를 만들어냄 노이즈를 제거하면 성능이 약간 향상되지만 여전히 신뢰할 수 없음
Hacker News 의견
결론이 잘못되었다고 생각함
Captcha에 대한 경험 공유
VLM의 객체 수 세기와 공간 관계 인식 문제
현재 SOTA 모델의 성능에 대한 비판
VLM의 이미지 처리 방식에 대한 의견
"Vision language models are blind" 제목이 과장되었다고 생각함
모델의 입력 데이터 해석 방식에 대한 이해
GPT-4의 수준에 대한 의견
AI가 학교 일정 이미지를 읽는 데 어려움을 겪음