neo 5달전 | parent | favorite | on: GN⁺: 비전 언어 모델의 시각적 한계(vlmsareblind.github.io)
Hacker News 의견
  • 결론이 잘못되었다고 생각함

    • "근시인 사람의 시야"라는 비유는 과장된 표현임
    • GPT-4v가 세밀한 시각 작업을 잘 수행하는 예시가 있음
    • 큰 GenAI 모델이 많은 데이터를 학습했을 때 성능이 좋음
    • 저자들이 제시한 증거가 부족함
  • Captcha에 대한 경험 공유

    • GPT-4o가 차고 문 문제를 해결하는 데 도움을 줌
    • 사진에서 잘못된 설치를 식별했지만, 누락된 너트를 놓침
  • VLM의 객체 수 세기와 공간 관계 인식 문제

    • Microsoft의 Set of Marks가 도움이 될 수 있음
    • "말할 수 있는" 레이블 제공이 성능 향상에 기여함
  • 현재 SOTA 모델의 성능에 대한 비판

    • 인간에게는 쉬운 작업에서 실패함
    • 예: 선 교차 횟수 세기, 원 겹침 감지 등
  • VLM의 이미지 처리 방식에 대한 의견

    • 인간은 관심 영역에 집중할 수 있지만, VLM은 전체 이미지를 동일한 해상도로 처리함
    • 상호작용 데이터로 모델을 훈련하는 방법에 대한 궁금증
  • "Vision language models are blind" 제목이 과장되었다고 생각함

    • VLM이 이미지 입력을 처리하는 방식이 다름
    • 저해상도에서 세부 사항을 놓칠 수 있음
    • 예시로 Sonnet 3.5의 답변이 대체로 정확했지만, 일부 오류가 있었음
  • 모델의 입력 데이터 해석 방식에 대한 이해

    • LLM과 다중 모달 모델이 구체적인 추론 능력이 부족함
    • 예: ChatGPT가 텍스트 요약은 잘하지만, 단어 수 세기는 잘 못함
    • AGI 개발의 핵심 문제는 고수준과 저수준 지능을 결합하는 것임
  • GPT-4의 수준에 대한 의견

    • GPT-4가 고등학교 수준이라는 Mira Murati의 발언 인용
  • AI가 학교 일정 이미지를 읽는 데 어려움을 겪음

    • 특정 날짜를 물어보면 일부는 맞추지만, 일부는 놓치거나 새로운 날짜를 만들어냄
    • 노이즈를 제거하면 성능이 약간 향상되지만 여전히 신뢰할 수 없음