Hacker News 의견
  • 논문을 읽으려는 사람들에게, 논문의 주요 부분은 첫 10페이지로 빠르게 읽을 수 있음.
  • 논문에서 다루는 예시는 이해하기 쉬운 편이지만, 도구들이 실제로 문제를 해결할 수 있을지 의문임.
  • AI 도구들이 실제로 사고하거나 추론하지 않지만, 많은 사람들이 이를 범용 AI로 간주하는 경향이 있음.
  • 논문이 AI의 과대광고에 영향을 미칠 가능성은 낮아 보임.
  • "Alice에게 60명의 형제와 212명의 자매가 있다. Alice의 형제는 몇 명의 자매가 있는가?"라는 질문에 GPT-4가 올바른 답을 제공함.
  • 실험에서 모델이 '생각하는 소리'를 내지 않도록 유도했을 때, GPT-4가 일관되게 틀린 답을 제공함.
  • 더 복잡한 예제에서는 GPT-4가 실패하는 경향이 있음.
  • Gemini 모델은 추가적인 유도 없이 문제를 해결했지만, 숫자를 주었을 때 혼란스러워함.
  • Alice가 수백 명의 형제를 가질 수 없다는 가정 하에 질문이 부당하다고 생각함.
  • 주요 LLM의 평가 데이터셋이 훈련 데이터에 포함되어 있어 신뢰성 평가에 무용지물임.
  • 새로운 테스트를 만들어 LLM을 평가하는 것이 더 나은 방법임.
  • 일반 대중이 제한된 시간 내에 이러한 퍼즐을 해결할 확률이 낮음.
  • AIW+ 문제는 일반적인 AIW 문제보다 해결하기 어려움.
  • 논문 저자들이 수백 개의 가족 트리 문제를 만들었기 때문에 답이 명확해 보일 수 있음.
  • 논문에서 제시한 문제는 매우 기본적인 수수께끼의 변형임.
  • 논문이 놀라운 부정적인 결과를 선택적으로 다룬 것 같음.
  • LLM이 관계적 추론에서 여전히 약함.
  • LLM은 긴 시간 동안 집중력을 유지하는 능력이 부족함.
  • LLM이 AGI를 구현할 수 있다는 생각은 희망적 사고에 불과함.
  • LLM이 계획과 추론에 매우 약하다는 것을 보여주는 좋은 강연이 있음.