▲neo 6달전 | parent | favorite | on: GN⁺: 최신 LLM에서 추론 붕괴를 보여주는 간단한 작업(arxiv.org)Hacker News 의견 논문을 읽으려는 사람들에게, 논문의 주요 부분은 첫 10페이지로 빠르게 읽을 수 있음. 논문에서 다루는 예시는 이해하기 쉬운 편이지만, 도구들이 실제로 문제를 해결할 수 있을지 의문임. AI 도구들이 실제로 사고하거나 추론하지 않지만, 많은 사람들이 이를 범용 AI로 간주하는 경향이 있음. 논문이 AI의 과대광고에 영향을 미칠 가능성은 낮아 보임. "Alice에게 60명의 형제와 212명의 자매가 있다. Alice의 형제는 몇 명의 자매가 있는가?"라는 질문에 GPT-4가 올바른 답을 제공함. 실험에서 모델이 '생각하는 소리'를 내지 않도록 유도했을 때, GPT-4가 일관되게 틀린 답을 제공함. 더 복잡한 예제에서는 GPT-4가 실패하는 경향이 있음. Gemini 모델은 추가적인 유도 없이 문제를 해결했지만, 숫자를 주었을 때 혼란스러워함. Alice가 수백 명의 형제를 가질 수 없다는 가정 하에 질문이 부당하다고 생각함. 주요 LLM의 평가 데이터셋이 훈련 데이터에 포함되어 있어 신뢰성 평가에 무용지물임. 새로운 테스트를 만들어 LLM을 평가하는 것이 더 나은 방법임. 일반 대중이 제한된 시간 내에 이러한 퍼즐을 해결할 확률이 낮음. AIW+ 문제는 일반적인 AIW 문제보다 해결하기 어려움. 논문 저자들이 수백 개의 가족 트리 문제를 만들었기 때문에 답이 명확해 보일 수 있음. 논문에서 제시한 문제는 매우 기본적인 수수께끼의 변형임. 논문이 놀라운 부정적인 결과를 선택적으로 다룬 것 같음. LLM이 관계적 추론에서 여전히 약함. LLM은 긴 시간 동안 집중력을 유지하는 능력이 부족함. LLM이 AGI를 구현할 수 있다는 생각은 희망적 사고에 불과함. LLM이 계획과 추론에 매우 약하다는 것을 보여주는 좋은 강연이 있음.
Hacker News 의견