현재 LLM(대형 언어 모델)은 Wordle이나 Rule 110과 같은 셀룰러 오토마타 예측 등 인간에게는 쉽지만 LLM에게는 어려운 (또는 불가능할 수도 있는) 문제들이 존재함. 그 이유는 아직 완전히 밝혀지지 않음.
프롬프트에 예시와 단계별 지침을 제공하는 것은 LLM 스스로 "추론 단계"를 파악하는 것이 아니라 사용자가 그것을 LLM에 건네주는 것임. 우리는 지능적이지만 근본적인 한계에 부딪히는 것 같은 "추론 기계"를 가지고 있음.
현재의 Attention 메커니즘을 사용하는 더 큰 모델과 더 나은 프롬프팅으로 AGI를 달성할 수 있을지는 불분명함. Attention은 매우 경직된 반면 인간의 뇌는 항상 시냅스 가소성을 겪고 있음. AGI가 가능한 더 유연한 아키텍처가 존재할 수 있지만, 우리는 아직 그것을 모름.
현재로서는 계산 문제에 대한 올바른 답과 잘못된 답을 신중하게 구성하고, 모델이 적절하게 응답하도록 프라이밍하며, 외부 가드레일을 많이 적용하는 등 현재 AI 모델을 사용하려면 긴 프롬프트를 신중하게 구성해야 함.
Attention은 "목표 표류"로 고통받는 것 같아서 모든 외부 지지대 없이는 신뢰성을 확보하기 어려움.
LLM의 한계를 이론적으로 정량화하려면 현재 할 수 없는 것들의 경험적 증거 목록이 아니라 이론적 결과에 의존해야 할 것임. 관련 문헌에서는 "expressibility"라는 용어를 찾아볼 수 있음.
숫자 표기 규칙 같은 간단한 규칙조차도 많은 예제에서 실패하고, 프롬프트를 어떻게 구성해도 제대로 동작하지 않는 경우가 많음. 놀랍지만 여전히 많은 제한이 있음.
"흥미로운 사실을 언급하되 흥미롭다고 말하지 말라"는 지시를 제대로 따르지 못하는 등 특정 행동을 하지 말라고 지시받는 것이 서툰 편임. 오히려 하지 말라고 하면 할 가능성이 높아짐.
LLM이 "추론"한다고 가정하더라도 세계에 대해서가 아니라 문서에 포함된 사실, 개체, 인과관계에 비추어 환각에 대처하는 Agentic AI를 구축함. 또한 매우 큰 토큰 거리로 교차 추론에 대처함.
사람 간의 관계, 원한, 동맹 등의 이차 복잡성을 잘 처리해야 하는 필요성이 더 높은 수준의 지능으로 이어졌다고 생각됨.
Wordl/Sudoku 같은 일부 "절대 못하는" 것들은 텍스트 표현의 아티팩트일 뿐이며, 다른 도메인으로 변환하면 동일한 Transformer 아키텍처를 사용해도 성공률이 훨씬 높아질 것임.
모든 도메인에 맞춤형 AGI를 만들 필요는 없고, 문제를 분해하여 전문 도구에 할당한 다음 재조립하여 답을 만들 수 있을 만큼 잘 추론할 수 있는 에이전트와 모델/도구 카탈로그만 있으면 됨.
Hacker News 의견
요약: