▲neo 8달전 | parent | favorite | on: GN⁺: 사고 과정 추론이 신경망의 연산을 돕는 방법(quantamagazine.org)Hacker News 의견 체인 오브 쏘트(chain-of-thought)와 상호작용하는 경험에 대한 의견: 체인 오브 쏘트는 수학이나 논리의 엄격한 체인과 같지 않음. 모델이 단계별 추론을 통해 출력하는 것은 관련 맥락의 강도에 달려 있으며, 이는 인간이 수행하는 수학/논리에 비해 훨씬 약함. 모델은 인간처럼 논리적으로 추론하지 않고 관련 맥락을 통해 뛰어넘음. 변환 모델은 토큰을 생성할 때만 계산을 수행하므로, 체인 오브 쏘트를 사용하여 더 많은 토큰을 생성하면 모델이 "생각할" 시간이 늘어남. 계산의 형식적 연구와 관련된 중심적인 질문들: 계산의 형식적 연구는 1936년 튜링 기계를 상상한 앨런 튜링에게 거슬러 올라감. 이보다 더 이른 1920년대에 모세스 쇤핑켈이 조합 논리를, 1930년대 초에 알론조 처치가 람다 계산법을 개발함. 이러한 모델들은 계산 복잡성 이론의 기초로는 적합하지 않음. 대규모 언어 모델(LLM)에 대한 두 가지 관점: LLM에 대해 "의식이 있다" 또는 "단지 인상적인 데이터셋을 가진 다음 토큰 예측기"라고 주장하는 것은 ML 기초를 배운 후 LLM을 접한 사람들과 그 반대의 경우로 나뉨. 기초 개념이 더 큰 그림을 보는 데 한계를 둘 수 있으므로, 논쟁을 환영함. 체인 오브 쏘트에 대한 원래 논문의 결과가 후속 시도에서 재현되지 않는 경우가 많음. 모델이 생각할 수 없음: 모델은 입력 맥락을 사용하여 출력을 예측함. 반복적으로 해결해야 하는 문제의 경우, 중간 단계를 맥락에 유지해야 함. 계산 복잡성에 대한 간단한 이유: LLM을 입력에 대해 한 번의 상수 시간 전방 통과를 수행하는 컴퓨터로 생각하면, 더 많은 사이클을 제공하면 더 많은 계산을 수행할 수 있음. 단일 계층 퍼셉트론이 XOR을 계산할 수 없는 문제의 확장임. 체인 오브 쏘트의 기적에 대한 간단한 설명: 데이터와 프롬프트가 놀랍게도 작동하는 것에 대한 트윗을 인용. 수학 문제의 단계별 해결책을 제공하는 웹사이트가 많이 존재함. 체인 오브 쏘트와 관련된 의견: 체인 오브 쏘트는 "뭉개기"와 유사하며, 이는 지능의 근사치에 대한 올바른 접근법으로 직관적으로 이해됨. 체인 오브 쏘트를 적용하고 인공 의식을 실험한 경우: 질문에 대한 답변을 넘어서 체인 오브 쏘트를 계속할 때 인공 의식의 형태가 나타남. 체인 오브 쏘트를 뒤집어 적용한 경우: 모델을 훈련하여 먼저 답을 내고 그 후에 그 단계를 추론하게 함. 미스트랄 AI의 연구자들이 이 방법을 사용하였으며, 복잡한 질문에 대해 모델이 먼저 답한 후에 추론하는 행동을 보임.
Hacker News 의견
체인 오브 쏘트(chain-of-thought)와 상호작용하는 경험에 대한 의견:
계산의 형식적 연구와 관련된 중심적인 질문들:
대규모 언어 모델(LLM)에 대한 두 가지 관점:
모델이 생각할 수 없음:
계산 복잡성에 대한 간단한 이유:
체인 오브 쏘트의 기적에 대한 간단한 설명:
체인 오브 쏘트와 관련된 의견:
체인 오브 쏘트를 적용하고 인공 의식을 실험한 경우:
체인 오브 쏘트를 뒤집어 적용한 경우: