GN⁺: 기초 원리에서 출발한 몬테카를로 그래프 탐색

그래프 탐색은 인공지능의 추론 발전에 필요한 것으로, 단순한 LLMS는 실패할 것임. 링크에는 게임 테이블용 Zobrist 해싱을 포함한 많은 좋은 참고자료가 있음. 언어 기반 상태 설명을 위한 좋은 해싱을 찾아야 그래프 탐색이 계산적으로 폭발하지 않음. 트리 검색에 대한 좋은 읽을거리로는 'Thinking Fast and Slow'와 'Teaching Large Language Models to Reason with Reinforcement Learning'이 있으며, 이들은 MCTS 접근법을 다른 현재의 RL 전략들과 비교함.
HN URL에서 바로 KataGo의 천재 개발자를 인식함. 그의 Reddit의 cbaduk 게시물들은 일관되게 훌륭함.
"Monte-Carlo Tree Search"라는 이름에 대해, 언급된 알고리즘에는 "Monte-Carlo"가 없으며 완전히 결정론적이라는 점을 독자들이 알아차려야 함. MCTS가 일반적으로 결정론적으로 구현된다는 것은 이상함. 샘플링에 무작위성이 있다고 가정했음.
언급된 논문은 MCTS를 연구할 때 내 레이더에서 완전히 벗어났음. 다음 기회에 이 수정을 시도하는 것이 매우 재미있을 것임.

배경 지식:

LLMS: 이 컨텍스트에서 LLMS는 특정한 기술을 지칭하는 것이 아니라, 일반적인 기계 학습 시스템을 의미할 수 있음.
Zobrist 해싱: 게임 상태를 효율적으로 해싱하기 위한 기술로, 특히 보드 게임에서 많이 사용됨.
MCTS (Monte-Carlo Tree Search): 무작위 샘플링을 통해 최적의 결정을 내리는 알고리즘으로, 보통 게임과 같은 결정 과정에서 사용됨.
Reinforcement Learning (RL): 시행착오를 통해 학습하는 기계 학습의 한 분야로, 보상 시스템을 통해 최적의 행동 전략을 학습함.