GN⁺: LLM과 체스에서 발생하는 이상 현상
(dynomight.substack.com)-
LLM과 체스의 이상한 현상
- LLM(대형 언어 모델)이 체스를 잘할 수 있는지에 대한 논의가 있었음. LLM은 언어 예측을 위해 설계되었지만, 체스 게임을 예측할 수 있는 능력을 보여줌.
- LLM이 체스 게임의 끝까지 진행할 수 있다는 사실이 흥미로웠음. 이는 LLM이 다른 상황에서도 어떻게 작동하는지에 대한 힌트일 수 있음.
-
내가 한 일
- LLM에게 체스를 하도록 하기 위해 특정 프롬프트를 사용함. 예를 들어, "당신은 체스 그랜드마스터입니다. 다음 수를 선택하세요."라는 식으로 요청함.
-
llama-3.2-3b
모델을 사용하여 50개의 게임을 진행했으나, 결과는 좋지 않았음. 더 큰 모델인llama-3.1-70b
와llama-3.1-70b-instruct
도 시도했으나 여전히 좋지 않았음. -
gpt-3.5-turbo-instruct
모델은 매우 우수한 성능을 보였음. 그러나 다른 모델들은 모두 좋지 않은 결과를 보였음.
-
논의
- 많은 사람들이 LLM을 사용하여 체스를 시도했으나, 대부분의 모델이 좋은 결과를 내지 못함.
-
gpt-3.5-turbo-instruct
모델이 다른 모델보다 체스를 잘하는 이유에 대한 여러 이론이 있음. - 추가적인 지시 튜닝이 모델의 성능을 저하시킬 수 있다는 이론이 있음.
-
가능한 이론
- 이론 1: 기본 모델이 충분한 규모에서 체스를 할 수 있지만, 지시 튜닝이 이를 방해함.
-
이론 2:
gpt-3.5-instruct
가 더 많은 체스 게임으로 훈련되었을 가능성. - 이론 3: 다른 변환기 아키텍처의 차이점이 있을 수 있음.
- 이론 4: 데이터 유형 간의 "경쟁"이 있을 수 있음.
-
세부 사항
- 체스 게임을 위한 표준 대수 표기법을 사용하여 실험을 진행함.
- OpenAI 모델은 완전한 문법 지원이 없어, 합법적인 수를 생성할 때까지 최대 10번 시도함.
-
토큰 이상 현상
- 프롬프트에 공백이 포함되면 모델의 성능이 크게 저하됨. 이는 토크나이저의 문제로 보임.
- 올바른 방법은 "토큰 힐링"을 사용하는 것이지만, 이를 쉽게 구현할 방법을 찾지 못함.
Hacker News 의견
-
OpenAI가 체스를 중요한 기준으로 삼고 gpt-3.5-turbo-instruct에 특별한 처리를 했지만, 후속 모델에는 추가하지 않았다는 가능성을 간과한 것 같음
- 체스는 지속적인 언론 보도를 생성하지 않았기 때문일 수 있음
-
Q5_K_M 양자화로 모든 오픈 모델을 실행했지만, 이는 모든 매개변수의 손실 압축일 뿐 중요하지 않다고 생각함
-
교육받은 사람들이 LLM이 체스를 잘할 것이라고 기대하는 이유를 이해하지 못함
- 체스는 실제 추론과 결정론적 계산이 필요함
-
좋은 결과가 반복 가능한지 궁금함
- 과거에 좋은 결과를 얻었지만 다시 재현할 수 없었음
- 벤처 캐피털의 경제학은 "속임수"로 여겨지는 기술을 정당화해야 하는 압박을 의미함
-
정말 지능적인 모델을 원한다면 토큰화를 중단해야 할지도 모른다고 생각함
- 정보 스트림의 구조를 제한함으로써 모델의 시각과 인식을 제한하고 있음
-
gpt-3.5-turbo-instruct가 체스에서 더 뛰어나다는 실험 결과를 발견함
- 관련 실험 링크: GPTsChessEloRatingLegalMoves
-
체스를 배우는 것이 순서를 배우는 것이라면 문제가 발생할 수 있음
- 현대 체스 엔진은 최소한 모든 플레이어와 무승부를 기록할 수 있음
-
문제 탐색 공간에서 계산을 늘리는 것을 시도해볼 수 있음
- 초보 체스 플레이어가 할 수 있는 단계별 지침을 제공하여 다양한 매개변수를 조정할 수 있음
-
GPT-3.5-instruct가 전통적인 체스 엔진을 호출하여 체스를 플레이할 수 있다는 이론이 있음
-
다양한 인간 경험에서 다양한 유형의 기술과 지능이 존재함을 알고 있음
- 모델이 체스를 잘하는 것은 우연히 적절한 '연결체'를 가졌기 때문일 수 있음