1P by neo 13일전 | favorite | 댓글 1개
  • LLM과 체스의 이상한 현상

    • LLM(대형 언어 모델)이 체스를 잘할 수 있는지에 대한 논의가 있었음. LLM은 언어 예측을 위해 설계되었지만, 체스 게임을 예측할 수 있는 능력을 보여줌.
    • LLM이 체스 게임의 끝까지 진행할 수 있다는 사실이 흥미로웠음. 이는 LLM이 다른 상황에서도 어떻게 작동하는지에 대한 힌트일 수 있음.
  • 내가 한 일

    • LLM에게 체스를 하도록 하기 위해 특정 프롬프트를 사용함. 예를 들어, "당신은 체스 그랜드마스터입니다. 다음 수를 선택하세요."라는 식으로 요청함.
    • llama-3.2-3b 모델을 사용하여 50개의 게임을 진행했으나, 결과는 좋지 않았음. 더 큰 모델인 llama-3.1-70bllama-3.1-70b-instruct도 시도했으나 여전히 좋지 않았음.
    • gpt-3.5-turbo-instruct 모델은 매우 우수한 성능을 보였음. 그러나 다른 모델들은 모두 좋지 않은 결과를 보였음.
  • 논의

    • 많은 사람들이 LLM을 사용하여 체스를 시도했으나, 대부분의 모델이 좋은 결과를 내지 못함.
    • gpt-3.5-turbo-instruct 모델이 다른 모델보다 체스를 잘하는 이유에 대한 여러 이론이 있음.
    • 추가적인 지시 튜닝이 모델의 성능을 저하시킬 수 있다는 이론이 있음.
  • 가능한 이론

    • 이론 1: 기본 모델이 충분한 규모에서 체스를 할 수 있지만, 지시 튜닝이 이를 방해함.
    • 이론 2: gpt-3.5-instruct가 더 많은 체스 게임으로 훈련되었을 가능성.
    • 이론 3: 다른 변환기 아키텍처의 차이점이 있을 수 있음.
    • 이론 4: 데이터 유형 간의 "경쟁"이 있을 수 있음.
  • 세부 사항

    • 체스 게임을 위한 표준 대수 표기법을 사용하여 실험을 진행함.
    • OpenAI 모델은 완전한 문법 지원이 없어, 합법적인 수를 생성할 때까지 최대 10번 시도함.
  • 토큰 이상 현상

    • 프롬프트에 공백이 포함되면 모델의 성능이 크게 저하됨. 이는 토크나이저의 문제로 보임.
    • 올바른 방법은 "토큰 힐링"을 사용하는 것이지만, 이를 쉽게 구현할 방법을 찾지 못함.
Hacker News 의견
  • OpenAI가 체스를 중요한 기준으로 삼고 gpt-3.5-turbo-instruct에 특별한 처리를 했지만, 후속 모델에는 추가하지 않았다는 가능성을 간과한 것 같음

    • 체스는 지속적인 언론 보도를 생성하지 않았기 때문일 수 있음
  • Q5_K_M 양자화로 모든 오픈 모델을 실행했지만, 이는 모든 매개변수의 손실 압축일 뿐 중요하지 않다고 생각함

  • 교육받은 사람들이 LLM이 체스를 잘할 것이라고 기대하는 이유를 이해하지 못함

    • 체스는 실제 추론과 결정론적 계산이 필요함
  • 좋은 결과가 반복 가능한지 궁금함

    • 과거에 좋은 결과를 얻었지만 다시 재현할 수 없었음
    • 벤처 캐피털의 경제학은 "속임수"로 여겨지는 기술을 정당화해야 하는 압박을 의미함
  • 정말 지능적인 모델을 원한다면 토큰화를 중단해야 할지도 모른다고 생각함

    • 정보 스트림의 구조를 제한함으로써 모델의 시각과 인식을 제한하고 있음
  • gpt-3.5-turbo-instruct가 체스에서 더 뛰어나다는 실험 결과를 발견함

  • 체스를 배우는 것이 순서를 배우는 것이라면 문제가 발생할 수 있음

    • 현대 체스 엔진은 최소한 모든 플레이어와 무승부를 기록할 수 있음
  • 문제 탐색 공간에서 계산을 늘리는 것을 시도해볼 수 있음

    • 초보 체스 플레이어가 할 수 있는 단계별 지침을 제공하여 다양한 매개변수를 조정할 수 있음
  • GPT-3.5-instruct가 전통적인 체스 엔진을 호출하여 체스를 플레이할 수 있다는 이론이 있음

  • 다양한 인간 경험에서 다양한 유형의 기술과 지능이 존재함을 알고 있음

    • 모델이 체스를 잘하는 것은 우연히 적절한 '연결체'를 가졌기 때문일 수 있음