▲neo 3달전 | parent | favorite | on: GN⁺: 당신은 언어 모델보다 다음 단어 예측 능력이 뛰어난가요?(joel.tools)Hacker News 의견 "스마트"라는 제목에서 기대한 것과는 다르지만, 흥미로운 아이디어임 한 번에 하나의 질문만 보여주고, 각 답변 후 즉각적인 피드백을 제공하는 것이 더 좋을 것임 이렇게 하면 더 몰입감이 높아지고, 정답을 바로 확인할 수 있어 유익함 Hacker News 댓글에서 다음 단어를 맞추는 게임/퀴즈를 만듦 llama2를 사용해 각 댓글에 대해 세 가지 대체 완성을 생성하여 다중 선택 질문을 만듦 로컬 언어 모델은 프롬프트와 답변의 총 당혹도(perplexity)가 가장 낮은 답변을 선택함 OpenAI 모델은 logit_bias를 설정해 허용된 답변 중 하나만 선택하도록 함 Claude나 다른 온라인 LLM과는 비교할 수 없었음 퀴즈가 재미있다고는 할 수 없지만, 50% 이상의 정답률을 꾸준히 유지할 수 있었음 언어 모델이 선택할 가능성이 가장 낮은 단어를 선택하는 것이 이기는 전략임 "이상치(outlier)"를 선택하는 것이 최선의 전략임 이는 AI 콘텐츠를 감지하는 간단한 전략이 될 수 있음 결과를 보면, 주어진 정보로 다음 단어를 정확히 예측하는 것은 불가능함 답변을 가능성에 따라 정렬하고, 정답을 얼마나 높게 순위 매겼는지에 따라 점수를 매기면 무작위보다 나을 것임 LLM이 원래 저자의 목소리를 모방하려고 했는지 궁금함 이 게임은 HN 댓글을 너무 많이 읽는지 확인하는 좋은 테스트임 매번 무작위 퀴즈를 받기 때문에 결과를 비교할 수 없음 평균적인 사람이 LLM을 이길 수 있는 코퍼스를 찾고, Wordle 스타일의 일일 챌린지와 소셜 공유 기능을 추가하면 바이럴 가능성이 있음 HN에서 보낸 시간 덕분에 AI보다 약간 더 나은 예측을 할 수 있었음 100문제 퀴즈에 도전하는 사람들에게: 전통적인 통계 기준으로는 3분의 1 이상 맞춰야 추측보다 나은 것으로 간주됨 LLM보다 나으려면 절반 이상 맞춰야 함 샘플이 HN에서 나왔다면, 텍스트가 이미 데이터셋의 일부일 가능성이 있음 최근 댓글을 보면 그렇지 않을 가능성이 높음 ChatGPT가 Bing 검색 도구를 사용할 수 있지만, gpt4o-mini API 모델이 그렇게 할 가능성은 낮음 일부는 더 큰 맥락에서 발췌한 것으로, LLM이 예측에 유리한 위치에 있음
Hacker News 의견
"스마트"라는 제목에서 기대한 것과는 다르지만, 흥미로운 아이디어임
Hacker News 댓글에서 다음 단어를 맞추는 게임/퀴즈를 만듦
언어 모델이 선택할 가능성이 가장 낮은 단어를 선택하는 것이 이기는 전략임
결과를 보면, 주어진 정보로 다음 단어를 정확히 예측하는 것은 불가능함
이 게임은 HN 댓글을 너무 많이 읽는지 확인하는 좋은 테스트임
매번 무작위 퀴즈를 받기 때문에 결과를 비교할 수 없음
HN에서 보낸 시간 덕분에 AI보다 약간 더 나은 예측을 할 수 있었음
100문제 퀴즈에 도전하는 사람들에게: 전통적인 통계 기준으로는 3분의 1 이상 맞춰야 추측보다 나은 것으로 간주됨
샘플이 HN에서 나왔다면, 텍스트가 이미 데이터셋의 일부일 가능성이 있음
일부는 더 큰 맥락에서 발췌한 것으로, LLM이 예측에 유리한 위치에 있음