수능 국어 LLM 벤치마크 리더보드에 큰 관심가져주셔서 감사드립니다! 질문에 대한 답변을 드리자면
- 짧게는 10분, 길게는 25분정도 걸렸습니다.
- 결과로만 봤을때 시험 난이도가 어느정도 LLM의 문제를 푸는데에 영향이 있는 모델도 있고, 그렇지 않은 모델도 있어서 일반화 시키기는 어려운것 같습니다.
예를들어 gpt-4o같은 경우에는 표준점수의 최고점이 130대였던 2018 ~2015사이의 쉬운 수능에서는 더 좋은 점수를 받고, 등급도 다른 년도의 어려운 시험에 비해서는 더 잘 나오는걸 확인할 수 있었습니다.
하지만 meta llama 3.1 70B 모델에 같은경우에서는 2018 ~2015사이의 수능에서 낮은 등급대와 표준점수를 받은것에 비해 표준점수 최고점이 149점대를 기록했던 2022 수능에서는 3등급을 받는 경우도 있었습니다.
혹시라도 더 궁금하신사항이 있거나 보충해야할 설명이 있다면 언제든 말씀해주세요!
흥미롭네요! 리더보드를 보면서 몇 가지 궁금한 점이 생겼는데 답변해 주시면 감사드리겠습니다.
제 예상으로는 시간은 80분보다 훨씬 적게 사용할 것 같고, 쉬운 시험에서도 절대 점수는 비슷하게 받을 것이라고 예상되는데, 실제로는 어떨지 궁금합니다.