흥미롭네요! 리더보드를 보면서 몇 가지 궁금한 점이 생겼는데 답변해 주시면 감사드리겠습니다.

  1. LLM을 사용할 때 전체 문제를 풀기 위해 걸리는 시간은 어떻게 되나요? 수능 국어의 경우 80분의 제한 시간이 있는데 (OMR 마킹 시간 포함) LLM이 전체 문제를 푸는데 걸리는 시간은 어느 정도일지 궁금하네요.
  2. 쉬운 시험을 보더라도 동일한 등급대가 나올까요? 극단적으로, 이번 9월 모의고사에서는 1등급컷이 100점일 정도로 쉬웠는데, 해당 모의고사를 응시하더라도 다른 모의고사를 풀 때와 비슷한 등급을 받아낼 수 있을지 궁금하네요.

제 예상으로는 시간은 80분보다 훨씬 적게 사용할 것 같고, 쉬운 시험에서도 절대 점수는 비슷하게 받을 것이라고 예상되는데, 실제로는 어떨지 궁금합니다.

수능 국어 LLM 벤치마크 리더보드에 큰 관심가져주셔서 감사드립니다! 질문에 대한 답변을 드리자면

  1. 짧게는 10분, 길게는 25분정도 걸렸습니다.
  2. 결과로만 봤을때 시험 난이도가 어느정도 LLM의 문제를 푸는데에 영향이 있는 모델도 있고, 그렇지 않은 모델도 있어서 일반화 시키기는 어려운것 같습니다.

예를들어 gpt-4o같은 경우에는 표준점수의 최고점이 130대였던 2018 ~2015사이의 쉬운 수능에서는 더 좋은 점수를 받고, 등급도 다른 년도의 어려운 시험에 비해서는 더 잘 나오는걸 확인할 수 있었습니다.
하지만 meta llama 3.1 70B 모델에 같은경우에서는 2018 ~2015사이의 수능에서 낮은 등급대와 표준점수를 받은것에 비해 표준점수 최고점이 149점대를 기록했던 2022 수능에서는 3등급을 받는 경우도 있었습니다.

혹시라도 더 궁금하신사항이 있거나 보충해야할 설명이 있다면 언제든 말씀해주세요!

오... 모델마다 조금씩 경향에 차이가 있군요? 진짜 사람같네요. 상세한 설명 감사합니다!

1 번에 대해서,
결국 보기 5개 객관식 45 문제 이니, 45 샘플(입력)에 대해 1개 토큰(1,2,3,4,5) 수백초 이내로 풀 것 같습니다.