Llama2가 요약에 있어 GPT-4만큼 정확하며 30배 더 저렴
(anyscale.com)- 요약(Summarizing)은 LLM의 가장 실용적인 응용중 하나지만, 요약이 정확하다는 것을 신뢰할 수 있어야 함
- 비용이나 데이터 접근성 이슈때문에 Llama2 와 같은 오픈소스 LLM을 사용하고 싶지만 정확성에 대한 확신이 서지 않음
- 실험을 통해서 Llama-2-70b 가 gpt-4 만큼 사실성이 강하고, gpt-3.5-turbo 보다 훨씬 우수하다는 사실을 발견했음
- Anyscale Endpoint 를 이용해서 Llama 2 7b/13b/70b 와 gpt-3.5/4 를 비교
- 3자 검층을 거친 373개의 뉴스 보도 문장을 라벨링 하여 각각 정답과 오답을 하나씩 제시
- 각 LLM들이 어떤 진술이 사실에 근거한 정확한 요약인지 선택하게 함
- 문제 2가지
- 작은 모델이 지시를 잘 따르지 않음. 더 큰 모델이 지침을 더 잘 따름. 그래서 다른 LLM을 이용하여 작은 LLM의 출력을 이해하도록 해야 했음
- 순서 편향. 첫번째로 뭘 제시하는 가에 따라 선택이 달라짐. 그래서 순서를 바꿔서도 확인
- 결과
- 사람 : 84% (이전 연구 기준)
- gpt-3.5-turbo: 67.0% 정답 (순서 편향 이슈가 심함)
- gpt-4: 85.5% 정답
- Llama-2-7b: 엄청 심한 순서 편향 이슈. 랜덤 정확도 아래임
- Llama-2-13b: 58.9% 정답
- Llama-2-70b: 81.7%
- 비용 (100K 단어 요약하는데)
- gpt-4 : $5.48
- gpt-3.5-turbo : $0.25
- Llama-2-7b : $0.05
- Llama-2-13b : $0.09
- Llama-2-70b : $0.19
아무 생각없이 썼더니.. 월 $120 쿼타 초과해서 증량 신청했네요.
현재는 확실히 비싸긴 합니다. 얼른 가격이 GPT-3.5 수준으로 떨어지면 좋겠어요 ㅎㅎ
저는 요약에는 항상 Kagi의 Universal Summarizer를 이용하긴 합니다.
ChatGPT보다 간편하다는 생각도 들고, 토큰도 무제한이라...
근데 한국어가 그냥 결과를 번역해 주는 거라 확실히 GPT 3.5에 비해서도 한국어는 좀 떨어지긴 하더라고요.
유료로만 쓸 수 있는 엔터프라이즈급 모델이 더 나은 것 같긴 한데, 요약당 1달러였나 그래서 개인 용도로 쓰기엔 부담되더라고요.
문제는.. 이 실험은 LLM이 요약한게 아니고 요약된 것을 판단한 것이라..
써보면 GPT-4 가 요약 성능은 확실히 훌륭하더라고요. 한국어 번역도 문제고요.
GN⁺ 비용때문에 혹했는데.. 아직은 그냥 gpt-4 를 써야할듯 하네요.