GN⁺: 사고가 인간의 성능을 저하시키는 작업에서 Chain-of-thought의 부정적 영향

(arxiv.org)

1P by neo 28일전 | favorite | 댓글과 토론

체인 오브 쏘트(Chain-of-Thought)와 성능 저하

체인 오브 쏘트(Chain-of-Thought, CoT) 개요
- CoT는 대형 언어 및 멀티모달 모델에서 널리 사용되는 전략임.
- 여러 작업에서 성능을 향상시키는 것으로 알려져 있으나, 어떤 설정에서 효과적인지 규명하는 것은 여전히 진행 중인 과제임.
연구 목적
- CoT가 모델 성능을 저하시킬 수 있는 작업의 특성을 식별하고자 함.
- 인지 심리학에서 영감을 받아, (i) 언어적 사고나 숙고가 인간의 성능을 저해하는 경우, (ii) 인간 성능을 지배하는 제약이 언어 모델에 일반화되는 경우를 살펴봄.
주요 연구 사례
- 암묵적 통계 학습, 시각적 인식, 예외를 포함한 패턴 분류와 같은 세 가지 사례를 실험함.
- 다양한 최신 모델에서 추론 시 사고를 사용할 때 성능이 크게 떨어짐을 발견함 (예: OpenAI o1-preview는 GPT-4o에 비해 최대 36.3% 절대 정확도 감소).
추가 발견
- 조건 (i)는 만족하지만 (ii)는 만족하지 않는 세 가지 작업을 식별함.
- 이러한 작업에서는 언어적 사고가 인간의 성능을 저하시킴에도 불구하고, CoT는 모델 성능을 유지하거나 향상시킴.
결론
- 모델의 인지 과정과 인간의 인지 과정 사이에 정확한 평행선은 없으나, 인간의 성능에 부정적 영향을 미치는 사고 사례를 고려하면 모델에도 부정적 영향을 미치는 설정을 식별하는 데 도움이 됨.
- 인간의 숙고에 관한 문헌과 CoT 평가를 연결하여 프롬프트 선택과 추론 시 사고의 영향을 이해하는 새로운 도구를 제공함.

GN⁺의 정리

이 연구는 CoT가 모든 상황에서 모델 성능을 향상시키지 않음을 보여줌.
인간의 사고가 성능에 부정적 영향을 미치는 경우를 통해 모델의 성능 저하를 예측할 수 있는 가능성을 제시함.
CoT의 효과를 이해하는 데 있어 인지 심리학의 통찰을 활용하는 것이 흥미로움.
유사한 기능을 가진 프로젝트로는 OpenAI의 다양한 언어 모델이 추천됨.