MOUSE로 약 200회 이상의 비교 실험을 진행해봤습니다.

  1. 실험의 목적: 가장 코딩에 특화되어 있다는 QWEN 2.5 32B와 OpenAI GPT 4o를 대상으로 MOUSE에 적용된 멀티 LLM 배분/검증 기술과 결과(생성물) 비교

  2. 실험의 방법: 비교대상 LLM들과 유사한 UI 화면 구성 및 배치를 하고, 동일한 프롬프트를 각각 입력후 소요시간과 서술 및 동작 결과를 비교(지정된 약 10명의 인간 검증자들의 판단 결과 취합)

  3. 비교 대상 실험 결과(모든 결과 MOUSE 선호)

  1. 프롬프트 지시 반영률: 약 90% 이상 충족
  2. 오류(결과가 동작 안되거나 등)비율: 5% 미만
  3. 결과물에 대한 인간 선호도 핵심 판단 요소: 프롬프트 지시 반영률> UI/UX >컬러 및 가시성 > 한글 > 구성 순