▲arxivgpt 13일전 | parent | favorite | on: Show GN: 고양이도 발로 코딩한다는 'MOUSE' AI 서비스. (openfree-mouse.hf.space)MOUSE로 약 200회 이상의 비교 실험을 진행해봤습니다. 실험의 목적: 가장 코딩에 특화되어 있다는 QWEN 2.5 32B와 OpenAI GPT 4o를 대상으로 MOUSE에 적용된 멀티 LLM 배분/검증 기술과 결과(생성물) 비교 실험의 방법: 비교대상 LLM들과 유사한 UI 화면 구성 및 배치를 하고, 동일한 프롬프트를 각각 입력후 소요시간과 서술 및 동작 결과를 비교(지정된 약 10명의 인간 검증자들의 판단 결과 취합) 비교 대상 실험 결과(모든 결과 MOUSE 선호) 프롬프트 지시 반영률: 약 90% 이상 충족 오류(결과가 동작 안되거나 등)비율: 5% 미만 결과물에 대한 인간 선호도 핵심 판단 요소: 프롬프트 지시 반영률> UI/UX >컬러 및 가시성 > 한글 > 구성 순
MOUSE로 약 200회 이상의 비교 실험을 진행해봤습니다.
실험의 목적: 가장 코딩에 특화되어 있다는 QWEN 2.5 32B와 OpenAI GPT 4o를 대상으로 MOUSE에 적용된 멀티 LLM 배분/검증 기술과 결과(생성물) 비교
실험의 방법: 비교대상 LLM들과 유사한 UI 화면 구성 및 배치를 하고, 동일한 프롬프트를 각각 입력후 소요시간과 서술 및 동작 결과를 비교(지정된 약 10명의 인간 검증자들의 판단 결과 취합)
비교 대상 실험 결과(모든 결과 MOUSE 선호)