▲neo 12달전 | parent | favorite | on: GN⁺: 오픈소스 대형 언어 모델의 추격 경쟁(arxiv.org)Hacker News 의견 최근 몇 일 동안 공개된 크고 강력한 모델들: Qwen 72B (및 1.8B): 32K 컨텍스트, 3T 토큰으로 훈련, 월 사용자 1억 미만 상업 라이선스, 벤치마크에서 강력한 성능 DeepSeek LLM 67B: 4K 컨텍스트, 2T 토큰, Apache 2.0 라이선스, 코드 분야에서 강력함(DeepSeek Code 33B와 비교해도 더 나음) 중국에서 출시된 모델들: Yi 34B(100B 소문이 있음), XVERSE-65B, Aquila2-70B, Yuan 2.0-102B OpenChat 3.5: 7b 모델로 2023년 3월 ChatGPT와 비슷한 결과를 달성, 8k 컨텍스트 윈도우, 챗봇 경기장 리더보드에서 Llama-2-70b-chat보다 높은 순위 오픈소스 LLM은 특히 매개변수 효율성과 소비자가 자신의 하드웨어에서 실행할 수 있는 유용한 모델을 제공하는 측면에서 업계를 선도함 13억 매개변수 llama2를 qlora로 미세 조정한 능력 시연: Inkbot은 지식 그래프를 생성하며, YAML 형식으로 적절한 구조를 반환, GPT4보다 더 나은 결과를 얻음 간단한 프롬프트와 복잡한 프롬프트에 대한 예시 제공 청크 요약 기능도 수행함 전문화된 여러 모델(코드, 채팅, 수학, SQL, 건강 등) 앞에 프롬프트 라우터를 두는 것이 필요해질 것으로 보임: 일반 모델이 실행 중인 라우터에 요청을 보냄 프롬프트/질문이 분해되어 전문가 모델로 분류 및 전달됨 응답이 돌아와 일반 모델에 의해 조립됨 이와 유사한 프로젝트가 진행 중인지에 대한 질문 현재 약 70B 모델들은 ChatGPT 3.5와 동등한 수준이며, 작은 모델들은 처음에는 비슷해 보일 수 있지만, 더 높은 비율로 환각을 일으키고 세계에 대한 지식이 부족함 GPT 4는 더 깊은 수준에서 '이해함'이며, 오픈소스 모델은 아직 비교가 되지 않음 오픈소스 기술은 OpenAI가 구현하지 않는 출력 제어 기능(예: llama.cpp의 문법 또는 ControlNet)을 가지고 있어, 이 측면에서는 오픈소스가 OpenAI보다 앞서 있음 DeepSeek 67B 모델을 사용해본 경험 공유: ChatGPT의 필요성을 대체할 만큼 충분함 Mistral OpenOrca는 창의적 글쓰기/분석에 있어 GPT4-turbo와 거의 동등하며, 비슷한 텍스트를 출력하는 경향이 있음 장기적으로 오픈소스 LLM이 따라잡는 것은 거의 피할 수 없으며, 오픈소스 커뮤니티는 자원이 훨씬 제한적이지만 <30B 매개변수 모델의 개발 속도를 크게 높임 개인적 경험에 따르면, 오픈소스 LLM은 아직 GPT 3.5의 품질에 도달하지 못했지만, 이미 오늘날 유용하며 로컬 머신에서 실행 가능함 Neovim 플러그인 gen.nvim을 사용하여 간단한 작업을 수행하며 많은 시간을 절약함 미래에 대한 기대감 표현 GPT4가 지난 한 달 동안 지속적으로 후퇴함에 따라 오픈소스 모델이 따라잡고 있음을 확신함
Hacker News 의견
최근 몇 일 동안 공개된 크고 강력한 모델들:
13억 매개변수 llama2를 qlora로 미세 조정한 능력 시연:
전문화된 여러 모델(코드, 채팅, 수학, SQL, 건강 등) 앞에 프롬프트 라우터를 두는 것이 필요해질 것으로 보임:
현재 약 70B 모델들은 ChatGPT 3.5와 동등한 수준이며, 작은 모델들은 처음에는 비슷해 보일 수 있지만, 더 높은 비율로 환각을 일으키고 세계에 대한 지식이 부족함
GPT 4는 더 깊은 수준에서 '이해함'이며, 오픈소스 모델은 아직 비교가 되지 않음
오픈소스 기술은 OpenAI가 구현하지 않는 출력 제어 기능(예: llama.cpp의 문법 또는 ControlNet)을 가지고 있어, 이 측면에서는 오픈소스가 OpenAI보다 앞서 있음
DeepSeek 67B 모델을 사용해본 경험 공유:
Mistral OpenOrca는 창의적 글쓰기/분석에 있어 GPT4-turbo와 거의 동등하며, 비슷한 텍스트를 출력하는 경향이 있음
장기적으로 오픈소스 LLM이 따라잡는 것은 거의 피할 수 없으며, 오픈소스 커뮤니티는 자원이 훨씬 제한적이지만 <30B 매개변수 모델의 개발 속도를 크게 높임
개인적 경험에 따르면, 오픈소스 LLM은 아직 GPT 3.5의 품질에 도달하지 못했지만, 이미 오늘날 유용하며 로컬 머신에서 실행 가능함
Neovim 플러그인 gen.nvim을 사용하여 간단한 작업을 수행하며 많은 시간을 절약함
미래에 대한 기대감 표현
GPT4가 지난 한 달 동안 지속적으로 후퇴함에 따라 오픈소스 모델이 따라잡고 있음을 확신함