Hacker News 의견
  • Claude 3.5 Sonnet이 코드 관련 LLM에서 여전히 최고 성능을 보임

    • 하지만 DeepSeek Coder V2 236B가 더 저렴하고 효율적임
    • Aider와 Claude Dev 플러그인에서 DeepSeek Coder V2 사용 중
  • Yi-Coder가 Aider의 코드 편집 벤치마크에서 GPT-3.5보다 낮은 점수를 받음

    • Sonnet: 77%
    • GPT-3.5: 58%
    • Yi-Coder-9b-Chat: 54%
    • Yi-Coder-9b-Chat-q4_0: 45%
  • SRE/DevOps/C#/Golang/C++ 작업에서 LLM을 테스트한 결과, 비논리적인 응답을 받음

    • 간단한 Python 스크립트 작성 요청에 엉뚱한 답변을 함
    • 여러 프로그래밍 언어로 관련 없는 답변을 제공함
  • 소프트웨어 엔지니어와 예술가들이 AI 모델에 반응하는 방식의 차이가 흥미로움

  • 특정 언어에 특화된 모델을 기다리고 있음

    • 현재 모델들은 여러 언어를 다루지만, 특정 언어에 매우 능숙한 모델이 필요함
  • 작은 LLM을 로컬에서 설정하는 방법에 대해 궁금해함

    • VSCode에서 탭 완성 기능이 작동하는지 질문
    • GitHub Copilot 외에 클라우드 모델 설정 방법에 대한 팁 요청
  • 로컬 데스크탑 PC에서 모델을 실행하기 위한 추천 하드웨어에 대해 질문

  • SWE-agent와 Yi-Coder-9B-Chat의 성능을 보고 싶어함

  • Aider 벤치마크에 대한 설명 요청

    • 113개의 동일한 테스트를 매번 통과시키는 이유에 대해 궁금해함
    • 모델의 일반적인 코드 생성 및 편집 능력을 평가하는 방식에 의문을 가짐
  • 모델 크기를 가중치 수로 표현하는 이유에 대해 질문

    • GPU RAM 요구량을 알고 싶어함
    • 가중치 수가 실제 사용자에게 얼마나 중요한지 의문을 가짐