Hacker News 의견
  • LLaVA 모델 사용 방법

    • macOS에서 LLaVA 모델을 시험해보는 최선의 방법은 텍스트와 이미지를 결합한 모델(GPT-4 Vision과 유사)을 사용하는 것임.
    • macOS에서 실행하는 방법을 단계별로 설명하며, 다른 플랫폼에서도 비슷하게 작동할 것으로 예상함(아직 시도하지는 않음).
      1. Hugging Face에서 4.26GB 크기의 llamafile-server-0.1-llava-v1.5-7b-q4 파일 다운로드
      2. 터미널에서 실행 권한 부여
      3. 실행 파일을 실행하여 8080 포트에서 웹 서버 시작
      4. 브라우저에서 http://127.0.0.1:8080/로 이동하여 이미지 업로드 및 모델과 대화 시작
  • macOS 앱 개발 경험 공유

    • Justine Tunney / jart의 뛰어난 이식성 작업에 대한 감탄과 함께, 개발자는 자신의 macOS 앱에서 llama.cpp를 SwiftUI 프론트엔드와 함께 실행함.
    • 앱의 첫 버전에서는 단일 다운로드 후 채팅 흐름과 네트워크 연결을 하지 않는 것에 집중함.
    • 모델을 앱에 번들로 제공하여 다운로드 후 바로 사용할 수 있었으나, UI 업데이트를 배포할 때마다 사용자들이 3GB를 다시 다운로드해야 하는 문제 발생.
    • 사용자들의 불만 후, 기본 모델 다운로드와 UI를 분리하여 앱 업데이트 시 5MB 정도만 배포하게 변경함.
    • 이 도구를 사용하는 사람들이 llama.cpp 업데이트를 원할 때 비슷한 문제에 직면할 것으로 예상하며, 이러한 문제가 중요하지 않은 경우가 있을지 궁금함.
  • Simon Willison의 관련 포스트 추천

    • Simon Willison의 관련 포스트에 대한 추천 링크 제공.
  • 관련 링크 공유

    • Mozilla의 llamafile 소개와 Justine Tunney의 트윗에 대한 링크 공유.
  • Llaminate라는 이름 제안

    • Llama 호환 모델을 사용할 준비가 된 blob으로 래핑하는 일반적인 작업을 위한 'Llaminate'라는 이름 제안.
  • Cosmopolitan을 사용한 CUDA 지원에 대한 감탄

    • Cosmopolitan이 이번 달에 GPU를 활성화하기 위해 동적 링킹을 위한 지원을 추가한 것에 대한 감탄.
    • CUDA 개발자 툴킷 설치가 필요하지만, Nvidia 드라이버 외에는 별도의 의존성 없이 CUDA 앱을 배포할 수 있는 가능성에 대한 흥미.
  • Windows에서의 실행 파일 크기 제한 언급

    • Windows 10 64비트 시스템에서 4GB 실행 파일이 잘 작동하는 경험 공유.
  • llama.cpp의 다양한 모델 실험 방법 공유

    • GitHub에서 llama.cpp를 클론하고, 필요한 모델을 다운로드하여 서버를 실행하는 방법을 코드와 함께 공유.
  • 단일 모델과 가중치로만 작동하는 바이너리에 대한 제한성 지적

    • 하나의 모델과 가중치 세트만 실행하는 바이너리의 제한성에 대한 의견 제시.
  • Justine의 놀라운 프로젝트 창출 속도에 대한 언급

    • Justine이 놀라운 속도로 놀라운 프로젝트를 만들어내고 있음에 대한 언급.