▲neo 12달전 | parent | favorite | on: GN⁺: Llamafile - 단일 파일로 LLM 배포 및 실행 가능(github.com/Mozilla-Ocho)Hacker News 의견 LLaVA 모델 사용 방법 macOS에서 LLaVA 모델을 시험해보는 최선의 방법은 텍스트와 이미지를 결합한 모델(GPT-4 Vision과 유사)을 사용하는 것임. macOS에서 실행하는 방법을 단계별로 설명하며, 다른 플랫폼에서도 비슷하게 작동할 것으로 예상함(아직 시도하지는 않음). Hugging Face에서 4.26GB 크기의 llamafile-server-0.1-llava-v1.5-7b-q4 파일 다운로드 터미널에서 실행 권한 부여 실행 파일을 실행하여 8080 포트에서 웹 서버 시작 브라우저에서 http://127.0.0.1:8080/로 이동하여 이미지 업로드 및 모델과 대화 시작 macOS 앱 개발 경험 공유 Justine Tunney / jart의 뛰어난 이식성 작업에 대한 감탄과 함께, 개발자는 자신의 macOS 앱에서 llama.cpp를 SwiftUI 프론트엔드와 함께 실행함. 앱의 첫 버전에서는 단일 다운로드 후 채팅 흐름과 네트워크 연결을 하지 않는 것에 집중함. 모델을 앱에 번들로 제공하여 다운로드 후 바로 사용할 수 있었으나, UI 업데이트를 배포할 때마다 사용자들이 3GB를 다시 다운로드해야 하는 문제 발생. 사용자들의 불만 후, 기본 모델 다운로드와 UI를 분리하여 앱 업데이트 시 5MB 정도만 배포하게 변경함. 이 도구를 사용하는 사람들이 llama.cpp 업데이트를 원할 때 비슷한 문제에 직면할 것으로 예상하며, 이러한 문제가 중요하지 않은 경우가 있을지 궁금함. Simon Willison의 관련 포스트 추천 Simon Willison의 관련 포스트에 대한 추천 링크 제공. 관련 링크 공유 Mozilla의 llamafile 소개와 Justine Tunney의 트윗에 대한 링크 공유. Llaminate라는 이름 제안 Llama 호환 모델을 사용할 준비가 된 blob으로 래핑하는 일반적인 작업을 위한 'Llaminate'라는 이름 제안. Cosmopolitan을 사용한 CUDA 지원에 대한 감탄 Cosmopolitan이 이번 달에 GPU를 활성화하기 위해 동적 링킹을 위한 지원을 추가한 것에 대한 감탄. CUDA 개발자 툴킷 설치가 필요하지만, Nvidia 드라이버 외에는 별도의 의존성 없이 CUDA 앱을 배포할 수 있는 가능성에 대한 흥미. Windows에서의 실행 파일 크기 제한 언급 Windows 10 64비트 시스템에서 4GB 실행 파일이 잘 작동하는 경험 공유. llama.cpp의 다양한 모델 실험 방법 공유 GitHub에서 llama.cpp를 클론하고, 필요한 모델을 다운로드하여 서버를 실행하는 방법을 코드와 함께 공유. 단일 모델과 가중치로만 작동하는 바이너리에 대한 제한성 지적 하나의 모델과 가중치 세트만 실행하는 바이너리의 제한성에 대한 의견 제시. Justine의 놀라운 프로젝트 창출 속도에 대한 언급 Justine이 놀라운 속도로 놀라운 프로젝트를 만들어내고 있음에 대한 언급.
Hacker News 의견
LLaVA 모델 사용 방법
llamafile-server-0.1-llava-v1.5-7b-q4
파일 다운로드http://127.0.0.1:8080/
로 이동하여 이미지 업로드 및 모델과 대화 시작macOS 앱 개발 경험 공유
Simon Willison의 관련 포스트 추천
관련 링크 공유
Llaminate라는 이름 제안
Cosmopolitan을 사용한 CUDA 지원에 대한 감탄
Windows에서의 실행 파일 크기 제한 언급
llama.cpp의 다양한 모델 실험 방법 공유
단일 모델과 가중치로만 작동하는 바이너리에 대한 제한성 지적
Justine의 놀라운 프로젝트 창출 속도에 대한 언급