GN⁺: MobileLLM: 기기 내 사용을 위한 서브-빌리언 파라미터 언어 모델 최적화
(github.com/facebookresearch)- ICML 2024에 발표된 "MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases" 논문에서 소개된 MobileLLM의 훈련 코드를 포함
- 이 연구에서는 10억 개 미만의 파라미터를 가진 고품질 LLM을 얻기 위해 여러 설계 요소를 종합적으로 고려함
- MobileLLM은 (1) SwiGLU 활성화 함수, (2) 깊고 얇은 아키텍처, (3) 임베딩 공유, (4) 그룹화된 쿼리 주의를 통합하여 구축됨
- MobileLLM-125M/350M은 이전의 125M/350M SoTA 모델에 비해 제로샷 상식 추론 작업에서 각각 2.7%/4.3%의 정확도 향상을 달성함
- 업데이트된 버전에서는 MobileLLM-600M/1B/1.5B 모델이 더 큰 모델로 확장되어 SoTA 결과를 보여줌
GN⁺의 정리
- MobileLLM은 10억 개 미만의 파라미터를 가진 고품질 언어 모델을 위한 최적화된 설계 철학을 제시함
- SwiGLU 활성화 함수, 깊고 얇은 아키텍처, 임베딩 공유, 그룹화된 쿼리 주의 등의 요소를 통합하여 성능을 향상시킴
- 제로샷 상식 추론 작업에서 기존 모델 대비 높은 정확도를 달성함
- 이 연구는 모바일 및 임베디드 장치에서의 언어 모델 사용 사례에 중요한 기여를 함
- 유사한 기능을 가진 프로젝트로는 GPT-neo, OPT, BLOOM 등이 있음
Hacker News 의견
-
MobileLLM-125M/350M 모델이 이전 125M/350M SoTA 모델보다 2.7%/4.3% 정확도 향상음을 보임
- 작은 모델들이 약간 개선되었지만, 온라인 모델과 같은 용도로는 아직 충분하지 않음
- 점진적인 발전에는 문제가 없음을 언급함
-
1.5B 파라미터 모델이 상당히 큰 발전을 이루었음을 언급함
- 더 큰 모델을 사용하지 않은 이유를 궁금해함
- RPi 크기의 하드웨어에 맞는 효율적인 모델이 게임 체인저가 될 수 있음을 언급함
- TinyLlama 7B 모델이 간신히 실행됨을 언급함
-
Apple Watch가 작은 모델의 추론을 실행할 하드웨어 능력이 있는지 궁금해함
- 개발자 계정이 필요한지 질문함
-
모바일 장치에만 머물러야 하는지 질문함
- 자원이 많이 소모되지 않는다면 게임의 NPC 대화를 더 흥미롭게 만들 수 있을 것임을 언급함
- NPC 행동이나 행동에 영향을 줄 수 있도록 조정할 수 있다면 더 좋을 것임을 언급함
-
현재 장치 내에서 wake-word와 같은 STT가 필요함을 언급함
- RPi 4B에서 실행할 수 있는 모델 중 가장 낮은 WER을 가진 모델을 찾고 있음
- openWakeWord를 살펴보고 있음
- DIY 인벤토리 시스템을 위해 필요함을 언급함
-
iPhone에서 실행할 수 있는 앱을 찾고 있음
- 현재 MLC 앱만 알고 있으며, 3개의 오래된 모델만 있음
-
"더 깊고 얇은" 부분을 얼마나 밀어붙일 수 있는지 궁금해함
- FFN이 L2 캐시에 맞으면 성능이 향상될 것임을 언급함
-
증류와 같은 방법이 도움이 될 수 있는지 질문함
-
작은 모델들이 선형 헤드와 토큰 임베딩 사이의 공유/가중치 묶음을 통해 가장 큰 크기 감소를 얻는 것 같음을 언급함
- 그 이후로 크기를 더 줄이는 방법에 대한 연구가 있는지 궁금해함
-
이 모델을 사용하여 Windows PC에서도 모델을 훈련시킬 수 있는지 질문함
- 많은 RAM이 없음을 언급함
-
흥미롭지만, 더 나은 자동 완성 외에 어떤 사용 사례가 있는지 궁금해함