▲neo 2023-09-24 | parent | favorite | on: GN⁺: 더 적은 학습 데이터와 작은 모델로 더 큰 언어 모델을 능가하는 기술(blog.research.google)Hacker News 의견 크기와 사용성의 최적 균형 때문에 더 작은 전문가 모델이 대부분의 응용 프로그램을 지배할 것으로 예상됩니다. T5를 사용한 디스틸 모델은 인코더-디코더 아키텍처가 여전히 관련성이 있을 수 있음을 제안합니다. 접근 방식이 과도하게 복잡하지 않아, Large Language Models (LLMs) 분야에서 아직 탐색해야 할 것이 많음을 시사합니다. LLMs의 미래는 이런 스타일로 훈련된 전문가 모델의 혼합을 포함할 수 있습니다. LLM, Machine Learning (ML), Artificial Intelligence (AI) 분야에서의 활동과 진보 수준이 인상적입니다. Nvidia와 같은 하드웨어가 비싼 경우 이러한 최적화는 가치가 있습니다. 가장 효과적인 모델은 멀티모달이며, 신중하게 맞춤화된 핵심 교육 과정으로 훈련될 가능성이 높습니다. LLM의 훈련 데이터가 디스틸 및 과제별 모델보다 적은 이유에 대한 질문이 있습니다. Reinforcement Learning from Human Feedback (RLHF)가 최첨단 LLM만큼 잘 수행하기 위해 더 작은 모델에 필요할지에 대한 추측이 있습니다. 큰 LLM에서 많은 용량이 사용되지 않는지, 아니면 작은 언어 모델이 단순히 추론 작업을 모방하는지 여부는 불분명합니다. 최대 144GB의 사용 가능한 GPU 메모리를 지원하는 Mac Studio는 LLM 서비스 공간에서 사용될 수 있습니다. Facebook이 사용자의 모든 채팅 기록에 LLM을 훈련시킬 수 있을지에 대한 제안이 있습니다.
Hacker News 의견