▲neo 5달전 | parent | favorite | on: GN⁺: 베어 메탈에서 70B 모델을 훈련하기 위한 인프라 설정 및 오픈 소스 스크립트(imbue.com)Hacker News 의견 소규모 연구팀이 자체 인프라에서 70B 파라미터 모델을 훈련하여 reasoning 관련 작업에서 zero-shot GPT-4를 능가함 InfiniBand, Ethernet, GPU, 노드 등 모든 구성 요소가 완벽하게 작동해야 함 12,000개 이상의 연결 중 하나라도 불안정하면 전체 훈련이 느려질 수 있음 오픈 소스 스크립트와 인프라 설정에 대한 종합 가이드를 공유함 70B 모델 훈련에 대한 세 부분 중 하나로, 다른 두 부분은 평가와 CARBS 하이퍼파라미터 최적화에 초점을 맞춤 한 클러스터에 4,092개의 H100 GPU가 511대의 컴퓨터에 분산되어 있음 이는 1억 달러 이상의 GPU 비용에 해당함 게이밍 PC 예산으로 이러한 작업이 가능할지 궁금함 Latent Space 팟캐스트에서 며칠 전에 이 주제가 논의됨 결정의 배경을 듣기에 좋은 에피소드임 왜 이렇게 많은 PC 하드웨어가 필요한지 궁금함 PCI + 인피니밴드 백엔드와 GPU, 작은 ARM 컨트롤러로 구성할 수 있지 않을까 생각함 이전 디자인의 관성이나 특수 GPU 컨트롤러의 시장 부족 때문인지 궁금함 동일한 하드웨어로 토큰화된 훈련 데이터 대신 원시 유니코드로 훈련을 반복하는 것이 흥미로울 것임 철자와 운율 성능의 차이를 보고 싶음 4,092개의 H100 GPU "self-coding" 작업 중임 No-code 또는 minimal code 솔루션일 가능성이 있음 웹사이트에 흥미로운 기사와 자료가 많음 모델 구축에 필요한 총 전력 소비량에 관심이 있음 전력과 냉각에 대한 숫자가 있는지 궁금함 마크 저커버그가 다음 1GW 모델을 계획 중이라고 언급함 전체 비용이 얼마인지 궁금함 하드웨어 비용, 개발 시간, 전기 및 냉각 비용 포함 Cisco가 800G 포트당 속도로 새로운 NVIDIA 협업을 진행 중임 인피니밴드가 GPU에 접근 가능한지 궁금함 공유해줘서 고맙다는 의견 모델이 훈련된 후 하드웨어와 인프라는 어떻게 되는지 궁금함
Hacker News 의견
소규모 연구팀이 자체 인프라에서 70B 파라미터 모델을 훈련하여 reasoning 관련 작업에서 zero-shot GPT-4를 능가함
한 클러스터에 4,092개의 H100 GPU가 511대의 컴퓨터에 분산되어 있음
Latent Space 팟캐스트에서 며칠 전에 이 주제가 논의됨
왜 이렇게 많은 PC 하드웨어가 필요한지 궁금함
동일한 하드웨어로 토큰화된 훈련 데이터 대신 원시 유니코드로 훈련을 반복하는 것이 흥미로울 것임
4,092개의 H100 GPU
모델 구축에 필요한 총 전력 소비량에 관심이 있음
전체 비용이 얼마인지 궁금함
Cisco가 800G 포트당 속도로 새로운 NVIDIA 협업을 진행 중임
모델이 훈련된 후 하드웨어와 인프라는 어떻게 되는지 궁금함