Hacker News 의견
  • 소규모 연구팀이 자체 인프라에서 70B 파라미터 모델을 훈련하여 reasoning 관련 작업에서 zero-shot GPT-4를 능가함

    • InfiniBand, Ethernet, GPU, 노드 등 모든 구성 요소가 완벽하게 작동해야 함
    • 12,000개 이상의 연결 중 하나라도 불안정하면 전체 훈련이 느려질 수 있음
    • 오픈 소스 스크립트와 인프라 설정에 대한 종합 가이드를 공유함
    • 70B 모델 훈련에 대한 세 부분 중 하나로, 다른 두 부분은 평가와 CARBS 하이퍼파라미터 최적화에 초점을 맞춤
  • 한 클러스터에 4,092개의 H100 GPU가 511대의 컴퓨터에 분산되어 있음

    • 이는 1억 달러 이상의 GPU 비용에 해당함
    • 게이밍 PC 예산으로 이러한 작업이 가능할지 궁금함
  • Latent Space 팟캐스트에서 며칠 전에 이 주제가 논의됨

    • 결정의 배경을 듣기에 좋은 에피소드임
  • 왜 이렇게 많은 PC 하드웨어가 필요한지 궁금함

    • PCI + 인피니밴드 백엔드와 GPU, 작은 ARM 컨트롤러로 구성할 수 있지 않을까 생각함
    • 이전 디자인의 관성이나 특수 GPU 컨트롤러의 시장 부족 때문인지 궁금함
  • 동일한 하드웨어로 토큰화된 훈련 데이터 대신 원시 유니코드로 훈련을 반복하는 것이 흥미로울 것임

    • 철자와 운율 성능의 차이를 보고 싶음
  • 4,092개의 H100 GPU

    • "self-coding" 작업 중임
    • No-code 또는 minimal code 솔루션일 가능성이 있음
    • 웹사이트에 흥미로운 기사와 자료가 많음
  • 모델 구축에 필요한 총 전력 소비량에 관심이 있음

    • 전력과 냉각에 대한 숫자가 있는지 궁금함
    • 마크 저커버그가 다음 1GW 모델을 계획 중이라고 언급함
  • 전체 비용이 얼마인지 궁금함

    • 하드웨어 비용, 개발 시간, 전기 및 냉각 비용 포함
  • Cisco가 800G 포트당 속도로 새로운 NVIDIA 협업을 진행 중임

    • 인피니밴드가 GPU에 접근 가능한지 궁금함
    • 공유해줘서 고맙다는 의견
  • 모델이 훈련된 후 하드웨어와 인프라는 어떻게 되는지 궁금함