neo 8달전 | parent | favorite | on: GN⁺: Meta의 GenAI 인프라 구축(engineering.fb.com)
Hacker News 의견
  • float8 언급 및 FLOPs 증가

    • float8이 언급되었으며, 이로 인해 FLOPs가 2배 증가함.
    • xformers는 이제 2:4 희소성을 지원하여 FLOPs가 추가로 2배 증가할 수 있음.
    • Llama3는 MLP에 float8과 2:4 희소성을 사용하여 H100 float16 FLOPs의 4배를 사용할 수도 있음.
    • PyTorch는 fp8을 실험적으로 지원하고 있으나, 정밀도 문제로 인해 float8에서 attention을 수행하기는 여전히 복잡함.
    • 아마도 attention은 float16으로, RoPE/layernorms는 float16/float32로, 그 외 모든 것은 float8로 처리될 수 있음.
  • 닷컴 시대와 AI 시대의 비교

    • 닷컴 시대를 경험한 한 사람은 AI 시대가 모델 훈련에 드는 막대한 자본 비용 때문에 다소 낙담함을 느낌.
    • 닷컴 시대 초반에는 상대적으로 적은 인프라 비용으로 누구나 전자상거래 사이트를 시작할 수 있었음.
    • 현재는 메타, 구글, 마이크로소프트, 오픈AI 등 대규모 기업만이 AI 모델을 구축할 수 있는 것처럼 보임.
  • 컴퓨팅 파워와 엔지니어링 시간의 관계

    • 페이스북이 컴퓨팅 파워를 10배 늘릴 수 있다면, 전체 스택을 재설계해야 할지, 100배는 어떨지에 대한 관심.
    • 각 재설계가 단순한 변경인지, 아니면 훨씬 더 복잡한 작업인지에 대한 의문.
    • 클러스터 내부에 대한 기술적 이해가 표면적인 수준이라, 관련 경험이 있는 사람의 의견에 대한 호기심.
  • 파이프라인 최적화 작업에 대한 관심

    • 파이프라인 최적화 작업에 참여하고 싶어하는 사람이 어떻게 시작해야 하는지에 대한 질문.
    • 머신러닝 과학자가 C/C++ 및 인프라 지식을 가지고 필요할 때 시스템으로 '내려가는' 것인지, 아니면 CUDA/SIMD 전문가가 '올라와서' 머신러닝 작업을 하는 것인지에 대한 궁금증.
  • 메타의 엔지니어링 능력

    • 메타는 부정적인 압력에도 불구하고 엔지니어링 분야에서 강력한 성과를 보임.
    • 메타가 이러한 엔지니어링 능력을 어떻게 수익화할 계획인지에 대한 의문.
  • 엔지니어링 및 인프라에 대한 역사적 관점

    • DLRM 논문과 페이스북의 초기 디스어그리게이티드 랙과 SDN에 대한 언급.
    • 2018년에 이미 SSD와 DRAM을 랙의 다른 곳에 배치하면서 큰 신경망을 사용하여 추천 시스템과 순위 매기기를 수행함.
    • 클릭 예측 모델에 대한 언급과 인텔 AVX-2를 사용한 HOGWILD 훈련 방법에 대한 놀라움.
    • 메타가 인프라 설계와 SKU 설계에 있어서 여전히 최고의 역량을 가지고 있음을 강조.
  • 메타의 AI 워크로드 경쟁 가능성

    • 메타가 AWS, MSFT, GOOG와 AI 워크로드 분야에서 경쟁할 가능성에 대한 궁금증.
  • H100 GPU의 비용

    • 메타가 H100 GPU에 지불하는 금액에 대한 추정.
    • 350,000개의 NVIDIA H100을 $10k에 구매한다면 총 비용은 $3.5b가 될 것임.
  • 메타의 AI 혁신에 대한 개방적인 태도

    • 메타가 AI 혁신에 대한 개방적인 태도를 보이고 있음을 인식함.
  • 메타의 장기적인 비전과 AGI

    • 메타의 장기적인 비전은 인공 일반 지능(AGI)을 구축하는 것임.