Hacker News 의견
  • Llama 3.1 70b 모델을 8x H100 클러스터에서 구현하는데 100 tok/s를 넘기기 어려움

    • 이 속도를 어떻게 달성했는지 궁금함
    • 다중 노드 추론이나 희소 주의 메커니즘이 필요할 것 같음
  • 지연 시간 비교가 공정한지 확신할 수 없음

    • 지연 시간에는 컨텍스트/프롬프트의 처리량, 하드웨어 접근 대기 시간, 기타 API 오버헤드가 포함됨
    • Cerebras의 숫자는 대기 시간이 거의 포함되지 않았을 가능성이 높음
  • 높은 처리량을 좋은 지연 시간으로 제공하려면 과도한 프로비저닝이 필요함

    • 대기 시간이 모델 로딩을 포함하는지 여부가 불분명함
    • 배치 작업에서는 Cerebras 머신을 100% 활용하여 1k tokens/s를 지속적으로 얻을 수 있음
  • 현재 세대 모델과 RAG, 다중 에이전트, 코드 해석기를 사용하면 모델 지연 시간이 벽이 됨

    • 405B 클래스 모델의 토큰 처리량으로 많은 상호작용 경험이 가능해짐
  • Cerebras 칩은 전체 웨이퍼를 사용하며 44GB의 SRAM만 포함함

    • 405B 모델을 bf16 정밀도로 맞추려면 19개의 칩이 필요함
    • 웨이퍼 제조 비용으로 보면 1500개 이상의 H100을 사용하는 것과 같음
  • API를 시도하기 위한 대기 목록이 있음

    • 서비스를 구매할 수 없을 때 회사의 주장에 대해 회의적일 필요가 있음
  • Nvidia가 Cerebras를 인수할 가능성이 높다고 생각함

  • 새로운 하드웨어로 성능 향상이 가능하다는 사실이 인상적임

    • 하드웨어를 통한 훈련 성능 개선의 한계가 궁금함
  • 토큰/초/와트 비교를 보고 싶음

  • 경쟁사 Groq에 대한 언급이 없음

  • 이러한 지연 시간으로 서비스를 제공하는 데 필요한 비용이 궁금함

    • 비용이 얼마나 널리 채택될 수 있는지를 결정함
    • 정말로 지연 시간이 필요한 비즈니스만을 위한 것인지, 일반적으로 배포될 수 있는지 궁금함