▲neo 8일전 | parent | favorite | on: GN⁺: Cerebras Inference에서 Llama 3.1 405B로 초당 969 토큰을 처리 가능(cerebras.ai)Hacker News 의견 Llama 3.1 70b 모델을 8x H100 클러스터에서 구현하는데 100 tok/s를 넘기기 어려움 이 속도를 어떻게 달성했는지 궁금함 다중 노드 추론이나 희소 주의 메커니즘이 필요할 것 같음 지연 시간 비교가 공정한지 확신할 수 없음 지연 시간에는 컨텍스트/프롬프트의 처리량, 하드웨어 접근 대기 시간, 기타 API 오버헤드가 포함됨 Cerebras의 숫자는 대기 시간이 거의 포함되지 않았을 가능성이 높음 높은 처리량을 좋은 지연 시간으로 제공하려면 과도한 프로비저닝이 필요함 대기 시간이 모델 로딩을 포함하는지 여부가 불분명함 배치 작업에서는 Cerebras 머신을 100% 활용하여 1k tokens/s를 지속적으로 얻을 수 있음 현재 세대 모델과 RAG, 다중 에이전트, 코드 해석기를 사용하면 모델 지연 시간이 벽이 됨 405B 클래스 모델의 토큰 처리량으로 많은 상호작용 경험이 가능해짐 Cerebras 칩은 전체 웨이퍼를 사용하며 44GB의 SRAM만 포함함 405B 모델을 bf16 정밀도로 맞추려면 19개의 칩이 필요함 웨이퍼 제조 비용으로 보면 1500개 이상의 H100을 사용하는 것과 같음 API를 시도하기 위한 대기 목록이 있음 서비스를 구매할 수 없을 때 회사의 주장에 대해 회의적일 필요가 있음 Nvidia가 Cerebras를 인수할 가능성이 높다고 생각함 새로운 하드웨어로 성능 향상이 가능하다는 사실이 인상적임 하드웨어를 통한 훈련 성능 개선의 한계가 궁금함 토큰/초/와트 비교를 보고 싶음 경쟁사 Groq에 대한 언급이 없음 이러한 지연 시간으로 서비스를 제공하는 데 필요한 비용이 궁금함 비용이 얼마나 널리 채택될 수 있는지를 결정함 정말로 지연 시간이 필요한 비즈니스만을 위한 것인지, 일반적으로 배포될 수 있는지 궁금함
Hacker News 의견
Llama 3.1 70b 모델을 8x H100 클러스터에서 구현하는데 100 tok/s를 넘기기 어려움
지연 시간 비교가 공정한지 확신할 수 없음
높은 처리량을 좋은 지연 시간으로 제공하려면 과도한 프로비저닝이 필요함
현재 세대 모델과 RAG, 다중 에이전트, 코드 해석기를 사용하면 모델 지연 시간이 벽이 됨
Cerebras 칩은 전체 웨이퍼를 사용하며 44GB의 SRAM만 포함함
API를 시도하기 위한 대기 목록이 있음
Nvidia가 Cerebras를 인수할 가능성이 높다고 생각함
새로운 하드웨어로 성능 향상이 가능하다는 사실이 인상적임
토큰/초/와트 비교를 보고 싶음
경쟁사 Groq에 대한 언급이 없음
이러한 지연 시간으로 서비스를 제공하는 데 필요한 비용이 궁금함