▲neo 5달전 | parent | favorite | on: GN⁺: FlashAttention-3: 비동기 및 저정밀도로 빠르고 정확한 Attention 기술(together.ai)Hacker News 의견 Tri Dao가 FA3 작업을 2022년 4월부터 시작한 것으로 보임 Hopper/H100 발표 후 2년이 지나서야 코드가 공개된 이유는 더 나은 솔루션이 준비되었기 때문일 가능성이 있음 최근 Tri의 연구는 SSM과 Mamba 스타일 아키텍처에 집중되어 있음 Flash Attention은 시퀀스 길이에 대해 이차 시간 복잡성을 가지지만, 최신 알고리즘은 이차 이하의 복잡성을 가짐 Dao와 Gu는 올해 Mamba/SSM이 Transformer와 같은 하드웨어 가속을 받을 수 있도록 공식화하는 논문을 발표함 Flash Attention 알고리즘이 하드웨어에 얼마나 의존적인지 궁금함 H100 GPU의 비동기 기능을 활용한다고 언급됨 Flash Attention 라이브러리는 CUDA를 필요로 하지만, Metal로 포팅된 것으로 보임 알고리즘이 순수 함수라면 어떤 GPU/ML 프레임워크에서도 구현 가능할 것이라고 상상함 컴파일러가 FlashAttention과 같은 최적화를 스스로 찾을 수 있을지 궁금함 TVM과 tinygrad가 그 방향으로 작업 중이지만, 실현 가능성에 대해 의문을 가짐 ROCm/AMD MI300x로 포팅을 원하는 사람은 연락을 달라고 함 컴퓨팅 시간을 기부할 의향이 있음 TMA (Tensor Memory Accelerator)는 글로벌 메모리와 공유 메모리 간의 데이터 전송을 가속화하는 하드웨어 유닛임 레지스터를 해방시켜 타일 크기와 효율성을 증가시킴 FlashAttention-3는 Hopper GPU (예: H100)에 최적화되어 있음 소비자용 GPU (예: 3090, 4090)에서는 어떻게 작동하는지 궁금함 현대 LLM에서 sigmoid와 같은 활성화 함수가 매우 느리다고 언급됨 SiLU, Swish, SOLU와 같은 활성화 함수가 많이 사용됨 Relu가 성능 저하를 덜 일으킨다면, Relu로 돌아가는 것이 더 나을 수도 있음 가변 마스킹이 없는 경우보다 있는 경우 Flash Attention이 5배 느린 이유가 궁금함 좋은 마스킹 지원의 부족이 최적화를 거의 무효화함 FlashAttention이 LLM의 attention 연산을 대체할 수 있는지 궁금함 LLM이 FA를 사용하도록 특별히 훈련되어야 하는지 궁금함 FA가 GQA (grouped query attention)나 슬라이딩 윈도우 attention과 같은 전략과 어떻게 관련되는지 궁금함 llama.cpp가 Flash Attention 지원을 추가했을 때, 단순히 Flash Attention 제공 CUDA 커널을 소비하는 것인지 궁금함 FlashAttention과 Triton을 비교하는 것이 무엇을 의미하는지 이해하기 어려움 고가의 하드웨어가 필요함
Hacker News 의견
Tri Dao가 FA3 작업을 2022년 4월부터 시작한 것으로 보임
Flash Attention 알고리즘이 하드웨어에 얼마나 의존적인지 궁금함
컴파일러가 FlashAttention과 같은 최적화를 스스로 찾을 수 있을지 궁금함
ROCm/AMD MI300x로 포팅을 원하는 사람은 연락을 달라고 함
TMA (Tensor Memory Accelerator)는 글로벌 메모리와 공유 메모리 간의 데이터 전송을 가속화하는 하드웨어 유닛임
FlashAttention-3는 Hopper GPU (예: H100)에 최적화되어 있음
현대 LLM에서 sigmoid와 같은 활성화 함수가 매우 느리다고 언급됨
가변 마스킹이 없는 경우보다 있는 경우 Flash Attention이 5배 느린 이유가 궁금함
FlashAttention이 LLM의 attention 연산을 대체할 수 있는지 궁금함
고가의 하드웨어가 필요함