Hacker News 의견
  • Tri Dao가 FA3 작업을 2022년 4월부터 시작한 것으로 보임

    • Hopper/H100 발표 후 2년이 지나서야 코드가 공개된 이유는 더 나은 솔루션이 준비되었기 때문일 가능성이 있음
    • 최근 Tri의 연구는 SSM과 Mamba 스타일 아키텍처에 집중되어 있음
    • Flash Attention은 시퀀스 길이에 대해 이차 시간 복잡성을 가지지만, 최신 알고리즘은 이차 이하의 복잡성을 가짐
    • Dao와 Gu는 올해 Mamba/SSM이 Transformer와 같은 하드웨어 가속을 받을 수 있도록 공식화하는 논문을 발표함
  • Flash Attention 알고리즘이 하드웨어에 얼마나 의존적인지 궁금함

    • H100 GPU의 비동기 기능을 활용한다고 언급됨
    • Flash Attention 라이브러리는 CUDA를 필요로 하지만, Metal로 포팅된 것으로 보임
    • 알고리즘이 순수 함수라면 어떤 GPU/ML 프레임워크에서도 구현 가능할 것이라고 상상함
  • 컴파일러가 FlashAttention과 같은 최적화를 스스로 찾을 수 있을지 궁금함

    • TVM과 tinygrad가 그 방향으로 작업 중이지만, 실현 가능성에 대해 의문을 가짐
  • ROCm/AMD MI300x로 포팅을 원하는 사람은 연락을 달라고 함

    • 컴퓨팅 시간을 기부할 의향이 있음
  • TMA (Tensor Memory Accelerator)는 글로벌 메모리와 공유 메모리 간의 데이터 전송을 가속화하는 하드웨어 유닛임

    • 레지스터를 해방시켜 타일 크기와 효율성을 증가시킴
  • FlashAttention-3는 Hopper GPU (예: H100)에 최적화되어 있음

    • 소비자용 GPU (예: 3090, 4090)에서는 어떻게 작동하는지 궁금함
  • 현대 LLM에서 sigmoid와 같은 활성화 함수가 매우 느리다고 언급됨

    • SiLU, Swish, SOLU와 같은 활성화 함수가 많이 사용됨
    • Relu가 성능 저하를 덜 일으킨다면, Relu로 돌아가는 것이 더 나을 수도 있음
  • 가변 마스킹이 없는 경우보다 있는 경우 Flash Attention이 5배 느린 이유가 궁금함

    • 좋은 마스킹 지원의 부족이 최적화를 거의 무효화함
  • FlashAttention이 LLM의 attention 연산을 대체할 수 있는지 궁금함

    • LLM이 FA를 사용하도록 특별히 훈련되어야 하는지 궁금함
    • FA가 GQA (grouped query attention)나 슬라이딩 윈도우 attention과 같은 전략과 어떻게 관련되는지 궁금함
    • llama.cpp가 Flash Attention 지원을 추가했을 때, 단순히 Flash Attention 제공 CUDA 커널을 소비하는 것인지 궁금함
    • FlashAttention과 Triton을 비교하는 것이 무엇을 의미하는지 이해하기 어려움
  • 고가의 하드웨어가 필요함