GN⁺: PyTorch 한 파일에서의 Mamba 구현

▲

neo 11달전 | parent | favorite | on: GN⁺: PyTorch 한 파일에서의 Mamba 구현(github.com/johnma2006)

Hacker News 의견

라이브러리 공유
- 동료와 함께 공통된 모델 코드 대부분을 추출하는 라이브러리를 만들었음. 대부분의 모델들을 파이썬 import 절차와 주석을 제외하고 약 100줄로 구현 가능.
- 예시로 BERT, Llama 1/2, MPT 모델을 들며, TorchScript JIT, PyTorch flash attention 등을 지원함.
Mamba 추론 구현 공유
- Mamba 코드에는 속도 최적화 등 학습에 바로 적용하기 어려운 부분이 많아, 이를 도와줄 수 있는 자신의 Mamba 추론 구현을 공유함.
Mamba에 대한 비전문가 설명 요청
- Mamba의 주요 통찰과 상태 공간 모델, Mamba가 성공적인 이유, 컨텍스트 길이에 대한 관심이 없더라도 Mamba의 다른 이점에 대해 비전문가 설명을 요청함.
알고리즘의 핵심 기대
- Mamba 알고리즘의 핵심이 병렬 접두사 스캔이 될 것으로 기대했으나, 실제 코드는 다른 방식으로 구현됨.
Mamba에 대한 재치 있는 농담
- Mamba가 세계에서 가장 긴 독사라는 농담에 웃음. arXiv 논문을 참조하여 연구 뒤에 숨겨진 내용을 엿볼 수 있어 좋았음.
Mamba 모델 훈련 난이도 질문
- Huggingface에 있는 Mamba 모델을 훈련하는 것이 얼마나 어려운지, 가장 큰 모델을 훈련하는 데 필요한 GPU 수와 시간에 대해 질문함.
공식 CUDA 버전 해석 시도 공유
- 공식 CUDA 버전을 해석하려 시도했으나 실패 후 다시 시도하지 않았음. 이에 비해 새로운 구현이 훨씬 낫다고 평가함.
단일 파일 PyTorch 구현에 대한 감탄
- 또 다른 단일 파일 PyTorch 구현에 감탄하며, 이러한 작업이 효율적인 ML 연구에 중요하다고 생각함. 연구 진행 속도가 실험 실행 시간의 역수와 관련이 있으며, 이는 코드의 Kolmogorov 복잡성과 관련이 있음. 연구 도구가 지식 발견 과정을 가속화하는 데 얼마나 중요한지 강조함.
원본 논문 토론 요청
- 원본 논문 토론이 있었는지 물으며, RWKV와 RetNet 같은 이전 모델들이 효율적인 구현 부족으로 메모리 문제나 비현실적인 계산 요구 사항 때문에 8k 컨텍스트 길이에 대한 전체 결과가 누락되었다는 점을 지적함.
핵심 내용 간소화에 대한 칭찬
- 복잡한 것들이 본질적인 부분으로 간소화되어 표현된 것을 좋아함.