해당 논문을 이해하는 데 시간이 걸렸는데, 이는 'Deja Vu' 논문의 기술을 기반으로 하며, 희소성을 활용하는 복잡한 기법들을 다루고 있기 때문이다:
'Deja Vu' 논문은 낮은 가중치 희소성을 가진 모델들이 높은 "문맥적 희소성"을 가진다고 관찰함. 즉, 행렬 곱셈이 입력에 따라 다른 위치에 많은 0을 포함한 벡터를 생성함.
논문은 이러한 희소성을 활용해 행렬의 일부 행을 불러오지 않을 수 있음을 지적함.
하지만 좋은 성능 향상을 얻기 위해서는 미리 어떤 행을 건너뛸지 예측할 수 있어야 함. 이는 저차원 행렬로 가능함.
애플의 논문은 이러한 발견이 RAM에서 불러오는 성능을 향상시킬 뿐만 아니라, 플래시 메모리에서 불러오는 것도 대역폭을 희생하지 않고 가능하게 함을 제안함:
주목해야 할 점은 주의(attention) 행렬이 가벼우며, 피드포워드 네트워크(FFN)를 희소하게 불러오는 것이 중요함을 논문이 언급함.
ReLU 계층의 출력을 예측하는 것이 FFN의 입력을 예측하는 것보다 훨씬 더 나은 희소성을 얻을 수 있음을 논문이 지적함. 즉, "matmul 후에 이 벡터 슬롯이 ReLU 전에 음수 값을 가질 것이라고 예측할 수 있다면, 해당 행렬 열을 불러오지 않고 0을 출력할 수 있음"을 의미함.
논문은 대부분의 FFN 행을 전혀 불러올 필요가 없으며, 각 FFN에 대해 최근 사용된 FFN 행의 캐시를 유지하고 필요에 따라 플래시 메모리에서 업데이트할 수 있음을 제안함.
논문에는 청크 로딩과 투영 계층 간의 상관관계에 대한 내용도 있지만, 주요 통찰은 위에서 언급한 부분임.
논문의 결론 부분에서 이 기능이 사용자에게 어떻게 제공될지에 대한 섹션을 찾기를 희망했지만, 아마도 그 논의는 범위를 벗어난 것일 수도 있다.
이러한 기능이 CoreML의 API 호출 및 설정으로 사용자에게 제공되는 것인지, 예를 들어 use_flash 플래그를 설정해야 하는지, 아니면 사용자에게 투명한 런타임 최적화가 되는지 궁금함. 애플이 CoreML, Metal 등의 개발 로드맵에 대해 논의하는 좋은 발표나 프레젠테이션이 있는지 알고 싶음.
모델의 얼마나 많은 부분을 불러오지 않아도 실제 성능 차이를 보기 시작하는지 궁금하다.
예를 들어, RAM에서의 성능의 90%를 유지하고 싶다면, 메모리의 절반만 사용해도 되는지, 아니면 90%나 95%가 필요한지에 대한 질문.
RAM을 줄임으로써 최대 성능 대비 성능 손실이 얼마나 빠르게 발생하는지에 대한 궁금증. 차트는 더 적은 RAM을 사용할 경우 기본 알고리즘과 비교하는 것이지만, 이는 다른 (그러나 좋은!) 질문임.
만약 8기가 모델 전체를 휴대폰 메모리에 불러오지 않고도 좋은 성능을 얻을 수 있다면, 이는 분명 매우 유용한 일임.
애플 기기는 경쟁사의 유사한 기기들에 비해 RAM이 매우 적다는 점이 주목할 만하다.
이는 애플의 소프트웨어 팀이 Objective-C와 같은 더 효율적인 언어를 사용하기 때문이기도 하고, iOS 애플리케이션이 다양한 화면 해상도를 대상으로 하지 않아 고해상도 텍스처를 불러온 후 다운스케일링하는 일이 적기 때문이기도 함.
또한 애플 규모에서 RAM을 구매한다고 해서 RAM 가격이 크게 저렴해지지 않으므로, RAM을 늘리는 것은 다른 기능을 추가하는 것보다 마진에 더 큰 영향을 미침.
하지만 이 모든 것이 대규모 언어 모델(LLM)을 사용할 때 문제가 되는데, 이는 본질적으로 RAM을 많이 소모함. 그리고 어떠한 메모리 절약 기술도 더 많은 RAM을 가진 경쟁자가 더 크고 더 나은 모델을 구현하는 데 사용될 수 있음.
주제에 대한 이해가 제한적이지만, 이 기술을 사용하면 모바일 폰에서 오프라인 모드로 LLM을 실행할 수 있는지 궁금하다.
만약 가능하다면, 기밀 데이터를 외부로 전송하지 않고 AI 지원 콘텐츠 모더레이션과 같은 많은 흥미로운 응용 프로그램으로 이어질 수 있음.
최근 기사들이 "AI" 대신 "LLM"이라고 언급하는 것을 높이 평가한다.
그렇게 함으로써 마케팅 하이프가 아닌 구체적인 기술에 대한 것임을 알 수 있음.
이 논문이 FlashAttention을 언급하지 않은 것은 다소 놀랍다.
두 연구 모두 플래시 메모리를 활용하기 때문에, 최소한 언급했어야 할 것으로 보임.
애플이 이란 회사를 인수했나?
예를 들어, OPT 6.7B 모델은 FFN 계층 내에서 97%의 희소성을 보인다고 한다.
여기서 언급된 메트릭이 정확히 무엇을 의미하는지 아는 사람이 있는지 궁금함. 계층에 97%의 0 값이 있는 것을 의미하는지, 아니면 그 크기를 3%로 압축할 수 있다는 것을 의미하는지에 대한 질문.
Hacker News 의견
해당 논문을 이해하는 데 시간이 걸렸는데, 이는 'Deja Vu' 논문의 기술을 기반으로 하며, 희소성을 활용하는 복잡한 기법들을 다루고 있기 때문이다:
논문의 결론 부분에서 이 기능이 사용자에게 어떻게 제공될지에 대한 섹션을 찾기를 희망했지만, 아마도 그 논의는 범위를 벗어난 것일 수도 있다.
모델의 얼마나 많은 부분을 불러오지 않아도 실제 성능 차이를 보기 시작하는지 궁금하다.
애플 기기는 경쟁사의 유사한 기기들에 비해 RAM이 매우 적다는 점이 주목할 만하다.
주제에 대한 이해가 제한적이지만, 이 기술을 사용하면 모바일 폰에서 오프라인 모드로 LLM을 실행할 수 있는지 궁금하다.
최근 기사들이 "AI" 대신 "LLM"이라고 언급하는 것을 높이 평가한다.
이 논문이 FlashAttention을 언급하지 않은 것은 다소 놀랍다.
애플이 이란 회사를 인수했나?
예를 들어, OPT 6.7B 모델은 FFN 계층 내에서 97%의 희소성을 보인다고 한다.
이 기술이 llama.cpp와 candle에 통합되기를 바란다.