▲neo 8달전 | parent | favorite | on: GN⁺: LLM이 저장된 지식을 검색하기 위해 사용하는 놀랍도록 단순한 메커니즘(news.mit.edu)Hacker News 의견 이 놀라운 작업은 현재 AI 분야의 가장 큰 문제 중 일부를 강조함 우리는 퍼셉트론과 크게 다르지 않은 뉴런이나 규칙 세트에 대해 실제로 작업을 시도하지 않고 있음 단순한 합산 기능인 퍼셉트론 구조가 모델에서 반복되는 것이 놀라운 일은 아님 피드포워드 토폴로지와 단일 뉴런 단계가 훈련하고 그래픽 카드에서 실행하기 가장 쉬워서 실제로 최선인가에 대한 의문 제기 대형 라이브러리가 지원하지 않기 때문에 사용되지 않는 독특한 훈련 방법과 인코딩 스킴이 존재함 신경망의 기본 규칙 세트에서 실제 변화를 보기 시작할 때까지 우리는 항상 퍼셉트론의 변형과 싸우고 있을 것임 언어의 구조가 Word2Vec을 가능하게 만듦 Word2Vec + 위치 인코딩으로 인코딩된 테라바이트의 인간 텍스트에 대한 훈련이 다음 인코딩을 초인간적인 수준으로 예측할 수 있게 함 단어의 가방(입출력 방법)과 위치 인코딩을 작동시키기 위한 제한된 컨텍스트 창이 내부 인지 구조와 큰 불일치를 일으킴 GPT-4 등에 훨씬 더 많은 컴퓨팅 파워를 투입함으로써 새로운 형태의 표현이 진화하고 인간이 발견해야 할 가능성이 있음 MemGPT는 무제한 장기 기억으로 인해 결국 AGI가 될 수 있지만, 더 가능성이 높은 것은 '메멘토'의 주인공과 같을 것임 사실이 선형 함수로 저장된다는 것이 의미하는 바에 대한 이해를 돕기 LLM이 사실을 N차원 "사실 공간"으로 인코딩하고, 사실을 공간에 포인트/하이퍼스피어/보로노이 다양체 등으로 임베딩하며, 사실을 회상하는 것은 신경망이 키를 계산/기억하고 이 공간에서 키-값 조회를 하는 것임 이러한 KV-스토어를 에지 전파 그래픽 모델에 어떻게 임베딩하는지, 현재 잘 알려진 수동 기술이 있는지에 대한 질문 인간 뇌가 사실을 선형 함수에 임베딩하여 쉽게 검색할 수 있게 하는 "기억의 궁전" 기억 기술과의 재미있는 연관성 프로그래밍 지식을 인코딩하는 데 사용되는 함수의 종류에 대한 호기심 표준 라이브러리나 다른 라이브러리를 비용이 많이 드는 훈련이나 성능을 저하시키는 미세 조정 없이 LLM의 뇌에 직접 업로드할 수 있는지에 대한 고찰 아직 공상 과학적 능력이지만 점점 더 가까워지고 있는 것으로 보임 Word2Vec에서 관계 벡터가 하는 일과 유사함을 발견 "X의" 벡터를 더하면 종종 올바른 답을 얻을 수 있음 트랜스포머가 임베딩 공간에 엔터티를 더 잘 매핑하는 것일 수 있음 LLM이 좋은 압축 메커니즘으로 보임 PC에 로컬로 Llama의 사본을 가지고 있으면 거의 전체 인터넷에 접근할 수 있다는 사실이 놀라움 "King - Man + Woman = Queen" 임베딩 예시를 상기시킴 임베딩에 의미적 속성이 포함되어 있기 때문에 단순한 선형 함수가 효과적으로 작동하는 이유를 설명함 70억 개의 "파라미터"가 있는 "CSV 파일/데이터베이스/모델"이 어떻게 거의 모든 주제에 대해 지식이 풍부한 상호작용형 LLM/GPT를 제공하는지 이해하기 어려움 4비트는 "압축 방법"이며, 모델은 결국 f32를 보게 됨 양자화는 신경망의 가중치인 32비트 부동 소수점 숫자를 4비트 값과 같은 훨씬 작은 비트 표현으로 매핑하는 과정임 디양자화는 모델 사용 시 발생하며, 4비트 양자화 가중치를 모델의 계산이 실제로 수행되는 부동 소수점 숫자로 변환함 "파라미터"와 모델이 알고 있는 "고유 토큰 수(어휘 크기)"의 관계에 대한 질문 LLAMa는 GPT-3에 비해 32,000 어휘 크기와 65B 파라미터를 가지고 있음 65억 파라미터는 훈련 데이터의 토큰 간에 학습된 관계에 기반하여 주어진 입력에 대해 어떻게 반응할지 결정하는 복잡한 매핑 시스템으로 기능함 이 논문이 멋지고 이러한 아이디어를 검증하기 위해 실험을 수행한 것을 좋아함 LLM이 단어 간의 간단한 통계적 경향을 자연스럽게 학습한다는 점을 고려할 때, 아이디어 자체의 새로움에 대한 의문 제기 모든 LLM 행동이 이렇게 단순하게 설명될 수 없다는 것을 명확하게 보여준 것이 훨씬 더 멋짐 추론 부분을 정보 부분과 분리할 수 있는 가능성 이것이 사실이라면 매우 놀라운 발견임
Hacker News 의견
이 놀라운 작업은 현재 AI 분야의 가장 큰 문제 중 일부를 강조함
언어의 구조가 Word2Vec을 가능하게 만듦
사실이 선형 함수로 저장된다는 것이 의미하는 바에 대한 이해를 돕기
프로그래밍 지식을 인코딩하는 데 사용되는 함수의 종류에 대한 호기심
Word2Vec에서 관계 벡터가 하는 일과 유사함을 발견
LLM이 좋은 압축 메커니즘으로 보임
"King - Man + Woman = Queen" 임베딩 예시를 상기시킴
70억 개의 "파라미터"가 있는 "CSV 파일/데이터베이스/모델"이 어떻게 거의 모든 주제에 대해 지식이 풍부한 상호작용형 LLM/GPT를 제공하는지 이해하기 어려움
이 논문이 멋지고 이러한 아이디어를 검증하기 위해 실험을 수행한 것을 좋아함
추론 부분을 정보 부분과 분리할 수 있는 가능성