Hacker News 의견
  • 이 놀라운 작업은 현재 AI 분야의 가장 큰 문제 중 일부를 강조함

    • 우리는 퍼셉트론과 크게 다르지 않은 뉴런이나 규칙 세트에 대해 실제로 작업을 시도하지 않고 있음
    • 단순한 합산 기능인 퍼셉트론 구조가 모델에서 반복되는 것이 놀라운 일은 아님
    • 피드포워드 토폴로지와 단일 뉴런 단계가 훈련하고 그래픽 카드에서 실행하기 가장 쉬워서 실제로 최선인가에 대한 의문 제기
    • 대형 라이브러리가 지원하지 않기 때문에 사용되지 않는 독특한 훈련 방법과 인코딩 스킴이 존재함
    • 신경망의 기본 규칙 세트에서 실제 변화를 보기 시작할 때까지 우리는 항상 퍼셉트론의 변형과 싸우고 있을 것임
  • 언어의 구조가 Word2Vec을 가능하게 만듦

    • Word2Vec + 위치 인코딩으로 인코딩된 테라바이트의 인간 텍스트에 대한 훈련이 다음 인코딩을 초인간적인 수준으로 예측할 수 있게 함
    • 단어의 가방(입출력 방법)과 위치 인코딩을 작동시키기 위한 제한된 컨텍스트 창이 내부 인지 구조와 큰 불일치를 일으킴
    • GPT-4 등에 훨씬 더 많은 컴퓨팅 파워를 투입함으로써 새로운 형태의 표현이 진화하고 인간이 발견해야 할 가능성이 있음
    • MemGPT는 무제한 장기 기억으로 인해 결국 AGI가 될 수 있지만, 더 가능성이 높은 것은 '메멘토'의 주인공과 같을 것임
  • 사실이 선형 함수로 저장된다는 것이 의미하는 바에 대한 이해를 돕기

    • LLM이 사실을 N차원 "사실 공간"으로 인코딩하고, 사실을 공간에 포인트/하이퍼스피어/보로노이 다양체 등으로 임베딩하며, 사실을 회상하는 것은 신경망이 키를 계산/기억하고 이 공간에서 키-값 조회를 하는 것임
    • 이러한 KV-스토어를 에지 전파 그래픽 모델에 어떻게 임베딩하는지, 현재 잘 알려진 수동 기술이 있는지에 대한 질문
    • 인간 뇌가 사실을 선형 함수에 임베딩하여 쉽게 검색할 수 있게 하는 "기억의 궁전" 기억 기술과의 재미있는 연관성
  • 프로그래밍 지식을 인코딩하는 데 사용되는 함수의 종류에 대한 호기심

    • 표준 라이브러리나 다른 라이브러리를 비용이 많이 드는 훈련이나 성능을 저하시키는 미세 조정 없이 LLM의 뇌에 직접 업로드할 수 있는지에 대한 고찰
    • 아직 공상 과학적 능력이지만 점점 더 가까워지고 있는 것으로 보임
  • Word2Vec에서 관계 벡터가 하는 일과 유사함을 발견

    • "X의" 벡터를 더하면 종종 올바른 답을 얻을 수 있음
    • 트랜스포머가 임베딩 공간에 엔터티를 더 잘 매핑하는 것일 수 있음
  • LLM이 좋은 압축 메커니즘으로 보임

    • PC에 로컬로 Llama의 사본을 가지고 있으면 거의 전체 인터넷에 접근할 수 있다는 사실이 놀라움
  • "King - Man + Woman = Queen" 임베딩 예시를 상기시킴

    • 임베딩에 의미적 속성이 포함되어 있기 때문에 단순한 선형 함수가 효과적으로 작동하는 이유를 설명함
  • 70억 개의 "파라미터"가 있는 "CSV 파일/데이터베이스/모델"이 어떻게 거의 모든 주제에 대해 지식이 풍부한 상호작용형 LLM/GPT를 제공하는지 이해하기 어려움

    • 4비트는 "압축 방법"이며, 모델은 결국 f32를 보게 됨
    • 양자화는 신경망의 가중치인 32비트 부동 소수점 숫자를 4비트 값과 같은 훨씬 작은 비트 표현으로 매핑하는 과정임
    • 디양자화는 모델 사용 시 발생하며, 4비트 양자화 가중치를 모델의 계산이 실제로 수행되는 부동 소수점 숫자로 변환함
    • "파라미터"와 모델이 알고 있는 "고유 토큰 수(어휘 크기)"의 관계에 대한 질문
    • LLAMa는 GPT-3에 비해 32,000 어휘 크기와 65B 파라미터를 가지고 있음
    • 65억 파라미터는 훈련 데이터의 토큰 간에 학습된 관계에 기반하여 주어진 입력에 대해 어떻게 반응할지 결정하는 복잡한 매핑 시스템으로 기능함
  • 이 논문이 멋지고 이러한 아이디어를 검증하기 위해 실험을 수행한 것을 좋아함

    • LLM이 단어 간의 간단한 통계적 경향을 자연스럽게 학습한다는 점을 고려할 때, 아이디어 자체의 새로움에 대한 의문 제기
    • 모든 LLM 행동이 이렇게 단순하게 설명될 수 없다는 것을 명확하게 보여준 것이 훨씬 더 멋짐
  • 추론 부분을 정보 부분과 분리할 수 있는 가능성

    • 이것이 사실이라면 매우 놀라운 발견임