GN⁺: SQL 500줄로 구현된 GPT

▲

neo 9달전 | parent | favorite | on: GN⁺: SQL 500줄로 구현된 GPT(explainextended.com)

Hacker News 의견

이것은 아름다운 일이다. 저자는 SQLite를 사용하여 같은 방향으로 연구를 진행하고 있었으며, 신경망을 도입하기에는 아직 멀었다고 말함. makemore 강의 시리즈에 영감을 받아, 1시간 정도 지난 후에는 신경망을 사용하기 시작했는데, 이것이 저자가 도달한 정도임. 관계형 모델로 나누는 것이 실제로 매우 좋은 연습이 됨.
데모는 좋지만, 기사에서 인과 마스킹에 대한 설명이 혼동되어 있음. 인과 마스킹은 모델이 훈련 중에 미래의 토큰을 "엿보는" 것을 방지하기 위해 존재하며, GPT와 같은 구조에서는 추론 중에 자기 회귀적 측면을 강제하기 위해 존재함. 추론 중에는 어쨌든 마지막 토큰만 사용하므로, 이 토큰은 전체 입력 시퀀스를 주목할 것임. 따라서 이 토큰은 확실히 마지막 토큰의 임베딩만으로 결정되는 것은 아님.
GPT 드라이버 루프의 정확한 표현인지 물음. 코드는 문자열을 토큰 목록으로 변환하고, 알고리즘을 실행하여 토큰의 확률을 반환하며, 후보 목록에서 다음 토큰을 선택하고, 토큰 목록에 추가한 후, 생성을 멈출지 결정하는 과정을 반복함. 마지막으로 토큰 목록을 문자열로 변환하여 반환하는 것으로 보임. 이것은 Shlemiel the painter의 알고리즘을 구현하는 상태 머신과 매우 유사해 보이며, 생성 작업의 내재된 계산 비용에 의문을 제기함.
현대의 머신러닝은 튜링 완전성을 요구하지 않지만, 사람들은 AGI의 가능성을 고려하고 있음. 튜링 완전성이 필요하지 않다면 그것은 상당히 재미있을 것임.
관련 링크: "NumPy로 만든 60줄짜리 GPT" - 2023년 2월 (146개의 댓글)
이것을 사랑함. 일년 전에는 어떤 종류의 마법처럼 시작된 것이 이제는 아주 잘 설명되고 거의 아이 같은 방식으로 설명되고 있음.
GPT와 LLM을 완전히 피해왔음. 이것은 텍스트 출력에 일정 수준의 유창함을 생성할 것 같지만, 질문을 파싱하고 답변하는 데는 사용할 수 없을 것 같음. 그들이 어떻게 작동하는지, 또는 파이썬과 같은 언어로 장난감 엔진을 공개하는 간단한 블로그 게시물이나 교육 과정이 있는지 궁금함. 지금까지 본 모든 교육은 플랫폼 사용 방법에 초점을 맞추고 있음.
이것은 훌륭함. 비슷한 맥락에서, 저자는 스프레드시트 함수만을 사용하여 GPT를 구현하고, 동영상 튜토리얼을 함께 제공함.
예상치 못하게 통찰력이 있으며, 초기에 가졌던 몇 가지 질문에 대한 답변을 제공함: "어떻게"뿐만 아니라 "왜"에 대한 질문도 포함. softmax 패턴을 자주 볼 수 있음. 사람들에게 곧바로 공식을 제공하는 대신 "차별화 가능한 argmax"로 가르쳤으면 좋겠음. 그것이 전부는 아니지만, 종종 그렇게 사용됨.
GPT가 단지 다음 단어를 어떤 확률로 내뱉는 "더 똑똑한" "복잡한" 마르코프라고 계속 읽음. 하지만 경험상 그것은 사실이 아닐 것임 - 어떤 방식으로든 학습을 해야 함. 예를 들어, 오늘 일어난 일과 과거를 모순하는 것(카타르 월드컵을 테스트하는 데 사용함)을 말하고, 그 사건에 영향을 받는 질문을 하면, 정확하게 답변함. 단순한 문장(제공하는 정보)이 다음 토큰의 확률을 어떻게 그렇게 멀리 바꿀 수 있는지 궁금함.