GN⁺: 대규모 언어 모델의 Under-Trained

캐나다 회사 모델에 하키 관련 미훈련 토큰이 있다는 것은 믿기 어려움. 하지만 토큰화가 모델에 미치는 영향에 대한 이해가 향상되는 것은 흥미로운 발견임. 특히 초기 오픈소스 모델들은 데이터 출처에 따라 흔히 발생하는 캐리지 리턴 문제가 있음.
Computerphile의 1년 전 영상에서 글리치 토큰에 대해 잘 설명하고 있음.
미훈련 토큰뿐만 아니라 네트워크의 모든 계층의 모든 가중치에서 훈련 데이터 불균형을 찾아야 함. 발견 시에는 데이터 흐름이 거의 없는 가중치를 삭제하는 것이 모델 크기를 줄이거나 일반화에 도움이 될 수 있음.
훈련 진단을 위한 랜덤 행렬 이론 기반 방법이 있음. 가중치 상관 행렬의 스펙트럼 밀도를 이용하며, 각 계층의 스펙트럼 밀도를 잘린 멱법칙에 맞춰 멱법칙 지수 알파가 2보다 약간 클 때 제대로 훈련된 것으로 판단함.
이 논문의 제목이 인상적임.
토크나이저를 LLM과 동일한 코퍼스로 훈련시키는 것이 해결책 아닐까? 토크나이저 재사용이 흔한 이유를 잘 모르겠음.