Hacker News 의견
  • LLMs의 기계적 해석 가능성은 모델이 자신을 설명할 때 설득력 있는 답변을 생성하는 문제를 해결함. 강력한 모델일수록 "거짓말"을 정당화하는 데 더 설득력이 있어 자기 탐지 테스트에서 더 낮은 점수를 받을 수 있음. 목표는 일관성이지 진실이 아님

    • 진정한 설명 가능성은 모델이 답변을 생성할 때 거치는 인과적 사고 과정을 보여주는 것임. 이는 사람이 생각할 때 여러 방향으로 잠깐씩 떠오르는 생각들과 유사함
  • Sparse Autoencoders(SAEs)에 대한 연구에서 손실 곡선의 하한이 멱법칙으로 확장됨을 관찰함. 보조 손실을 통해 죽은 잠재 변수를 완전히 해결할 수 있었고, 훈련 반복 동안 부드러운 사인파 패턴을 관찰함

  • 기계적 해석 가능성에 대한 질문 제기: 미래의 AI가 자신의 훈련을 감독하면서 모호성을 이용해 기계적 해석 관찰자를 속일 수 있는 모델을 만들 가능성에 대한 우려가 있음

  • SAEs 평가의 어려움에 대한 블로그 게시물을 읽고, 이 문제를 어떻게 해결했는지 궁금해함. 리포지토리에서 접근 방식을 이해할 수 있는 부분을 찾고 싶어함

  • 이 작업이 정렬에 긍정적인 영향을 미칠 수 있다고 생각하지만, 세부 사항을 아직 확인하지 않음. 시간, 비용, 위험을 보상하기 위해 얼마나 지불해야 하는지 궁금해함

  • 문서화에 많은 시간을 들인 것에 대해 감사함

  • 매우 멋진 작업이며, SAELens와 통합할 계획이 있는지 궁금해함