Hacker News 의견
  • 언어 모델 라이브러리(Language Model Libraries, LLMs)가 100% 유효한 JSON을 생성하는 방법에 대한 기사
  • LLMs가 모든 토큰에 대한 확률 분포를 생성하고, JSON 파서가 다음 유효 토큰 목록을 제공
  • 어휘 공간의 일부를 마스킹하는 아이디어와 효율적인 시간 단계를 취하는 라이브러리 논의
  • Llama2와 같은 기본 모델의 효과성에 대한 의문과 특정 사용 사례에 대한 지시 조정이 필요한지 여부
  • generate.regex에 대한 온도 또는 샘플링 파라미터의 존재에 대한 질문
  • GPT4가 시스템 메시지의 예제를 제공함으로써 대부분의 경우 유효한 JSON을 반환할 수 있다는 기사 언급
  • 라이브러리의 메커니즘이 인정받고, JSON 외의 구조화된 입력이 필요한 작업에 대한 잠재적 사용에 대한 호기심
  • 이러한 라이브러리가 공식 경로 계획(Formal path planning)에서의 잠재력에 대한 관심
  • 복잡한 출력 형식을 요청하는 것이 기본 작업의 성능을 저하시킬 수 있다는 기사 언급, GPT-3.5와 GPT-4의 코드 편집 벤치마크에서 확인
  • LLama.cpp가 지난 달 문법 기반 샘플링을 구현했다는 기사 언급
  • LLM에 의해 생성된 각 토큰 후에 로짓 편향 "마스크"를 업데이트하여 다음 토큰이 유효한 JSON 토큰이 될 수 있도록 하는 과정