기본적으로 정확도가 약간 떨어지고 이상한 답변이 나올 수 있으며 예상을 벗어나거나 환각을 일으킬 가능성이 높아집니다. 하지만 매개변수가 많을수록 품질 손실은 줄어듭니다. 따라서 모델 크기가 매우 큰 경우 그 차이는 무시할 수 있을 정도입니다. 또한 이것은 추론에 드는 비용일 뿐입니다. 훈련은 완전히 다른 문제이며 훨씬 더 많은 파워가 필요합니다.
그럼에도 불구하고 우리는 하나의 서버 랙에서 GPT3 수준의 성능을 보고 있습니다. 불과 1년 전만 해도 이러한 AI는 말 그대로 마법과도 같았고 대규모 데이터센터에서만 실행할 수 있었던 것을 생각하면 대단한 성과입니다. 대역폭과 메모리 크기는 아마도 제 무식한 생각으로는 원시 컴퓨팅보다 늘리기가 더 쉬울 것이므로 곧 실제로 "스마트"한 장치를 갖게 될지도 모릅니다."
HN의 첫번째 댓글이 유용하네요