Hacker News 의견
  • GZIP을 사용하여 MNIST 데이터셋에서 10줄 미만의 코드로 78%의 정확도 달성에 대한 기사
  • 댓글 작성자들이 코드에서 거리 함수를 더 간단한 측정법으로 대체해 봤으며, 이로 인해 정확도가 향상되고 계산 요구량이 줄어듬
    • 유클리드 거리는 이미지를 이진화한 후 약 0.5초 만에 93%의 정확도를 달성
    • 자카드 거리는 이미지를 이진화한 후 약 0.7초 만에 94%의 정확도를 달성
    • 다이스 불일치는 이미지를 이진화한 후 약 0.8초 만에 94%의 정확도를 달성
  • 비교를 위한 다른 기술에는 Linear SVC가 92%의 정확도, SVC rbf가 96.4%의 정확도, SVC poly가 94.5%의 정확도, 로지스틱 회귀가 89%의 정확도, 그리고 나이브 베이즈가 81%의 정확도를 보임
  • 댓글 작성자들은 코드가 우아하고 간결할지라도, MNIST에 대해 78%의 정확도는 낮게 여겨지며, Tensorflow로 작성된 더미 모델이 쉽게 90%의 정확도를 달성한다고 제안
  • MNIST에 대한 최고의 모델은 99.87%의 정확도로 순위가 매겨짐
  • 일부 댓글 작성자들은 정규화된 압축 거리(NCD)를 유클리드 거리로 대체하면 테스트 정확도가 15% 증가하고 많은 계산을 절약할 수 있다고 제안
  • 일부 댓글 작성자들은 MNIST 데이터셋이 은퇴해야 한다고 제안하며, 이는 그 위에서 높은 정확도를 달성하는 것이 상대적으로 쉬워졌기 때문
  • 고도로 압축된 데이터에서 패턴을 찾아 더 나은 압축을 위한 잠재력에 대한 논의가 있음
  • 일부 댓글 작성자들은 일반 목적의 압축기와 대체 언어 모델에 대한 정보 거리 측정에 관심이 있음
  • 한 댓글 작성자는 후보 시퀀스 간의 이산 합성곱과 함께 정규화된 압축 거리(gzip)를 결합하는 주의 메커니즘을 사용하는 것에 대해 언급