GN⁺: "마지널리아: 3년간의 기록"

▲

neo 9달전 | parent | favorite | on: GN⁺: "마지널리아: 3년간의 기록"(marginalia.nu)

Hacker News 의견

사용자는 수치 모델링에 관한 매우 특정한 자료를 찾기 위해 이 사이트를 즐겨찾기로 해두었음. 구글에서는 찾을 수 없는 80년대와 90년대의 솔버, 메쉬 생성, 최적화 방법에 대한 자료들을 발견했고, 전문가들이 작성한 사이트들을 구글에서는 절대 찾을 수 없었던 것들을 찾아내어 매우 가치 있다고 느낌.
웹의 신호 대 잡음 비율이 좋지 않아 예상보다 어려움을 겪고 있음. 검색 엔진이 상대적으로 잘 작동하는 이유 중 하나는 인덱싱하지 않는 것들 때문임.
한 사용자는 IPv6 지원을 위해 C&C Tiberian Sun을 바이너리 패치한 랜덤 웹사이트를 발견하여 옛날의 웹을 그리워함. 이것은 Fravia의 Searchlores를 떠올리게 하며, Umberto Eco가 컴퓨터에 관심이 있었다면 그런 느낌이었을 것이라고 함. 마치 '장미의 이름' 속 도서관 미로에서 무언가 놀라운 것을 발견하고 나중에 영원히 잃어버리는 것 같은 경험임.
다른 사용자는 옛날처럼 느껴진다고 언급함. 1998년에 AltaVista로도 "서부전선 이상 없다" 책과 영화의 차이점을 찾을 수 없었지만, 지금은 그 주제에 대해 이야기하는 수많은 개인 블로그 페이지, 대학 논문, 코드 사이트, 메일링 리스트 토론, 블로그, Rust 토론 그룹, 개인 웹사이트, 전문가 토론 등을 찾을 수 있음.
한 사용자는 "transformers intuition"을 검색했을 때 결과에 놀랐으며, 구글의 결과는 SEO에 최적화된 웹사이트(주로 Medium)와 내용이 열등한 화려한 사이트들을 보여줬음에 비해 이 검색 엔진의 결과는 놀라웠다고 함.
한 사용자는 Common Crawl이 유용할지 궁금해함. 현재 약 100TB에 33.5억 페이지에 달하는 데이터로, S3에서 직접 처리하지 않는 이상 다운로드하는 데 오래 걸릴 것이며, 신호 대 잡음 비율이 어떨지는 모르겠다고 함.
"랜덤 사이트" 기능에 대해 의문을 제기하는 사용자가 있음. 균일하게 샘플링할 것으로 기대했지만, 특정 사이트들이 반복해서 반환되는 것 같다고 함.
한 사용자는 구글에 익숙해서 자주 사용하지 않지만, Marginalia가 멋진 프로젝트라고 생각하며, 스팸 SEO 사이트와 AI 생성 답변이 점점 더 흔해지는 상황에서 앞으로 더 많이 사용할 것 같다고 함.
마지막으로 한 사용자는 최근 구글 검색 결과와 비교해보았는데, 인도 테스트 크리켓 최저 점수에 대한 검색 결과는 좋지 않았고, RAID 계산기에 대한 결과는 괜찮았지만 잡음이 섞여 있었으며, "서부전선 이상 없다" 영화와 책의 차이점에 대한 검색은 결과가 전혀 없었다고 함.