Hacker News 의견
  • Simon과 함께 일해본 경험이 있으며, 그는 자신의 분야에 능통함

    • Shopify에서 검색 관련 작업을 함께 했으며, 이상적인 검색 스택에 대해 많은 대화를 나눔
    • 클라우드에서 검색 API를 통해 랭킹을 표현하고, 데이터프레임 수학을 사용하여 다양한 속성으로 부스트하는 이상적인 시스템을 원함
  • Turbopuffer가 Polars 데이터프레임처럼 동작하여 검색 API에서 랭킹을 표현할 수 있기를 바람

    • 데이터프레임 수학을 사용하여 첫 번째 패스를 수행하고, 재랭킹 모델을 실행하는 기능을 원함
  • Fixie.ai의 웹사이트 디자인도 매우 마음에 듦

    • Fixie.ai는 Turbopuffer의 고객 중 하나임
  • Hetzner에서 RAM 비용이 $200/TB/월로, 다른 곳보다 18배 저렴함

    • 복잡성을 줄이면 목표를 더 빨리 달성할 수 있음
  • 2022년 이전부터 pg_vector가 존재했으며, 인메모리 스토리지가 필요하지 않음

    • 1억 개 이상의 문서에 대해 벡터 검색을 수행할 수 있음
  • Lucene을 사용하여 SSD 캐시 노드를 객체 스토리지 앞에 두는 접근 방식을 구축하는 것이 가능한지 궁금함

    • Elasticsearch의 대규모 배포를 목격한 경험이 있으며, 모든 것을 S3에 넣을 수 있다면 놀라울 것임
  • Quickwit의 소스 비공개 버전처럼 들림

  • S3에 대용량 읽기 전용 데이터베이스를 저장하고 직접 조회할 수 있는 일반적인 솔루션이 있는지 궁금함

    • Duckdb가 parquet 파일을 http로 열고 쿼리할 수 있지만, 많은 작은 요청을 트리거함
    • 수백만 개의 객체를 관리하기 위해 단일 파일과 캐시 가능한 인덱스를 원함
  • ClickHouse의 읽기 지연 시간은 100ms 이하, 쓰기 지연 시간은 1초 이하임

    • ClickHouse는 로깅, 실시간 분석, RAG에도 적합함
  • 벡터 데이터베이스에 대해 잘 알지 못하지만, RAG 및 기타 AI 관련 작업에 주로 사용된다고 생각함

    • 더 깊이 탐구할 필요가 있음
  • 객체 스토리지 우선 접근 방식이 클라우드에 자연스럽게 맞는다고 생각함