GN⁺: Turbopuffer - 오브젝트 스토리지에서

▲

neo 5달전 | parent | favorite | on: GN⁺: Turbopuffer - 오브젝트 스토리지에서 빠른 검색 기술(turbopuffer.com)

Hacker News 의견

Simon과 함께 일해본 경험이 있으며, 그는 자신의 분야에 능통함
- Shopify에서 검색 관련 작업을 함께 했으며, 이상적인 검색 스택에 대해 많은 대화를 나눔
- 클라우드에서 검색 API를 통해 랭킹을 표현하고, 데이터프레임 수학을 사용하여 다양한 속성으로 부스트하는 이상적인 시스템을 원함
Turbopuffer가 Polars 데이터프레임처럼 동작하여 검색 API에서 랭킹을 표현할 수 있기를 바람
- 데이터프레임 수학을 사용하여 첫 번째 패스를 수행하고, 재랭킹 모델을 실행하는 기능을 원함
Fixie.ai의 웹사이트 디자인도 매우 마음에 듦
- Fixie.ai는 Turbopuffer의 고객 중 하나임
Hetzner에서 RAM 비용이 $200/TB/월로, 다른 곳보다 18배 저렴함
- 복잡성을 줄이면 목표를 더 빨리 달성할 수 있음
2022년 이전부터 pg_vector가 존재했으며, 인메모리 스토리지가 필요하지 않음
- 1억 개 이상의 문서에 대해 벡터 검색을 수행할 수 있음
Lucene을 사용하여 SSD 캐시 노드를 객체 스토리지 앞에 두는 접근 방식을 구축하는 것이 가능한지 궁금함
- Elasticsearch의 대규모 배포를 목격한 경험이 있으며, 모든 것을 S3에 넣을 수 있다면 놀라울 것임
Quickwit의 소스 비공개 버전처럼 들림
- Quickwit 링크
S3에 대용량 읽기 전용 데이터베이스를 저장하고 직접 조회할 수 있는 일반적인 솔루션이 있는지 궁금함
- Duckdb가 parquet 파일을 http로 열고 쿼리할 수 있지만, 많은 작은 요청을 트리거함
- 수백만 개의 객체를 관리하기 위해 단일 파일과 캐시 가능한 인덱스를 원함
ClickHouse의 읽기 지연 시간은 100ms 이하, 쓰기 지연 시간은 1초 이하임
- ClickHouse는 로깅, 실시간 분석, RAG에도 적합함
벡터 데이터베이스에 대해 잘 알지 못하지만, RAG 및 기타 AI 관련 작업에 주로 사용된다고 생각함
- 더 깊이 탐구할 필요가 있음
객체 스토리지 우선 접근 방식이 클라우드에 자연스럽게 맞는다고 생각함