▲neo 5달전 | parent | favorite | on: GN⁺: Turbopuffer - 오브젝트 스토리지에서 빠른 검색 기술(turbopuffer.com)Hacker News 의견 Simon과 함께 일해본 경험이 있으며, 그는 자신의 분야에 능통함 Shopify에서 검색 관련 작업을 함께 했으며, 이상적인 검색 스택에 대해 많은 대화를 나눔 클라우드에서 검색 API를 통해 랭킹을 표현하고, 데이터프레임 수학을 사용하여 다양한 속성으로 부스트하는 이상적인 시스템을 원함 Turbopuffer가 Polars 데이터프레임처럼 동작하여 검색 API에서 랭킹을 표현할 수 있기를 바람 데이터프레임 수학을 사용하여 첫 번째 패스를 수행하고, 재랭킹 모델을 실행하는 기능을 원함 Fixie.ai의 웹사이트 디자인도 매우 마음에 듦 Fixie.ai는 Turbopuffer의 고객 중 하나임 Hetzner에서 RAM 비용이 $200/TB/월로, 다른 곳보다 18배 저렴함 복잡성을 줄이면 목표를 더 빨리 달성할 수 있음 2022년 이전부터 pg_vector가 존재했으며, 인메모리 스토리지가 필요하지 않음 1억 개 이상의 문서에 대해 벡터 검색을 수행할 수 있음 Lucene을 사용하여 SSD 캐시 노드를 객체 스토리지 앞에 두는 접근 방식을 구축하는 것이 가능한지 궁금함 Elasticsearch의 대규모 배포를 목격한 경험이 있으며, 모든 것을 S3에 넣을 수 있다면 놀라울 것임 Quickwit의 소스 비공개 버전처럼 들림 Quickwit 링크 S3에 대용량 읽기 전용 데이터베이스를 저장하고 직접 조회할 수 있는 일반적인 솔루션이 있는지 궁금함 Duckdb가 parquet 파일을 http로 열고 쿼리할 수 있지만, 많은 작은 요청을 트리거함 수백만 개의 객체를 관리하기 위해 단일 파일과 캐시 가능한 인덱스를 원함 ClickHouse의 읽기 지연 시간은 100ms 이하, 쓰기 지연 시간은 1초 이하임 ClickHouse는 로깅, 실시간 분석, RAG에도 적합함 벡터 데이터베이스에 대해 잘 알지 못하지만, RAG 및 기타 AI 관련 작업에 주로 사용된다고 생각함 더 깊이 탐구할 필요가 있음 객체 스토리지 우선 접근 방식이 클라우드에 자연스럽게 맞는다고 생각함
Hacker News 의견
Simon과 함께 일해본 경험이 있으며, 그는 자신의 분야에 능통함
Turbopuffer가 Polars 데이터프레임처럼 동작하여 검색 API에서 랭킹을 표현할 수 있기를 바람
Fixie.ai의 웹사이트 디자인도 매우 마음에 듦
Hetzner에서 RAM 비용이 $200/TB/월로, 다른 곳보다 18배 저렴함
2022년 이전부터 pg_vector가 존재했으며, 인메모리 스토리지가 필요하지 않음
Lucene을 사용하여 SSD 캐시 노드를 객체 스토리지 앞에 두는 접근 방식을 구축하는 것이 가능한지 궁금함
Quickwit의 소스 비공개 버전처럼 들림
S3에 대용량 읽기 전용 데이터베이스를 저장하고 직접 조회할 수 있는 일반적인 솔루션이 있는지 궁금함
ClickHouse의 읽기 지연 시간은 100ms 이하, 쓰기 지연 시간은 1초 이하임
벡터 데이터베이스에 대해 잘 알지 못하지만, RAG 및 기타 AI 관련 작업에 주로 사용된다고 생각함
객체 스토리지 우선 접근 방식이 클라우드에 자연스럽게 맞는다고 생각함