5P by neo 12일전 | favorite | 댓글 1개
  • Regatta Storage 소개

    • Regatta Storage는 새로운 클라우드 파일 시스템으로, 무제한 용량을 제공하며, 로컬과 같은 성능과 S3 호환 스토리지로의 자동 동기화를 지원함
    • Spark, Pytorch, pandas와 같은 도구를 사용하여 S3의 대량 데이터 세트를 즉시 액세스 가능하게 함
    • 계정을 생성하면 무료로 서비스를 체험할 수 있음
  • 개발 배경

    • 창립자는 Amazon EFS와 Netflix에서 클라우드 스토리지를 구축하고 운영한 경험을 바탕으로 Regatta를 개발함
    • EFS의 간단함과 확장성을 좋아하지만, Netflix에서는 EFS 사용이 적었음
    • 로컬 디스크에서 NFS로 워크로드를 이동할 때 성능 문제가 발생함
    • 클라우드 스토리지 시장에서 블록 또는 파일 스토리지로 해결되지 않는 문제를 해결하기 위해 Regatta를 개발함
  • Regatta의 특징

    • 사용량 기반 요금제의 클라우드 파일 시스템으로, 애플리케이션과 함께 자동으로 확장됨
    • S3와 네이티브 파일 형식으로 자동 동기화되어, 기존 데이터 세트와 연결 가능하며 S3에서 직접 파일 데이터를 사용 가능함
    • 사용하지 않는 데이터는 Regatta 캐시에서 제거되어 S3 스토리지에 대한 비용만 지불함
    • 소규모 파일 워크로드에 로컬과 같은 성능과 분산 데이터 작업에 Lustre와 같은 확장 성능을 제공하는 커스텀 파일 프로토콜을 개발 중임
  • 기술적 구현

    • 고객은 NFSv3를 통해 Regatta 파일 시스템을 마운트하고, 캐싱 인스턴스는 고객의 S3 버킷에 연결됨
    • 서브 밀리초의 캐시된 읽기 및 쓰기 성능을 제공하며, 강력한 일관성을 유지함
    • 디렉토리 이름 변경과 같은 복잡한 작업을 빠르고 안정적으로 수행하며, S3 버킷으로 비동기적으로 전파됨
  • 사용자 사례 및 기대

    • AI 연구자들을 위한 서버리스 Jupyter 노트북 서버 구축에 사용됨
    • S3 위에 분산 캐싱 레이어로 사용되어 저지연으로 공통 파일에 액세스함
    • Ceph 부트 볼륨을 대체하여 비용 절감 효과를 봄
    • 사용자 피드백과 향후 방향에 대한 아이디어를 환영하며, 커뮤니티의 의견을 기다림
Hacker News 의견
  • Rclone과 Regatta Storage의 차이점은 파일 시스템의 변형 작업 시 Regatta가 고속 캐싱 레이어를 사용하여 강력한 일관성을 제공하는 점임. Rclone은 병렬 클라이언트 간의 일관성을 보장하는 레이어가 없음

    • Regatta Storage는 파일 시스템의 변형 작업 시 고속 캐싱 레이어를 사용하여 강력한 일관성을 제공함
    • Rclone은 병렬 클라이언트 간의 일관성을 보장하는 레이어가 없음
  • YC에서 나온 가장 멋진 제품 중 하나로, 작동 방식에 대한 여러 질문이 있음

    • 10GB 로컬 디스크에서 50GB 범위의 데이터를 처리할 때 성능 저하가 발생하는지 궁금함
    • AWS 외의 다른 클라우드에서도 빠른 속도를 얻을 수 있는지 궁금함
    • FUSE와 NFS 마운트를 사용하는 방식에 대한 궁금증이 있음
    • Clickhouse나 Postgres를 Regatta 볼륨으로 실행할 수 있는지 궁금함
    • 오픈 소스에 대한 생각이 궁금함
    • 여러 서버에 마운트할 수 있는지, 그 제한이 무엇인지 궁금함
  • GCP Filestore를 사용하여 DuckDB를 호스팅 중이며, Regatta의 가격과 성능에 대한 정보를 요청함

    • 10 TiB 인스턴스의 가격과 성능에 대한 정보를 요청함
  • SQLite/DuckDB/parquet의 백업 디스크로 관심이 있으며, 인스턴스 로컬 NVMe 스토리지에서 캐시된 읽기를 원함

    • NFS로는 얻을 수 없는 잠금 및 공유 메모리 기능이 필요함
    • 사용자 공간에서 직접 구현할 수 있지만, 그럴 바에는 S3를 사용할 것임
  • NFS를 프로토콜로 사용하는 것이 좋은 아이디어라고 생각함

    • IBM에서 유사한 개념의 암호화 파일 시스템을 작성한 경험이 있음
    • 파일 시스템을 마운트할 때 모든 데이터가 "그냥 있는" 것이 마법 같음
  • AWS가 이 제품을 복제하여 더 낮은 가격에 제공할 가능성에 대한 우려가 있음

  • 2008년 Adobe의 CEO 앞에서 iPhone으로 찍은 사진이 Mac에 파일로 자동으로 나타나는 데모를 성공적으로 수행한 경험이 있음

    • FUSE를 사용하여 Adobe의 분산 객체 저장소와 통신하는 로컬 FUSE를 구현함
    • Dropbox의 출시와 함께 분산 시스템 연구 개발을 시작함
  • Lambda + SQLite + Regatta를 사용하여 실시간 ACID SQL 스토리지를 구축할 수 있는지 궁금함

  • 파일 업데이트 충돌을 어떻게 처리하는지 명확하지 않음

    • 예를 들어, 두 사용자가 다른 컴퓨터에서 동일한 파일을 업데이트할 경우 최종 파일이 어떻게 되는지 궁금함
  • s3fs, rclone, goofys 등과 같은 주목할 만한 대안들이 있음