24P by zzsza 1달전 | favorite | 댓글 2개

최근 OLAP 오픈소스 중에 각광을 받고 있는 DuckDB에 대한 사용법을 정리한 글입니다.

Jupyter Lab에서 어떻게 활용할 수 있을지에 대한 내용도 담았고, Extension 중 인상 깊은 것들도 추가해두었어요.

S3에 Parquet 파일을 직접 쿼리해서 쉽게 사용할 수 있고, Athena는 확실히 대체할 수 있을 것 같네요. Pandas를 쓰는 영역도 모두 대체가 가능할거에요.


목차

  • DuckDB 소개, DuckDB란?
    • BIG DATA IS DEAD
  • DuckDB 목표 & DuckDB 장점
      1. Simple
      1. Portable
      1. Feature Rich
      1. Fast
      1. Extensible
      1. Free
      1. Thorough Testing
    • DuckDB 성능 벤치마크
    • DuckDB 설치
  • DuckDB 실행하기
    • 간단한 실행(DuckDB Python)
    • Data Load
    • jupysql을 사용해 더 편하게 실행하기
    • SQL 문법
    • Secrets Manager
  • DuckDB Extension
    • bigquery
    • h3
    • pg_duckdb
    • vss(Vector Similarity Search)
  • DuckDB 활용 방안
    • BigQuery에서 사용하는 예시
    • 로컬 데이터 웨어하우스처럼 사용(Pandas 대체)
    • 필요할 때 사용하는 가벼운 분석 엔진 용도
    • ETL, ELT 파이프라인에서 Transform 단계에서 사용
    • GCS에 있는 Parquet 쿼리하기
  • 정리
  • 참고 자료

좋은 자료 감사합니다.

글 봐주셔서 감사합니다!!