วิธีใช้ DuckDB (DuckDB Python + Jupyter Lab)
(zzsza.github.io)นี่คือบทความที่สรุปวิธีใช้งาน DuckDB ซึ่งกำลังได้รับความสนใจอย่างมากในบรรดาโอเพนซอร์ส OLAP ช่วงหลังมานี้
ภายในยังมีเนื้อหาเกี่ยวกับวิธีนำไปใช้งานใน Jupyter Lab รวมถึงได้เพิ่ม Extension ที่น่าสนใจเอาไว้ด้วย
สามารถคิวรีไฟล์ Parquet บน S3 ได้โดยตรงและใช้งานได้อย่างง่ายดาย ดูแล้วน่าจะใช้แทน Athena ได้อย่างชัดเจน น่าจะทดแทนงานในส่วนที่ใช้ Pandas ได้ทั้งหมดเช่นกัน
สารบัญ
- แนะนำ DuckDB, DuckDB คืออะไร?
- BIG DATA IS DEAD
- เป้าหมายของ DuckDB & ข้อดีของ DuckDB
-
- Simple
-
- Portable
-
- Feature Rich
-
- Fast
-
- Extensible
-
- Free
-
- Thorough Testing
- เบนช์มาร์กประสิทธิภาพของ DuckDB
- การติดตั้ง DuckDB
-
- การรัน DuckDB
- การรันแบบง่าย (DuckDB Python)
- Data Load
- ใช้งานให้สะดวกขึ้นด้วย jupysql
- ไวยากรณ์ SQL
- Secrets Manager
- DuckDB Extension
- bigquery
- h3
- pg_duckdb
- vss(Vector Similarity Search)
- แนวทางการใช้งาน DuckDB
- ตัวอย่างการใช้งานใน BigQuery
- ใช้เหมือน local data warehouse (แทน Pandas)
- ใช้เป็นเอนจินวิเคราะห์ขนาดเบาเมื่อต้องการ
- ใช้ในขั้นตอน Transform ของ ETL, ELT pipeline
- คิวรี Parquet ที่อยู่บน GCS
- สรุป
- เอกสารอ้างอิง
2 ความคิดเห็น
ขอบคุณสำหรับข้อมูลดี ๆ ครับ
ขอบคุณที่เข้ามาอ่านครับ!!