24 คะแนน โดย zzsza 2024-10-27 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

นี่คือบทความที่สรุปวิธีใช้งาน DuckDB ซึ่งกำลังได้รับความสนใจอย่างมากในบรรดาโอเพนซอร์ส OLAP ช่วงหลังมานี้

ภายในยังมีเนื้อหาเกี่ยวกับวิธีนำไปใช้งานใน Jupyter Lab รวมถึงได้เพิ่ม Extension ที่น่าสนใจเอาไว้ด้วย

สามารถคิวรีไฟล์ Parquet บน S3 ได้โดยตรงและใช้งานได้อย่างง่ายดาย ดูแล้วน่าจะใช้แทน Athena ได้อย่างชัดเจน น่าจะทดแทนงานในส่วนที่ใช้ Pandas ได้ทั้งหมดเช่นกัน


สารบัญ

  • แนะนำ DuckDB, DuckDB คืออะไร?
    • BIG DATA IS DEAD
  • เป้าหมายของ DuckDB & ข้อดีของ DuckDB
      1. Simple
      1. Portable
      1. Feature Rich
      1. Fast
      1. Extensible
      1. Free
      1. Thorough Testing
    • เบนช์มาร์กประสิทธิภาพของ DuckDB
    • การติดตั้ง DuckDB
  • การรัน DuckDB
    • การรันแบบง่าย (DuckDB Python)
    • Data Load
    • ใช้งานให้สะดวกขึ้นด้วย jupysql
    • ไวยากรณ์ SQL
    • Secrets Manager
  • DuckDB Extension
    • bigquery
    • h3
    • pg_duckdb
    • vss(Vector Similarity Search)
  • แนวทางการใช้งาน DuckDB
    • ตัวอย่างการใช้งานใน BigQuery
    • ใช้เหมือน local data warehouse (แทน Pandas)
    • ใช้เป็นเอนจินวิเคราะห์ขนาดเบาเมื่อต้องการ
    • ใช้ในขั้นตอน Transform ของ ETL, ELT pipeline
    • คิวรี Parquet ที่อยู่บน GCS
  • สรุป
  • เอกสารอ้างอิง

2 ความคิดเห็น

 
nottiger 2024-10-28

ขอบคุณสำหรับข้อมูลดี ๆ ครับ

 
zzsza 2024-10-31

ขอบคุณที่เข้ามาอ่านครับ!!