- ไลบรารี data frame แบบ Python รุ่นใหม่ที่ออกแบบมาสำหรับ AI
- สร้างขึ้นเพื่อจัดระเบียบข้อมูลไม่มีโครงสร้างให้เป็นชุดข้อมูล และสามารถ wrangle ได้ในระดับใหญ่บนเครื่องโลคัล
- ผสานเข้ากับ postmodern data stack โดยไม่ทำ abstraction หรือซ่อนโมเดล AI และการเรียก API
คุณสมบัติหลัก
- ที่เก็บ Source of Truth
- ประมวลผลข้อมูลไม่มีโครงสร้างจาก S3, GCP, Azure และระบบไฟล์โลคัล โดยไม่ต้องสร้างสำเนาซ้ำซ้อน
- รองรับข้อมูลมัลติโหมด: รูปภาพ, วิดีโอ, ข้อความ, PDF, JSON, CSV, parquet เป็นต้น
- รวมไฟล์และเมทาดาทาเป็นชุดข้อมูลแบบถาวร มีการจัดการเวอร์ชัน และอิงคอลัมน์
- data pipeline ที่เป็นมิตรกับ Python
- ทำงานกับอ็อบเจ็กต์ Python และฟิลด์ของอ็อบเจ็กต์
- มีความสามารถด้านการประมวลผลแบบขนานและการคำนวณนอกหน่วยความจำในตัว โดยไม่ต้องใช้ SQL หรือ Spark
- การเสริมข้อมูล (Enrichment) และการประมวลผล
- สร้างเมทาดาทาด้วยโมเดล AI ภายในเครื่องและ LLM API
- กรอง, join และจัดกลุ่มตามเมทาดาทา ค้นหาด้วย vector embedding
- ส่งชุดข้อมูลไปยัง Pytorch หรือ Tensorflow หรือส่งออกกลับไปยังที่เก็บข้อมูล
- ประสิทธิภาพ
- การประมวลผลแบบขนาน, การทำงานนอกหน่วยความจำ, การแคชข้อมูล
- การคำนวณแบบเวกเตอร์กับฟิลด์ของอ็อบเจ็กต์ Python: ผลรวม, จำนวน, ค่าเฉลี่ย เป็นต้น
- การค้นหาเวกเตอร์ที่ปรับแต่งประสิทธิภาพแล้ว
ยังไม่มีความคิดเห็น