• ไลบรารี data frame แบบ Python รุ่นใหม่ที่ออกแบบมาสำหรับ AI
  • สร้างขึ้นเพื่อจัดระเบียบข้อมูลไม่มีโครงสร้างให้เป็นชุดข้อมูล และสามารถ wrangle ได้ในระดับใหญ่บนเครื่องโลคัล
  • ผสานเข้ากับ postmodern data stack โดยไม่ทำ abstraction หรือซ่อนโมเดล AI และการเรียก API

คุณสมบัติหลัก

  • ที่เก็บ Source of Truth
    • ประมวลผลข้อมูลไม่มีโครงสร้างจาก S3, GCP, Azure และระบบไฟล์โลคัล โดยไม่ต้องสร้างสำเนาซ้ำซ้อน
    • รองรับข้อมูลมัลติโหมด: รูปภาพ, วิดีโอ, ข้อความ, PDF, JSON, CSV, parquet เป็นต้น
    • รวมไฟล์และเมทาดาทาเป็นชุดข้อมูลแบบถาวร มีการจัดการเวอร์ชัน และอิงคอลัมน์
  • data pipeline ที่เป็นมิตรกับ Python
    • ทำงานกับอ็อบเจ็กต์ Python และฟิลด์ของอ็อบเจ็กต์
    • มีความสามารถด้านการประมวลผลแบบขนานและการคำนวณนอกหน่วยความจำในตัว โดยไม่ต้องใช้ SQL หรือ Spark
  • การเสริมข้อมูล (Enrichment) และการประมวลผล
    • สร้างเมทาดาทาด้วยโมเดล AI ภายในเครื่องและ LLM API
    • กรอง, join และจัดกลุ่มตามเมทาดาทา ค้นหาด้วย vector embedding
    • ส่งชุดข้อมูลไปยัง Pytorch หรือ Tensorflow หรือส่งออกกลับไปยังที่เก็บข้อมูล
  • ประสิทธิภาพ
    • การประมวลผลแบบขนาน, การทำงานนอกหน่วยความจำ, การแคชข้อมูล
    • การคำนวณแบบเวกเตอร์กับฟิลด์ของอ็อบเจ็กต์ Python: ผลรวม, จำนวน, ค่าเฉลี่ย เป็นต้น
    • การค้นหาเวกเตอร์ที่ปรับแต่งประสิทธิภาพแล้ว

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น