- เครื่องมือโอเพนซอร์สที่ช่วยให้สามารถค้นหาและจัดการข้อมูลมัลติโหมดแบบรวมศูนย์ได้ เช่น รูปภาพ PDF และวิดีโอ
- ปรับให้เหมาะกับการประมวลผลเอกสารเชิงเทคนิคและเอกสารที่มีองค์ประกอบภาพได้ดีกว่าวิธี RAG แบบเดิม
- ใช้การฝังตัวแบบ ColPali เพื่อประมวลผลทั้งหน้าเสมือนเป็นภาพ ทำให้มีการค้นหาเชิงความหมายที่เข้าใจทั้งเลย์เอาต์ ตัวพิมพ์ และบริบทเชิงภาพ
- สามารถสร้างกราฟความรู้เฉพาะโดเมนที่เชื่อมโยงเอนทิตีข้ามหลายเอกสารได้ และรองรับการใช้ system prompt แบบกำหนดเองหรือที่ฝึกไว้ล่วงหน้า
- ค้นหาเอกสารหลากหลายประเภท เช่น PDF รูปภาพ และวิดีโอ ได้ผ่านAPI เดียว และรองรับ MCP
- ความสามารถในการดึงเมตาดาตารวดเร็วและขยายต่อได้ พร้อมรองรับ bounding box, การจัดหมวดหมู่ และอื่น ๆ
- สามารถผสานเข้ากับเวิร์กโฟลว์อย่าง Google Suite, Slack, Confluence เป็นต้น
- มีความสามารถ Cache-Augmented-Generation ที่ใช้ KV cache เพื่อเร่งความเร็วการสร้างผลลัพธ์จากเอกสาร
- ฟีเจอร์พื้นฐานเปิดเป็นโอเพนซอร์สภายใต้สัญญาอนุญาต MIT จึงเริ่มใช้งานได้ฟรี โดยบางฟีเจอร์ขั้นสูงเป็นแบบเสียเงินและให้ผ่านเนมสเปซ
ee
แนวคิดหลักและการแนะนำฟังก์ชัน
-
การค้นหาแบบมัลติโหมด (ColPali)
- ประมวลผลแต่ละหน้า PDF เป็นภาพ และสร้างการแทนค่าแบบมัลติเวกเตอร์ในระดับหน้า แทนที่จะเป็นระดับโทเค็นข้อความเดี่ยว
- สามารถเข้าใจความหมายและค้นหาได้ทั้งรูปภาพ PDF วิดีโอ และโครงสร้างเชิงภาพ เช่น ตาราง แผนภาพ และรูปแบบเอกสาร
- รองรับคำค้นมัลติโหมดแบบรวมศูนย์ผ่านเอนด์พอยต์เดียว
-
- สร้างกราฟความรู้เฉพาะโดเมนได้ด้วยโค้ดเพียงบรรทัดเดียว
- ใช้พรอมป์ต์ที่เตรียมไว้ล่วงหน้าได้ หรือปรับแต่งเองได้
-
การดึงเมตาดาตาที่รวดเร็วและขยายต่อได้ (Rules Processing)
- ดึงข้อมูลอย่าง bounding box, ป้ายกำกับ, ข้อมูลการจัดหมวดหมู่ ภายในเอกสารโดยอัตโนมัติ
- รองรับการประมวลผลเอกสารปริมาณมากได้อย่างรวดเร็วและเสถียร
-
ความสามารถในการผสานรวมที่หลากหลาย (Integrations)
- รองรับการผสานรวมโดยตรงกับ Google Workspace, Slack, Confluence เป็นต้น
-
- สร้าง KV cache แยกตามเอกสารเพื่อเพิ่มความเร็วในการสร้างผลลัพธ์
- มีประโยชน์ในสภาพแวดล้อมที่มีการค้นถามซ้ำจำนวนมาก
2 ความคิดเห็น
ฉันเคยลองทดสอบว่าจะใช้ตัวนี้เมื่อหลายเดือนก่อน แต่พบว่ามันต้องใช้ทรัพยากร GPU มากกว่าที่คิด และความเร็วก็ลดลงมากด้วย เลยรู้สึกว่ายากที่จะนำไปใช้ในบริษัทขนาดเล็กครับ แค่ค้นหาด้วย A10 GPU 2 ตัวก็ใช้เวลาราว 30 วินาทีถึง 1 นาทีเลย โอ้โห,,