- Trellis เป็นเครื่องมือ ETL (Extract, Transform, Load) ที่ขับเคลื่อนด้วย AI สำหรับข้อมูลไม่มีโครงสร้าง
- แปลงเนื้อหาจากการโทรศัพท์, PDF และแชต ให้อยู่ในรูปแบบ SQL ที่มีโครงสร้าง ตามสคีมาที่ผู้ใช้กำหนดด้วยภาษาธรรมชาติ
- ช่วยให้ทีมข้อมูลและทีมปฏิบัติการทำงานป้อนข้อมูลแบบแมนนวลโดยอัตโนมัติ และจัดการข้อมูลที่ซับซ้อนด้วย SQL query ได้
เบื้องหลังการพัฒนา Trellis
- หลังจากพบกันที่สถาบันวิจัย AI แห่ง Stanford ทีมได้ร่วมงานกับทีมข้อมูลขององค์กรขนาดใหญ่หลายแห่ง และพบปัญหาเรื่องข้อมูลไม่มีโครงสร้าง
- ข้อมูลขององค์กร 80% เป็นข้อมูลไม่มีโครงสร้าง และแพลตฟอร์มเดิมจัดการได้ยาก
- ตัวอย่างเช่น ธนาคารพาณิชย์รายใหญ่ไม่สามารถปรับปรุงโมเดลความเสี่ยงด้านเครดิตได้ เพราะข้อมูลสำคัญติดอยู่ใน PDF และอีเมล
- จากงานวิจัยด้าน AI ทีมจึงพัฒนาโซลูชัน ETL ที่ขับเคลื่อนด้วย AI เพื่อแปลงข้อมูลไม่มีโครงสร้างให้เป็นตารางที่ตรงกับสคีมา
ความท้าทายทางเทคนิค
- รองรับเอกสารที่ซับซ้อน: ใช้ map-reduce บนพื้นฐาน LLM เพื่อประมวลผลเอกสารขนาดยาว และใช้ vision model สำหรับการดึงตารางและเลย์เอาต์
- การทำ model routing: เลือกโมเดลที่เหมาะสมที่สุดสำหรับแต่ละการแปลง เพื่อเพิ่มประสิทธิภาพด้านต้นทุนและความเร็ว
- การตรวจสอบข้อมูลและการรับประกันสคีมา: รับประกันความแม่นยำผ่านลิงก์อ้างอิงและการตรวจจับความผิดปกติ
กรณีใช้งานที่หลากหลาย
- บริการทางการเงิน: ประมวลผลเอกสารที่ซับซ้อน (พันธบัตร, อันดับความน่าเชื่อถือทางเครดิต ฯลฯ) ให้อยู่ในรูปแบบที่มีโครงสร้าง เพื่อเร่งความเร็วในการ underwriting และทำให้การดำเนินการสินเชื่อเป็นอัตโนมัติ
- ฝ่ายสนับสนุนลูกค้าและงานปฏิบัติการหลังบ้าน: เพิ่มความเร็วในการ onboarding และรับประกันการปฏิบัติตาม SOP ผ่านการแมปเอกสารระหว่างสคีมาที่หลากหลายและระบบ ERP
- การเตรียมข้อมูลล่วงหน้าและการเก็บรวบรวมข้อมูล: รองรับความต้องการด้านการเตรียมข้อมูลใน ETL pipeline และการเก็บข้อมูลสำหรับ RAG
สรุปโดย GN⁺
- Trellis เป็นเครื่องมือ ETL ที่ขับเคลื่อนด้วย AI ซึ่งแปลงข้อมูลไม่มีโครงสร้างให้อยู่ในรูปแบบ SQL ที่มีโครงสร้าง และช่วยทำงานแมนนวลของทีมข้อมูลและทีมปฏิบัติการให้เป็นอัตโนมัติ
- แก้โจทย์ความท้าทายทางเทคนิค เช่น การประมวลผลเอกสารที่ซับซ้อน, model routing และการตรวจสอบข้อมูล
- สามารถนำไปใช้ได้อย่างมีประโยชน์ในหลายอุตสาหกรรม เช่น บริการทางการเงิน, การสนับสนุนลูกค้า และการเตรียมข้อมูลล่วงหน้า
- น่าจะมีประโยชน์อย่างยิ่งสำหรับองค์กรที่ประสบปัญหาในการจัดการข้อมูลไม่มีโครงสร้าง
- โปรเจกต์อื่นที่มีความสามารถคล้ายกัน ได้แก่ Alteryx, Talend
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
กำลังพัฒนาแพ็กเกจ Python แบบโอเพนซอร์สอยู่ และให้ความสามารถคล้ายกัน
ธนาคารพาณิชย์รายใหญ่ยังแก้ปัญหาข้อมูลที่ติดอยู่ใน PDF และอีเมลไม่ได้ จึงไม่สามารถปรับปรุงโมเดลความเสี่ยงด้านเครดิตได้
เคยทำโปรเจ็กต์ที่เกี่ยวข้องที่ SoundTrace
เคยทำงานที่ Instabase และความสามารถในการจัดการ PDF กับเอกสารสแกนเป็นเรื่องสำคัญ
ขอแสดงความยินดีกับการเปิดตัว Trellis และกรณีขอบต้องใกล้ 0% ให้มากที่สุด
ถามเกี่ยวกับการแข่งขันและความแตกต่างเมื่อเทียบกับ Roe AI
สงสัยว่าตรวจสอบความถูกต้องของข้อมูลอย่างไร
กำลังทำงานลักษณะคล้ายกันในโปรเจ็กต์ส่วนตัว โดยใช้ TypeChat, Zod และ Unstructured
เคยใช้ function calling ของ OpenAI เพื่อดึงฟิลด์จากเอกสารสแกนหลายพันฉบับ
แสดงความยินดีกับการเปิดตัวแม้ยังแก้ปัญหาใหญ่ไม่ได้