Launch HN: Trellis – เวิร์กโฟลว์ที่ขับเคลื่อนด้วย AI สำหรับข้อมูลไม่มีโครงสร้าง

(news.ycombinator.com)

6 คะแนน โดย GN⁺ 2024-08-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Trellis เป็นเครื่องมือ ETL (Extract, Transform, Load) ที่ขับเคลื่อนด้วย AI สำหรับข้อมูลไม่มีโครงสร้าง
แปลงเนื้อหาจากการโทรศัพท์, PDF และแชต ให้อยู่ในรูปแบบ SQL ที่มีโครงสร้าง ตามสคีมาที่ผู้ใช้กำหนดด้วยภาษาธรรมชาติ
ช่วยให้ทีมข้อมูลและทีมปฏิบัติการทำงานป้อนข้อมูลแบบแมนนวลโดยอัตโนมัติ และจัดการข้อมูลที่ซับซ้อนด้วย SQL query ได้

เบื้องหลังการพัฒนา Trellis

หลังจากพบกันที่สถาบันวิจัย AI แห่ง Stanford ทีมได้ร่วมงานกับทีมข้อมูลขององค์กรขนาดใหญ่หลายแห่ง และพบปัญหาเรื่องข้อมูลไม่มีโครงสร้าง
ข้อมูลขององค์กร 80% เป็นข้อมูลไม่มีโครงสร้าง และแพลตฟอร์มเดิมจัดการได้ยาก
ตัวอย่างเช่น ธนาคารพาณิชย์รายใหญ่ไม่สามารถปรับปรุงโมเดลความเสี่ยงด้านเครดิตได้ เพราะข้อมูลสำคัญติดอยู่ใน PDF และอีเมล
จากงานวิจัยด้าน AI ทีมจึงพัฒนาโซลูชัน ETL ที่ขับเคลื่อนด้วย AI เพื่อแปลงข้อมูลไม่มีโครงสร้างให้เป็นตารางที่ตรงกับสคีมา

ความท้าทายทางเทคนิค

รองรับเอกสารที่ซับซ้อน: ใช้ map-reduce บนพื้นฐาน LLM เพื่อประมวลผลเอกสารขนาดยาว และใช้ vision model สำหรับการดึงตารางและเลย์เอาต์
การทำ model routing: เลือกโมเดลที่เหมาะสมที่สุดสำหรับแต่ละการแปลง เพื่อเพิ่มประสิทธิภาพด้านต้นทุนและความเร็ว
การตรวจสอบข้อมูลและการรับประกันสคีมา: รับประกันความแม่นยำผ่านลิงก์อ้างอิงและการตรวจจับความผิดปกติ

กรณีใช้งานที่หลากหลาย

บริการทางการเงิน: ประมวลผลเอกสารที่ซับซ้อน (พันธบัตร, อันดับความน่าเชื่อถือทางเครดิต ฯลฯ) ให้อยู่ในรูปแบบที่มีโครงสร้าง เพื่อเร่งความเร็วในการ underwriting และทำให้การดำเนินการสินเชื่อเป็นอัตโนมัติ
ฝ่ายสนับสนุนลูกค้าและงานปฏิบัติการหลังบ้าน: เพิ่มความเร็วในการ onboarding และรับประกันการปฏิบัติตาม SOP ผ่านการแมปเอกสารระหว่างสคีมาที่หลากหลายและระบบ ERP
การเตรียมข้อมูลล่วงหน้าและการเก็บรวบรวมข้อมูล: รองรับความต้องการด้านการเตรียมข้อมูลใน ETL pipeline และการเก็บข้อมูลสำหรับ RAG

สรุปโดย GN⁺

Trellis เป็นเครื่องมือ ETL ที่ขับเคลื่อนด้วย AI ซึ่งแปลงข้อมูลไม่มีโครงสร้างให้อยู่ในรูปแบบ SQL ที่มีโครงสร้าง และช่วยทำงานแมนนวลของทีมข้อมูลและทีมปฏิบัติการให้เป็นอัตโนมัติ
แก้โจทย์ความท้าทายทางเทคนิค เช่น การประมวลผลเอกสารที่ซับซ้อน, model routing และการตรวจสอบข้อมูล
สามารถนำไปใช้ได้อย่างมีประโยชน์ในหลายอุตสาหกรรม เช่น บริการทางการเงิน, การสนับสนุนลูกค้า และการเตรียมข้อมูลล่วงหน้า
น่าจะมีประโยชน์อย่างยิ่งสำหรับองค์กรที่ประสบปัญหาในการจัดการข้อมูลไม่มีโครงสร้าง
โปรเจกต์อื่นที่มีความสามารถคล้ายกัน ได้แก่ Alteryx, Talend

1 ความคิดเห็น

GN⁺ 2024-08-15

ความคิดเห็นบน Hacker News

กำลังพัฒนาแพ็กเกจ Python แบบโอเพนซอร์สอยู่ และให้ความสามารถคล้ายกัน
- แชร์ตัวอย่างเดโมอีเมล Enron
ธนาคารพาณิชย์รายใหญ่ยังแก้ปัญหาข้อมูลที่ติดอยู่ใน PDF และอีเมลไม่ได้ จึงไม่สามารถปรับปรุงโมเดลความเสี่ยงด้านเครดิตได้
- การแก้ปัญหานี้สร้างมูลค่าได้มหาศาล
เคยทำโปรเจ็กต์ที่เกี่ยวข้องที่ SoundTrace
- ต้องดึงข้อมูล PDF ออดิโอแกรมของลูกค้าใหม่ออกมาให้สมบูรณ์แบบ
- ใช้ OCR กับ PDF ผ่าน pipeline เพื่อดึงข้อความและตารางออกมา แล้ว parse โดยตรงด้วย LLM
- ส่งกราฟออดิโอแกรมเข้า convnet และ parse ตารางด้วยวิธีเชิงโปรแกรม
- ตรวจสอบผลลัพธ์ด้วย Claude sonnet และถ้าไม่ตรงกันก็ส่งให้ตรวจทานด้วยคน
- ความแม่นยำไปเกือบถึง 100%
เคยทำงานที่ Instabase และความสามารถในการจัดการ PDF กับเอกสารสแกนเป็นเรื่องสำคัญ
ขอแสดงความยินดีกับการเปิดตัว Trellis และกรณีขอบต้องใกล้ 0% ให้มากที่สุด
- เป็นบริการที่ทุกองค์กรต้องการ และถ้าทำสำเร็จก็น่าจะมีลูกค้าจำนวนมาก
ถามเกี่ยวกับการแข่งขันและความแตกต่างเมื่อเทียบกับ Roe AI
สงสัยว่าตรวจสอบความถูกต้องของข้อมูลอย่างไร
กำลังทำงานลักษณะคล้ายกันในโปรเจ็กต์ส่วนตัว โดยใช้ TypeChat, Zod และ Unstructured
เคยใช้ function calling ของ OpenAI เพื่อดึงฟิลด์จากเอกสารสแกนหลายพันฉบับ
- สำหรับรูปแบบเอกสารขาเข้าที่หลากหลาย การเรียกคืนบางฟิลด์ทำได้ไม่ดีนัก
- ทดลองใช้ JSON schema เพื่อดึงข้อมูลที่เหมาะสมที่สุด
- สำหรับเอกสารยาว ต้องตัดสินใจว่าจะส่งทั้งเอกสารหรือเฉพาะส่วนที่เกี่ยวข้อง
- คุณภาพ OCR ไม่ดีนัก
- นวัตกรรมหลักคือทำให้ผู้ใช้ที่ไม่ใช่สายเทคนิคทำข้อ 2 ซ้ำได้อย่างต่อเนื่อง
แสดงความยินดีกับการเปิดตัวแม้ยังแก้ปัญหาใหญ่ไม่ได้
- ลูกค้าที่มีปัญหาใหญ่และมีงบประมาณคือกลุ่มที่ถูกละเลยมากที่สุด
- มอบโซลูชันแบบปรับตามลูกค้าผ่านการ onboarding/integration แบบ Palantir
- ความแม่นยำเกิน 99% พร้อมการแทรกแซงของมนุษย์นั้นได้ผล
- การปรับปรุงจาก 95% เป็น 99% อาจสร้างความแตกต่างอย่างมาก
- ควรเน้น "การดึงข้อมูลความแม่นยำ 99%+" แทน "เวิร์กโฟลว์ที่ขับเคลื่อนด้วย AI"

Launch HN: Trellis – เวิร์กโฟลว์ที่ขับเคลื่อนด้วย AI สำหรับข้อมูลไม่มีโครงสร้าง

เบื้องหลังการพัฒนา Trellis

ความท้าทายทางเทคนิค

กรณีใช้งานที่หลากหลาย

สรุปโดย GN⁺

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News