6 คะแนน โดย GN⁺ 2024-08-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Trellis เป็นเครื่องมือ ETL (Extract, Transform, Load) ที่ขับเคลื่อนด้วย AI สำหรับข้อมูลไม่มีโครงสร้าง
  • แปลงเนื้อหาจากการโทรศัพท์, PDF และแชต ให้อยู่ในรูปแบบ SQL ที่มีโครงสร้าง ตามสคีมาที่ผู้ใช้กำหนดด้วยภาษาธรรมชาติ
  • ช่วยให้ทีมข้อมูลและทีมปฏิบัติการทำงานป้อนข้อมูลแบบแมนนวลโดยอัตโนมัติ และจัดการข้อมูลที่ซับซ้อนด้วย SQL query ได้

เบื้องหลังการพัฒนา Trellis

  • หลังจากพบกันที่สถาบันวิจัย AI แห่ง Stanford ทีมได้ร่วมงานกับทีมข้อมูลขององค์กรขนาดใหญ่หลายแห่ง และพบปัญหาเรื่องข้อมูลไม่มีโครงสร้าง
  • ข้อมูลขององค์กร 80% เป็นข้อมูลไม่มีโครงสร้าง และแพลตฟอร์มเดิมจัดการได้ยาก
  • ตัวอย่างเช่น ธนาคารพาณิชย์รายใหญ่ไม่สามารถปรับปรุงโมเดลความเสี่ยงด้านเครดิตได้ เพราะข้อมูลสำคัญติดอยู่ใน PDF และอีเมล
  • จากงานวิจัยด้าน AI ทีมจึงพัฒนาโซลูชัน ETL ที่ขับเคลื่อนด้วย AI เพื่อแปลงข้อมูลไม่มีโครงสร้างให้เป็นตารางที่ตรงกับสคีมา

ความท้าทายทางเทคนิค

  • รองรับเอกสารที่ซับซ้อน: ใช้ map-reduce บนพื้นฐาน LLM เพื่อประมวลผลเอกสารขนาดยาว และใช้ vision model สำหรับการดึงตารางและเลย์เอาต์
  • การทำ model routing: เลือกโมเดลที่เหมาะสมที่สุดสำหรับแต่ละการแปลง เพื่อเพิ่มประสิทธิภาพด้านต้นทุนและความเร็ว
  • การตรวจสอบข้อมูลและการรับประกันสคีมา: รับประกันความแม่นยำผ่านลิงก์อ้างอิงและการตรวจจับความผิดปกติ

กรณีใช้งานที่หลากหลาย

  • บริการทางการเงิน: ประมวลผลเอกสารที่ซับซ้อน (พันธบัตร, อันดับความน่าเชื่อถือทางเครดิต ฯลฯ) ให้อยู่ในรูปแบบที่มีโครงสร้าง เพื่อเร่งความเร็วในการ underwriting และทำให้การดำเนินการสินเชื่อเป็นอัตโนมัติ
  • ฝ่ายสนับสนุนลูกค้าและงานปฏิบัติการหลังบ้าน: เพิ่มความเร็วในการ onboarding และรับประกันการปฏิบัติตาม SOP ผ่านการแมปเอกสารระหว่างสคีมาที่หลากหลายและระบบ ERP
  • การเตรียมข้อมูลล่วงหน้าและการเก็บรวบรวมข้อมูล: รองรับความต้องการด้านการเตรียมข้อมูลใน ETL pipeline และการเก็บข้อมูลสำหรับ RAG

สรุปโดย GN⁺

  • Trellis เป็นเครื่องมือ ETL ที่ขับเคลื่อนด้วย AI ซึ่งแปลงข้อมูลไม่มีโครงสร้างให้อยู่ในรูปแบบ SQL ที่มีโครงสร้าง และช่วยทำงานแมนนวลของทีมข้อมูลและทีมปฏิบัติการให้เป็นอัตโนมัติ
  • แก้โจทย์ความท้าทายทางเทคนิค เช่น การประมวลผลเอกสารที่ซับซ้อน, model routing และการตรวจสอบข้อมูล
  • สามารถนำไปใช้ได้อย่างมีประโยชน์ในหลายอุตสาหกรรม เช่น บริการทางการเงิน, การสนับสนุนลูกค้า และการเตรียมข้อมูลล่วงหน้า
  • น่าจะมีประโยชน์อย่างยิ่งสำหรับองค์กรที่ประสบปัญหาในการจัดการข้อมูลไม่มีโครงสร้าง
  • โปรเจกต์อื่นที่มีความสามารถคล้ายกัน ได้แก่ Alteryx, Talend

1 ความคิดเห็น

 
GN⁺ 2024-08-15
ความคิดเห็นบน Hacker News
  • กำลังพัฒนาแพ็กเกจ Python แบบโอเพนซอร์สอยู่ และให้ความสามารถคล้ายกัน

    • แชร์ตัวอย่างเดโมอีเมล Enron
  • ธนาคารพาณิชย์รายใหญ่ยังแก้ปัญหาข้อมูลที่ติดอยู่ใน PDF และอีเมลไม่ได้ จึงไม่สามารถปรับปรุงโมเดลความเสี่ยงด้านเครดิตได้

    • การแก้ปัญหานี้สร้างมูลค่าได้มหาศาล
  • เคยทำโปรเจ็กต์ที่เกี่ยวข้องที่ SoundTrace

    • ต้องดึงข้อมูล PDF ออดิโอแกรมของลูกค้าใหม่ออกมาให้สมบูรณ์แบบ
    • ใช้ OCR กับ PDF ผ่าน pipeline เพื่อดึงข้อความและตารางออกมา แล้ว parse โดยตรงด้วย LLM
    • ส่งกราฟออดิโอแกรมเข้า convnet และ parse ตารางด้วยวิธีเชิงโปรแกรม
    • ตรวจสอบผลลัพธ์ด้วย Claude sonnet และถ้าไม่ตรงกันก็ส่งให้ตรวจทานด้วยคน
    • ความแม่นยำไปเกือบถึง 100%
  • เคยทำงานที่ Instabase และความสามารถในการจัดการ PDF กับเอกสารสแกนเป็นเรื่องสำคัญ

  • ขอแสดงความยินดีกับการเปิดตัว Trellis และกรณีขอบต้องใกล้ 0% ให้มากที่สุด

    • เป็นบริการที่ทุกองค์กรต้องการ และถ้าทำสำเร็จก็น่าจะมีลูกค้าจำนวนมาก
  • ถามเกี่ยวกับการแข่งขันและความแตกต่างเมื่อเทียบกับ Roe AI

  • สงสัยว่าตรวจสอบความถูกต้องของข้อมูลอย่างไร

  • กำลังทำงานลักษณะคล้ายกันในโปรเจ็กต์ส่วนตัว โดยใช้ TypeChat, Zod และ Unstructured

  • เคยใช้ function calling ของ OpenAI เพื่อดึงฟิลด์จากเอกสารสแกนหลายพันฉบับ

    • สำหรับรูปแบบเอกสารขาเข้าที่หลากหลาย การเรียกคืนบางฟิลด์ทำได้ไม่ดีนัก
    • ทดลองใช้ JSON schema เพื่อดึงข้อมูลที่เหมาะสมที่สุด
    • สำหรับเอกสารยาว ต้องตัดสินใจว่าจะส่งทั้งเอกสารหรือเฉพาะส่วนที่เกี่ยวข้อง
    • คุณภาพ OCR ไม่ดีนัก
    • นวัตกรรมหลักคือทำให้ผู้ใช้ที่ไม่ใช่สายเทคนิคทำข้อ 2 ซ้ำได้อย่างต่อเนื่อง
  • แสดงความยินดีกับการเปิดตัวแม้ยังแก้ปัญหาใหญ่ไม่ได้

    • ลูกค้าที่มีปัญหาใหญ่และมีงบประมาณคือกลุ่มที่ถูกละเลยมากที่สุด
    • มอบโซลูชันแบบปรับตามลูกค้าผ่านการ onboarding/integration แบบ Palantir
    • ความแม่นยำเกิน 99% พร้อมการแทรกแซงของมนุษย์นั้นได้ผล
    • การปรับปรุงจาก 95% เป็น 99% อาจสร้างความแตกต่างอย่างมาก
    • ควรเน้น "การดึงข้อมูลความแม่นยำ 99%+" แทน "เวิร์กโฟลว์ที่ขับเคลื่อนด้วย AI"