- เอนจินโอเพนซอร์สที่พัฒนาด้วย Rust สำหรับการดึงตารางจาก PDF
- เครื่องมือ Python แบบเดิม (Camelot, Tabula, pdfplumber) ต้องพึ่งพา runtime ขนาดใหญ่ เช่น OpenCV, Ghostscript, Java ทำให้มีข้อจำกัดด้านหน่วยความจำสูงในสภาพแวดล้อมแบบ serverless
- TREX ทำงานเป็นไบนารีเดี่ยวโดยไม่ต้องมี dependency ภายนอก และใช้หน่วยความจำประมาณ ~30MB จึงรันบน Cloud Run/Lambda ได้โดยไม่เกิด OOM
- มีการฝังกลยุทธ์การแยกวิเคราะห์ไว้ 2 แบบคือ Lattice (อิงเส้นตาราง) / Stream (อนุมานจากพิกัด) และสามารถใช้ DL Router เพื่อเลือกกลยุทธ์ที่เหมาะสมที่สุดในแต่ละหน้าได้โดยอัตโนมัติ
- DL Router ที่ใช้ดีปเลิร์นนิง จะวิเคราะห์ฟีเจอร์ของหน้าเพื่อเลือกกลยุทธ์การแยกวิเคราะห์ที่เหมาะสมที่สุด (Lattice/Stream/Blend) โดยอัตโนมัติ ระหว่างการใช้งานจริงสามารถเก็บเหตุการณ์ที่การดึงข้อมูลล้มเหลว และหากนำโมเดล ONNX ไปฝึกใหม่ ก็จะช่วยปรับปรุงความแม่นยำได้อย่างต่อเนื่อง
- ใน Node.js สามารถใช้งานได้ทันทีผ่าน
npm i @dreamyoungs/trex (CLI wrapper) หรือ npm i @dreamyoungs/trex-node (NAPI-RS native binding)
- รองรับ Docker REST API และ Python binding ด้วย พร้อมไลเซนส์แบบคู่ MIT / Apache-2.0
ยังไม่มีความคิดเห็น