10 คะแนน โดย calmlake79 2026-02-28 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp
  • เอนจินโอเพนซอร์สที่พัฒนาด้วย Rust สำหรับการดึงตารางจาก PDF
  • เครื่องมือ Python แบบเดิม (Camelot, Tabula, pdfplumber) ต้องพึ่งพา runtime ขนาดใหญ่ เช่น OpenCV, Ghostscript, Java ทำให้มีข้อจำกัดด้านหน่วยความจำสูงในสภาพแวดล้อมแบบ serverless
  • TREX ทำงานเป็นไบนารีเดี่ยวโดยไม่ต้องมี dependency ภายนอก และใช้หน่วยความจำประมาณ ~30MB จึงรันบน Cloud Run/Lambda ได้โดยไม่เกิด OOM
  • มีการฝังกลยุทธ์การแยกวิเคราะห์ไว้ 2 แบบคือ Lattice (อิงเส้นตาราง) / Stream (อนุมานจากพิกัด) และสามารถใช้ DL Router เพื่อเลือกกลยุทธ์ที่เหมาะสมที่สุดในแต่ละหน้าได้โดยอัตโนมัติ
  • DL Router ที่ใช้ดีปเลิร์นนิง จะวิเคราะห์ฟีเจอร์ของหน้าเพื่อเลือกกลยุทธ์การแยกวิเคราะห์ที่เหมาะสมที่สุด (Lattice/Stream/Blend) โดยอัตโนมัติ ระหว่างการใช้งานจริงสามารถเก็บเหตุการณ์ที่การดึงข้อมูลล้มเหลว และหากนำโมเดล ONNX ไปฝึกใหม่ ก็จะช่วยปรับปรุงความแม่นยำได้อย่างต่อเนื่อง
  • ใน Node.js สามารถใช้งานได้ทันทีผ่าน npm i @dreamyoungs/trex (CLI wrapper) หรือ npm i @dreamyoungs/trex-node (NAPI-RS native binding)
  • รองรับ Docker REST API และ Python binding ด้วย พร้อมไลเซนส์แบบคู่ MIT / Apache-2.0

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น