TREX - เอนจินดึงตารางจาก PDF ที่สร้างด้วย Rust (เพิ่มความแม่นยำด้วยดีปเลิร์นนิง)

calmlake79 · 2026-02-28T23:52:42+09:00

เอนจินโอเพนซอร์สที่พัฒนาด้วย Rust สำหรับการดึงตารางจาก PDF เครื่องมือ Python แบบเดิม (Camelot, Tabula, pdfplumber) ต้องพึ่งพา runtime ขนาดใหญ่ เช่น OpenCV, Ghostscript, Java ทำให้มีข้อจำกัดด้านหน่วยความจำสูงในสภาพแวดล้อมแบบ serverless TREX ทำงานเป็นไบนารีเดี่ยวโดยไม่ต้องมี dependency ภายนอก และใช้หน่วยความจำประมาณ ~30MB จึงรันบน Cloud Run/Lambda ได้โดยไม่เกิด OOM มีการฝังกลยุทธ์การแยกวิเคราะห์ไว้ 2 แบบคือ Lattice (อิงเส้นตาราง) / Stream (อนุมานจากพิกัด) และสามารถใช้ DL Router เพื่อเลือกกลยุทธ์ที่เหมาะสมที่สุดในแต่ละหน้าได้โดยอัตโนมัติ DL Router ที่ใช้ดีปเลิร์นนิง จะวิเคราะห์ฟีเจอร์ของหน้าเพื่อเลือกกลยุทธ์การแยกวิเคราะห์ที่เหมาะสมที่สุด (Lattice/Stream/Blend) โดยอัตโนมัติ ระหว่างการใช้งานจริงสามารถเก็บเหตุการณ์ที่การดึงข้อมูลล้มเหลว และหากนำโมเดล ONNX ไปฝึกใหม่ ก็จะช่วยปรับปรุงความแม่นยำได้อย่างต่อเนื่อง ใน Node.js สามารถใช้งานได้ทันทีผ่าน npm i @dreamyoungs/trex (CLI wrapper) หรือ npm i @dreamyoungs/trex-node (NAPI-RS native binding) รองรับ Docker REST API และ Python binding ด้วย พร้อมไลเซนส์แบบคู่ MIT / Apache-2.0

(github.com/dreamyoungs)

10 คะแนน โดย calmlake79 2026-02-28 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

เอนจินโอเพนซอร์สที่พัฒนาด้วย Rust สำหรับการดึงตารางจาก PDF
เครื่องมือ Python แบบเดิม (Camelot, Tabula, pdfplumber) ต้องพึ่งพา runtime ขนาดใหญ่ เช่น OpenCV, Ghostscript, Java ทำให้มีข้อจำกัดด้านหน่วยความจำสูงในสภาพแวดล้อมแบบ serverless
TREX ทำงานเป็นไบนารีเดี่ยวโดยไม่ต้องมี dependency ภายนอก และใช้หน่วยความจำประมาณ ~30MB จึงรันบน Cloud Run/Lambda ได้โดยไม่เกิด OOM
มีการฝังกลยุทธ์การแยกวิเคราะห์ไว้ 2 แบบคือ Lattice (อิงเส้นตาราง) / Stream (อนุมานจากพิกัด) และสามารถใช้ DL Router เพื่อเลือกกลยุทธ์ที่เหมาะสมที่สุดในแต่ละหน้าได้โดยอัตโนมัติ
DL Router ที่ใช้ดีปเลิร์นนิง จะวิเคราะห์ฟีเจอร์ของหน้าเพื่อเลือกกลยุทธ์การแยกวิเคราะห์ที่เหมาะสมที่สุด (Lattice/Stream/Blend) โดยอัตโนมัติ ระหว่างการใช้งานจริงสามารถเก็บเหตุการณ์ที่การดึงข้อมูลล้มเหลว และหากนำโมเดล ONNX ไปฝึกใหม่ ก็จะช่วยปรับปรุงความแม่นยำได้อย่างต่อเนื่อง
ใน Node.js สามารถใช้งานได้ทันทีผ่าน npm i @dreamyoungs/trex (CLI wrapper) หรือ npm i @dreamyoungs/trex-node (NAPI-RS native binding)
รองรับ Docker REST API และ Python binding ด้วย พร้อมไลเซนส์แบบคู่ MIT / Apache-2.0

TREX - เอนจินดึงตารางจาก PDF ที่สร้างด้วย Rust (เพิ่มความแม่นยำด้วยดีปเลิร์นนิง)

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น