- เป็น โมเดลวิชัน-ภาษา (VLM) แบบกะทัดรัดพิเศษที่ปรับให้เหมาะกับการพาร์สเอกสาร รองรับ 109 ภาษา รวมถึง ภาษาเกาหลี และสามารถจดจำองค์ประกอบที่ซับซ้อนอย่างสูตรคณิต ตาราง แผนภูมิ และลายมือได้อย่างแม่นยำ
- โมเดลหลัก PaddleOCR-VL-0.9B ผสาน ตัวเข้ารหัสภาพแบบความละเอียดไดนามิกบนพื้นฐาน NaViT กับ โมเดลภาษา ERNIE-4.5-0.3B เพื่อให้ได้ทั้งความแม่นยำสูงและความเร็วในการอนุมานที่รวดเร็ว
- ด้วย สถาปัตยกรรม VLM ที่เล็กแต่ทรงพลัง จึงรักษาประสิทธิภาพด้านการคำนวณไว้ได้ พร้อมให้ความสามารถในการจดจำระดับเดียวกับโมเดลขนาดใหญ่รุ่นเดิม
- ทำสถิติ SOTA (ประสิทธิภาพสูงสุดในขณะนั้น) ที่เหนือกว่าโมเดลแบบ pipeline เดิมบนชุดทดสอบอย่าง OmniDocBench เป็นต้น
- รองรับไม่เพียงแค่ เกาหลี จีน อังกฤษ ญี่ปุ่น แต่ยังรวมถึงระบบอักษรที่หลากหลายอย่าง รัสเซีย อาหรับ ฮินดี ไทย ทำให้นำไปใช้กับงานอัตโนมัติด้านการประมวลผลเอกสารทั่วโลกได้
- ด้วยโครงสร้างแบบน้ำหนักเบา จึงใช้ทรัพยากร GPU น้อย และสามารถติดตั้งรวมถึงผสานระบบได้ง่ายผ่าน Docker, CLI และ Python API
- มีประสิทธิภาพเหนือกว่าโมเดลมัลติโหมดระดับ 72B ในบางหัวข้อ และเป็น โซลูชันประมวลผลเอกสารหลายภาษาที่พร้อมใช้งานได้ทันทีในสภาพแวดล้อมจริง
6 ความคิดเห็น
ถ้าเป็น PaddleOCR ก็น่าจะมีบางที่เอาไปใช้เชิงพาณิชย์อยู่เหมือนกันนะครับ??
ว้าว โอ้โหเลย 5555 แบบนี้เอกสารที่มีตารางซับซ้อนก็น่าจะรู้จำได้ทันทีเลยนะ
ได้ยินมาว่ามันเหนือกว่ากระทั่งเอนจิน OCR เชิงพาณิชย์บางตัวอย่างมาก
คราวนี้ก็มี deepseek ocr ออกมาด้วยเหมือนกัน เลยสงสัยว่าเทียบประสิทธิภาพกันแล้วจะเป็นอย่างไรบ้าง
ถ้ารองรับหลายภาษาได้พร้อมกันก็คงยอดเยี่ยมที่สุดเลย,,
พูดคร่าว ๆ ว่าถ้าบริษัทเอกชนจีนยังปล่อยโมเดลระดับนี้ออกมาได้ ก็คงพอเดาได้ว่า NSA น่าจะมีโมเดล OCR ที่เหนือกว่า (หรืออาจถึงขั้นบ้าคลั่ง) เพื่อใช้ในการรวบรวมข้อมูลอยู่แล้ว