PaddleOCR-VL - โมเดลวิชัน-ภาษาแบบกะทัดรัดพิเศษ 0.9B สำหรับ OCR หลายภาษาที่ Baidu เปิดตัว

xguru · 2025-10-21T09:31:02+09:00

เป็น โมเดลวิชัน-ภาษา (VLM) แบบกะทัดรัดพิเศษที่ปรับให้เหมาะกับการพาร์สเอกสาร รองรับ 109 ภาษา รวมถึง ภาษาเกาหลี และสามารถจดจำองค์ประกอบที่ซับซ้อนอย่างสูตรคณิต ตาราง แผนภูมิ และลายมือได้อย่างแม่นยำ โมเดลหลัก PaddleOCR-VL-0.9B ผสาน ตัวเข้ารหัสภาพแบบความละเอียดไดนามิกบนพื้นฐาน NaViT กับ โมเดลภาษา ERNIE-4.5-0.3B เพื่อให้ได้ทั้งความแม่นยำสูงและความเร็วในการอนุมานที่รวดเร็ว ด้วย สถาปัตยกรรม VLM ที่เล็กแต่ทรงพลัง จึงรักษาประสิทธิภาพด้านการคำนวณไว้ได้ พร้อมให้ความสามารถในการจดจำระดับเดียวกับโมเดลขนาดใหญ่รุ่นเดิม ทำสถิติ SOTA (ประสิทธิภาพสูงสุดในขณะนั้น) ที่เหนือกว่าโมเดลแบบ pipeline เดิมบนชุดทดสอบอย่าง OmniDocBench เป็นต้น รองรับไม่เพียงแค่ เกาหลี จีน อังกฤษ ญี่ปุ่น แต่ยังรวมถึงระบบอักษรที่หลากหลายอย่าง รัสเซีย อาหรับ ฮินดี ไทย ทำให้นำไปใช้กับงานอัตโนมัติด้านการประมวลผลเอกสารทั่วโลกได้ ด้วยโครงสร้างแบบน้ำหนักเบา จึงใช้ทรัพยากร GPU น้อย และสามารถติดตั้งรวมถึงผสานระบบได้ง่ายผ่าน Docker, CLI และ Python API มีประสิทธิภาพเหนือกว่าโมเดลมัลติโหมดระดับ 72B ในบางหัวข้อ และเป็น โซลูชันประมวลผลเอกสารหลายภาษาที่พร้อมใช้งานได้ทันทีในสภาพแวดล้อมจริง

(huggingface.co)

43 คะแนน โดย xguru 2025-10-21 | 6 ความคิดเห็น | แชร์ทาง WhatsApp

เป็น โมเดลวิชัน-ภาษา (VLM) แบบกะทัดรัดพิเศษที่ปรับให้เหมาะกับการพาร์สเอกสาร รองรับ 109 ภาษา รวมถึง ภาษาเกาหลี และสามารถจดจำองค์ประกอบที่ซับซ้อนอย่างสูตรคณิต ตาราง แผนภูมิ และลายมือได้อย่างแม่นยำ
โมเดลหลัก PaddleOCR-VL-0.9B ผสาน ตัวเข้ารหัสภาพแบบความละเอียดไดนามิกบนพื้นฐาน NaViT กับ โมเดลภาษา ERNIE-4.5-0.3B เพื่อให้ได้ทั้งความแม่นยำสูงและความเร็วในการอนุมานที่รวดเร็ว
ด้วย สถาปัตยกรรม VLM ที่เล็กแต่ทรงพลัง จึงรักษาประสิทธิภาพด้านการคำนวณไว้ได้ พร้อมให้ความสามารถในการจดจำระดับเดียวกับโมเดลขนาดใหญ่รุ่นเดิม
ทำสถิติ SOTA (ประสิทธิภาพสูงสุดในขณะนั้น) ที่เหนือกว่าโมเดลแบบ pipeline เดิมบนชุดทดสอบอย่าง OmniDocBench เป็นต้น
รองรับไม่เพียงแค่ เกาหลี จีน อังกฤษ ญี่ปุ่น แต่ยังรวมถึงระบบอักษรที่หลากหลายอย่าง รัสเซีย อาหรับ ฮินดี ไทย ทำให้นำไปใช้กับงานอัตโนมัติด้านการประมวลผลเอกสารทั่วโลกได้
ด้วยโครงสร้างแบบน้ำหนักเบา จึงใช้ทรัพยากร GPU น้อย และสามารถติดตั้งรวมถึงผสานระบบได้ง่ายผ่าน Docker, CLI และ Python API
มีประสิทธิภาพเหนือกว่าโมเดลมัลติโหมดระดับ 72B ในบางหัวข้อ และเป็น โซลูชันประมวลผลเอกสารหลายภาษาที่พร้อมใช้งานได้ทันทีในสภาพแวดล้อมจริง

6 ความคิดเห็น

helio 2025-10-21

ถ้าเป็น PaddleOCR ก็น่าจะมีบางที่เอาไปใช้เชิงพาณิชย์อยู่เหมือนกันนะครับ??

tsboard 2025-10-21

ว้าว โอ้โหเลย 5555 แบบนี้เอกสารที่มีตารางซับซ้อนก็น่าจะรู้จำได้ทันทีเลยนะ

xguru 2025-10-21

ได้ยินมาว่ามันเหนือกว่ากระทั่งเอนจิน OCR เชิงพาณิชย์บางตัวอย่างมาก

yeorinhieut 2025-10-21

คราวนี้ก็มี deepseek ocr ออกมาด้วยเหมือนกัน เลยสงสัยว่าเทียบประสิทธิภาพกันแล้วจะเป็นอย่างไรบ้าง

yangeok 2025-10-21

ถ้ารองรับหลายภาษาได้พร้อมกันก็คงยอดเยี่ยมที่สุดเลย,,

forgotdonkey456 2025-10-21

พูดคร่าว ๆ ว่าถ้าบริษัทเอกชนจีนยังปล่อยโมเดลระดับนี้ออกมาได้ ก็คงพอเดาได้ว่า NSA น่าจะมีโมเดล OCR ที่เหนือกว่า (หรืออาจถึงขั้นบ้าคลั่ง) เพื่อใช้ในการรวบรวมข้อมูลอยู่แล้ว

PaddleOCR-VL - โมเดลวิชัน-ภาษาแบบกะทัดรัดพิเศษ 0.9B สำหรับ OCR หลายภาษาที่ Baidu เปิดตัว

บทความที่เกี่ยวข้อง

6 ความคิดเห็น