- โมเดล OCR รุ่นถัดไปที่ยกระดับทั้งความแม่นยำและประสิทธิภาพในการประมวลผลเอกสารพร้อมกัน โดยให้ประสิทธิภาพการรู้จำสูงกับเอกสารหลายประเภท
- ทำสถิติ**ประสิทธิภาพโดยรวมดีขึ้น 74%**เมื่อเทียบกับเวอร์ชันก่อนหน้า และให้ผลลัพธ์ยอดเยี่ยมกับลายมือ แบบฟอร์ม ตารางซับซ้อน และเอกสารสแกน
- รองรับการสร้างตารางกลับเป็น HTMLและการส่งออกเป็น Markdown ทำให้สามารถรักษาข้อมูลเชิงโครงสร้างของเอกสารไว้ได้
- 2 ดอลลาร์ต่อ 1,000 หน้า และลดราคา 50% เมื่อประมวลผลปริมาณมาก ช่วยให้มีความคุ้มค่าด้านต้นทุน
- เป็นเทคโนโลยี OCR ที่รองรับการใช้งานได้กว้าง ตั้งแต่ไปป์ไลน์เอกสารระดับองค์กรขนาดใหญ่ไปจนถึงเวิร์กโฟลว์เอกสารแบบอินเทอร์แอกทีฟ และกำลังกลายเป็นโครงสร้างพื้นฐานสำคัญสำหรับการใช้ข้อมูลบนพื้นฐานของ generative AI
ประสิทธิภาพและคุณสมบัติหลัก
- Mistral OCR 3 สามารถทำการดึงข้อความและภาพที่ฝังอยู่จากเอกสารหลากหลายประเภทได้อย่างแม่นยำสูง
- รองรับการส่งออกเป็น Markdown และความสามารถในการสร้างตารางกลับเป็น HTML ทำให้รับรู้ได้ไม่เพียงเนื้อหาเอกสาร แต่รวมถึงโครงสร้างด้วย
- โมเดลมีขนาดเล็ก จึงให้บริการด้วยต้นทุนต่ำกว่าโซลูชันคู่แข่ง โดยมีราคา 2 ดอลลาร์ต่อ 1,000 หน้า และใช้งานได้ที่ 1 ดอลลาร์เมื่อใช้ Batch API
- สามารถผสานรวมโมเดล mistral-ocr-2512 ผ่าน API หรือใช้ผ่าน UI ของ Document AI Playground เพื่อแปลง PDF และรูปภาพเป็นข้อความหรือ JSON แบบมีโครงสร้างได้
การปรับปรุงประสิทธิภาพและเบนช์มาร์ก
- ในเบนช์มาร์กภายในทำสถิติอัตราชนะ 74% เมื่อเทียบกับ Mistral OCR 2
- การทดสอบอ้างอิงจากกรณีธุรกิจจริงของลูกค้า และประเมินความแม่นยำด้วยfuzzy-match metric
- ทำความแม่นยำได้เหนือกว่าทั้งโซลูชันประมวลผลเอกสารระดับองค์กรและ OCR ที่ขับเคลื่อนด้วย AI
ด้านที่ได้รับการอัปเกรดหลัก
- การรู้จำลายมือ: ตีความลายมือ คำอธิบายประกอบแบบผสม และข้อความเขียนมือบนแบบฟอร์มที่พิมพ์ไว้ได้อย่างแม่นยำ
- การประมวลผลแบบฟอร์ม: ปรับปรุงการรับรู้ช่อง กล่อง ป้ายกำกับ ข้อความเขียนมือ และเลย์เอาต์ที่ซับซ้อน
- เอกสารสแกนและเอกสารซับซ้อน: ทนทานต่อความเสียหายจากการบีบอัด ความบิดเบี้ยว ความละเอียดต่ำ และสัญญาณรบกวนพื้นหลังได้ดี
- โครงสร้างตารางซับซ้อน: สร้างตารางที่มีหัวตาราง เซลล์ที่ถูกรวม และลำดับชั้นหลายแถว·หลายคอลัมน์กลับมาได้ครบถ้วนด้วยแท็ก HTML (
colspan/rowspan)
- มีประสิทธิภาพโดยรวมดีขึ้นเมื่อเทียบกับ Mistral OCR 2ในทุกภาษาและทุกรูปแบบเอกสาร
กรณีใช้งานและการประยุกต์ใช้
- เหมาะทั้งกับไปป์ไลน์เอกสารระดับองค์กรขนาดใหญ่และเวิร์กโฟลว์เอกสารแบบอินเทอร์แอกทีฟ
- รองรับการแปลงเป็น Markdown หลังดึงข้อความและภาพ, การพาร์สแบบฟอร์มและใบแจ้งหนี้อัตโนมัติ, การสร้างไปป์ไลน์ทำความเข้าใจเอกสาร, และการดิจิไทซ์ลายมือกับเอกสารประวัติศาสตร์
- ลูกค้ากลุ่มแรกนำไปใช้แปลงใบแจ้งหนี้เป็นฟิลด์แบบมีโครงสร้าง, ดิจิไทซ์คลังเอกสารองค์กร, ดึงข้อความจากรายงานทางเทคนิคและวิทยาศาสตร์, และปรับปรุงการค้นหาระดับองค์กร
- Tim Law จาก IDC กล่าวว่า “OCR คือเทคโนโลยีพื้นฐานของ generative AI และ agentic AI และความสามารถในการดึงข้อความที่แม่นยำสูงในต้นทุนต่ำเป็นตัวตัดสินความสามารถในการแข่งขันด้านการใช้ประโยชน์จากข้อมูล”
แนวทางการเข้าถึงและความเข้ากันได้
- ใช้งานได้ทันทีผ่านAPIหรืออินเทอร์เฟซDocument AI Playground
- เข้ากันได้กับ Mistral OCR 2 อย่างสมบูรณ์ ทำให้อัปเกรดจากระบบเดิมได้ง่าย
- ดูเอกสารรายละเอียดได้ที่ mistral.ai/docs
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
ดูวิดีโอนี้บน Twitter แล้วก็สงสัยว่าทำไม Mistral ถึงไม่เปรียบเทียบกับ โมเดล SoTA ล่าสุด
น่าจะดีถ้าเทียบกับโมเดลอย่าง Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR, PaddleOCR
Mistral กำลังเทียบกับบริการ computer vision ทั่วไป ไม่ใช่ โมเดลที่อิง VLM
แบบแรกเข้าใจเอกสารได้ดีกว่า แต่แบบหลังให้ bounding box ที่แม่นยำ
รูปแบบความล้มเหลวก็ต่างกัน — VLM อาจอ่านทั้งประโยคผิด ส่วนโมเดล vision มักผิดระดับพิมพ์ผิดในคำ
ในช่วง 3 เดือนที่ผ่านมา มี โมเดล OCR โอเพนซอร์สออกมาเยอะมาก
โดยเฉพาะโมเดลที่มีพารามิเตอร์ไม่ถึง 1B ก็ยังรันบน edge device ได้ดี
น่าจะเปรียบเทียบกับโมเดลอย่าง paddleOCR-VL, olmOCR-2, chandra, dots.ocr
น่าเสียดายที่แทบไม่มี leaderboard หรือ arena เกี่ยวกับ OCR หรือ CV เลย
เป็นแนวให้โมเดลมาสู้กันแบบ llmarena แต่ยังไม่ได้อัปเดต Mistral
ตอนนี้ Gemini อยู่อันดับบน ๆ
OCR เจ้าอื่นคิดตามโทเค็น ทำให้คำนวณต้นทุนจริงได้ยาก
ตัวอย่างเช่น Gemini 3.0 flash ดูเผิน ๆ เหมือนราคาพอ ๆ กัน แต่ถ้าคิดตามโทเค็นจริงจะแพงกว่าราว 3 เท่า
เลยให้ Claude ใช้สิทธิ์ root ติดตั้งแทน ดูเหมือนมันจะสนุกกับงานนี้มากกว่าฉันอีก
ตอนติดตั้ง open web UI ก็เจอประสบการณ์คล้ายกัน สุดท้ายเลยเขียนฟังก์ชันที่ต้องใช้เองด้วย HTML 100 บรรทัด
ถ้า OCR ทำให้เรียบง่ายแบบนั้นได้ก็คงดี
แม้ Mistral OCR 3 จะบอกว่าเหมาะกับ pipeline ระดับองค์กรขนาดใหญ่ แต่ด้วย ความแม่นยำ 79% ก็ยังยากจะเชื่อถือ
ในงานวารสารวิทยาศาสตร์ ความผิดพลาดอย่าง 2.9+0.5 กลายเป็น 29+0.5 ถือว่าร้ายแรงมาก
สุดท้ายก็ยังต้องมีมนุษย์ตรวจทุกขั้นตอน
ฉันกำลังทำโปรเจกต์แปลงพจนานุกรม Shipibo (ภาษาชนพื้นเมืองเปรู)-สเปน ให้เป็นพจนานุกรม Shipibo-อังกฤษ
คุณภาพสแกน PDF ไม่ค่อยดี และมี เลย์เอาต์ 2 คอลัมน์ กับ header/footer ทำให้ OCR ล้มเหลวบ่อย
ต้องแยกตัวอย่างประโยค Shipibo ออกจากคำจำกัดความภาษาสเปน แล้วแปลเฉพาะภาษาอังกฤษ จึงซับซ้อนมาก
ทุกครั้งที่มีข่าว OCR/LLM ใหม่ ๆ ออกมา ฉันก็ลอง แต่ก็ผิดหวังทุกครั้ง
ในวัฒนธรรม Shipibo ไม่ใช่คนทั่วไป แต่เป็น maestra ที่ดื่ม Ayahuasca เพื่อวินิจฉัยโรค
จะมี dieta (การถือพรตด้านอาหาร) ตามพืชแต่ละชนิด โดยจำกัดการใช้สบู่ การมีเพศสัมพันธ์ การกินเกลือ เป็นต้น
ตามธรรมเนียมเดิมอาจนานเกิน 1 ปี ส่วนปัจจุบันมักย่อเหลือไม่กี่สัปดาห์
ฉันประทับใจที่มีการศึกษายาสมุนไพรอย่างลึกซึ้งขนาดนี้
ฉันกำลังพยายามแปลงตำราคณิตศาสตร์เป็น markdown ที่มีสมการ LaTeX แต่ยังไม่มีโมเดล OCR ตัวไหนน่าพอใจ
วางแผนจะลองทดสอบเองใน OCR playground ของ Mistral
แม้แต่สมการก็แปลงเป็น LaTeX ได้สมบูรณ์
ฉันกำลังหา การแปลข้อความในภาพแบบแทนที่ตำแหน่งเดิม (in-place translation)
Mistral OCR3 เน้นการดึงข้อมูล จึงไม่ตรงกับงานที่ฉันต้องการ
ฉันอยากแปลข้อความใน artbook ภาษาต่างประเทศแล้วแสดงทับลงบนภาพในตำแหน่งเดิม แต่บริการเสียเงินที่มีอยู่มักล้มเหลวเพราะ การจัดวางข้อความที่ไม่เป็นมาตรฐาน
ตอนนี้เลยใช้ Google Lens ส่องหน้าจอเพื่อแปลอยู่ ซึ่งไม่สะดวก
Lens ที่ฝังใน Chrome ก็ยังต้องเลือกด้วยมือ เลยยังไม่อัตโนมัติเต็มที่
มีใครรู้ข่าวความคืบหน้าของฟีเจอร์แบบนี้ไหม?
ช่วงนี้รู้สึกว่า Mistral กำลังไล่ตามแต่ ขอบนอกของฟีเจอร์ AI
ดูเหมือนตามหลัง OAI, Google, Anthropic และเหมือนการลงทุนระดับ EU ยังไม่พอ
มีค่ามากกว่าการสร้างมีมเยอะ
เพราะตอนนี้ยังไม่มี โมเดลรายได้ ที่มั่นคง ดังนั้น Mistral ควรโฟกัสที่คุณภาพของโมเดลแกนหลักมากกว่า
การรักษาคนเก่งไว้ใน EU พร้อมสร้างโมเดลที่ดีพอใช้ได้ คือเป้าหมายที่สมจริง
เห็นคนประเมินว่า Mistral ทำได้แย่กว่า OCR โอเพนซอร์สหลายตัวอย่าง Paddle, MinerU, MonkeyOCR ฯลฯ
ดูได้ที่ codesota.com/ocr
กำลังทดสอบ Mistral เพื่อใช้แทน MathPix
สคริปต์ Python นี้ เป็นต้นแบบบน Windows ที่ดักภาพจากคลิปบอร์ดแล้วส่งไป Mistral จากนั้น วางผลลัพธ์ Markdown ให้อัตโนมัติ
ปัญหาใหญ่ที่สุดของ Mistral คือ ไม่ตอบลูกค้าที่ติดต่อมา
การหลบอยู่หลังคำว่า “สอบถามราคา” ทำให้ต่อให้ดีกว่า SoTA ก็ไม่มีความหมาย
ต่อให้แพงกว่าและประสิทธิภาพแย่กว่า ฉันก็ยังเลือกบริการที่ไม่มีขั้นตอนแบบนั้น