เปิดตัว Mistral OCR 3

(mistral.ai)

2 คะแนน โดย GN⁺ 2025-12-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดล OCR รุ่นถัดไปที่ยกระดับทั้งความแม่นยำและประสิทธิภาพในการประมวลผลเอกสารพร้อมกัน โดยให้ประสิทธิภาพการรู้จำสูงกับเอกสารหลายประเภท
ทำสถิติ**ประสิทธิภาพโดยรวมดีขึ้น 74%**เมื่อเทียบกับเวอร์ชันก่อนหน้า และให้ผลลัพธ์ยอดเยี่ยมกับลายมือ แบบฟอร์ม ตารางซับซ้อน และเอกสารสแกน
รองรับการสร้างตารางกลับเป็น HTMLและการส่งออกเป็น Markdown ทำให้สามารถรักษาข้อมูลเชิงโครงสร้างของเอกสารไว้ได้
2 ดอลลาร์ต่อ 1,000 หน้า และลดราคา 50% เมื่อประมวลผลปริมาณมาก ช่วยให้มีความคุ้มค่าด้านต้นทุน
เป็นเทคโนโลยี OCR ที่รองรับการใช้งานได้กว้าง ตั้งแต่ไปป์ไลน์เอกสารระดับองค์กรขนาดใหญ่ไปจนถึงเวิร์กโฟลว์เอกสารแบบอินเทอร์แอกทีฟ และกำลังกลายเป็นโครงสร้างพื้นฐานสำคัญสำหรับการใช้ข้อมูลบนพื้นฐานของ generative AI

ประสิทธิภาพและคุณสมบัติหลัก

Mistral OCR 3 สามารถทำการดึงข้อความและภาพที่ฝังอยู่จากเอกสารหลากหลายประเภทได้อย่างแม่นยำสูง
- รองรับการส่งออกเป็น Markdown และความสามารถในการสร้างตารางกลับเป็น HTML ทำให้รับรู้ได้ไม่เพียงเนื้อหาเอกสาร แต่รวมถึงโครงสร้างด้วย
- โมเดลมีขนาดเล็ก จึงให้บริการด้วยต้นทุนต่ำกว่าโซลูชันคู่แข่ง โดยมีราคา 2 ดอลลาร์ต่อ 1,000 หน้า และใช้งานได้ที่ 1 ดอลลาร์เมื่อใช้ Batch API
สามารถผสานรวมโมเดล mistral-ocr-2512 ผ่าน API หรือใช้ผ่าน UI ของ Document AI Playground เพื่อแปลง PDF และรูปภาพเป็นข้อความหรือ JSON แบบมีโครงสร้างได้

การปรับปรุงประสิทธิภาพและเบนช์มาร์ก

ในเบนช์มาร์กภายในทำสถิติอัตราชนะ 74% เมื่อเทียบกับ Mistral OCR 2
- การทดสอบอ้างอิงจากกรณีธุรกิจจริงของลูกค้า และประเมินความแม่นยำด้วยfuzzy-match metric
ทำความแม่นยำได้เหนือกว่าทั้งโซลูชันประมวลผลเอกสารระดับองค์กรและ OCR ที่ขับเคลื่อนด้วย AI

ด้านที่ได้รับการอัปเกรดหลัก

การรู้จำลายมือ: ตีความลายมือ คำอธิบายประกอบแบบผสม และข้อความเขียนมือบนแบบฟอร์มที่พิมพ์ไว้ได้อย่างแม่นยำ
การประมวลผลแบบฟอร์ม: ปรับปรุงการรับรู้ช่อง กล่อง ป้ายกำกับ ข้อความเขียนมือ และเลย์เอาต์ที่ซับซ้อน
เอกสารสแกนและเอกสารซับซ้อน: ทนทานต่อความเสียหายจากการบีบอัด ความบิดเบี้ยว ความละเอียดต่ำ และสัญญาณรบกวนพื้นหลังได้ดี
โครงสร้างตารางซับซ้อน: สร้างตารางที่มีหัวตาราง เซลล์ที่ถูกรวม และลำดับชั้นหลายแถว·หลายคอลัมน์กลับมาได้ครบถ้วนด้วยแท็ก HTML (colspan/rowspan)
มีประสิทธิภาพโดยรวมดีขึ้นเมื่อเทียบกับ Mistral OCR 2ในทุกภาษาและทุกรูปแบบเอกสาร

กรณีใช้งานและการประยุกต์ใช้

เหมาะทั้งกับไปป์ไลน์เอกสารระดับองค์กรขนาดใหญ่และเวิร์กโฟลว์เอกสารแบบอินเทอร์แอกทีฟ
- รองรับการแปลงเป็น Markdown หลังดึงข้อความและภาพ, การพาร์สแบบฟอร์มและใบแจ้งหนี้อัตโนมัติ, การสร้างไปป์ไลน์ทำความเข้าใจเอกสาร, และการดิจิไทซ์ลายมือกับเอกสารประวัติศาสตร์
ลูกค้ากลุ่มแรกนำไปใช้แปลงใบแจ้งหนี้เป็นฟิลด์แบบมีโครงสร้าง, ดิจิไทซ์คลังเอกสารองค์กร, ดึงข้อความจากรายงานทางเทคนิคและวิทยาศาสตร์, และปรับปรุงการค้นหาระดับองค์กร
Tim Law จาก IDC กล่าวว่า “OCR คือเทคโนโลยีพื้นฐานของ generative AI และ agentic AI และความสามารถในการดึงข้อความที่แม่นยำสูงในต้นทุนต่ำเป็นตัวตัดสินความสามารถในการแข่งขันด้านการใช้ประโยชน์จากข้อมูล”

แนวทางการเข้าถึงและความเข้ากันได้

ใช้งานได้ทันทีผ่านAPIหรืออินเทอร์เฟซDocument AI Playground
เข้ากันได้กับ Mistral OCR 2 อย่างสมบูรณ์ ทำให้อัปเกรดจากระบบเดิมได้ง่าย
ดูเอกสารรายละเอียดได้ที่ mistral.ai/docs

1 ความคิดเห็น

GN⁺ 2025-12-20

ความคิดเห็นบน Hacker News

ดูวิดีโอนี้บน Twitter แล้วก็สงสัยว่าทำไม Mistral ถึงไม่เปรียบเทียบกับ โมเดล SoTA ล่าสุด
น่าจะดีถ้าเทียบกับโมเดลอย่าง Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR, PaddleOCR
- ในฐานะคนที่ทำงานด้านการดึงข้อมูลจากเอกสารมาเยอะ น้ำเสียงของทวีตนั้นค่อนข้างน่ารำคาญ แต่เนื้อหาที่พูดก็ถูกต้อง
  Mistral กำลังเทียบกับบริการ computer vision ทั่วไป ไม่ใช่ โมเดลที่อิง VLM
  แบบแรกเข้าใจเอกสารได้ดีกว่า แต่แบบหลังให้ bounding box ที่แม่นยำ
  รูปแบบความล้มเหลวก็ต่างกัน — VLM อาจอ่านทั้งประโยคผิด ส่วนโมเดล vision มักผิดระดับพิมพ์ผิดในคำ
- กดลิงก์ไปดูแล้ว รู้สึกว่าบรรยากาศบน Twitter ตอนนี้ แปลกไปมาก เมื่อเทียบกับเมื่อก่อน
- อยากเห็นการเปรียบเทียบกับ Qwen 3 VL 235B-A22B ด้วย จากประสบการณ์ของฉันมันดีกว่า MinerU มาก
ในช่วง 3 เดือนที่ผ่านมา มี โมเดล OCR โอเพนซอร์สออกมาเยอะมาก
โดยเฉพาะโมเดลที่มีพารามิเตอร์ไม่ถึง 1B ก็ยังรันบน edge device ได้ดี
น่าจะเปรียบเทียบกับโมเดลอย่าง paddleOCR-VL, olmOCR-2, chandra, dots.ocr
น่าเสียดายที่แทบไม่มี leaderboard หรือ arena เกี่ยวกับ OCR หรือ CV เลย
- เมื่อประมาณเดือนก่อนมีโปรเจกต์ชื่อ ocrarena.ai โผล่ขึ้นมา
  เป็นแนวให้โมเดลมาสู้กันแบบ llmarena แต่ยังไม่ได้อัปเดต Mistral
  ตอนนี้ Gemini อยู่อันดับบน ๆ
- ข้อดีของ MistralOCR คือ โครงสร้างราคาที่เรียบง่าย — $1 ต่อ 1,000 หน้า และมี API แบบโฮสต์บนเซิร์ฟเวอร์ให้
  OCR เจ้าอื่นคิดตามโทเค็น ทำให้คำนวณต้นทุนจริงได้ยาก
  ตัวอย่างเช่น Gemini 3.0 flash ดูเผิน ๆ เหมือนราคาพอ ๆ กัน แต่ถ้าคิดตามโทเค็นจริงจะแพงกว่าราว 3 เท่า
- ฉันเคยลองติดตั้ง paddleOCR แต่ยอมแพ้ตอนต้องติดตั้ง dependency ของ PyTorch ขนาด 12GB แล้วเจอชนกันของเวอร์ชัน
  เลยให้ Claude ใช้สิทธิ์ root ติดตั้งแทน ดูเหมือนมันจะสนุกกับงานนี้มากกว่าฉันอีก
  ตอนติดตั้ง open web UI ก็เจอประสบการณ์คล้ายกัน สุดท้ายเลยเขียนฟังก์ชันที่ต้องใช้เองด้วย HTML 100 บรรทัด
  ถ้า OCR ทำให้เรียบง่ายแบบนั้นได้ก็คงดี
- codesota.com/ocr ก็น่าดูเช่นกัน
แม้ Mistral OCR 3 จะบอกว่าเหมาะกับ pipeline ระดับองค์กรขนาดใหญ่ แต่ด้วย ความแม่นยำ 79% ก็ยังยากจะเชื่อถือ
ในงานวารสารวิทยาศาสตร์ ความผิดพลาดอย่าง 2.9+0.5 กลายเป็น 29+0.5 ถือว่าร้ายแรงมาก
สุดท้ายก็ยังต้องมีมนุษย์ตรวจทุกขั้นตอน
- กรณีแบบนี้ datalab.to ค่อนข้างโอเค
- 79% น่าจะเป็นตัวเลข อัตราชนะ ไม่ใช่ความแม่นยำ
ฉันกำลังทำโปรเจกต์แปลงพจนานุกรม Shipibo (ภาษาชนพื้นเมืองเปรู)-สเปน ให้เป็นพจนานุกรม Shipibo-อังกฤษ
คุณภาพสแกน PDF ไม่ค่อยดี และมี เลย์เอาต์ 2 คอลัมน์ กับ header/footer ทำให้ OCR ล้มเหลวบ่อย
ต้องแยกตัวอย่างประโยค Shipibo ออกจากคำจำกัดความภาษาสเปน แล้วแปลเฉพาะภาษาอังกฤษ จึงซับซ้อนมาก
ทุกครั้งที่มีข่าว OCR/LLM ใหม่ ๆ ออกมา ฉันก็ลอง แต่ก็ผิดหวังทุกครั้ง
- ไม่รู้ว่าคุณสนใจการศึกษาธรรมเนียม Ayahuasca ไหม
  ในวัฒนธรรม Shipibo ไม่ใช่คนทั่วไป แต่เป็น maestra ที่ดื่ม Ayahuasca เพื่อวินิจฉัยโรค
  จะมี dieta (การถือพรตด้านอาหาร) ตามพืชแต่ละชนิด โดยจำกัดการใช้สบู่ การมีเพศสัมพันธ์ การกินเกลือ เป็นต้น
  ตามธรรมเนียมเดิมอาจนานเกิน 1 ปี ส่วนปัจจุบันมักย่อเหลือไม่กี่สัปดาห์
  ฉันประทับใจที่มีการศึกษายาสมุนไพรอย่างลึกซึ้งขนาดนี้
ฉันกำลังพยายามแปลงตำราคณิตศาสตร์เป็น markdown ที่มีสมการ LaTeX แต่ยังไม่มีโมเดล OCR ตัวไหนน่าพอใจ
วางแผนจะลองทดสอบเองใน OCR playground ของ Mistral
- ฉันเคยประมวลผลเอกสารหลายพันฉบับด้วยโมเดล Gemini Pro 3 vision และมัน แม่นยำทิ้งห่าง OCR ทุกตัวที่เคยใช้มา
  แม้แต่สมการก็แปลงเป็น LaTeX ได้สมบูรณ์
- อยากให้มาแชร์ผลลัพธ์ด้วยจริง ๆ
ฉันกำลังหา การแปลข้อความในภาพแบบแทนที่ตำแหน่งเดิม (in-place translation)
Mistral OCR3 เน้นการดึงข้อมูล จึงไม่ตรงกับงานที่ฉันต้องการ
ฉันอยากแปลข้อความใน artbook ภาษาต่างประเทศแล้วแสดงทับลงบนภาพในตำแหน่งเดิม แต่บริการเสียเงินที่มีอยู่มักล้มเหลวเพราะ การจัดวางข้อความที่ไม่เป็นมาตรฐาน
ตอนนี้เลยใช้ Google Lens ส่องหน้าจอเพื่อแปลอยู่ ซึ่งไม่สะดวก
Lens ที่ฝังใน Chrome ก็ยังต้องเลือกด้วยมือ เลยยังไม่อัตโนมัติเต็มที่
มีใครรู้ข่าวความคืบหน้าของฟีเจอร์แบบนี้ไหม?
- ถ้าจ่ายเงินได้ DEEPL หรือฟังก์ชันแปลเอกสารของ Word ก็ใช้ได้ดีพอสมควร
ช่วงนี้รู้สึกว่า Mistral กำลังไล่ตามแต่ ขอบนอกของฟีเจอร์ AI
ดูเหมือนตามหลัง OAI, Google, Anthropic และเหมือนการลงทุนระดับ EU ยังไม่พอ
- ฟีเจอร์ใช้งานจริงอย่างการประมวลผลฟอร์มต่างหากที่คนต้องการจริง
  มีค่ามากกว่าการสร้างมีมเยอะ
- การวิ่งตามบริษัทผู้นำแบบตรง ๆ เป็นเรื่องเสี่ยง
  เพราะตอนนี้ยังไม่มี โมเดลรายได้ ที่มั่นคง ดังนั้น Mistral ควรโฟกัสที่คุณภาพของโมเดลแกนหลักมากกว่า
  การรักษาคนเก่งไว้ใน EU พร้อมสร้างโมเดลที่ดีพอใช้ได้ คือเป้าหมายที่สมจริง
- EU กำลัง ‘ลงทุน’ กับ Mistral อย่างมาก — ครึ่งหนึ่งไปกับ การเก็บภาษี อีกครึ่งหนึ่งไปกับ การถกเถียงเรื่องกฎระเบียบ
- กฎระเบียบของ EU กำลังถ่วงไว้ จนท้ายที่สุดอาจถูกบริษัทอเมริกันซื้อกิจการ
- ถึงอย่างนั้น ฉันก็ยังคิดว่าดีกว่าทำตามคนอื่นแบบตรง ๆ
เห็นคนประเมินว่า Mistral ทำได้แย่กว่า OCR โอเพนซอร์สหลายตัวอย่าง Paddle, MinerU, MonkeyOCR ฯลฯ
ดูได้ที่ codesota.com/ocr
กำลังทดสอบ Mistral เพื่อใช้แทน MathPix
สคริปต์ Python นี้ เป็นต้นแบบบน Windows ที่ดักภาพจากคลิปบอร์ดแล้วส่งไป Mistral จากนั้น วางผลลัพธ์ Markdown ให้อัตโนมัติ
ปัญหาใหญ่ที่สุดของ Mistral คือ ไม่ตอบลูกค้าที่ติดต่อมา
การหลบอยู่หลังคำว่า “สอบถามราคา” ทำให้ต่อให้ดีกว่า SoTA ก็ไม่มีความหมาย
- ฉันเองก็เกลียด การต้องคุยกับฝ่ายขายแบบตัวต่อตัว มาก
  ต่อให้แพงกว่าและประสิทธิภาพแย่กว่า ฉันก็ยังเลือกบริการที่ไม่มีขั้นตอนแบบนั้น

เปิดตัว Mistral OCR 3

ประสิทธิภาพและคุณสมบัติหลัก

การปรับปรุงประสิทธิภาพและเบนช์มาร์ก

ด้านที่ได้รับการอัปเกรดหลัก

กรณีใช้งานและการประยุกต์ใช้

แนวทางการเข้าถึงและความเข้ากันได้

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News