2 คะแนน โดย GN⁺ 2025-12-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดล OCR รุ่นถัดไปที่ยกระดับทั้งความแม่นยำและประสิทธิภาพในการประมวลผลเอกสารพร้อมกัน โดยให้ประสิทธิภาพการรู้จำสูงกับเอกสารหลายประเภท
  • ทำสถิติ**ประสิทธิภาพโดยรวมดีขึ้น 74%**เมื่อเทียบกับเวอร์ชันก่อนหน้า และให้ผลลัพธ์ยอดเยี่ยมกับลายมือ แบบฟอร์ม ตารางซับซ้อน และเอกสารสแกน
  • รองรับการสร้างตารางกลับเป็น HTMLและการส่งออกเป็น Markdown ทำให้สามารถรักษาข้อมูลเชิงโครงสร้างของเอกสารไว้ได้
  • 2 ดอลลาร์ต่อ 1,000 หน้า และลดราคา 50% เมื่อประมวลผลปริมาณมาก ช่วยให้มีความคุ้มค่าด้านต้นทุน
  • เป็นเทคโนโลยี OCR ที่รองรับการใช้งานได้กว้าง ตั้งแต่ไปป์ไลน์เอกสารระดับองค์กรขนาดใหญ่ไปจนถึงเวิร์กโฟลว์เอกสารแบบอินเทอร์แอกทีฟ และกำลังกลายเป็นโครงสร้างพื้นฐานสำคัญสำหรับการใช้ข้อมูลบนพื้นฐานของ generative AI

ประสิทธิภาพและคุณสมบัติหลัก

  • Mistral OCR 3 สามารถทำการดึงข้อความและภาพที่ฝังอยู่จากเอกสารหลากหลายประเภทได้อย่างแม่นยำสูง
    • รองรับการส่งออกเป็น Markdown และความสามารถในการสร้างตารางกลับเป็น HTML ทำให้รับรู้ได้ไม่เพียงเนื้อหาเอกสาร แต่รวมถึงโครงสร้างด้วย
    • โมเดลมีขนาดเล็ก จึงให้บริการด้วยต้นทุนต่ำกว่าโซลูชันคู่แข่ง โดยมีราคา 2 ดอลลาร์ต่อ 1,000 หน้า และใช้งานได้ที่ 1 ดอลลาร์เมื่อใช้ Batch API
  • สามารถผสานรวมโมเดล mistral-ocr-2512 ผ่าน API หรือใช้ผ่าน UI ของ Document AI Playground เพื่อแปลง PDF และรูปภาพเป็นข้อความหรือ JSON แบบมีโครงสร้างได้

การปรับปรุงประสิทธิภาพและเบนช์มาร์ก

  • ในเบนช์มาร์กภายในทำสถิติอัตราชนะ 74% เมื่อเทียบกับ Mistral OCR 2
    • การทดสอบอ้างอิงจากกรณีธุรกิจจริงของลูกค้า และประเมินความแม่นยำด้วยfuzzy-match metric
  • ทำความแม่นยำได้เหนือกว่าทั้งโซลูชันประมวลผลเอกสารระดับองค์กรและ OCR ที่ขับเคลื่อนด้วย AI

ด้านที่ได้รับการอัปเกรดหลัก

  • การรู้จำลายมือ: ตีความลายมือ คำอธิบายประกอบแบบผสม และข้อความเขียนมือบนแบบฟอร์มที่พิมพ์ไว้ได้อย่างแม่นยำ
  • การประมวลผลแบบฟอร์ม: ปรับปรุงการรับรู้ช่อง กล่อง ป้ายกำกับ ข้อความเขียนมือ และเลย์เอาต์ที่ซับซ้อน
  • เอกสารสแกนและเอกสารซับซ้อน: ทนทานต่อความเสียหายจากการบีบอัด ความบิดเบี้ยว ความละเอียดต่ำ และสัญญาณรบกวนพื้นหลังได้ดี
  • โครงสร้างตารางซับซ้อน: สร้างตารางที่มีหัวตาราง เซลล์ที่ถูกรวม และลำดับชั้นหลายแถว·หลายคอลัมน์กลับมาได้ครบถ้วนด้วยแท็ก HTML (colspan/rowspan)
  • มีประสิทธิภาพโดยรวมดีขึ้นเมื่อเทียบกับ Mistral OCR 2ในทุกภาษาและทุกรูปแบบเอกสาร

กรณีใช้งานและการประยุกต์ใช้

  • เหมาะทั้งกับไปป์ไลน์เอกสารระดับองค์กรขนาดใหญ่และเวิร์กโฟลว์เอกสารแบบอินเทอร์แอกทีฟ
    • รองรับการแปลงเป็น Markdown หลังดึงข้อความและภาพ, การพาร์สแบบฟอร์มและใบแจ้งหนี้อัตโนมัติ, การสร้างไปป์ไลน์ทำความเข้าใจเอกสาร, และการดิจิไทซ์ลายมือกับเอกสารประวัติศาสตร์
  • ลูกค้ากลุ่มแรกนำไปใช้แปลงใบแจ้งหนี้เป็นฟิลด์แบบมีโครงสร้าง, ดิจิไทซ์คลังเอกสารองค์กร, ดึงข้อความจากรายงานทางเทคนิคและวิทยาศาสตร์, และปรับปรุงการค้นหาระดับองค์กร
  • Tim Law จาก IDC กล่าวว่า “OCR คือเทคโนโลยีพื้นฐานของ generative AI และ agentic AI และความสามารถในการดึงข้อความที่แม่นยำสูงในต้นทุนต่ำเป็นตัวตัดสินความสามารถในการแข่งขันด้านการใช้ประโยชน์จากข้อมูล”

แนวทางการเข้าถึงและความเข้ากันได้

  • ใช้งานได้ทันทีผ่านAPIหรืออินเทอร์เฟซDocument AI Playground
  • เข้ากันได้กับ Mistral OCR 2 อย่างสมบูรณ์ ทำให้อัปเกรดจากระบบเดิมได้ง่าย
  • ดูเอกสารรายละเอียดได้ที่ mistral.ai/docs

1 ความคิดเห็น

 
GN⁺ 2025-12-20
ความคิดเห็นบน Hacker News
  • ดูวิดีโอนี้บน Twitter แล้วก็สงสัยว่าทำไม Mistral ถึงไม่เปรียบเทียบกับ โมเดล SoTA ล่าสุด
    น่าจะดีถ้าเทียบกับโมเดลอย่าง Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR, PaddleOCR

    • ในฐานะคนที่ทำงานด้านการดึงข้อมูลจากเอกสารมาเยอะ น้ำเสียงของทวีตนั้นค่อนข้างน่ารำคาญ แต่เนื้อหาที่พูดก็ถูกต้อง
      Mistral กำลังเทียบกับบริการ computer vision ทั่วไป ไม่ใช่ โมเดลที่อิง VLM
      แบบแรกเข้าใจเอกสารได้ดีกว่า แต่แบบหลังให้ bounding box ที่แม่นยำ
      รูปแบบความล้มเหลวก็ต่างกัน — VLM อาจอ่านทั้งประโยคผิด ส่วนโมเดล vision มักผิดระดับพิมพ์ผิดในคำ
    • กดลิงก์ไปดูแล้ว รู้สึกว่าบรรยากาศบน Twitter ตอนนี้ แปลกไปมาก เมื่อเทียบกับเมื่อก่อน
    • อยากเห็นการเปรียบเทียบกับ Qwen 3 VL 235B-A22B ด้วย จากประสบการณ์ของฉันมันดีกว่า MinerU มาก
  • ในช่วง 3 เดือนที่ผ่านมา มี โมเดล OCR โอเพนซอร์สออกมาเยอะมาก
    โดยเฉพาะโมเดลที่มีพารามิเตอร์ไม่ถึง 1B ก็ยังรันบน edge device ได้ดี
    น่าจะเปรียบเทียบกับโมเดลอย่าง paddleOCR-VL, olmOCR-2, chandra, dots.ocr
    น่าเสียดายที่แทบไม่มี leaderboard หรือ arena เกี่ยวกับ OCR หรือ CV เลย

    • เมื่อประมาณเดือนก่อนมีโปรเจกต์ชื่อ ocrarena.ai โผล่ขึ้นมา
      เป็นแนวให้โมเดลมาสู้กันแบบ llmarena แต่ยังไม่ได้อัปเดต Mistral
      ตอนนี้ Gemini อยู่อันดับบน ๆ
    • ข้อดีของ MistralOCR คือ โครงสร้างราคาที่เรียบง่าย — $1 ต่อ 1,000 หน้า และมี API แบบโฮสต์บนเซิร์ฟเวอร์ให้
      OCR เจ้าอื่นคิดตามโทเค็น ทำให้คำนวณต้นทุนจริงได้ยาก
      ตัวอย่างเช่น Gemini 3.0 flash ดูเผิน ๆ เหมือนราคาพอ ๆ กัน แต่ถ้าคิดตามโทเค็นจริงจะแพงกว่าราว 3 เท่า
    • ฉันเคยลองติดตั้ง paddleOCR แต่ยอมแพ้ตอนต้องติดตั้ง dependency ของ PyTorch ขนาด 12GB แล้วเจอชนกันของเวอร์ชัน
      เลยให้ Claude ใช้สิทธิ์ root ติดตั้งแทน ดูเหมือนมันจะสนุกกับงานนี้มากกว่าฉันอีก
      ตอนติดตั้ง open web UI ก็เจอประสบการณ์คล้ายกัน สุดท้ายเลยเขียนฟังก์ชันที่ต้องใช้เองด้วย HTML 100 บรรทัด
      ถ้า OCR ทำให้เรียบง่ายแบบนั้นได้ก็คงดี
    • codesota.com/ocr ก็น่าดูเช่นกัน
  • แม้ Mistral OCR 3 จะบอกว่าเหมาะกับ pipeline ระดับองค์กรขนาดใหญ่ แต่ด้วย ความแม่นยำ 79% ก็ยังยากจะเชื่อถือ
    ในงานวารสารวิทยาศาสตร์ ความผิดพลาดอย่าง 2.9+0.5 กลายเป็น 29+0.5 ถือว่าร้ายแรงมาก
    สุดท้ายก็ยังต้องมีมนุษย์ตรวจทุกขั้นตอน

    • กรณีแบบนี้ datalab.to ค่อนข้างโอเค
    • 79% น่าจะเป็นตัวเลข อัตราชนะ ไม่ใช่ความแม่นยำ
  • ฉันกำลังทำโปรเจกต์แปลงพจนานุกรม Shipibo (ภาษาชนพื้นเมืองเปรู)-สเปน ให้เป็นพจนานุกรม Shipibo-อังกฤษ
    คุณภาพสแกน PDF ไม่ค่อยดี และมี เลย์เอาต์ 2 คอลัมน์ กับ header/footer ทำให้ OCR ล้มเหลวบ่อย
    ต้องแยกตัวอย่างประโยค Shipibo ออกจากคำจำกัดความภาษาสเปน แล้วแปลเฉพาะภาษาอังกฤษ จึงซับซ้อนมาก
    ทุกครั้งที่มีข่าว OCR/LLM ใหม่ ๆ ออกมา ฉันก็ลอง แต่ก็ผิดหวังทุกครั้ง

    • ไม่รู้ว่าคุณสนใจการศึกษาธรรมเนียม Ayahuasca ไหม
      ในวัฒนธรรม Shipibo ไม่ใช่คนทั่วไป แต่เป็น maestra ที่ดื่ม Ayahuasca เพื่อวินิจฉัยโรค
      จะมี dieta (การถือพรตด้านอาหาร) ตามพืชแต่ละชนิด โดยจำกัดการใช้สบู่ การมีเพศสัมพันธ์ การกินเกลือ เป็นต้น
      ตามธรรมเนียมเดิมอาจนานเกิน 1 ปี ส่วนปัจจุบันมักย่อเหลือไม่กี่สัปดาห์
      ฉันประทับใจที่มีการศึกษายาสมุนไพรอย่างลึกซึ้งขนาดนี้
  • ฉันกำลังพยายามแปลงตำราคณิตศาสตร์เป็น markdown ที่มีสมการ LaTeX แต่ยังไม่มีโมเดล OCR ตัวไหนน่าพอใจ
    วางแผนจะลองทดสอบเองใน OCR playground ของ Mistral

    • ฉันเคยประมวลผลเอกสารหลายพันฉบับด้วยโมเดล Gemini Pro 3 vision และมัน แม่นยำทิ้งห่าง OCR ทุกตัวที่เคยใช้มา
      แม้แต่สมการก็แปลงเป็น LaTeX ได้สมบูรณ์
    • อยากให้มาแชร์ผลลัพธ์ด้วยจริง ๆ
  • ฉันกำลังหา การแปลข้อความในภาพแบบแทนที่ตำแหน่งเดิม (in-place translation)
    Mistral OCR3 เน้นการดึงข้อมูล จึงไม่ตรงกับงานที่ฉันต้องการ
    ฉันอยากแปลข้อความใน artbook ภาษาต่างประเทศแล้วแสดงทับลงบนภาพในตำแหน่งเดิม แต่บริการเสียเงินที่มีอยู่มักล้มเหลวเพราะ การจัดวางข้อความที่ไม่เป็นมาตรฐาน
    ตอนนี้เลยใช้ Google Lens ส่องหน้าจอเพื่อแปลอยู่ ซึ่งไม่สะดวก
    Lens ที่ฝังใน Chrome ก็ยังต้องเลือกด้วยมือ เลยยังไม่อัตโนมัติเต็มที่
    มีใครรู้ข่าวความคืบหน้าของฟีเจอร์แบบนี้ไหม?

    • ถ้าจ่ายเงินได้ DEEPL หรือฟังก์ชันแปลเอกสารของ Word ก็ใช้ได้ดีพอสมควร
  • ช่วงนี้รู้สึกว่า Mistral กำลังไล่ตามแต่ ขอบนอกของฟีเจอร์ AI
    ดูเหมือนตามหลัง OAI, Google, Anthropic และเหมือนการลงทุนระดับ EU ยังไม่พอ

    • ฟีเจอร์ใช้งานจริงอย่างการประมวลผลฟอร์มต่างหากที่คนต้องการจริง
      มีค่ามากกว่าการสร้างมีมเยอะ
    • การวิ่งตามบริษัทผู้นำแบบตรง ๆ เป็นเรื่องเสี่ยง
      เพราะตอนนี้ยังไม่มี โมเดลรายได้ ที่มั่นคง ดังนั้น Mistral ควรโฟกัสที่คุณภาพของโมเดลแกนหลักมากกว่า
      การรักษาคนเก่งไว้ใน EU พร้อมสร้างโมเดลที่ดีพอใช้ได้ คือเป้าหมายที่สมจริง
    • EU กำลัง ‘ลงทุน’ กับ Mistral อย่างมาก — ครึ่งหนึ่งไปกับ การเก็บภาษี อีกครึ่งหนึ่งไปกับ การถกเถียงเรื่องกฎระเบียบ
    • กฎระเบียบของ EU กำลังถ่วงไว้ จนท้ายที่สุดอาจถูกบริษัทอเมริกันซื้อกิจการ
    • ถึงอย่างนั้น ฉันก็ยังคิดว่าดีกว่าทำตามคนอื่นแบบตรง ๆ
  • เห็นคนประเมินว่า Mistral ทำได้แย่กว่า OCR โอเพนซอร์สหลายตัวอย่าง Paddle, MinerU, MonkeyOCR ฯลฯ
    ดูได้ที่ codesota.com/ocr

  • กำลังทดสอบ Mistral เพื่อใช้แทน MathPix
    สคริปต์ Python นี้ เป็นต้นแบบบน Windows ที่ดักภาพจากคลิปบอร์ดแล้วส่งไป Mistral จากนั้น วางผลลัพธ์ Markdown ให้อัตโนมัติ

  • ปัญหาใหญ่ที่สุดของ Mistral คือ ไม่ตอบลูกค้าที่ติดต่อมา
    การหลบอยู่หลังคำว่า “สอบถามราคา” ทำให้ต่อให้ดีกว่า SoTA ก็ไม่มีความหมาย

    • ฉันเองก็เกลียด การต้องคุยกับฝ่ายขายแบบตัวต่อตัว มาก
      ต่อให้แพงกว่าและประสิทธิภาพแย่กว่า ฉันก็ยังเลือกบริการที่ไม่มีขั้นตอนแบบนั้น