เปิดตัว Mistral OCR - API ทำความเข้าใจเอกสารที่ดีที่สุด

(mistral.ai)

13 คะแนน โดย GN⁺ 2025-03-07 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Mistral OCR คือ API ทำความเข้าใจเอกสารที่ดีที่สุดในโลก โดยมอบความสามารถในการเข้าใจและวิเคราะห์เอกสารได้แม่นยำกว่ารุ่นเดิม
ดึง ข้อความ, สื่อ, สมการ, ตาราง จาก PDF และรูปภาพ แล้วแปลงเป็นเอาต์พุตแบบมีโครงสร้าง
ขณะนี้ API ให้บริการที่ 1000 หน้า/1$ (หากประมวลผลแบบแบตช์ ต้นทุนต่อหน้าจะเหลือครึ่งหนึ่ง)

คุณสมบัติหลักของ Mistral OCR

ความสามารถในการเข้าใจเอกสารที่ซับซ้อน: ตีความตาราง รูปภาพ สมการ และรูปแบบ LaTeX ได้อย่างแม่นยำ
รองรับหลายภาษาและหลายโมดัล: รองรับหลากหลายภาษา ฟอนต์ และสคริปต์
ประสิทธิภาพระดับแนวหน้าของอุตสาหกรรม: ทำคะแนนความแม่นยำได้สูงกว่าโมเดล OCR อื่น ๆ
ความเร็วสูงสุด: ประมวลผลได้ 2000 หน้าต่อนาทีบนโหนดเดียว
ใช้เอกสารเป็นพรอมป์ต์ได้: รองรับเอาต์พุตแบบมีโครงสร้าง เช่น JSON
มีตัวเลือก on-premise (self-host): เหมาะสำหรับองค์กรที่ต้องการประมวลผลเอกสารลับ

การเข้าใจเอกสารที่ซับซ้อน

Mistral OCR สามารถวิเคราะห์เชิงลึกเอกสารที่มี บทความวิชาการ กราฟ สมการ ตาราง และรูปภาพ ได้
ดูได้จากโน้ตบุ๊กตัวอย่างว่า OCR ดึงข้อความและรูปภาพจาก PDF อย่างไร (ตัวอย่าง)

การเปรียบเทียบประสิทธิภาพ (Benchmark)

เมื่อเทียบกับ โมเดล OCR ชั้นนำอื่น ๆ แล้ว Mistral OCR ทำคะแนนสูงสุดในด้านประสิทธิภาพโดยรวม

ประสิทธิภาพโดยรวม (Overall): 94.89 (สูงกว่าโมเดลอื่น)
ประสิทธิภาพการวิเคราะห์สมการ (Math): 94.29 (สูงกว่า GPT-4o มากกว่า 7 คะแนน)
ประสิทธิภาพการรู้จำหลายภาษา: 89.55
ประสิทธิภาพการประมวลผลเอกสารสแกน (Scanned): 98.96
ประสิทธิภาพการรู้จำตาราง (Table): 96.12 (โดดเด่นที่สุดเมื่อเทียบกับโมเดลอื่น)

การรองรับหลายภาษา

Mistral OCR สามารถ ประมวลผลภาษาและสคริปต์ที่หลากหลายจากทั่วโลก และเมื่อเทียบกับโมเดลหลักอื่น ๆ ก็ ทำผลงาน OCR ได้ดีที่สุดในทุกภาษา

รัสเซีย (ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
ฝรั่งเศส (fr): 99.20 (Azure 97.50, Google 96.36)
จีน (zh): 97.11 (Azure 91.40, Google 90.89)
เยอรมัน (de): 99.51 (Azure 98.39, Google 97.09)

ความเร็วในการประมวลผล

Mistral OCR มีน้ำหนักเบากว่าโมเดล OCR เดิม และสามารถประมวลผลได้ สูงสุด 2000 หน้า/นาทีบนโหนดเดียว
รองรับการเรียนรู้และการปรับปรุงอย่างต่อเนื่องในสภาพแวดล้อมที่ต้องประมวลผลเอกสารปริมาณมาก

ใช้เอกสารเป็นพรอมป์ต์ (Doc-as-prompt)

สามารถดึงข้อมูลเฉพาะจากเอกสารและสร้าง เอาต์พุตแบบมีโครงสร้าง เช่น JSON ได้
เชื่อมข้อมูลที่ดึงออกมากับกระบวนการ AI ขั้นถัดไปเพื่อทำงานอัตโนมัติได้
ตัวอย่าง: ดึงข้อกำหนดเฉพาะจากเอกสารกฎหมาย แล้วสร้างคำตอบของ AI แชตบอต

ตัวเลือก on-premise (self-host)

หากต้องการ ประมวลผลเอกสารลับภายในองค์กร ก็สามารถโฮสต์เองได้
เหมาะสำหรับองค์กรและหน่วยงานที่ให้ความสำคัญกับความเป็นส่วนตัวและความปลอดภัยของข้อมูล

กรณีการใช้งานหลัก

การแปลงงานวิจัยวิทยาศาสตร์เป็นดิจิทัล: แปลงบทความและวารสารให้อยู่ในรูปแบบที่ AI ประมวลผลได้ เพื่อเร่งความร่วมมือด้านการวิจัย
การอนุรักษ์ประวัติศาสตร์และมรดกทางวัฒนธรรม: พิพิธภัณฑ์และองค์กรไม่แสวงหากำไรสามารถแปลงเอกสารประวัติศาสตร์เป็นดิจิทัลเพื่อเก็บรักษาและแบ่งปัน
ปรับปรุงการบริการลูกค้า: ทำดัชนีคู่มือและเอกสารเพื่อเพิ่มความรวดเร็วในการตอบลูกค้า
การใช้งาน AI กับงานออกแบบ การศึกษา และเอกสารกฎหมาย: ทำดัชนีแบบวิศวกรรม เอกสารการสอน และเอกสารกำกับดูแล เพื่อให้ค้นหาข้อมูลด้วย AI ได้

ลองใช้ Mistral OCR

Mistral OCR ทดลองใช้ได้ฟรีบน Le Chat (Le Chat)
API ใช้งานได้บน la Plateforme (ใช้งาน API)
มีบริการดีพลอยแบบ on-premise และโซลูชันปรับแต่งสำหรับองค์กรด้วย (ติดต่อ)

2 ความคิดเห็น

taeha 2025-03-13

ยังไม่มีข้อมูลเกี่ยวกับประสิทธิภาพภาษาเกาหลี แต่พอลองดึงมาใช้ดูก็เหมือนไม่แย่นะ

GN⁺ 2025-03-07

ความคิดเห็นจาก Hacker News

มีความเห็นว่า "ไม่เลว" แต่ยังคงเกิดอาการหลอนอยู่
- ในภาพตัวอย่าง ข้อความในบล็อกกลางถูกถอดออกมาได้อย่างถูกต้อง
- แต่ในบล็อกถัดไป มีการทำข้อความบางส่วนจากบล็อกก่อนหน้าซ้ำ ใส่ข้อความบางส่วนของบล็อกถัดไปผิด และสร้างคำที่ไม่มีอยู่ขึ้นมา
- ข้อความที่ถูกต้องคือ "Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679."
ได้รันเบนช์มาร์กบางส่วนเพื่อเปรียบเทียบประสิทธิภาพของ Mistral กับ Marker
- จากผลที่ LLM ตัดสินในตัวอย่าง 375 ชุด Mistral ได้ 4.32 คะแนน และ Marker ได้ 4.41 คะแนน
- Marker สามารถทำ inference ได้ 20~120 หน้าต่อวินาทีบน H100
- สามารถดูตัวอย่างและโค้ดเบนช์มาร์กได้ที่ Hugging Face และ GitHub ตามลำดับ
- Mistral OCR เป็นโมเดลที่น่าประทับใจ แต่ปัญหา OCR ก็ยังคงยากอยู่ดี
มีความคาดหวังว่าเมื่อเทคโนโลยี OCR พัฒนาขึ้น การอ่านงานวิจัยและหนังสือเรียนจะง่ายขึ้น
- สามารถเชื่อมโยงการอ้างอิงรูปกับรูปจริงได้ จึงไม่รบกวนลำดับการอ่าน
- แปลงเป็น HTML แบบสะอาดได้ ทำให้สามารถคลิกดูคำนิยามหรือเพิ่มคำถามเพื่อตรวจสอบความเข้าใจได้
- ยังอาจมีความเป็นไปได้ที่จะผสาน Orbit SRS ของ Andy Matuschak เข้ากับ PDF โดยอัตโนมัติ
เทคโนโลยี OCR กำลังเข้าใกล้จุดที่แทบจะแก้ปัญหาได้แล้ว
- แต่ในภาคธุรกิจยังคงมีช่องว่างใหญ่มากในการเปลี่ยนจาก raw OCR output ไปสู่การประมวลผลเอกสาร
- LLM และ VLM ไม่ใช่เวทมนตร์ และการคาดหวังระบบอัตโนมัติ 100% ก็เกินจริง
- ยังจำเป็นต้องมีการสร้างชุดข้อมูล ปรับแต่ง pipeline ตรวจจับความไม่แน่นอน และแก้ไขผ่านการแทรกแซงของมนุษย์
มีความเห็นว่าในกรณีแปลงตำราแพทย์จาก PDF เป็น MD ผลลัพธ์ของ MinerU/PDF-Extract-Kit ดีกว่า
- ลิงก์ Colab ในบทความใช้ไม่ได้ แต่พบลิงก์ที่ใช้งานได้ในเอกสารแล้ว
มีความเห็นว่าวันที่เทคโนโลยีพัฒนาไปจนแก้ไข PDF ได้มาถึงแล้ว
- แต่ปัญหา OCR ของคลัง PDF ที่มีข้อมูลส่วนบุคคลก็ยังไม่ได้รับการแก้ไขอยู่ดี
มีความเห็นว่ามันเร็วมากและแม่นยำกว่า Google, Claude เป็นต้น
- ราคาอยู่ที่ $1 ต่อ 1000 หน้า และในกรณีแบตช์จะคิดราคาที่ 2000 หน้า
- มีความเห็นว่ามันยอดเยี่ยมสำหรับการแปลง PDF เป็น Markdown
ข้อเสียของการใช้ VLM ทั่วไปแทนโมเดลเฉพาะทางคือปรับให้เข้ากับกรณีเฉพาะได้ยาก
- ตัวอย่างเช่น ใช้ Gemini เพื่อเพิ่ม alt text ที่เฉพาะเจาะจงมากให้กับ Markdown ที่สกัดออกมา
- แม้จะมีค่าใช้จ่ายสูงกว่า Gemini Flash 2~3 เท่า แต่การเพิ่มขึ้นของประสิทธิภาพก็สำคัญ
ต้องการหาคำอธิบายสั้น ๆ ว่าทำไม VLM OCR จึงเกิดอาการหลอน