- Mistral OCR คือ API ทำความเข้าใจเอกสารที่ดีที่สุดในโลก โดยมอบความสามารถในการเข้าใจและวิเคราะห์เอกสารได้แม่นยำกว่ารุ่นเดิม
- ดึง ข้อความ, สื่อ, สมการ, ตาราง จาก PDF และรูปภาพ แล้วแปลงเป็นเอาต์พุตแบบมีโครงสร้าง
- ขณะนี้ API ให้บริการที่ 1000 หน้า/1$ (หากประมวลผลแบบแบตช์ ต้นทุนต่อหน้าจะเหลือครึ่งหนึ่ง)
คุณสมบัติหลักของ Mistral OCR
- ความสามารถในการเข้าใจเอกสารที่ซับซ้อน: ตีความตาราง รูปภาพ สมการ และรูปแบบ LaTeX ได้อย่างแม่นยำ
- รองรับหลายภาษาและหลายโมดัล: รองรับหลากหลายภาษา ฟอนต์ และสคริปต์
- ประสิทธิภาพระดับแนวหน้าของอุตสาหกรรม: ทำคะแนนความแม่นยำได้สูงกว่าโมเดล OCR อื่น ๆ
- ความเร็วสูงสุด: ประมวลผลได้ 2000 หน้าต่อนาทีบนโหนดเดียว
- ใช้เอกสารเป็นพรอมป์ต์ได้: รองรับเอาต์พุตแบบมีโครงสร้าง เช่น JSON
- มีตัวเลือก on-premise (self-host): เหมาะสำหรับองค์กรที่ต้องการประมวลผลเอกสารลับ
การเข้าใจเอกสารที่ซับซ้อน
- Mistral OCR สามารถวิเคราะห์เชิงลึกเอกสารที่มี บทความวิชาการ กราฟ สมการ ตาราง และรูปภาพ ได้
- ดูได้จากโน้ตบุ๊กตัวอย่างว่า OCR ดึงข้อความและรูปภาพจาก PDF อย่างไร (ตัวอย่าง)
การเปรียบเทียบประสิทธิภาพ (Benchmark)
เมื่อเทียบกับ โมเดล OCR ชั้นนำอื่น ๆ แล้ว Mistral OCR ทำคะแนนสูงสุดในด้านประสิทธิภาพโดยรวม
- ประสิทธิภาพโดยรวม (Overall): 94.89 (สูงกว่าโมเดลอื่น)
- ประสิทธิภาพการวิเคราะห์สมการ (Math): 94.29 (สูงกว่า GPT-4o มากกว่า 7 คะแนน)
- ประสิทธิภาพการรู้จำหลายภาษา: 89.55
- ประสิทธิภาพการประมวลผลเอกสารสแกน (Scanned): 98.96
- ประสิทธิภาพการรู้จำตาราง (Table): 96.12 (โดดเด่นที่สุดเมื่อเทียบกับโมเดลอื่น)
การรองรับหลายภาษา
Mistral OCR สามารถ ประมวลผลภาษาและสคริปต์ที่หลากหลายจากทั่วโลก และเมื่อเทียบกับโมเดลหลักอื่น ๆ ก็ ทำผลงาน OCR ได้ดีที่สุดในทุกภาษา
- รัสเซีย (ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
- ฝรั่งเศส (fr): 99.20 (Azure 97.50, Google 96.36)
- จีน (zh): 97.11 (Azure 91.40, Google 90.89)
- เยอรมัน (de): 99.51 (Azure 98.39, Google 97.09)
ความเร็วในการประมวลผล
- Mistral OCR มีน้ำหนักเบากว่าโมเดล OCR เดิม และสามารถประมวลผลได้ สูงสุด 2000 หน้า/นาทีบนโหนดเดียว
- รองรับการเรียนรู้และการปรับปรุงอย่างต่อเนื่องในสภาพแวดล้อมที่ต้องประมวลผลเอกสารปริมาณมาก
ใช้เอกสารเป็นพรอมป์ต์ (Doc-as-prompt)
- สามารถดึงข้อมูลเฉพาะจากเอกสารและสร้าง เอาต์พุตแบบมีโครงสร้าง เช่น JSON ได้
- เชื่อมข้อมูลที่ดึงออกมากับกระบวนการ AI ขั้นถัดไปเพื่อทำงานอัตโนมัติได้
- ตัวอย่าง: ดึงข้อกำหนดเฉพาะจากเอกสารกฎหมาย แล้วสร้างคำตอบของ AI แชตบอต
ตัวเลือก on-premise (self-host)
- หากต้องการ ประมวลผลเอกสารลับภายในองค์กร ก็สามารถโฮสต์เองได้
- เหมาะสำหรับองค์กรและหน่วยงานที่ให้ความสำคัญกับความเป็นส่วนตัวและความปลอดภัยของข้อมูล
กรณีการใช้งานหลัก
- การแปลงงานวิจัยวิทยาศาสตร์เป็นดิจิทัล: แปลงบทความและวารสารให้อยู่ในรูปแบบที่ AI ประมวลผลได้ เพื่อเร่งความร่วมมือด้านการวิจัย
- การอนุรักษ์ประวัติศาสตร์และมรดกทางวัฒนธรรม: พิพิธภัณฑ์และองค์กรไม่แสวงหากำไรสามารถแปลงเอกสารประวัติศาสตร์เป็นดิจิทัลเพื่อเก็บรักษาและแบ่งปัน
- ปรับปรุงการบริการลูกค้า: ทำดัชนีคู่มือและเอกสารเพื่อเพิ่มความรวดเร็วในการตอบลูกค้า
- การใช้งาน AI กับงานออกแบบ การศึกษา และเอกสารกฎหมาย: ทำดัชนีแบบวิศวกรรม เอกสารการสอน และเอกสารกำกับดูแล เพื่อให้ค้นหาข้อมูลด้วย AI ได้
ลองใช้ Mistral OCR
- Mistral OCR ทดลองใช้ได้ฟรีบน Le Chat (Le Chat)
- API ใช้งานได้บน la Plateforme (ใช้งาน API)
- มีบริการดีพลอยแบบ on-premise และโซลูชันปรับแต่งสำหรับองค์กรด้วย (ติดต่อ)
2 ความคิดเห็น
ยังไม่มีข้อมูลเกี่ยวกับประสิทธิภาพภาษาเกาหลี แต่พอลองดึงมาใช้ดูก็เหมือนไม่แย่นะ
ความคิดเห็นจาก Hacker News
มีความเห็นว่า "ไม่เลว" แต่ยังคงเกิดอาการหลอนอยู่
ได้รันเบนช์มาร์กบางส่วนเพื่อเปรียบเทียบประสิทธิภาพของ Mistral กับ Marker
มีความคาดหวังว่าเมื่อเทคโนโลยี OCR พัฒนาขึ้น การอ่านงานวิจัยและหนังสือเรียนจะง่ายขึ้น
เทคโนโลยี OCR กำลังเข้าใกล้จุดที่แทบจะแก้ปัญหาได้แล้ว
มีความเห็นว่าในกรณีแปลงตำราแพทย์จาก PDF เป็น MD ผลลัพธ์ของ MinerU/PDF-Extract-Kit ดีกว่า
มีความเห็นว่าวันที่เทคโนโลยีพัฒนาไปจนแก้ไข PDF ได้มาถึงแล้ว
มีความเห็นว่ามันเร็วมากและแม่นยำกว่า Google, Claude เป็นต้น
ข้อเสียของการใช้ VLM ทั่วไปแทนโมเดลเฉพาะทางคือปรับให้เข้ากับกรณีเฉพาะได้ยาก
ต้องการหาคำอธิบายสั้น ๆ ว่าทำไม VLM OCR จึงเกิดอาการหลอน