13 คะแนน โดย GN⁺ 2025-03-07 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • Mistral OCR คือ API ทำความเข้าใจเอกสารที่ดีที่สุดในโลก โดยมอบความสามารถในการเข้าใจและวิเคราะห์เอกสารได้แม่นยำกว่ารุ่นเดิม
  • ดึง ข้อความ, สื่อ, สมการ, ตาราง จาก PDF และรูปภาพ แล้วแปลงเป็นเอาต์พุตแบบมีโครงสร้าง
  • ขณะนี้ API ให้บริการที่ 1000 หน้า/1$ (หากประมวลผลแบบแบตช์ ต้นทุนต่อหน้าจะเหลือครึ่งหนึ่ง)

คุณสมบัติหลักของ Mistral OCR

  • ความสามารถในการเข้าใจเอกสารที่ซับซ้อน: ตีความตาราง รูปภาพ สมการ และรูปแบบ LaTeX ได้อย่างแม่นยำ
  • รองรับหลายภาษาและหลายโมดัล: รองรับหลากหลายภาษา ฟอนต์ และสคริปต์
  • ประสิทธิภาพระดับแนวหน้าของอุตสาหกรรม: ทำคะแนนความแม่นยำได้สูงกว่าโมเดล OCR อื่น ๆ
  • ความเร็วสูงสุด: ประมวลผลได้ 2000 หน้าต่อนาทีบนโหนดเดียว
  • ใช้เอกสารเป็นพรอมป์ต์ได้: รองรับเอาต์พุตแบบมีโครงสร้าง เช่น JSON
  • มีตัวเลือก on-premise (self-host): เหมาะสำหรับองค์กรที่ต้องการประมวลผลเอกสารลับ

การเข้าใจเอกสารที่ซับซ้อน

  • Mistral OCR สามารถวิเคราะห์เชิงลึกเอกสารที่มี บทความวิชาการ กราฟ สมการ ตาราง และรูปภาพ ได้
  • ดูได้จากโน้ตบุ๊กตัวอย่างว่า OCR ดึงข้อความและรูปภาพจาก PDF อย่างไร (ตัวอย่าง)

การเปรียบเทียบประสิทธิภาพ (Benchmark)

เมื่อเทียบกับ โมเดล OCR ชั้นนำอื่น ๆ แล้ว Mistral OCR ทำคะแนนสูงสุดในด้านประสิทธิภาพโดยรวม

  • ประสิทธิภาพโดยรวม (Overall): 94.89 (สูงกว่าโมเดลอื่น)
  • ประสิทธิภาพการวิเคราะห์สมการ (Math): 94.29 (สูงกว่า GPT-4o มากกว่า 7 คะแนน)
  • ประสิทธิภาพการรู้จำหลายภาษา: 89.55
  • ประสิทธิภาพการประมวลผลเอกสารสแกน (Scanned): 98.96
  • ประสิทธิภาพการรู้จำตาราง (Table): 96.12 (โดดเด่นที่สุดเมื่อเทียบกับโมเดลอื่น)

การรองรับหลายภาษา

Mistral OCR สามารถ ประมวลผลภาษาและสคริปต์ที่หลากหลายจากทั่วโลก และเมื่อเทียบกับโมเดลหลักอื่น ๆ ก็ ทำผลงาน OCR ได้ดีที่สุดในทุกภาษา

  • รัสเซีย (ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
  • ฝรั่งเศส (fr): 99.20 (Azure 97.50, Google 96.36)
  • จีน (zh): 97.11 (Azure 91.40, Google 90.89)
  • เยอรมัน (de): 99.51 (Azure 98.39, Google 97.09)

ความเร็วในการประมวลผล

  • Mistral OCR มีน้ำหนักเบากว่าโมเดล OCR เดิม และสามารถประมวลผลได้ สูงสุด 2000 หน้า/นาทีบนโหนดเดียว
  • รองรับการเรียนรู้และการปรับปรุงอย่างต่อเนื่องในสภาพแวดล้อมที่ต้องประมวลผลเอกสารปริมาณมาก

ใช้เอกสารเป็นพรอมป์ต์ (Doc-as-prompt)

  • สามารถดึงข้อมูลเฉพาะจากเอกสารและสร้าง เอาต์พุตแบบมีโครงสร้าง เช่น JSON ได้
  • เชื่อมข้อมูลที่ดึงออกมากับกระบวนการ AI ขั้นถัดไปเพื่อทำงานอัตโนมัติได้
  • ตัวอย่าง: ดึงข้อกำหนดเฉพาะจากเอกสารกฎหมาย แล้วสร้างคำตอบของ AI แชตบอต

ตัวเลือก on-premise (self-host)

  • หากต้องการ ประมวลผลเอกสารลับภายในองค์กร ก็สามารถโฮสต์เองได้
  • เหมาะสำหรับองค์กรและหน่วยงานที่ให้ความสำคัญกับความเป็นส่วนตัวและความปลอดภัยของข้อมูล

กรณีการใช้งานหลัก

  1. การแปลงงานวิจัยวิทยาศาสตร์เป็นดิจิทัล: แปลงบทความและวารสารให้อยู่ในรูปแบบที่ AI ประมวลผลได้ เพื่อเร่งความร่วมมือด้านการวิจัย
  2. การอนุรักษ์ประวัติศาสตร์และมรดกทางวัฒนธรรม: พิพิธภัณฑ์และองค์กรไม่แสวงหากำไรสามารถแปลงเอกสารประวัติศาสตร์เป็นดิจิทัลเพื่อเก็บรักษาและแบ่งปัน
  3. ปรับปรุงการบริการลูกค้า: ทำดัชนีคู่มือและเอกสารเพื่อเพิ่มความรวดเร็วในการตอบลูกค้า
  4. การใช้งาน AI กับงานออกแบบ การศึกษา และเอกสารกฎหมาย: ทำดัชนีแบบวิศวกรรม เอกสารการสอน และเอกสารกำกับดูแล เพื่อให้ค้นหาข้อมูลด้วย AI ได้

ลองใช้ Mistral OCR

  • Mistral OCR ทดลองใช้ได้ฟรีบน Le Chat (Le Chat)
  • API ใช้งานได้บน la Plateforme (ใช้งาน API)
  • มีบริการดีพลอยแบบ on-premise และโซลูชันปรับแต่งสำหรับองค์กรด้วย (ติดต่อ)

2 ความคิดเห็น

 
taeha 2025-03-13

ยังไม่มีข้อมูลเกี่ยวกับประสิทธิภาพภาษาเกาหลี แต่พอลองดึงมาใช้ดูก็เหมือนไม่แย่นะ

 
GN⁺ 2025-03-07
ความคิดเห็นจาก Hacker News
  • มีความเห็นว่า "ไม่เลว" แต่ยังคงเกิดอาการหลอนอยู่

    • ในภาพตัวอย่าง ข้อความในบล็อกกลางถูกถอดออกมาได้อย่างถูกต้อง
    • แต่ในบล็อกถัดไป มีการทำข้อความบางส่วนจากบล็อกก่อนหน้าซ้ำ ใส่ข้อความบางส่วนของบล็อกถัดไปผิด และสร้างคำที่ไม่มีอยู่ขึ้นมา
    • ข้อความที่ถูกต้องคือ "Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679."
  • ได้รันเบนช์มาร์กบางส่วนเพื่อเปรียบเทียบประสิทธิภาพของ Mistral กับ Marker

    • จากผลที่ LLM ตัดสินในตัวอย่าง 375 ชุด Mistral ได้ 4.32 คะแนน และ Marker ได้ 4.41 คะแนน
    • Marker สามารถทำ inference ได้ 20~120 หน้าต่อวินาทีบน H100
    • สามารถดูตัวอย่างและโค้ดเบนช์มาร์กได้ที่ Hugging Face และ GitHub ตามลำดับ
    • Mistral OCR เป็นโมเดลที่น่าประทับใจ แต่ปัญหา OCR ก็ยังคงยากอยู่ดี
  • มีความคาดหวังว่าเมื่อเทคโนโลยี OCR พัฒนาขึ้น การอ่านงานวิจัยและหนังสือเรียนจะง่ายขึ้น

    • สามารถเชื่อมโยงการอ้างอิงรูปกับรูปจริงได้ จึงไม่รบกวนลำดับการอ่าน
    • แปลงเป็น HTML แบบสะอาดได้ ทำให้สามารถคลิกดูคำนิยามหรือเพิ่มคำถามเพื่อตรวจสอบความเข้าใจได้
    • ยังอาจมีความเป็นไปได้ที่จะผสาน Orbit SRS ของ Andy Matuschak เข้ากับ PDF โดยอัตโนมัติ
  • เทคโนโลยี OCR กำลังเข้าใกล้จุดที่แทบจะแก้ปัญหาได้แล้ว

    • แต่ในภาคธุรกิจยังคงมีช่องว่างใหญ่มากในการเปลี่ยนจาก raw OCR output ไปสู่การประมวลผลเอกสาร
    • LLM และ VLM ไม่ใช่เวทมนตร์ และการคาดหวังระบบอัตโนมัติ 100% ก็เกินจริง
    • ยังจำเป็นต้องมีการสร้างชุดข้อมูล ปรับแต่ง pipeline ตรวจจับความไม่แน่นอน และแก้ไขผ่านการแทรกแซงของมนุษย์
  • มีความเห็นว่าในกรณีแปลงตำราแพทย์จาก PDF เป็น MD ผลลัพธ์ของ MinerU/PDF-Extract-Kit ดีกว่า

    • ลิงก์ Colab ในบทความใช้ไม่ได้ แต่พบลิงก์ที่ใช้งานได้ในเอกสารแล้ว
  • มีความเห็นว่าวันที่เทคโนโลยีพัฒนาไปจนแก้ไข PDF ได้มาถึงแล้ว

    • แต่ปัญหา OCR ของคลัง PDF ที่มีข้อมูลส่วนบุคคลก็ยังไม่ได้รับการแก้ไขอยู่ดี
  • มีความเห็นว่ามันเร็วมากและแม่นยำกว่า Google, Claude เป็นต้น

    • ราคาอยู่ที่ $1 ต่อ 1000 หน้า และในกรณีแบตช์จะคิดราคาที่ 2000 หน้า
    • มีความเห็นว่ามันยอดเยี่ยมสำหรับการแปลง PDF เป็น Markdown
  • ข้อเสียของการใช้ VLM ทั่วไปแทนโมเดลเฉพาะทางคือปรับให้เข้ากับกรณีเฉพาะได้ยาก

    • ตัวอย่างเช่น ใช้ Gemini เพื่อเพิ่ม alt text ที่เฉพาะเจาะจงมากให้กับ Markdown ที่สกัดออกมา
    • แม้จะมีค่าใช้จ่ายสูงกว่า Gemini Flash 2~3 เท่า แต่การเพิ่มขึ้นของประสิทธิภาพก็สำคัญ
  • ต้องการหาคำอธิบายสั้น ๆ ว่าทำไม VLM OCR จึงเกิดอาการหลอน