เปิดตัว Mistral OCR 4

(mistral.ai)

1 คะแนน โดย GN⁺ 3 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Mistral OCR 4 ที่ Mistral AI เปิดตัว เป็นโมเดลทำความเข้าใจเอกสารที่ก้าวข้าม OCR แบบดึงเฉพาะข้อความ โดยสามารถส่งคืนทั้ง bounding box, การจัดประเภทบล็อก, และคะแนนความเชื่อมั่นแบบอินไลน์ได้พร้อมกัน
รองรับ 170 ภาษา ใน 10 กลุ่มภาษา และรองรับการ self-host บนคอนเทนเนอร์เดี่ยว จึงเหมาะกับไปป์ไลน์รวบรวมเอกสารขององค์กรที่ให้ความสำคัญกับ data sovereignty และ compliance
ในการประเมินความพึงพอใจของมนุษย์ ทำอัตราชนะเฉลี่ยได้ 72% และยังได้คะแนนสูงในการประเมินทั้งแบบสาธารณะและภายใน เช่น OlmOCRBench 85.20, OmniDocBench 93.07
อย่างไรก็ตาม คะแนน benchmark ควรพิจารณาควบคู่กับการประเมินเอกสารจริง เนื่องจากมี ข้อจำกัดด้านการให้คะแนน เช่น ความผิดพลาดของคำตอบอ้างอิง, การเขียนสูตรที่เทียบเท่ากัน, ลำดับการอ่านหลายคอลัมน์, และการจัดการ header/footer
API มีราคา $4 ต่อ 1,000 หน้า, Batch API $2, และ Document AI $5 โดยหากต้องการการดึงข้อมูลดิบ OCR 4 ก็เพียงพอ แต่ถ้าต้องการ structured JSON, image annotation หรือ custom prompt เส้นทาง Document AI จะเหมาะกว่า

การแสดงผลเอกสารแบบมีโครงสร้างที่ OCR 4 ส่งคืน

OCR 4 สามารถดึงและจัดโครงสร้างเนื้อหาจากเอกสารหลากหลายประเภท และไม่ได้หยุดอยู่แค่ข้อความสะอาดและการแปลงตารางแบบรุ่นก่อนหน้า แต่ยังให้ structured representation มาด้วย
แต่ละบล็อกมี bounding box, ประเภทบล็อก, และคะแนนความเชื่อมั่นแบบอินไลน์ในระดับหน้าและระดับคำ
- ระบบ downstream สามารถใช้ได้ไม่เพียงแค่เนื้อหาเอกสาร แต่รวมถึงตำแหน่ง บทบาท และระดับความเชื่อมั่นของแต่ละองค์ประกอบด้วย
เวิร์กโฟลว์การใช้งานหลักมีดังนี้
- semantic chunking สำหรับ RAG: ใช้บล็อกที่จัดระเบียบและจัดประเภทแล้วเป็นหน่วยค้นคืน
- structured primitive สำหรับเอเจนต์: รองรับการกรอกฟอร์ม, การประมวลผลใบแจ้งหนี้, และการตรวจสอบ compliance
- structured content สำหรับ connector: ให้เอาต์พุตชนิดข้อมูลที่สม่ำเสมอแก่ไปป์ไลน์รวบรวมและทำดัชนี

รูปแบบ, ภาษา, และวิธีการติดตั้งใช้งาน

รูปแบบอินพุตรองรับ enterprise document format ทั่วไป เช่น PDF, DOC, PPT และ OpenDocument
รองรับ 170 ภาษา ใน 10 กลุ่มภาษา รวมถึงภาษาวิชาชีพและภาษาทรัพยากรต่ำที่หลายระบบยังทำได้ไม่ดี
โมเดลมีขนาดเล็กพอที่จะ deploy ในคอนเทนเนอร์เดี่ยวได้ จึงเหมาะกับสภาพแวดล้อมที่ไวต่อค่าใช้จ่ายและต้องการ throughput สูง
รองรับการทำงานแบบ self-hosting เต็มรูปแบบ ดังนั้นองค์กรที่มีข้อกำหนดด้าน data sovereignty สามารถเก็บข้อมูลเอกสารไว้ในโครงสร้างพื้นฐานของตนเองได้
การติดตั้งใช้งานแบบ self-managed มีให้สำหรับลูกค้าองค์กร

ราคาและช่องทางการใช้งาน

นักพัฒนาสามารถผสานโมเดลผ่าน API ได้ และทีมงานสามารถใช้เอนจินเดียวกันในรูปแบบแอปพลิเคชัน no-code ผ่าน Document AI บน Mistral Studio
ราคามีดังนี้
- OCR 4 API: $4 ต่อ 1,000 หน้า
- เมื่อใช้ส่วนลด 50% ของ Batch API: $2 ต่อ 1,000 หน้า
- Document AI: $5 ต่อ 1,000 หน้า
OCR 4 ถูกผสานเป็นคอมโพเนนต์สำหรับการรวบรวมข้อมูลใน Mistral Search Toolkit เพื่อป้อนอินพุตที่อ้างอิงได้ให้กับเวิร์กโฟลว์การรวบรวม ค้นคืน และประเมินผลสำหรับ RAG และการค้นหาระดับองค์กร

ผลการประเมินและข้อจำกัดของ benchmark

การประเมิน OCR 4 ดำเนินการโดยเปรียบเทียบกับโมเดล OCR แบบ AI-native, โมเดล frontier แบบทั่วไป, บริการเอกสารระดับองค์กร และ Mistral OCR 3
การประเมินความพึงพอใจของมนุษย์ถูกออกแบบให้สะท้อนการใช้งานจริง โดยใช้เอกสารมากกว่า 600 ฉบับในมากกว่า 12 ภาษา และให้ผู้ทำ annotation อิสระเปรียบเทียบเอาต์พุตของระบบคู่แข่งแต่ละรายกับ OCR 4 แบบ blind รายเอกสาร
- ผู้ทำ annotation ชอบ OCR 4 มากกว่าในเอกสารส่วนใหญ่เมื่อเทียบกับทุกระบบที่ทดสอบ
- อัตราชนะเฉลี่ยอยู่ที่ 72%
ใน OlmOCRBench แบบสาธารณะ ทำคะแนนรวมสูงสุดในบรรดาโมเดลที่ทดสอบที่ 85.20
ในการประเมินภายใน Crawl Multilingual evaluation ทำได้ .98 สูงกว่าทั้งโซลูชัน AI-native และระดับองค์กร
คะแนน OmniDocBench อยู่ที่ 93.07 แต่ทั้ง OlmOCRBench และ OmniDocBench ต่างก็มีข้อจำกัดที่ทราบกันอยู่แล้วในวิธีการให้คะแนนเอาต์พุตบางส่วน
ความไม่ตรงกันจำนวนมากที่ผ่านการตรวจสอบแล้วเกิดจากวิธีเปรียบเทียบของ benchmark มากกว่าจะเป็นความผิดพลาดของโมเดล
- ข้อผิดพลาดของคำตอบอ้างอิง: annotation อ้างอิงอาจมีข้อความตกหล่นหรือเกินมา, การถอดข้อความจากส่วนที่ถูกบัง, หรือพิมพ์ผิด
- การเขียนสูตรที่เทียบเท่ากัน: แม้ LaTeX จะเรนเดอร์ออกมาเหมือนกัน แต่ถ้าสตริงต่างกันก็จะถูกนับว่าไม่ตรงกัน
- การแยกสูตร: การส่งออกเป็นสูตรเดียวหรือแยกเป็นหลายชิ้นแบบอินไลน์อาจทำให้การจับคู่กับคำตอบอ้างอิงคลาดเคลื่อน
- ลำดับการอ่านหลายคอลัมน์: คำที่ถูกแยกตรงขอบคอลัมน์และสมมติฐานเรื่องลำดับคอลัมน์อาจทำให้การดึงที่ถูกต้องถูกให้คะแนนว่าล้มเหลวได้
- การจัดประเภทบล็อก: แม้จะลบ header/footer ออกจากเอาต์พุตแล้ว การทดสอบก็ยังอาจตั้งธงผิดกับสตริงอย่างชื่อหน้ากระดาษได้
สิ่งเหล่านี้กระจุกตัวอยู่ในเอกสารคณิตศาสตร์ วิทยาศาสตร์ และหลายคอลัมน์ และมักลงโทษเอาต์พุตที่ถูกต้องบ่อยกว่าจะให้รางวัลกับเอาต์พุตที่ผิด
คะแนนของคู่แข่งทั้งหมดเป็นผลการทำซ้ำภายใน ดังนั้นก่อนนำไปใช้จริง การประเมินกับเอกสารของตัวเองโดยตรงจะปลอดภัยกว่า

ประสิทธิภาพหลายภาษา

ในการประเมินหลายภาษาภายใน OCR 4 นำหน้าในทั้ง 8 กลุ่มภาษา
- English
- Western Europe
- Eastern Europe
- Middle Eastern
- Chinese
- East Asian
- Southeast Asian
- ภาษาเฉพาะทาง เช่น Hindi, Japanese, Georgian, Bengali, Armenian, Hebrew, Greek, Gujarati, Tamil, Malayalam, Kannada, Telugu
ช่องว่างนี้มากที่สุดในภาษาวิชาชีพและภาษาทรัพยากรต่ำ และแม้ในพื้นที่ที่หลายระบบคู่แข่งมีประสิทธิภาพตกลงอย่างมาก OCR 4 ก็ยังรักษาความแม่นยำสูงไว้ได้

กรณีใช้งานที่แนะนำและขอบเขตที่ไม่ครอบคลุม

OCR 4 รองรับทั้งไปป์ไลน์ throughput สูงและเวิร์กโฟลว์เอกสารแบบโต้ตอบ
กรณีใช้งานที่แนะนำมีดังนี้
- การพาร์สและดึงข้อมูลเอกสาร จากเอกสารหลายภาษาที่ซับซ้อน
- สร้างเนื้อหาแบบมีโครงสร้าง, จัดประเภท, และอ้างอิงได้สำหรับ RAG
- อินพุตให้กับไปป์ไลน์ค้นหาเมื่อใช้ร่วมกับ Search Toolkit
- เวิร์กโฟลว์เอเจนต์ เช่น การกรอกฟอร์ม, การประมวลผลใบแจ้งหนี้, และการตรวจสอบ compliance
- ไปป์ไลน์ข้อมูลแบบมีโครงสร้างที่อาศัยการตรวจสอบโดยมนุษย์โดยใช้คะแนนความเชื่อมั่น
- คอมโพเนนต์แหล่งข้อมูลสำหรับการค้นหาระดับองค์กรและ knowledge base
ผู้ใช้ช่วงแรกกำลังนำ OCR 4 ไปใช้กับการแปลงฟิลด์แบบมีโครงสร้างในใบแจ้งหนี้, การดิจิไทซ์คลังเอกสารของบริษัท, การดึงข้อความสะอาดจากรายงานเทคนิคและวิทยาศาสตร์, และการค้นหาระดับองค์กร
OCR 4 เป็นโมเดลทำความเข้าใจเอกสาร ไม่ใช่ ผู้ตัดสินใจ
- ไม่ได้ออกแบบมาสำหรับการวินิจฉัยทางการแพทย์, คำแนะนำหรือการตัดสินทางกฎหมาย, การตัดสินใจทางการเงินที่มีความเสี่ยงสูง, ระบบที่มีความสำคัญต่อความปลอดภัย, การประมวลผลแบบเรียลไทม์หรือไวต่อ latency, หรืออินพุตที่ไม่ใช่เอกสาร เช่น raw audio/video

เกณฑ์การเลือก OCR 4 API และ Document AI

OCR 4 ให้บริการผ่าน API endpoint เดียว และทุกคำขอจะรันโมเดล OCR พื้นฐานตัวเดียวกัน
ในการตอบกลับพื้นฐานจะมี extracted content, bounding box, ประเภทบล็อก, คะแนนความเชื่อมั่น, และข้อความโครงสร้างแบบ Markdown รวมอยู่เสมอ
โหมดดึงข้อมูลล้วน เหมาะกับกรณีต่อไปนี้
- ฝังความสามารถดึงข้อมูลเอกสารที่รวดเร็วและแม่นยำลงในแอปพลิเคชัน, เอเจนต์, หรือ data pipeline โดยตรง
- ใช้ raw response, bounding box, ประเภทบล็อก, และคะแนนความเชื่อมั่นโดยตรงเพื่อสร้างตรรกะ post-processing แบบกำหนดเอง
- การรวบรวมข้อมูลแบบ throughput สูงหรือแบบ batch ที่ควบคุม throughput และต้นทุนผ่าน Batch API
- self-hosting ที่สอดคล้องกับข้อกำหนดเข้มงวดด้าน data privacy, sovereignty, และ compliance
ความสามารถของ Document AI เปิดใช้งานได้โดยใส่พารามิเตอร์เพิ่มเติมใน endpoint เดียวกัน
- หากส่ง JSON schema ไปพร้อมเอกสาร เอาต์พุต OCR จะถูกป้อนเข้า mistral-small-2603 เพื่อสร้าง structured JSON ตามสเปกที่กำหนด
- หากส่ง image annotation schema ระบบจะเรียก vision-language model เพิ่มเติมต่อภาพที่ตรวจพบแต่ละภาพ เพื่อสร้าง structured JSON
- สามารถใช้ custom prompt ร่วมกับ JSON schema เพื่อชี้นำการตีความหรือสรุป extracted content ของทั้งเอกสารได้
- ผู้ใช้ธุรกิจ ทีมโซลูชัน และโครงการนำร่องสามารถสร้างผลลัพธ์แบบมีโครงสร้างได้โดยไม่ต้องมีตรรกะ parsing หลังประมวลผลแยกต่างหาก
หากต้องการ extracted content แบบดิบ ให้ใช้ OCR 4 ได้ตรง ๆ แต่ถ้าต้องการการแปลงเป็นรูปแบบมีโครงสร้างใหม่, การ annotation ฟิลด์เฉพาะโดเมน, หรือการประมวลผลตามคำสั่งแบบกำหนดเอง ให้เพิ่มพารามิเตอร์ของ Document AI

ช่องทางที่ให้บริการและวิธีเริ่มต้น

Mistral OCRv4 และ Document AI ที่ขับเคลื่อนด้วย OCRv4 ใช้งานได้ผ่าน API, Mistral Studio, Amazon SageMaker และ Microsoft Foundry
การรองรับ Snowflake Parse Document จะเปิดให้ใช้งานเร็ว ๆ นี้
สำหรับองค์กรที่ต้องเก็บข้อมูลอ่อนไหวไว้ภายในโครงสร้างพื้นฐานของตนเอง OCR 4 ยังมีตัวเลือก self-hosting ให้ด้วย
ทรัพยากรเริ่มต้นมีดังนี้
- Getting Started with OCR 4 Cookbook: ครอบคลุมการดึงข้อมูลครั้งแรก, การทำงานกับ bounding box, และการจัดประเภทบล็อก
- OCR4 in Production webinar: เดโมและ Q&A วันที่ 7 กรกฎาคม เวลา 18:00 CET
- Contact Sales: สอบถามข้อมูลเพิ่มเติม

1 ความคิดเห็น

GN⁺ 3 시간 전

ความคิดเห็นใน Hacker News

US Postal Service ให้ความรู้สึกเหมือนปาฏิหาริย์ทางเทคนิคอยู่เสมอ
แม้จะใช้เทคโนโลยีที่ดั้งเดิมกว่ามาก ก็ยังสามารถระบุและจัดเส้นทางจดหมายหลายพันล้านฉบับได้ แถมที่อยู่ในสหรัฐฯ ก็ไม่เป็นมาตรฐานแบบเหลือเชื่อ เขียนที่อยู่เดียวกันได้หลายแบบแต่ก็มักจะไปถึงที่เดียวกัน
ความรู้ที่เปิดเผยในวงการนี้ก็คงมีมาก แต่พอเห็นว่ามันถูกทำได้ในสเกลแบบ USPS มานานหลายปี ทุกครั้งที่เห็นการประกาศเรื่อง OCR เลยรู้สึกเหมือนเป็นปัญหาที่ถูกแก้ไปแล้ว
- พ่อของฉันเคยได้รับจดหมายจากแอลจีเรีย โดยบนซองมีแค่สามคำคือชื่อของเขา, “Créteil” (เมืองที่ตอนนั้นมีประชากรราว 100,000 คน), และ “France”
  ตอนนั้นเป็นช่วงทศวรรษ 1970 ยังไม่มีอินเทอร์เน็ตหรือฐานข้อมูลส่วนกลาง แต่ระบบไปรษณีย์ก็ส่งถึงได้สำเร็จ
  ส่วนหนึ่งเป็นเพราะพ่อทำงานสังคมสงเคราะห์อย่างแข็งขันและยังดูแลทีมฟุตบอลเยาวชนด้วย จนเป็นที่รู้จักพอสมควรในย่านนั้นจากแค่ชื่อก็พอ
  ทุกวันนี้หลายครั้งคนหาคนหรือหาสถานที่ไม่เจอถ้าไม่มีมือถือช่วย และบุรุษไปรษณีย์ก็ไม่ค่อยได้คุยกันแล้ว
  จดหมายแบบนั้นคงไม่ผ่านทั้งกระบวนการทางเทคนิค หรือแม้แต่ เครือข่ายของมนุษย์ ด้วยซ้ำ
- ฉันเคยทำงานพาร์ตไทม์กับบริการไปรษณีย์เดนมาร์กมาก่อน ระบบคัดแยกอัตโนมัติทำได้ถึงแค่ระดับ รหัสไปรษณีย์
  พอจดหมายไปถึงที่ทำการไปรษณีย์ที่ถูกต้องแล้ว ที่เหลือบุรุษไปรษณีย์จะจัดการกันเองตอนเช้ามืด
  การเดาว่าที่อยู่หนึ่งหมายถึงอะไรค่อนข้างสนุก โดยเฉพาะพนักงานรุ่นเก่าที่มักรู้เรื่องราวว่าทำไมบางสถานที่ถึงถูกเขียนที่อยู่แบบนั้น หรือเดาที่อยู่ได้จากแค่ชื่อผู้อยู่อาศัย
- Tom Scott มีวิดีโอที่ดีเกี่ยวกับเรื่องนี้: https://www.youtube.com/watch?v=XxCha4Kez9c
- ที่อยู่ในสหรัฐฯ มีข้อยกเว้นแปลก ๆ เยอะมาก
  Carmel-by-the-Sea ไม่มีเลขถนน ส่วนที่อยู่ใน Florida Keys บางครั้งก็เป็นแค่หมายเลขหลักไมล์
  ที่ยังส่งได้ก็เพราะคนที่รับผิดชอบเส้นทางนั้นคุ้นเคยกับมัน
- ถ้าเทียบกับมาตรฐานที่อยู่อินเดีย ความไม่เป็นมาตรฐานของที่อยู่อเมริกาก็ดูน่าขำไปเลย
สงสัยว่ามีโมเดลเปิดที่โฟกัสเรื่อง การรู้จำป้ายทะเบียนรถ โดยเฉพาะหรือเปล่า
เจอโมเดลเก่า ๆ อยู่บ้าง แต่สงสัยว่ามีตัวใหม่ที่กำลังพัฒนาอยู่แบบโมเดล OCR พวกนี้ไหม
อาจจะลองเอามาใช้กับงานนี้โดยตรงและดูประสิทธิภาพเองก็ได้
วิดีโอบนหน้าที่ลิงก์ไว้ไม่เหมือนที่คาด
ฉันคิดว่า Mistral เป็นบริษัท AI ยุโรป แต่วิดีโอกลับถ่ายที่ San Francisco และคนทั้งสามที่ปรากฏก็ไม่ได้ดูเหมือนคนยุโรป เลยค่อนข้างแปลกใจ
การเป็นองค์กรระดับโลกก็ดีอยู่หรอก แต่ฉันคาดว่าจะได้เห็นออฟฟิศในปารีสกับสำเนียงยุโรป
- น่าเสียดายที่ลูกค้ายุโรปเป็นลูกค้าที่ทำเงินได้ยาก
  ถามเยอะแต่ควักกระเป๋าน้อยมาก ต่างจากคนอเมริกัน
- ถ้าเป็นบริษัทเทคยุโรปที่มีขนาดพอตัว อย่างน้อยก็มักต้องมี ออฟฟิศฝั่งตะวันตกของสหรัฐฯ เพื่อการขาย
  น่าจะมีทีม sales engineering ด้วย
  เขตเวลาห่างกัน 8–10 ชั่วโมง จึงแทบหลีกเลี่ยงไม่ได้
  บริษัทเก่าที่ฉันเคยทำงานมีออฟฟิศที่ Vancouver แทน และอยู่ในเขตเวลาเดียวกัน
- Blackmagic Design ก็คล้ายกัน
  แม้ฐานหลักส่วนใหญ่จะอยู่ออสเตรเลีย แต่ถ้าดูทั้งลำดับรายชื่อออฟฟิศและหน้าบริษัทที่ https://www.blackmagicdesign.com/company/offices ก็ทำให้ดูเหมือนเป็นบริษัทอเมริกัน
- เท่าที่รู้ ทีมผู้ก่อตั้งส่วนใหญ่เริ่มอาชีพจาก บริษัทอเมริกัน อย่าง Meta และนักลงทุนหลักก็เป็น VC อเมริกัน
  ในแง่นั้นถือว่าใช้ข้อดีของทั้งเงินทุนอเมริกันและบุคลากรยุโรปได้อย่างฉลาด
- ด้านหลังก็ยังแขวนธงชาติอเมริกันไว้อย่างเด่นชัดอีกด้วย
น่าสนใจว่าโมเดลนี้จะอยู่ระดับไหนเมื่อเทียบกับ https://github.com/baidu/Unlimited-OCR
- ใช่ เพิ่งประกาศไปสด ๆ ร้อน ๆ: https://x.com/BaiduAI_News/status/2069322806748410291
4 ดอลลาร์ต่อ 1,000 หน้า ถือว่าถูก แต่เวอร์ชันก่อน ๆ ล้วนประมาณว่า “ความแม่นยำ 98% จาก PDF benchmark ภายใน 4 ชุด” และในทางปฏิบัติก็ด้อยกว่าแทบทุกทางเลือกในตลาด เลยลังเลที่จะกลับไป benchmark อีกครั้ง
รอบนี้ก็ยังชูตัวเลขจาก benchmark ภายใน พร้อมบอกว่า OlmOCRBench กับ OmniDocBench มี “ข้อจำกัดที่ทราบอยู่แล้ว”
https://getomni.ai/blog/benchmarking-open-source-models-for-ocr
- สรุปเหมือนกัน แต่พอลองรันกับตัวอย่างไม่กี่ชิ้นเอง ก็เห็นว่ามีการปรับปรุงจริงนับจาก เวอร์ชันธันวาคม 2025
ห้องแล็บ AI ทุกแห่งควรเลิกใช้ แกน y ที่ถูกตัด ในกราฟแท่ง benchmark ได้แล้วจริง ๆ
https://mistral.ai/_astro/cm-engish_ZhlvoT.webp?dpl=6a3a94bd1f38530b2974c539
ลองทดสอบด้วย Malayalam แล้ว ลายมือแบบทั่วไปแม่นดี แต่ถ้าเป็นสไตล์ที่ต่างออกไปนิดหน่อยกลับถูกตรวจเป็น Kannada
ถ้าต้องการฉันให้ตัวอย่างได้ และ Sarvam จัดการตัวอย่างเดียวกันได้แม่น 99% โดยพลาดตัวอักษรแค่ตัวเดียว
- อยากรู้ประสบการณ์การใช้ Sarvam นอกภาษาอินเดียด้วย
  เช่นกับ Indian English, เอกสารที่มีคำหรือสำนวนอินเดียเขียนด้วยอักษรโรมันปนอยู่, และเอกสารที่มี เลย์เอาต์ซับซ้อน อย่างรูปภาพหรือตาราง ว่าเป็นอย่างไร
  ฉันสนใจบริการจากอินเดียอยู่เหมือนกัน แต่รู้สึกว่าราคาดูสูงกว่าที่คิดนิดหน่อยเลยยังลังเล
  แน่นอนว่าอาจจะจำผิดก็ได้
เมื่อเทียบกับ โมเดล OCR v3 ก่อนหน้าในเดือนธันวาคม แทบไม่มีการอธิบายความต่างนอกจาก bounding box แต่ราคากลับเพิ่มเป็นสองเท่า: https://mistral.ai/news/mistral-ocr-3/
ตอนนั้นใช้ benchmark คนละชุด
“หมายเหตุเกี่ยวกับการใช้งานนอกขอบเขต OCR 4 เป็นโมเดลสำหรับทำความเข้าใจเอกสาร ไม่ใช่ผู้ตัดสินใจ ไม่ได้มีไว้สำหรับการวินิจฉัยทางการแพทย์ คำแนะนำหรือดุลยพินิจทางกฎหมาย การตัดสินใจทางการเงินความเสี่ยงสูง ระบบที่มีความสำคัญต่อความปลอดภัย งานประมวลผลแบบเรียลไทม์/ไวต่อเวลาแฝง หรืออินพุตที่ไม่ใช่เอกสาร (เสียงดิบ วิดีโอ ฯลฯ)”
เริ่มคาดหวังได้เลยว่าจะมีผู้จัดการสาย “นวัตกรรม” เสนอในที่ประชุมครั้งหน้าว่า “โอเค แต่ถ้าเอาไปใช้ตัดสินใจทางการเงินความเสี่ยงสูง** จากอินพุตที่ไม่ใช่เอกสารอย่างรูปถ่ายจากมือถือจะเป็นยังไง?”
กล้าพนันเลยว่าสัปดาห์หน้าคงมีคนมาโพสต์ “ไอเดีย” นี้ในคอมเมนต์บน HN
- ไม่เข้าใจจริง ๆ ว่าทำไมต้องพยายามทำแบบนั้น
  มีโมเดลที่ทำได้ดีกว่านี้เป็นสิบ ๆ ตัว และเมื่อเทียบกันแล้วอันนี้น่าจะให้ผลลัพธ์แย่กว่าเยอะ
  นี่ไม่ใช่โมเดลสำหรับตอบคำถาม แต่เป็นโมเดลสำหรับ แปลงข้อความ
  ดูเหมือนแค่อยากฝืนหามุมต่อต้าน AI มากกว่า
- บริษัท AI ทุกแห่งกำลังสร้าง โมเดลเฉพาะทาง ที่เก่งมากสำหรับงานใดงานหนึ่ง
  Mistral แค่พูดเรื่องนี้ตรงไปตรงมามากกว่า และอาจเป็นเพราะไม่จำเป็นหรือไม่ต้องการทำให้คนดูตื่นตาด้วยเครื่องมือผู้ใช้แบบอเนกประสงค์ (แชต) ที่ดูเหมือนเชี่ยวชาญไปหมดทุกอย่าง
  อันที่จริง เครื่องมือแบบนั้นก็มักเป็นการเอาโมเดลเฉพาะทางหลายตัวมาต่อกันอยู่แล้ว
  สิ่งที่ต้องการตรงนี้ทำได้ด้วย Python script ไม่กี่ตัว
  ใช้ Voxtral แปลง voice prompt เป็นข้อความ แล้วส่งต่อให้ Mistral Large 3 พร้อม system prompt เพิ่มเติมเพื่อให้สร้าง prompt สำหรับ OCR และ path ของไฟล์ จากนั้นวนลูปหาไฟล์ โยนเข้า OCR 3 แล้วส่งกลับไปให้ Mistral Large 3 ตีความและแปลงเป็นการตัดสินใจได้เลย
  สถาปัตยกรรมแบบนี้พบได้ทั่วไป และที่จริงแล้วแบบที่ให้โมเดลตัวเดียวทำทุกอย่างกลับพบได้น้อยกว่า
- “ผมมอบการตัดสินใจทางการเงินสำคัญให้ซอฟต์แวร์ OCR แล้วคุณจะไม่เชื่อเลยว่าเกิดอะไรขึ้นต่อมา”
ไม่นานมานี้ผมลองใช้ Opus 4.8 ทำ OCR
พูดตามตรงมันไม่ใช่เครื่องมือที่ถูกต้องนัก แต่สิ่งที่ต้องการมีแค่ดึงวันที่จากใบเสร็จ
มันอ่านวันที่ผิดประมาณ 20% แต่กลับให้คะแนนทั้งหมดว่า “ความเชื่อมั่นสูง”
น่าจะควรลองใช้ โมเดลที่ออกแบบมาสำหรับ OCR โดยเฉพาะ
- การดึงวันที่จากใบเสร็จน่าจะเป็นปัญหาที่แทบถูกแก้ได้หมดแล้วตั้งแต่ราว 30 ปีก่อนหรือเปล่า
  จำได้ว่าแม้แต่เครื่องมือ OCR แบบแชร์แวร์ที่แถมมากับสแกนเนอร์ขาวดำสมัยก่อนก็น่าจะยังผิดน้อยกว่า 20%
- ไม่แน่ใจเรื่อง Opus แต่ OCR ในผลิตภัณฑ์แบบสมัครสมาชิกของ Gemini ดูเหมือนจะไม่ได้ให้โมเดลทำเอง
  น่าจะใช้เครื่องมือ OCR แยกต่างหากแบบเก่า ๆ และผลทดสอบก็ออกมาแย่
  ในทางกลับกัน Gemini API ให้โมเดลทำ OCR เอง เลยแม่นยำกว่ามาก
- Opus ทำ OCR ได้ดีมาก
  ดีกว่าโมเดล vision-language ขนาดเล็ก 1~4B มาก
  ถ้า Opus ยังพลาด โมเดลเล็กพวกนั้นส่วนใหญ่ก็น่าจะพลาดเหมือนกัน
- เรื่องนี้ฟังดูเชื่อยาก
  ช่วงหลังผมสแกน PDF หลายร้อยไฟล์ที่มีลายมืออ่านยากสุด ๆ ด้วย Opus 4.8 และนอกจากบันทึกชิ้นหนึ่งที่แม้แต่ผมเองยังอ่านไม่ออกแล้ว มัน สำเร็จ 100%

เปิดตัว Mistral OCR 4

การแสดงผลเอกสารแบบมีโครงสร้างที่ OCR 4 ส่งคืน

รูปแบบ, ภาษา, และวิธีการติดตั้งใช้งาน

ราคาและช่องทางการใช้งาน

ผลการประเมินและข้อจำกัดของ benchmark

ประสิทธิภาพหลายภาษา

กรณีใช้งานที่แนะนำและขอบเขตที่ไม่ครอบคลุม

เกณฑ์การเลือก OCR 4 API และ Document AI

ช่องทางที่ให้บริการและวิธีเริ่มต้น

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นใน Hacker News