ข้อจำกัดของ OCR (การรู้จำอักขระด้วยแสง)
- ไฟล์ PDF บรรจุข้อมูลสำคัญ เช่น งานวิจัยทางวิทยาศาสตร์และบันทึกของภาครัฐ แต่เนื่องจากเป็นรูปแบบที่ตายตัว จึงยากให้เครื่องอ่านและวิเคราะห์
- PDF เป็นรูปแบบที่สร้างขึ้นมาให้เหมาะกับเลย์เอาต์สำหรับการพิมพ์ จึงไม่เหมาะกับการวิเคราะห์แบบดิจิทัล
- PDF จำนวนมากมีข้อมูลอยู่ในรูปภาพ จึงต้องใช้ซอฟต์แวร์ OCR เพื่อแปลงให้เป็นข้อมูล
- ในกรณีของเอกสารเก่าหรือเอกสารที่เขียนด้วยลายมือ ประสิทธิภาพของ OCR จะยิ่งลดลง
ปัญหาของข้อมูลที่ไม่มีโครงสร้าง
- ข้อมูลขององค์กรทั่วโลกราว 80~90% ถูกจัดเก็บในรูปแบบข้อมูลที่ไม่มีโครงสร้าง และมักอยู่ใน PDF
- การดึงข้อมูลจากเลย์เอาต์แบบสองคอลัมน์ ตาราง แผนภูมิ และงานสแกนที่คุณภาพภาพต่ำ เป็นเรื่องยากเป็นพิเศษ
- โดยเฉพาะในงานวิจัยวิทยาศาสตร์ การอนุรักษ์เอกสารประวัติศาสตร์ งานบริการลูกค้า และระบบ AI ปัญหานี้ส่งผลอย่างมากต่อการเข้าถึงเอกสารทางเทคนิค
ผลกระทบในแต่ละภาคส่วน
- ส่งผลต่อการดำเนินงานของหน่วยงานสาธารณะ เช่น บันทึกภาครัฐ ศาล ตำรวจ และบริการสังคม
- ในอุตสาหกรรมที่พึ่งพาข้อมูลอย่างประกันภัยและธนาคาร ต้องใช้เวลาและทรัพยากรจำนวนมากในการแปลงข้อมูลจาก PDF
ประวัติของเทคโนโลยี OCR
- ในทศวรรษ 1970 Ray Kurzweil ได้พัฒนาระบบ OCR เชิงพาณิชย์ที่อิงกับอัลกอริทึมการจับคู่รูปแบบ
- Kurzweil Reading Machine มอบความสามารถด้านการรู้จำตัวอักษรสำหรับผู้พิการทางสายตา
- ระบบ OCR แบบดั้งเดิมทำงานโดยรู้จำรูปแบบความเข้มแสงและแปลงเป็นตัวอักษร
- แต่ประสิทธิภาพจะลดลงเมื่อเจอกับฟอนต์ที่ซับซ้อน เลย์เอาต์หลายคอลัมน์ หรือตาราง
- OCR แบบดั้งเดิมแม้ข้อผิดพลาดจะคาดเดาได้และแก้ไขง่าย แต่ก็ยังมีข้อจำกัด
การผงาดขึ้นของ OCR ที่ขับเคลื่อนด้วย AI
- LLM แบบมัลติโมดัลสามารถผสานภาพและข้อความเพื่อดึงข้อมูลออกมาได้
- โมเดลจาก OpenAI, Google และ Meta สามารถรับรู้ทั้งองค์ประกอบเชิงภาพของเอกสารและบริบทของข้อความพร้อมกัน
- OCR แบบดั้งเดิมใช้การจับคู่รูปแบบในระดับตัวอักษร ขณะที่ AI ประมวลผลโดยรับรู้ทั้งเลย์เอาต์เอกสารและบริบท
- Textract ของ Amazon ยังเป็นแนวทาง OCR แบบดั้งเดิม แต่ LLM สามารถวิเคราะห์เอกสารได้ในบริบทที่กว้างกว่า
- จัดการกับเลย์เอาต์ซับซ้อน ตาราง และคำบรรยายภาพได้ดีกว่า
ความพยายามใหม่ของ OCR ที่อิงกับ LLM
- Mistral บริษัท AI จากฝรั่งเศส เปิดตัว Mistral OCR ซึ่งเป็น API ประมวลผลเอกสารที่อิงกับ LLM
- มีเป้าหมายเพื่อดึงข้อความและรูปภาพจากเอกสารที่มีเลย์เอาต์ซับซ้อน
- พบปัญหาด้านประสิทธิภาพ: ล้มเหลวในการจัดการตารางของเอกสารเก่า และเกิดข้อผิดพลาดด้านตัวเลข
- มีปัญหาในการรู้จำลายมือ → AI สร้างเนื้อหาขึ้นมาเองโดยพลการ (อาการหลอน)
- ปัจจุบัน Gemini 2.0 ของ Google ให้ประสิทธิภาพดีที่สุด → มีข้อผิดพลาดน้อยแม้ในเอกสารที่ซับซ้อน
ปัญหาของ OCR ที่อิงกับ LLM
- เนื่องจาก LLM เป็นโมเดลเชิงความน่าจะเป็น จึงมีโอกาสเกิดข้อผิดพลาดสูง
- เมื่อเลย์เอาต์เอกสารถูกทำซ้ำ อาจเกิดอาการที่บรรทัดบางส่วนหายไป
- LLM อาจแยกไม่ออกระหว่างพรอมต์ของผู้ใช้กับเนื้อหาในเอกสาร ทำให้ตีความผิด
- หากจับคู่ค่าผิดในตาราง อาจเกิดความผิดพลาดร้ายแรง ซึ่งเป็นปัญหาใหญ่ในภาคการเงิน กฎหมาย และการแพทย์
- มีปัญหาการสร้างข้อความขึ้นมาเองโดยพลการ → จึงยังต้องอาศัยการตรวจทานโดยมนุษย์
โจทย์ในอนาคต
- ปัจจุบันยังไม่มีโซลูชัน OCR ที่สมบูรณ์แบบ
- Google, OpenAI และรายอื่น ๆ กำลังปรับปรุงประสิทธิภาพผ่านผลิตภัณฑ์ AI ที่เข้าใจบริบท
- บริษัท AI คาดหวังว่าจะได้ข้อมูลสำหรับฝึก AI จากการดึงข้อมูลออกจาก PDF
- หาก AI สามารถจัดการข้อมูลใน PDF ได้อย่างสมบูรณ์ ก็อาจเปิดยุคใหม่ของการวิเคราะห์ข้อมูล
1 ความคิดเห็น
"PDF ไม่เหมาะกับการวิเคราะห์แบบดิจิทัล เพราะเป็นรูปแบบที่สร้างมาให้สอดคล้องกับเลย์เอาต์สำหรับการพิมพ์"
ผมมองว่า HWP ก็มีปัญหาคล้ายกัน HWP ยังคงเป็นซอฟต์แวร์ที่ยอดเยี่ยม แต่โดยพื้นฐานแล้วมันถูกสร้างมาเพื่อการจัดพิมพ์ จึงวิเคราะห์ได้ยาก
ในทางกลับกัน Word นั้นแย่มากหากจะใช้ทำงานสำหรับการพิมพ์ แต่ก็ทำให้โฟกัสกับเนื้อหาได้มากกว่า และเพราะแบบนั้น มันจึงดูเหมือนจะเข้ากับยุคเว็บ/AI ได้ดีกว่าเสียอีก