3 คะแนน โดย GN⁺ 2025-03-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ข้อจำกัดของ OCR (การรู้จำอักขระด้วยแสง)

  • ไฟล์ PDF บรรจุข้อมูลสำคัญ เช่น งานวิจัยทางวิทยาศาสตร์และบันทึกของภาครัฐ แต่เนื่องจากเป็นรูปแบบที่ตายตัว จึงยากให้เครื่องอ่านและวิเคราะห์
  • PDF เป็นรูปแบบที่สร้างขึ้นมาให้เหมาะกับเลย์เอาต์สำหรับการพิมพ์ จึงไม่เหมาะกับการวิเคราะห์แบบดิจิทัล
  • PDF จำนวนมากมีข้อมูลอยู่ในรูปภาพ จึงต้องใช้ซอฟต์แวร์ OCR เพื่อแปลงให้เป็นข้อมูล
  • ในกรณีของเอกสารเก่าหรือเอกสารที่เขียนด้วยลายมือ ประสิทธิภาพของ OCR จะยิ่งลดลง

ปัญหาของข้อมูลที่ไม่มีโครงสร้าง

  • ข้อมูลขององค์กรทั่วโลกราว 80~90% ถูกจัดเก็บในรูปแบบข้อมูลที่ไม่มีโครงสร้าง และมักอยู่ใน PDF
  • การดึงข้อมูลจากเลย์เอาต์แบบสองคอลัมน์ ตาราง แผนภูมิ และงานสแกนที่คุณภาพภาพต่ำ เป็นเรื่องยากเป็นพิเศษ
  • โดยเฉพาะในงานวิจัยวิทยาศาสตร์ การอนุรักษ์เอกสารประวัติศาสตร์ งานบริการลูกค้า และระบบ AI ปัญหานี้ส่งผลอย่างมากต่อการเข้าถึงเอกสารทางเทคนิค

ผลกระทบในแต่ละภาคส่วน

  • ส่งผลต่อการดำเนินงานของหน่วยงานสาธารณะ เช่น บันทึกภาครัฐ ศาล ตำรวจ และบริการสังคม
  • ในอุตสาหกรรมที่พึ่งพาข้อมูลอย่างประกันภัยและธนาคาร ต้องใช้เวลาและทรัพยากรจำนวนมากในการแปลงข้อมูลจาก PDF

ประวัติของเทคโนโลยี OCR

  • ในทศวรรษ 1970 Ray Kurzweil ได้พัฒนาระบบ OCR เชิงพาณิชย์ที่อิงกับอัลกอริทึมการจับคู่รูปแบบ
  • Kurzweil Reading Machine มอบความสามารถด้านการรู้จำตัวอักษรสำหรับผู้พิการทางสายตา
  • ระบบ OCR แบบดั้งเดิมทำงานโดยรู้จำรูปแบบความเข้มแสงและแปลงเป็นตัวอักษร
  • แต่ประสิทธิภาพจะลดลงเมื่อเจอกับฟอนต์ที่ซับซ้อน เลย์เอาต์หลายคอลัมน์ หรือตาราง
  • OCR แบบดั้งเดิมแม้ข้อผิดพลาดจะคาดเดาได้และแก้ไขง่าย แต่ก็ยังมีข้อจำกัด

การผงาดขึ้นของ OCR ที่ขับเคลื่อนด้วย AI

  • LLM แบบมัลติโมดัลสามารถผสานภาพและข้อความเพื่อดึงข้อมูลออกมาได้
  • โมเดลจาก OpenAI, Google และ Meta สามารถรับรู้ทั้งองค์ประกอบเชิงภาพของเอกสารและบริบทของข้อความพร้อมกัน
  • OCR แบบดั้งเดิมใช้การจับคู่รูปแบบในระดับตัวอักษร ขณะที่ AI ประมวลผลโดยรับรู้ทั้งเลย์เอาต์เอกสารและบริบท
  • Textract ของ Amazon ยังเป็นแนวทาง OCR แบบดั้งเดิม แต่ LLM สามารถวิเคราะห์เอกสารได้ในบริบทที่กว้างกว่า
  • จัดการกับเลย์เอาต์ซับซ้อน ตาราง และคำบรรยายภาพได้ดีกว่า

ความพยายามใหม่ของ OCR ที่อิงกับ LLM

  • Mistral บริษัท AI จากฝรั่งเศส เปิดตัว Mistral OCR ซึ่งเป็น API ประมวลผลเอกสารที่อิงกับ LLM
  • มีเป้าหมายเพื่อดึงข้อความและรูปภาพจากเอกสารที่มีเลย์เอาต์ซับซ้อน
  • พบปัญหาด้านประสิทธิภาพ: ล้มเหลวในการจัดการตารางของเอกสารเก่า และเกิดข้อผิดพลาดด้านตัวเลข
  • มีปัญหาในการรู้จำลายมือ → AI สร้างเนื้อหาขึ้นมาเองโดยพลการ (อาการหลอน)
  • ปัจจุบัน Gemini 2.0 ของ Google ให้ประสิทธิภาพดีที่สุด → มีข้อผิดพลาดน้อยแม้ในเอกสารที่ซับซ้อน

ปัญหาของ OCR ที่อิงกับ LLM

  • เนื่องจาก LLM เป็นโมเดลเชิงความน่าจะเป็น จึงมีโอกาสเกิดข้อผิดพลาดสูง
  • เมื่อเลย์เอาต์เอกสารถูกทำซ้ำ อาจเกิดอาการที่บรรทัดบางส่วนหายไป
  • LLM อาจแยกไม่ออกระหว่างพรอมต์ของผู้ใช้กับเนื้อหาในเอกสาร ทำให้ตีความผิด
  • หากจับคู่ค่าผิดในตาราง อาจเกิดความผิดพลาดร้ายแรง ซึ่งเป็นปัญหาใหญ่ในภาคการเงิน กฎหมาย และการแพทย์
  • มีปัญหาการสร้างข้อความขึ้นมาเองโดยพลการ → จึงยังต้องอาศัยการตรวจทานโดยมนุษย์

โจทย์ในอนาคต

  • ปัจจุบันยังไม่มีโซลูชัน OCR ที่สมบูรณ์แบบ
  • Google, OpenAI และรายอื่น ๆ กำลังปรับปรุงประสิทธิภาพผ่านผลิตภัณฑ์ AI ที่เข้าใจบริบท
  • บริษัท AI คาดหวังว่าจะได้ข้อมูลสำหรับฝึก AI จากการดึงข้อมูลออกจาก PDF
  • หาก AI สามารถจัดการข้อมูลใน PDF ได้อย่างสมบูรณ์ ก็อาจเปิดยุคใหม่ของการวิเคราะห์ข้อมูล

1 ความคิดเห็น

 
sixmen 2025-03-20

"PDF ไม่เหมาะกับการวิเคราะห์แบบดิจิทัล เพราะเป็นรูปแบบที่สร้างมาให้สอดคล้องกับเลย์เอาต์สำหรับการพิมพ์"

ผมมองว่า HWP ก็มีปัญหาคล้ายกัน HWP ยังคงเป็นซอฟต์แวร์ที่ยอดเยี่ยม แต่โดยพื้นฐานแล้วมันถูกสร้างมาเพื่อการจัดพิมพ์ จึงวิเคราะห์ได้ยาก

ในทางกลับกัน Word นั้นแย่มากหากจะใช้ทำงานสำหรับการพิมพ์ แต่ก็ทำให้โฟกัสกับเนื้อหาได้มากกว่า และเพราะแบบนั้น มันจึงดูเหมือนจะเข้ากับยุคเว็บ/AI ได้ดีกว่าเสียอีก