เหตุใดการดึงข้อมูลจาก PDF จึงยังคงเป็นเรื่องยาก

(arstechnica.com)

3 คะแนน โดย GN⁺ 2025-03-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ข้อจำกัดของ OCR (การรู้จำอักขระด้วยแสง)

ไฟล์ PDF บรรจุข้อมูลสำคัญ เช่น งานวิจัยทางวิทยาศาสตร์และบันทึกของภาครัฐ แต่เนื่องจากเป็นรูปแบบที่ตายตัว จึงยากให้เครื่องอ่านและวิเคราะห์
PDF เป็นรูปแบบที่สร้างขึ้นมาให้เหมาะกับเลย์เอาต์สำหรับการพิมพ์ จึงไม่เหมาะกับการวิเคราะห์แบบดิจิทัล
PDF จำนวนมากมีข้อมูลอยู่ในรูปภาพ จึงต้องใช้ซอฟต์แวร์ OCR เพื่อแปลงให้เป็นข้อมูล
ในกรณีของเอกสารเก่าหรือเอกสารที่เขียนด้วยลายมือ ประสิทธิภาพของ OCR จะยิ่งลดลง

ปัญหาของข้อมูลที่ไม่มีโครงสร้าง

ข้อมูลขององค์กรทั่วโลกราว 80~90% ถูกจัดเก็บในรูปแบบข้อมูลที่ไม่มีโครงสร้าง และมักอยู่ใน PDF
การดึงข้อมูลจากเลย์เอาต์แบบสองคอลัมน์ ตาราง แผนภูมิ และงานสแกนที่คุณภาพภาพต่ำ เป็นเรื่องยากเป็นพิเศษ
โดยเฉพาะในงานวิจัยวิทยาศาสตร์ การอนุรักษ์เอกสารประวัติศาสตร์ งานบริการลูกค้า และระบบ AI ปัญหานี้ส่งผลอย่างมากต่อการเข้าถึงเอกสารทางเทคนิค

ผลกระทบในแต่ละภาคส่วน

ส่งผลต่อการดำเนินงานของหน่วยงานสาธารณะ เช่น บันทึกภาครัฐ ศาล ตำรวจ และบริการสังคม
ในอุตสาหกรรมที่พึ่งพาข้อมูลอย่างประกันภัยและธนาคาร ต้องใช้เวลาและทรัพยากรจำนวนมากในการแปลงข้อมูลจาก PDF

ประวัติของเทคโนโลยี OCR

ในทศวรรษ 1970 Ray Kurzweil ได้พัฒนาระบบ OCR เชิงพาณิชย์ที่อิงกับอัลกอริทึมการจับคู่รูปแบบ
Kurzweil Reading Machine มอบความสามารถด้านการรู้จำตัวอักษรสำหรับผู้พิการทางสายตา
ระบบ OCR แบบดั้งเดิมทำงานโดยรู้จำรูปแบบความเข้มแสงและแปลงเป็นตัวอักษร
แต่ประสิทธิภาพจะลดลงเมื่อเจอกับฟอนต์ที่ซับซ้อน เลย์เอาต์หลายคอลัมน์ หรือตาราง
OCR แบบดั้งเดิมแม้ข้อผิดพลาดจะคาดเดาได้และแก้ไขง่าย แต่ก็ยังมีข้อจำกัด

การผงาดขึ้นของ OCR ที่ขับเคลื่อนด้วย AI

LLM แบบมัลติโมดัลสามารถผสานภาพและข้อความเพื่อดึงข้อมูลออกมาได้
โมเดลจาก OpenAI, Google และ Meta สามารถรับรู้ทั้งองค์ประกอบเชิงภาพของเอกสารและบริบทของข้อความพร้อมกัน
OCR แบบดั้งเดิมใช้การจับคู่รูปแบบในระดับตัวอักษร ขณะที่ AI ประมวลผลโดยรับรู้ทั้งเลย์เอาต์เอกสารและบริบท
Textract ของ Amazon ยังเป็นแนวทาง OCR แบบดั้งเดิม แต่ LLM สามารถวิเคราะห์เอกสารได้ในบริบทที่กว้างกว่า
จัดการกับเลย์เอาต์ซับซ้อน ตาราง และคำบรรยายภาพได้ดีกว่า

ความพยายามใหม่ของ OCR ที่อิงกับ LLM

Mistral บริษัท AI จากฝรั่งเศส เปิดตัว Mistral OCR ซึ่งเป็น API ประมวลผลเอกสารที่อิงกับ LLM
มีเป้าหมายเพื่อดึงข้อความและรูปภาพจากเอกสารที่มีเลย์เอาต์ซับซ้อน
พบปัญหาด้านประสิทธิภาพ: ล้มเหลวในการจัดการตารางของเอกสารเก่า และเกิดข้อผิดพลาดด้านตัวเลข
มีปัญหาในการรู้จำลายมือ → AI สร้างเนื้อหาขึ้นมาเองโดยพลการ (อาการหลอน)
ปัจจุบัน Gemini 2.0 ของ Google ให้ประสิทธิภาพดีที่สุด → มีข้อผิดพลาดน้อยแม้ในเอกสารที่ซับซ้อน

ปัญหาของ OCR ที่อิงกับ LLM

เนื่องจาก LLM เป็นโมเดลเชิงความน่าจะเป็น จึงมีโอกาสเกิดข้อผิดพลาดสูง
เมื่อเลย์เอาต์เอกสารถูกทำซ้ำ อาจเกิดอาการที่บรรทัดบางส่วนหายไป
LLM อาจแยกไม่ออกระหว่างพรอมต์ของผู้ใช้กับเนื้อหาในเอกสาร ทำให้ตีความผิด
หากจับคู่ค่าผิดในตาราง อาจเกิดความผิดพลาดร้ายแรง ซึ่งเป็นปัญหาใหญ่ในภาคการเงิน กฎหมาย และการแพทย์
มีปัญหาการสร้างข้อความขึ้นมาเองโดยพลการ → จึงยังต้องอาศัยการตรวจทานโดยมนุษย์

โจทย์ในอนาคต

ปัจจุบันยังไม่มีโซลูชัน OCR ที่สมบูรณ์แบบ
Google, OpenAI และรายอื่น ๆ กำลังปรับปรุงประสิทธิภาพผ่านผลิตภัณฑ์ AI ที่เข้าใจบริบท
บริษัท AI คาดหวังว่าจะได้ข้อมูลสำหรับฝึก AI จากการดึงข้อมูลออกจาก PDF
หาก AI สามารถจัดการข้อมูลใน PDF ได้อย่างสมบูรณ์ ก็อาจเปิดยุคใหม่ของการวิเคราะห์ข้อมูล

1 ความคิดเห็น

sixmen 2025-03-20

"PDF ไม่เหมาะกับการวิเคราะห์แบบดิจิทัล เพราะเป็นรูปแบบที่สร้างมาให้สอดคล้องกับเลย์เอาต์สำหรับการพิมพ์"

ผมมองว่า HWP ก็มีปัญหาคล้ายกัน HWP ยังคงเป็นซอฟต์แวร์ที่ยอดเยี่ยม แต่โดยพื้นฐานแล้วมันถูกสร้างมาเพื่อการจัดพิมพ์ จึงวิเคราะห์ได้ยาก

ในทางกลับกัน Word นั้นแย่มากหากจะใช้ทำงานสำหรับการพิมพ์ แต่ก็ทำให้โฟกัสกับเนื้อหาได้มากกว่า และเพราะแบบนั้น มันจึงดูเหมือนจะเข้ากับยุคเว็บ/AI ได้ดีกว่าเสียอีก