OCR4all - OCR สำหรับทุกคน

(ocr4all.org)

39 คะแนน โดย GN⁺ 2025-02-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ฟรีทั้งหมดและเป็นโอเพนซอร์ส ไม่มีการสมัครสมาชิก/ฟีเจอร์เสียเงิน/โค้ดที่ซ่อนอยู่
ปรับใช้ได้อย่างยืดหยุ่น ตั้งแต่การประมวลผลต้นฉบับที่ท้าทายด้วยคุณภาพสูง ไปจนถึงการรู้จำข้อความเต็มรูปแบบจากงานพิมพ์จำนวนมาก
รองรับการทำแอนโนเทตเลย์เอาต์และข้อความอย่างทรงพลัง
- ใช้ตัวแก้ไข LAREX เพื่อใส่คำอธิบายประกอบ แก้ไข หรือเปรียบเทียบองค์ประกอบของเลย์เอาต์และข้อความด้วยตนเอง
เข้ากันได้อย่างสมบูรณ์กับระบบนิเวศ OCR-D
ออกแบบโดยคำนึงถึงการใช้งาน: สามารถสร้างเวิร์กโฟลว์ OCR ที่ซับซ้อนผ่าน UI ได้โดยไม่ต้องใช้โค้ด/CLI
พัฒนาข้ามแพลตฟอร์มได้ง่าย: ไม่ว่าจะเป็น OS ประเภทใด ก็สามารถรันได้ด้วย Docker และคำสั่งเดียว

1 ความคิดเห็น

GN⁺ 2025-02-15

ความคิดเห็นจาก Hacker News

ไปป์ไลน์การแบ่งส่วนที่ซับซ้อนเคยจำเป็นเมื่อหลายปีก่อน แต่ตอนนี้มีข้อผิดพลาดมากและแย่งบริบทสำคัญจากโมเดล ถ้าจะไปต่อกับลายมือเขียนก็จำเป็นต้องมีบริบท
- หากต้องการถอดความลายมือเขียนทางประวัติศาสตร์ ผู้เชี่ยวชาญคงจะบอกว่าต้องใช้เอกสารทั้งฉบับ
- ต้องทำให้ถึงขั้นการรู้จำข้อความจริง ๆ ไม่ใช่แค่การรู้จำตัวอักษร
- การประเมินโมเดลด้วย CER ไม่ค่อยดีนัก
- การรู้จำข้อความกำลังทำผิดซ้ำแบบเดียวกับที่ machine translation เคยทำเมื่อ 15 ปีก่อน
OCR4all เป็นซอฟต์แวร์สำหรับกู้คืนและรู้จำข้อความดิจิทัลจากงานพิมพ์ยุคใหม่ตอนต้น
- รูปแบบงานพิมพ์ที่ซับซ้อนและเลย์เอาต์ที่ไม่สม่ำเสมอเป็นบททดสอบความสามารถของซอฟต์แวร์รู้จำข้อความทั่วไป
- ดูเหมือนว่าสร้างขึ้นบนพื้นฐานของ Calamari-OCR
OCR4all จัดการความต้องการของผู้ใช้ที่ไม่ใช่สายเทคนิคได้อย่างชัดเจนและใช้งานง่าย
- มีคำแนะนำให้เปิดเทอร์มินัลบน Linux และพิมพ์คำสั่ง
- เลยสงสัยว่ามันช่วยผู้ใช้ที่ไม่ใช่สายเทคนิคได้อย่างไร
Vision Framework ของ Apple มีไลบรารีรู้จำข้อความที่เร็วและแม่นยำกว่า Tesseract
- จัดการได้กับไฟล์ภาพแทบทุกฟอร์แมต
- ได้เขียนเครื่องมือ CLI แบบง่ายและ Python wrapper ไว้
การรวม Tesseract กับ LLM เพื่อแก้ข้อผิดพลาดและปรับปรุงรูปแบบ เป็นจุดลงตัวที่สุดในตอนนี้ด้านความเร็ว/ประสิทธิภาพ/ความแม่นยำ
- สามารถแก้ไขข้อความพรอมป์ต์ภาษาอังกฤษเพื่อให้น้ำหนักกับแง่มุมเฉพาะของเอกสารนำเข้าได้
ได้พัฒนา AI-assisted OCR API
- รวม Tesseract กับ Poppler-utils เพื่อดึงเซกเมนต์เอกสารอย่างชาญฉลาด
- ขยายไปยังโมเดล Vision LLM หลายแบบได้ง่าย
- ส่งออก API ของ AI agent ทั้งชุดเป็นคอนเทนเนอร์แบบ Dockerized
เวิร์กโฟลว์นี้มีไว้สำหรับการแปลงเอกสารสิ่งพิมพ์ทางประวัติศาสตร์ให้เป็นดิจิทัล
- เกี่ยวข้องกับการอนุรักษ์ประกาศเก่าที่พิมพ์ด้วยแบบอักษร Blackletter
OCR4all รวมโซลูชันโอเพนซอร์สหลายตัวเข้าด้วยกันเพื่อให้เป็นเวิร์กโฟลว์รู้จำข้อความอัตโนมัติ
- ดูเหมือนว่าจะอิงกับ OCR-D ซึ่งต่อยอดจาก Tesseract, Kraken, DUP-ocropy, Calamari-OCR
- ดูเหมือนจะเป็นทางเลือกโอเพนซอร์สของ Transkribus
- eScriptorium ก็เป็นอีกทางเลือกหนึ่ง
สงสัยว่านี่เป็น OCR engine ระดับ SOTA ตัวใหม่ หรือเป็นเพียงเครื่องมือที่ใช้เอนจินที่มีอยู่แล้วตัวอื่น
- อยากให้หน้า landing page ชัดเจนกว่านี้
เดิมคิดว่า OCR น่าจะถูกแก้ปัญหาไปได้เกือบหมดแล้วด้วย Tesseract แต่กำลังหาไลบรารีหรืออิมพลีเมนเทชันสำหรับการบีบอัด MRC ของ PDF ผลลัพธ์
- ผลิตภัณฑ์เชิงพาณิชย์มีราคาสูง และการแยกเลเยอร์ภาพ บีบอัด แล้วนำกลับมารวมกันใหม่ เป็นปัญหาที่ยาก

OCR4all - OCR สำหรับทุกคน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News