- ฟรีทั้งหมดและเป็นโอเพนซอร์ส ไม่มีการสมัครสมาชิก/ฟีเจอร์เสียเงิน/โค้ดที่ซ่อนอยู่
- ปรับใช้ได้อย่างยืดหยุ่น ตั้งแต่การประมวลผลต้นฉบับที่ท้าทายด้วยคุณภาพสูง ไปจนถึงการรู้จำข้อความเต็มรูปแบบจากงานพิมพ์จำนวนมาก
- รองรับการทำแอนโนเทตเลย์เอาต์และข้อความอย่างทรงพลัง
- ใช้ตัวแก้ไข LAREX เพื่อใส่คำอธิบายประกอบ แก้ไข หรือเปรียบเทียบองค์ประกอบของเลย์เอาต์และข้อความด้วยตนเอง
- เข้ากันได้อย่างสมบูรณ์กับระบบนิเวศ OCR-D
- ออกแบบโดยคำนึงถึงการใช้งาน: สามารถสร้างเวิร์กโฟลว์ OCR ที่ซับซ้อนผ่าน UI ได้โดยไม่ต้องใช้โค้ด/CLI
- พัฒนาข้ามแพลตฟอร์มได้ง่าย: ไม่ว่าจะเป็น OS ประเภทใด ก็สามารถรันได้ด้วย Docker และคำสั่งเดียว
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ไปป์ไลน์การแบ่งส่วนที่ซับซ้อนเคยจำเป็นเมื่อหลายปีก่อน แต่ตอนนี้มีข้อผิดพลาดมากและแย่งบริบทสำคัญจากโมเดล ถ้าจะไปต่อกับลายมือเขียนก็จำเป็นต้องมีบริบท
OCR4all เป็นซอฟต์แวร์สำหรับกู้คืนและรู้จำข้อความดิจิทัลจากงานพิมพ์ยุคใหม่ตอนต้น
OCR4all จัดการความต้องการของผู้ใช้ที่ไม่ใช่สายเทคนิคได้อย่างชัดเจนและใช้งานง่าย
Vision Framework ของ Apple มีไลบรารีรู้จำข้อความที่เร็วและแม่นยำกว่า Tesseract
การรวม Tesseract กับ LLM เพื่อแก้ข้อผิดพลาดและปรับปรุงรูปแบบ เป็นจุดลงตัวที่สุดในตอนนี้ด้านความเร็ว/ประสิทธิภาพ/ความแม่นยำ
ได้พัฒนา AI-assisted OCR API
เวิร์กโฟลว์นี้มีไว้สำหรับการแปลงเอกสารสิ่งพิมพ์ทางประวัติศาสตร์ให้เป็นดิจิทัล
OCR4all รวมโซลูชันโอเพนซอร์สหลายตัวเข้าด้วยกันเพื่อให้เป็นเวิร์กโฟลว์รู้จำข้อความอัตโนมัติ
สงสัยว่านี่เป็น OCR engine ระดับ SOTA ตัวใหม่ หรือเป็นเพียงเครื่องมือที่ใช้เอนจินที่มีอยู่แล้วตัวอื่น
เดิมคิดว่า OCR น่าจะถูกแก้ปัญหาไปได้เกือบหมดแล้วด้วย Tesseract แต่กำลังหาไลบรารีหรืออิมพลีเมนเทชันสำหรับการบีบอัด MRC ของ PDF ผลลัพธ์