39 คะแนน โดย GN⁺ 2025-02-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ฟรีทั้งหมดและเป็นโอเพนซอร์ส ไม่มีการสมัครสมาชิก/ฟีเจอร์เสียเงิน/โค้ดที่ซ่อนอยู่
  • ปรับใช้ได้อย่างยืดหยุ่น ตั้งแต่การประมวลผลต้นฉบับที่ท้าทายด้วยคุณภาพสูง ไปจนถึงการรู้จำข้อความเต็มรูปแบบจากงานพิมพ์จำนวนมาก
  • รองรับการทำแอนโนเทตเลย์เอาต์และข้อความอย่างทรงพลัง
    • ใช้ตัวแก้ไข LAREX เพื่อใส่คำอธิบายประกอบ แก้ไข หรือเปรียบเทียบองค์ประกอบของเลย์เอาต์และข้อความด้วยตนเอง
  • เข้ากันได้อย่างสมบูรณ์กับระบบนิเวศ OCR-D
  • ออกแบบโดยคำนึงถึงการใช้งาน: สามารถสร้างเวิร์กโฟลว์ OCR ที่ซับซ้อนผ่าน UI ได้โดยไม่ต้องใช้โค้ด/CLI
  • พัฒนาข้ามแพลตฟอร์มได้ง่าย: ไม่ว่าจะเป็น OS ประเภทใด ก็สามารถรันได้ด้วย Docker และคำสั่งเดียว

1 ความคิดเห็น

 
GN⁺ 2025-02-15
ความคิดเห็นจาก Hacker News
  • ไปป์ไลน์การแบ่งส่วนที่ซับซ้อนเคยจำเป็นเมื่อหลายปีก่อน แต่ตอนนี้มีข้อผิดพลาดมากและแย่งบริบทสำคัญจากโมเดล ถ้าจะไปต่อกับลายมือเขียนก็จำเป็นต้องมีบริบท

    • หากต้องการถอดความลายมือเขียนทางประวัติศาสตร์ ผู้เชี่ยวชาญคงจะบอกว่าต้องใช้เอกสารทั้งฉบับ
    • ต้องทำให้ถึงขั้นการรู้จำข้อความจริง ๆ ไม่ใช่แค่การรู้จำตัวอักษร
    • การประเมินโมเดลด้วย CER ไม่ค่อยดีนัก
    • การรู้จำข้อความกำลังทำผิดซ้ำแบบเดียวกับที่ machine translation เคยทำเมื่อ 15 ปีก่อน
  • OCR4all เป็นซอฟต์แวร์สำหรับกู้คืนและรู้จำข้อความดิจิทัลจากงานพิมพ์ยุคใหม่ตอนต้น

    • รูปแบบงานพิมพ์ที่ซับซ้อนและเลย์เอาต์ที่ไม่สม่ำเสมอเป็นบททดสอบความสามารถของซอฟต์แวร์รู้จำข้อความทั่วไป
    • ดูเหมือนว่าสร้างขึ้นบนพื้นฐานของ Calamari-OCR
  • OCR4all จัดการความต้องการของผู้ใช้ที่ไม่ใช่สายเทคนิคได้อย่างชัดเจนและใช้งานง่าย

    • มีคำแนะนำให้เปิดเทอร์มินัลบน Linux และพิมพ์คำสั่ง
    • เลยสงสัยว่ามันช่วยผู้ใช้ที่ไม่ใช่สายเทคนิคได้อย่างไร
  • Vision Framework ของ Apple มีไลบรารีรู้จำข้อความที่เร็วและแม่นยำกว่า Tesseract

    • จัดการได้กับไฟล์ภาพแทบทุกฟอร์แมต
    • ได้เขียนเครื่องมือ CLI แบบง่ายและ Python wrapper ไว้
  • การรวม Tesseract กับ LLM เพื่อแก้ข้อผิดพลาดและปรับปรุงรูปแบบ เป็นจุดลงตัวที่สุดในตอนนี้ด้านความเร็ว/ประสิทธิภาพ/ความแม่นยำ

    • สามารถแก้ไขข้อความพรอมป์ต์ภาษาอังกฤษเพื่อให้น้ำหนักกับแง่มุมเฉพาะของเอกสารนำเข้าได้
  • ได้พัฒนา AI-assisted OCR API

    • รวม Tesseract กับ Poppler-utils เพื่อดึงเซกเมนต์เอกสารอย่างชาญฉลาด
    • ขยายไปยังโมเดล Vision LLM หลายแบบได้ง่าย
    • ส่งออก API ของ AI agent ทั้งชุดเป็นคอนเทนเนอร์แบบ Dockerized
  • เวิร์กโฟลว์นี้มีไว้สำหรับการแปลงเอกสารสิ่งพิมพ์ทางประวัติศาสตร์ให้เป็นดิจิทัล

    • เกี่ยวข้องกับการอนุรักษ์ประกาศเก่าที่พิมพ์ด้วยแบบอักษร Blackletter
  • OCR4all รวมโซลูชันโอเพนซอร์สหลายตัวเข้าด้วยกันเพื่อให้เป็นเวิร์กโฟลว์รู้จำข้อความอัตโนมัติ

    • ดูเหมือนว่าจะอิงกับ OCR-D ซึ่งต่อยอดจาก Tesseract, Kraken, DUP-ocropy, Calamari-OCR
    • ดูเหมือนจะเป็นทางเลือกโอเพนซอร์สของ Transkribus
    • eScriptorium ก็เป็นอีกทางเลือกหนึ่ง
  • สงสัยว่านี่เป็น OCR engine ระดับ SOTA ตัวใหม่ หรือเป็นเพียงเครื่องมือที่ใช้เอนจินที่มีอยู่แล้วตัวอื่น

    • อยากให้หน้า landing page ชัดเจนกว่านี้
  • เดิมคิดว่า OCR น่าจะถูกแก้ปัญหาไปได้เกือบหมดแล้วด้วย Tesseract แต่กำลังหาไลบรารีหรืออิมพลีเมนเทชันสำหรับการบีบอัด MRC ของ PDF ผลลัพธ์

    • ผลิตภัณฑ์เชิงพาณิชย์มีราคาสูง และการแยกเลเยอร์ภาพ บีบอัด แล้วนำกลับมารวมกันใหม่ เป็นปัญหาที่ยาก