3 คะแนน โดย GN⁺ 2024-11-17 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • แนะนำโปรเจกต์

    • โปรเจกต์นี้เป็นเครื่องมือที่ใช้ llama-ocr และ Together AIOCR เพื่อแปลงรูปภาพเป็น Markdown แบบมีโครงสร้าง
    • ผู้ใช้สามารถอัปโหลดรูปภาพเพื่อดึงข้อความออกมาและแปลงเป็นรูปแบบ Markdown ได้
  • ฟีเจอร์หลัก

    • รองรับการอัปโหลดรูปภาพ
    • ดึงข้อความจากรูปภาพและแปลงเป็น Markdown
    • มีรูปภาพตัวอย่างให้ผู้ใช้ทดสอบการทำงานได้
  • ตัวอย่างโค้ด

    • มีตัวอย่างโค้ดสำหรับดึงข้อความจากรูปภาพโดยใช้ไลบรารี llama-ocr
    • ส่งพาธไฟล์รูปภาพและ API key ไปยังฟังก์ชัน ocr เพื่อสร้าง Markdown
  • ความสำคัญของโปรเจกต์

    • โปรเจกต์นี้ช่วยให้ดึงข้อความจากรูปภาพและแปลงเป็น Markdown ได้อย่างง่ายดาย จึงเพิ่มประสิทธิภาพในการทำงานด้านเอกสาร
    • เมื่อเทียบกับเครื่องมือ OCR แบบเดิม โปรเจกต์นี้ใช้งานได้สะดวกกว่าและรองรับการแปลงเป็น Markdown

1 ความคิดเห็น

 
GN⁺ 2024-11-17
ความคิดเห็นจาก Hacker News
  • ผู้เขียน llama-ocr ได้พัฒนาเครื่องมือที่แปลงภาพเป็น Markdown ที่มีโครงสร้างผ่าน API แบบเรียบง่าย และมีแผนจะเพิ่มความสามารถในการแยกวิเคราะห์ PDF และการส่งออกเป็น JSON ในอนาคต

    • จากตัวอย่างเว็บตูน พบปัญหาที่บทสนทนาซึ่งเป็นตัวพิมพ์ใหญ่ถูกแสดงผลต่างกันในแต่ละพาเนล
    • เคยใช้มันเพื่อแปลงสไลด์เก่าให้เป็นดิจิทัล และพบว่าสีเหลืองของสไลด์จริง ๆ แล้วเป็นปัญหา white balance
    • มีตัวอย่างที่แสดงอคติของโมเดล โดยมันเข้าใจสไลด์ผิดว่าเป็นของเก่าและสร้างชื่อเรื่องที่ไม่ถูกต้อง
    • ไม่มีการระบุข้อจำกัดเรื่องขนาดไฟล์หรือความละเอียดของ API ไว้ในเอกสาร
  • ใช้ llama3.2-vision เพื่อประมวลผลใบประมูลของงานประมูลการกุศล และพบว่าค่อนข้างแม่นยำแม้ลายมือจะอ่านยาก

    • จุดที่ไม่สะดวกคือไม่สามารถส่งออกเป็น CSV ได้อย่างสม่ำเสมอ
    • ขนาดของงานอยู่ราว 100 หน้า จึงยังสามารถจัดการเก็บรายละเอียดด้วยมือได้
  • โมเดล OCR ทั่วไปไม่เหมาะกับการแปลงข้อความจากรูปถ่ายครอบครัวให้เป็นดิจิทัล และ Gemini Flash ทำได้ดีที่สุด

    • แต่ก็ยังมีข้อผิดพลาดมากจนการทำด้วยมือยังเร็วกว่า
  • มีข้อสงสัยว่าเหมาะจะเป็นโพสต์ "Show HN" หรือไม่ และแทบไม่เกี่ยวข้องกับชื่อ Llama

  • มีการวาดประโยคที่สร้างด้วย genetic algorithm ให้เป็นวงกลมจริง ๆ แต่ระบบไม่รู้จำเป็นข้อความ

  • อัปโหลด PDF แบบหลายหน้าแล้ว แต่ได้รับแจ้งว่ายังไม่รองรับ

  • อัปโหลดภาพหน้าจอ HN แล้ว แต่ไม่มี Markdown code ถูกแสดงผล

  • OCR ภาษาญี่ปุ่นทำงานได้ดีผ่าน ChatGPT API

  • ระบบอ่านข้อความเลข 9 บนใบเสร็จ Walmart ผิดเป็น 0