Llama-OCR: เทคโนโลยีที่แปลงเอกสารเป็น Markdown
(llamaocr.com)-
แนะนำโปรเจกต์
- โปรเจกต์นี้เป็นเครื่องมือที่ใช้
llama-ocrและTogether AIOCRเพื่อแปลงรูปภาพเป็น Markdown แบบมีโครงสร้าง - ผู้ใช้สามารถอัปโหลดรูปภาพเพื่อดึงข้อความออกมาและแปลงเป็นรูปแบบ Markdown ได้
- โปรเจกต์นี้เป็นเครื่องมือที่ใช้
-
ฟีเจอร์หลัก
- รองรับการอัปโหลดรูปภาพ
- ดึงข้อความจากรูปภาพและแปลงเป็น Markdown
- มีรูปภาพตัวอย่างให้ผู้ใช้ทดสอบการทำงานได้
-
ตัวอย่างโค้ด
- มีตัวอย่างโค้ดสำหรับดึงข้อความจากรูปภาพโดยใช้ไลบรารี
llama-ocr - ส่งพาธไฟล์รูปภาพและ API key ไปยังฟังก์ชัน
ocrเพื่อสร้าง Markdown
- มีตัวอย่างโค้ดสำหรับดึงข้อความจากรูปภาพโดยใช้ไลบรารี
-
ความสำคัญของโปรเจกต์
- โปรเจกต์นี้ช่วยให้ดึงข้อความจากรูปภาพและแปลงเป็น Markdown ได้อย่างง่ายดาย จึงเพิ่มประสิทธิภาพในการทำงานด้านเอกสาร
- เมื่อเทียบกับเครื่องมือ OCR แบบเดิม โปรเจกต์นี้ใช้งานได้สะดวกกว่าและรองรับการแปลงเป็น Markdown
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ผู้เขียน llama-ocr ได้พัฒนาเครื่องมือที่แปลงภาพเป็น Markdown ที่มีโครงสร้างผ่าน API แบบเรียบง่าย และมีแผนจะเพิ่มความสามารถในการแยกวิเคราะห์ PDF และการส่งออกเป็น JSON ในอนาคต
ใช้ llama3.2-vision เพื่อประมวลผลใบประมูลของงานประมูลการกุศล และพบว่าค่อนข้างแม่นยำแม้ลายมือจะอ่านยาก
โมเดล OCR ทั่วไปไม่เหมาะกับการแปลงข้อความจากรูปถ่ายครอบครัวให้เป็นดิจิทัล และ Gemini Flash ทำได้ดีที่สุด
มีข้อสงสัยว่าเหมาะจะเป็นโพสต์ "Show HN" หรือไม่ และแทบไม่เกี่ยวข้องกับชื่อ Llama
มีการวาดประโยคที่สร้างด้วย genetic algorithm ให้เป็นวงกลมจริง ๆ แต่ระบบไม่รู้จำเป็นข้อความ
อัปโหลด PDF แบบหลายหน้าแล้ว แต่ได้รับแจ้งว่ายังไม่รองรับ
อัปโหลดภาพหน้าจอ HN แล้ว แต่ไม่มี Markdown code ถูกแสดงผล
OCR ภาษาญี่ปุ่นทำงานได้ดีผ่าน ChatGPT API
ระบบอ่านข้อความเลข 9 บนใบเสร็จ Walmart ผิดเป็น 0