13 คะแนน โดย xguru 2021-03-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โอเพนซอร์สสำหรับดึงข้อมูลตารางจาก PDF หรือรูปภาพแล้วแปลงเป็น CSV

  • โค้ด Python + OpenCV + Tesseract

  • รูปภาพภายใน PDF สามารถดึงออกมาเป็นไฟล์ภาพแยกทั้งหมดด้วย Poppler + ImageMagick แล้วประมวลผลได้ในครั้งเดียว (สคริปต์แบตช์)

1 ความคิดเห็น

 
xguru 2021-03-12

ในกรณีที่ในตารางมีแต่ตัวเลขอย่างเดียว โค้ดด้านล่างน่าจะสะดวกกว่า เพราะเลือกไปจนถึงขอบเขตของพื้นที่แล้วดึงออกมาได้

image2csv - โอเพนซอร์สสำหรับแปลงรูปภาพตารางตัวเลขเป็น CSV

https://github.com/artperrin/image2csv

  • โค้ด Python + OpenCV + Tesseract

  • ตรวจจับกริด(ตาราง)อัตโนมัติ

  • หากให้ตรวจจับแบบแมนนวล สามารถใช้เมาส์เลือกพื้นที่บน Windows ได้