2 คะแนน โดย GN⁺ 2025-02-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ไลบรารี Python สำหรับตรวจสอบและแปลงโครงสร้างภายในของไฟล์ PDF
  • มุ่งเน้นการติดตั้งใช้งานบทที่ 7 ของมาตรฐาน PDF ("Syntax")
  • จัดการโครงสร้างเอกสารในระดับไบต์ ทำให้สามารถเข้าถึงเมตาดาตา หมุนเอกสาร และทำงานแปลงรูปแบบอื่น ๆ ได้

คุณสมบัติเด่น

  • มี API toolkit สำหรับงานอ่าน/เขียน PDF
  • รองรับ CLI (Command Line Interface) เพื่อให้ใช้งานฟังก์ชันบางอย่างได้จากเทอร์มินัลหรือเบราว์เซอร์
  • เป็นไลบรารีขนาดเบาที่ไม่มี dependency และเขียนด้วย Python ล้วน
  • ออกแบบโดยให้ความสำคัญกับความเรียบง่ายและความไม่เปลี่ยนแปลงของข้อมูล
  • รองรับการแก้ไขแบบไม่ทำลายข้อมูลตามที่มาตรฐาน PDF อนุญาต และโดยค่าปริยายจะเพิ่ม incremental update ต่อท้ายไฟล์ต้นฉบับ
    • สามารถย้อนการแก้ไขทั้งหมดหรือรวมเป็นเวอร์ชันเดียวได้เช่นกัน

ไลฟ์เดโม

  • มี ไลฟ์เดโม ให้สำรวจผลลัพธ์ HTML แบบคงที่ของ PDFSyntax ได้ในเบราว์เซอร์
  • เดโมเป็นผลลัพธ์สำหรับไฟล์ตัวอย่าง Simple Text String ในข้อกำหนด PDF

1 ความคิดเห็น

 
GN⁺ 2025-02-11
ความคิดเห็นจาก Hacker News

สรุปความคิดเห็นจาก Hacker News

  • เคยมีประสบการณ์ได้รับมอบหมายงานให้ดึงข้อมูลจาก PDF ในอดีต ตอนนั้นยังไม่มีเทคโนโลยี AI แต่ปัจจุบันอาจมีความเป็นไปได้ที่จะใช้ LLMs ในการดึงข้อมูล

  • มีความเห็นว่าถ้ามีเครื่องมือดึงข้อมูล PDF ในที่ทำงานเก่าก็คงได้ใช้งานบ่อย โดยเครื่องมือในอุดมคติควรเป็นแบบที่แค่ลากไฟล์มาวางแล้วประมวลผลทุกอย่างบนเครื่องแบบโลคัล

  • เคยใช้เครื่องมือฟรีชื่อ iText RUPS สำหรับดีบัก PDF มาโดยตลอด และคาดหวังว่าเครื่องมือใหม่นี้น่าจะมีความสามารถที่ทรงพลังยิ่งกว่า

  • สงสัยว่าทำไม PDF ถึงไม่ถูกแทนที่ด้วย XPS, DjVu, XHTML(EPUB) พร้อมทั้งเสนอว่าควรมีฟอร์แมตเอกสารที่เรียบง่าย และรองรับไฮเปอร์ลิงก์ภายในหน้า การเปลี่ยนขนาดตัวอักษร ฯลฯ

  • มีความเห็นว่าน่าจะมีประโยชน์สำหรับงานนิติวิทยาศาสตร์ดิจิทัลและการค้นหาวอเตอร์มาร์ก

  • มีความเห็นว่าอยากให้แสดงทุกไบต์ของ PDF และชี้ให้เห็นว่าไม่เห็น endobj และ xref

  • มีความเห็นว่าเคยมีโปรเจ็กต์คล้ายกันบน GitHub และจำได้ว่ามีตัวอย่างเกี่ยวกับ TCP/IP

  • มีความเห็นว่าน่าจะเหมาะกับการใช้เป็นไลบรารีบนเบราว์เซอร์ ฟังก์ชันลากแล้ววางไฟล์เพื่อดูโครงสร้างภายในถือว่าน่าประทับใจ

  • มีความเห็นว่าสงสัยว่าเครื่องมือ UI นี้เป็นไลบรารีหรือไม่ และชื่นชอบที่เป็น UI เรียบง่ายซึ่งใช้ CSS ได้ดี

  • มีความเห็นว่ากำลังมองหาเครื่องมือที่อธิบายคอนเทนต์ของฟอร์แมตสื่อเชิงภาพในระดับไบต์ และถามว่ามีใครรู้จักเครื่องมือที่รองรับฟอร์แมตอย่าง JPEG, PNG, AVI, MP4 เป็นต้นหรือไม่