- ไลบรารี Python สำหรับตรวจสอบและแปลงโครงสร้างภายในของไฟล์ PDF
- มุ่งเน้นการติดตั้งใช้งานบทที่ 7 ของมาตรฐาน PDF ("Syntax")
- จัดการโครงสร้างเอกสารในระดับไบต์ ทำให้สามารถเข้าถึงเมตาดาตา หมุนเอกสาร และทำงานแปลงรูปแบบอื่น ๆ ได้
คุณสมบัติเด่น
- มี API toolkit สำหรับงานอ่าน/เขียน PDF
- รองรับ CLI (Command Line Interface) เพื่อให้ใช้งานฟังก์ชันบางอย่างได้จากเทอร์มินัลหรือเบราว์เซอร์
- เป็นไลบรารีขนาดเบาที่ไม่มี dependency และเขียนด้วย Python ล้วน
- ออกแบบโดยให้ความสำคัญกับความเรียบง่ายและความไม่เปลี่ยนแปลงของข้อมูล
- รองรับการแก้ไขแบบไม่ทำลายข้อมูลตามที่มาตรฐาน PDF อนุญาต และโดยค่าปริยายจะเพิ่ม incremental update ต่อท้ายไฟล์ต้นฉบับ
- สามารถย้อนการแก้ไขทั้งหมดหรือรวมเป็นเวอร์ชันเดียวได้เช่นกัน
ไลฟ์เดโม
- มี ไลฟ์เดโม ให้สำรวจผลลัพธ์ HTML แบบคงที่ของ PDFSyntax ได้ในเบราว์เซอร์
- เดโมเป็นผลลัพธ์สำหรับไฟล์ตัวอย่าง Simple Text String ในข้อกำหนด PDF
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
สรุปความคิดเห็นจาก Hacker News
เคยมีประสบการณ์ได้รับมอบหมายงานให้ดึงข้อมูลจาก PDF ในอดีต ตอนนั้นยังไม่มีเทคโนโลยี AI แต่ปัจจุบันอาจมีความเป็นไปได้ที่จะใช้ LLMs ในการดึงข้อมูล
มีความเห็นว่าถ้ามีเครื่องมือดึงข้อมูล PDF ในที่ทำงานเก่าก็คงได้ใช้งานบ่อย โดยเครื่องมือในอุดมคติควรเป็นแบบที่แค่ลากไฟล์มาวางแล้วประมวลผลทุกอย่างบนเครื่องแบบโลคัล
เคยใช้เครื่องมือฟรีชื่อ iText RUPS สำหรับดีบัก PDF มาโดยตลอด และคาดหวังว่าเครื่องมือใหม่นี้น่าจะมีความสามารถที่ทรงพลังยิ่งกว่า
สงสัยว่าทำไม PDF ถึงไม่ถูกแทนที่ด้วย XPS, DjVu, XHTML(EPUB) พร้อมทั้งเสนอว่าควรมีฟอร์แมตเอกสารที่เรียบง่าย และรองรับไฮเปอร์ลิงก์ภายในหน้า การเปลี่ยนขนาดตัวอักษร ฯลฯ
มีความเห็นว่าน่าจะมีประโยชน์สำหรับงานนิติวิทยาศาสตร์ดิจิทัลและการค้นหาวอเตอร์มาร์ก
มีความเห็นว่าอยากให้แสดงทุกไบต์ของ PDF และชี้ให้เห็นว่าไม่เห็น
endobjและxrefมีความเห็นว่าเคยมีโปรเจ็กต์คล้ายกันบน GitHub และจำได้ว่ามีตัวอย่างเกี่ยวกับ TCP/IP
มีความเห็นว่าน่าจะเหมาะกับการใช้เป็นไลบรารีบนเบราว์เซอร์ ฟังก์ชันลากแล้ววางไฟล์เพื่อดูโครงสร้างภายในถือว่าน่าประทับใจ
มีความเห็นว่าสงสัยว่าเครื่องมือ UI นี้เป็นไลบรารีหรือไม่ และชื่นชอบที่เป็น UI เรียบง่ายซึ่งใช้ CSS ได้ดี
มีความเห็นว่ากำลังมองหาเครื่องมือที่อธิบายคอนเทนต์ของฟอร์แมตสื่อเชิงภาพในระดับไบต์ และถามว่ามีใครรู้จักเครื่องมือที่รองรับฟอร์แมตอย่าง JPEG, PNG, AVI, MP4 เป็นต้นหรือไม่