ตัวแปลงไฟล์ HWP แบบอาศัย Pandoc - ขอแนะนำเครื่องมือโอเพนซอร์สสำหรับแปลง md, html, docx เป็น hwpx
(github.com/msjang)พัฒนาขึ้นเพื่อแก้ความไม่สะดวกของการทำงานเอกสาร HWP หลังจากทำงานในสถาบันวิจัยของรัฐมา 9 ปี
ที่มาของการพัฒนา
- ปี 2018: ช่วงที่ยังเป็นมือใหม่ Python ได้ลองทำตัวแปลง HML/HWPML แบบอิง regular expression - https://github.com/msjang/md2hml
- มกราคม 2025: พัฒนา
hwpfy- รวบรวมรายงานงานประจำสัปดาห์ของคนราว 20 คนจากวิกิที่แก้ไขร่วมกันแบบเรียลไทม์
- วิกิ → ส่งออกเป็น DOCX → แปลงเป็น DOCX ที่ใส่แบบฟอร์มราชการ (
hwpfy) → เปิดในแอป Hangul แล้วบันทึกเป็น HWPX → แชร์เป็น HWPX ให้หน่วยงานระดับบนภายในสถาบัน
- ธันวาคม 2025:
pypandoc-hwpx- ตอนนี้คิดว่าสั่งสมประสบการณ์มามากพอแล้ว จึงตั้งใจลงทุนเวลาและพัฒนาอย่างจริงจัง
วิธีพัฒนา
- สร้าง DOCX ตามรูปแบบที่ต้องการ แล้วบันทึกเป็น HWPX
- แตกไฟล์ DOCX และ HWPX ที่สร้างขึ้นด้วย unzip เพื่อดู XML จากนั้นลบแอตทริบิวต์ที่ไม่จำเป็นและปรับแต่ง แล้วตรวจสอบด้วยว่าสามารถเปิดได้ดีทั้งใน Word และแอป Hangul
- สร้างเอกสารเปรียบเทียบฟอร์แมต md, html, docx, hwpx - https://github.com/msjang/pypandoc-hwpx/…
- เดิมทีตั้งใจจะให้ LLM ช่วยเขียนโค้ดจาก
format_comparison.mdข้างต้น แต่ก็ตระหนักได้ว่าในสถานการณ์นี้มี HWPX ฉบับคำตอบอยู่แล้ว - สร้างขึ้นโดยรับฟีดแบ็กหลายรอบกับ Antigravity(Gemini Pro 3) เพราะผลลัพธ์ไม่ออกมาในรูปแบบที่ต้องการ จึงไล่ดู XML อย่างละเอียดแล้วให้ฟีดแบ็กเพิ่มเติม แม้จะไม่ได้อ้างถึงเอกสารเปรียบเทียบฟอร์แมตโดยตรง แต่การทำความเข้าใจเนื้อหาในนั้นช่วยให้รีวิวได้มาก
สิ่งที่จะทำต่อไป
อยากถอด Python ออกจาก Pypandoc แล้วเขียนด้วย Haskell เพื่อมีส่วนร่วมเพิ่ม HWPX writer ให้กับ Pandoc
ยังไม่มีความคิดเห็น