ราชกิจจานุเบกษาที่ AI อ่านได้ - แปลงราชกิจจานุเบกษาเกาหลีใต้ 128,000 ฉบับจาก PDF เป็นคอร์ปัส Markdown
(github.com/hosungseo)ราชกิจจานุเบกษาของประเทศเราเปิดเผยต่อสาธารณะอยู่แล้ว สามารถดาวน์โหลดเป็น PDF ได้จากพอร์ทัลข้อมูลสาธารณะ และไม่มีการเซ็นเซอร์ แล้วทำไมนักวิจัย นักข่าว นักพัฒนา องค์กรภาคประชาชน และข้าราชการ จึงยังต้องแยกกันพาร์สราชกิจจานุเบกษาชุดเดียวกันซ้ำแล้วซ้ำอีก
คอร์ปัสอนุพันธ์ของราชกิจจานุเบกษาเกาหลีใต้ราว 128,000 ฉบับ (2020.01.02 ~ 2026.04.07, 1,474 กลุ่มวันที่) ที่รีอินเด็กซ์เป็น Markdown และค่อย ๆ แก้ไข OCR แบบสะสมด้วยพจนานุกรม เพื่อให้ทั้งคนและ AI อ่านร่วมกันได้
ผู้จัดทำเป็นข้าราชการระดับ administrative officer ของกระทรวงส่วนกลาง
Live Reader: https://hosungseo.github.io/ai-readable-gazette-kr/
ข้อจำกัดของการเปิดเผยเพื่อมนุษย์
- ช่องว่างระหว่าง "เปิดเผยอยู่แล้ว" กับ "AI agent นำไปใช้ได้" ใหญ่กว่าที่คิด
- PDF เปรียบเทียบกันในระดับมาตราหรือข้อบทไม่ได้ กรองตามหน่วยงาน วันที่ หรือเหตุการณ์ได้ยาก OCR ก็เพี้ยน และโครงสร้างตารางเสียหาย
- ผลคือภาระต้นทุนการเตรียมข้อมูลยังถูกผลักไปที่ฝั่งผู้ใช้ (agent) อย่างต่อเนื่อง นักข่าว นักวิจัย และข้าราชการต่างก็ต้องมาแกะ PDF เดียวกันใหม่กันคนละรอบ
- ขั้นต่อไปของความโปร่งใสไม่ใช่ "เปิดเผยให้มากขึ้น" แต่คือ "ทำให้สิ่งเดิมอยู่ในรูปแบบที่เครื่องอ่านได้"
มีอะไรอยู่ข้างใน
derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md— Markdown ที่แก้ไขครบแล้ว 128,403 ไฟล์- ใน frontmatter มี
title / publisher / date / source_raw_md— สามารถนำไป chunk → embedding → RAG ได้ตรง ๆ ทันที docs/data/meta.json,dates/YYYY-MM-DD.json,titles.json— ดัชนี JSON แบบ static สามารถfetchจากเว็บไซต์ภายนอกได้โดยไม่มีข้อจำกัด CORS- live reader เป็น HTML ล้วนที่เปิดได้โดยไม่ต้องมี build tool (มีค้นหา heatmap TOC dark mode และคีย์ลัดคีย์บอร์ด)
- ความครอบคลุมของหน่วยงาน: กระทรวงส่วนกลาง ~108,800 ฉบับ, ฝ่ายตุลาการ ~7,700 ฉบับ, การศึกษา ~4,100 ฉบับ, องค์กรปกครองท้องถิ่น ~3,300 ฉบับ ฯลฯ รวมราว 1,600 หน่วยงาน
OCR: บนฐานโอเพนซอร์สสัญชาติเกาหลี
- OCR สำหรับดึงข้อความจาก PDF ใช้ opendataloader ซึ่งเป็นเครื่องมือโอเพนซอร์สของ Hancom
- ที่เลือกใช้สิ่งนี้แทนเครื่องมืออื่นเป็นความตั้งใจ เพราะงานนี้จัดการกับข้อมูลสาธารณะอย่างราชกิจจานุเบกษา จึงมองว่าเครื่องมือก็ควรรันอยู่บนฐานโอเพนซอร์สสัญชาติเกาหลีเช่นกัน
- หากตัว opendataloader พัฒนาขึ้น อักขระเพี้ยนก็จะลดลง และพจนานุกรมสำหรับการแก้ไขก็จะเบาลงตามธรรมชาติ
- เมื่อเครื่องมือดีขึ้น คอร์ปัสก็จะดีขึ้นไปด้วยในโครงสร้างแบบนี้
เพิ่มอีกหนึ่งชั้นบน PDF
- การเผยแพร่เป็น PDF เป็นทางเลือกที่สมเหตุสมผลในแง่การป้องกันการปลอมแปลง ตัวต้นฉบับที่เป็น PDF เองไม่ใช่ปัญหา
- ทางออกไม่ใช่ "เลิกเผยแพร่เป็น PDF" แต่คือ "คง PDF ไว้เป็นต้นฉบับ แล้วเพิ่มเลเยอร์อนุพันธ์แบบ AI-readable ขึ้นไปอีกชั้น"
- ที่เก็บนี้ไม่ได้ลบหรือรื้อข้อความต้นฉบับทิ้ง ยังคงเก็บ PDF ต้นฉบับไว้ตามเดิม แล้วซ้อนทับด้วยคอร์ปัสสำหรับการอ่านแบบอนุพันธ์เป็นโครงสร้างสองชั้น
2 ความคิดเห็น
ดีมากเลยครับ แบบนี้นโยบายที่ผลักดันกันอยู่ใน policy briefing จริง ๆ ก็สามารถให้ AI วิเคราะห์แบบเรียลไทม์ได้แล้วว่านโยบายระดับชาติและกฎหมายมีการเปลี่ยนแปลงอย่างไร แล้วสร้างผลลัพธ์ออกมาได้
ฮิฮิ แล้วเอาอันนี้ไปทำอะไรได้บ้าง?