ราชกิจจานุเบกษาที่ AI อ่านได้ - แปลงราชกิจจานุเบกษาเกาหลีใต้ 128,000 ฉบับจาก PDF เป็นคอร์ปัส Markdown

(github.com/hosungseo)

16 คะแนน โดย hosungseo2026 2026-04-19 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ราชกิจจานุเบกษาของประเทศเราเปิดเผยต่อสาธารณะอยู่แล้ว สามารถดาวน์โหลดเป็น PDF ได้จากพอร์ทัลข้อมูลสาธารณะ และไม่มีการเซ็นเซอร์ แล้วทำไมนักวิจัย นักข่าว นักพัฒนา องค์กรภาคประชาชน และข้าราชการ จึงยังต้องแยกกันพาร์สราชกิจจานุเบกษาชุดเดียวกันซ้ำแล้วซ้ำอีก
คอร์ปัสอนุพันธ์ของราชกิจจานุเบกษาเกาหลีใต้ราว 128,000 ฉบับ (2020.01.02 ~ 2026.04.07, 1,474 กลุ่มวันที่) ที่รีอินเด็กซ์เป็น Markdown และค่อย ๆ แก้ไข OCR แบบสะสมด้วยพจนานุกรม เพื่อให้ทั้งคนและ AI อ่านร่วมกันได้
ผู้จัดทำเป็นข้าราชการระดับ administrative officer ของกระทรวงส่วนกลาง
Live Reader: https://hosungseo.github.io/ai-readable-gazette-kr/

ข้อจำกัดของการเปิดเผยเพื่อมนุษย์

ช่องว่างระหว่าง "เปิดเผยอยู่แล้ว" กับ "AI agent นำไปใช้ได้" ใหญ่กว่าที่คิด
PDF เปรียบเทียบกันในระดับมาตราหรือข้อบทไม่ได้ กรองตามหน่วยงาน วันที่ หรือเหตุการณ์ได้ยาก OCR ก็เพี้ยน และโครงสร้างตารางเสียหาย
ผลคือภาระต้นทุนการเตรียมข้อมูลยังถูกผลักไปที่ฝั่งผู้ใช้ (agent) อย่างต่อเนื่อง นักข่าว นักวิจัย และข้าราชการต่างก็ต้องมาแกะ PDF เดียวกันใหม่กันคนละรอบ
ขั้นต่อไปของความโปร่งใสไม่ใช่ "เปิดเผยให้มากขึ้น" แต่คือ "ทำให้สิ่งเดิมอยู่ในรูปแบบที่เครื่องอ่านได้"

มีอะไรอยู่ข้างใน

derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md — Markdown ที่แก้ไขครบแล้ว 128,403 ไฟล์
ใน frontmatter มี title / publisher / date / source_raw_md — สามารถนำไป chunk → embedding → RAG ได้ตรง ๆ ทันที
docs/data/meta.json, dates/YYYY-MM-DD.json, titles.json — ดัชนี JSON แบบ static สามารถ fetch จากเว็บไซต์ภายนอกได้โดยไม่มีข้อจำกัด CORS
live reader เป็น HTML ล้วนที่เปิดได้โดยไม่ต้องมี build tool (มีค้นหา heatmap TOC dark mode และคีย์ลัดคีย์บอร์ด)
ความครอบคลุมของหน่วยงาน: กระทรวงส่วนกลาง ~108,800 ฉบับ, ฝ่ายตุลาการ ~7,700 ฉบับ, การศึกษา ~4,100 ฉบับ, องค์กรปกครองท้องถิ่น ~3,300 ฉบับ ฯลฯ รวมราว 1,600 หน่วยงาน

OCR: บนฐานโอเพนซอร์สสัญชาติเกาหลี

OCR สำหรับดึงข้อความจาก PDF ใช้ opendataloader ซึ่งเป็นเครื่องมือโอเพนซอร์สของ Hancom
ที่เลือกใช้สิ่งนี้แทนเครื่องมืออื่นเป็นความตั้งใจ เพราะงานนี้จัดการกับข้อมูลสาธารณะอย่างราชกิจจานุเบกษา จึงมองว่าเครื่องมือก็ควรรันอยู่บนฐานโอเพนซอร์สสัญชาติเกาหลีเช่นกัน
หากตัว opendataloader พัฒนาขึ้น อักขระเพี้ยนก็จะลดลง และพจนานุกรมสำหรับการแก้ไขก็จะเบาลงตามธรรมชาติ
เมื่อเครื่องมือดีขึ้น คอร์ปัสก็จะดีขึ้นไปด้วยในโครงสร้างแบบนี้

เพิ่มอีกหนึ่งชั้นบน PDF

การเผยแพร่เป็น PDF เป็นทางเลือกที่สมเหตุสมผลในแง่การป้องกันการปลอมแปลง ตัวต้นฉบับที่เป็น PDF เองไม่ใช่ปัญหา
ทางออกไม่ใช่ "เลิกเผยแพร่เป็น PDF" แต่คือ "คง PDF ไว้เป็นต้นฉบับ แล้วเพิ่มเลเยอร์อนุพันธ์แบบ AI-readable ขึ้นไปอีกชั้น"
ที่เก็บนี้ไม่ได้ลบหรือรื้อข้อความต้นฉบับทิ้ง ยังคงเก็บ PDF ต้นฉบับไว้ตามเดิม แล้วซ้อนทับด้วยคอร์ปัสสำหรับการอ่านแบบอนุพันธ์เป็นโครงสร้างสองชั้น

2 ความคิดเห็น

meta1001 11 일 전

ดีมากเลยครับ แบบนี้นโยบายที่ผลักดันกันอยู่ใน policy briefing จริง ๆ ก็สามารถให้ AI วิเคราะห์แบบเรียลไทม์ได้แล้วว่านโยบายระดับชาติและกฎหมายมีการเปลี่ยนแปลงอย่างไร แล้วสร้างผลลัพธ์ออกมาได้

limhasic 2026-04-20

ฮิฮิ แล้วเอาอันนี้ไปทำอะไรได้บ้าง?

ราชกิจจานุเบกษาที่ AI อ่านได้ - แปลงราชกิจจานุเบกษาเกาหลีใต้ 128,000 ฉบับจาก PDF เป็นคอร์ปัส Markdown

บทความที่เกี่ยวข้อง

2 ความคิดเห็น