Git Scraping - บันทึกการเปลี่ยนแปลงของเว็บลงใน Git Repo
(simonwillison.net)-
ดึงข้อมูลจากเว็บไซต์ที่เปลี่ยนแปลงอยู่ตลอดมาบันทึกด้วย GitHub Actions แล้วเก็บสะสมไว้พร้อมกับ commit log
-
ตัวอย่างการดึงและบันทึกข้อมูลไฟป่า CA ล่าสุดจากกรมป่าไม้และป้องกันอัคคีภัยแห่งรัฐแคลิฟอร์เนีย
-
สร้างและรันไฟล์ workflow YML ของ GitHub Actions แบบง่าย ๆ ที่ดึงข้อมูล XHR JSON ด้วย
curlแล้วแยกด้วยjqเพื่อบันทึก -
ตั้งค่าให้ commit เฉพาะเมื่อมีการเปลี่ยนแปลงของเนื้อหา และรันประมาณ 3 ครั้งต่อชั่วโมงด้วยการตั้งค่า GitHub Cron
-
ผู้เขียนเคยเปิดเผยบันทึกการนำวิธีนี้ไปใช้กับข้อมูลพายุเฮอร์ริเคนและบริการสาธารณะอื่น ๆ มาก่อนแล้ว
1 ความคิดเห็น
เว็บไซต์ของหน่วยงานรัฐบาลในประเทศมักมีหลายแห่งที่ยังไม่ได้ทำเป็น API หรือแปลงเป็นข้อมูล
วิธีแบบนี้ก็ดูน่าจะเป็นอีกหนึ่งความพยายามที่น่าสนใจเหมือนกันครับ