ArchiveBox - เครื่องมือเก็บถาวรเว็บแบบโฮสต์เอง
(archivebox.io)- โอเพนซอร์สที่ช่วยบันทึกทุกเว็บไซต์ไว้เพื่อให้ดูแบบออฟไลน์ได้
- บันทึก HTML/JS/PDF/สื่อ ฯลฯ จาก URL ที่เพิ่มเอง, ประวัติการเข้าชมของเบราว์เซอร์ (มีส่วนขยายรองรับ), บุ๊กมาร์ก, RSS, Pocket/Pinboard เป็นต้น
- เพิ่มทีละรายการหรือกำหนดตารางให้นำเข้าเป็นประจำได้
- ติดตั้งบน Linux, macOS, Windows (WSL2) หรือรันด้วย Docker แล้วใช้งานผ่านเครื่องมือ CLI/เว็บแอป/ไลบรารี Python/คำสั่งแบบครั้งเดียวได้
- จัดเก็บสแนปชอตของ URL ในหลายรูปแบบที่ซ้ำซ้อนกัน และตรวจจับคอนเทนต์ทั้งหมดที่อยู่ในหน้าเพื่อแยกออกมาเป็นโฟลเดอร์
- HTML/ทุกเว็บไซต์ : HTML+CSS+JS ต้นฉบับ, singlefile HTML, ภาพหน้าจอ PNG, PDF, WARC, ชื่อเรื่อง, ข้อความเนื้อหา, favicon, headers, …
- โซเชียลมีเดีย/ข่าว : เนื้อหาบทความ TXT, ความคิดเห็น, ชื่อเรื่อง, บันทึก, รูปภาพ, …
- YouTube/SoundCloud/etc. : MP3/MP4s, คำบรรยาย, เมทาดาทา, ภาพขนาดย่อ, …
- ลิงก์ Github/Gitlab/etc. : โคลนซอร์สโค้ด GIT, README, รูปภาพต่าง ๆ, …
- ไม่ใช้ฟอร์แมตเฉพาะ แต่ใช้เครื่องมือมาตรฐานอย่าง Chrome, wget, yt-dlp เป็นต้น เพื่อบันทึกเป็นไฟล์/โฟลเดอร์ทั่วไป ดังนั้นจึงอ่านข้อมูลทั้งหมดได้แม้ไม่มี ArchiveBox
- ส่ง URL ที่บันทึกไปยัง archive.org เพื่อขอให้จัดเก็บแยกต่างหากได้ด้วย (เก็บซ้ำอีกชั้น และปิดใช้งานได้ในโหมดโลคัลเท่านั้น)
3 ความคิดเห็น
ช่วงนี้ลองใช้ Obsidian แล้วก็พยายามบันทึกเป็น markdown ผ่านปลั๊กอิน Instapaper -> Obsidian อยู่ แต่ดึงมาได้ไม่ค่อยเนี๊ยบเท่าไหร่ครับ
เคยเอา Go-Readability ไปรันไว้บน AWS Lambda แล้วก็ปล่อยค้างไว้เพราะขี้เกียจเหมือนกัน เดี๋ยวคงต้องลองหาดูว่ามีตัวที่เชื่อมกับเครื่องมือแบบนี้ได้ดีไหม ขอบคุณครับ!
พอเห็นคีย์เวิร์ดว่า "การเก็บถาวร" ทีไร ผมก็จะหยุดอ่านแบบละเอียดทุกที นี่คือบทความเก่า ๆ ใน GeekNews ที่เกี่ยวข้องครับ
อ๊ะ ลิงก์ GeekNews ของ Shori คือ https://th.news.hada.io/topic?id=577 ครับ