ArchiveBox กำลังพัฒนา: อนาคตของอินเทอร์เน็ตอาร์ไคฟ์แบบโฮสต์เอง
(docs.sweeting.me)- ArchiveBox เปิดตัวความสามารถใหม่สำหรับการโฮสต์อินเทอร์เน็ตอาร์ไคฟ์ด้วยตนเอง
- หลังจากการโจมตี Archive.org เมื่อไม่นานมานี้ ความสนใจต่อ ArchiveBox ก็เพิ่มขึ้น
- ArchiveBox ย้ำว่าสนับสนุนภารกิจของ Archive.org และเน้นว่าบริการของพวกเขามอบคุณค่าที่สำคัญต่อมนุษยชาติ
ข้อจำกัดของอาร์ไคฟ์สาธารณะ
- ผู้คนมักลังเลที่จะทำการเก็บถาวร เพราะกังวลกับการเก็บไว้แบบถาวร
- จำเป็นต้องมีสิทธิ์ให้แต่ละคนสามารถเก็บถาวรสิ่งที่ตนเห็นว่าสำคัญได้
- ต้องการโซลูชันที่สามารถเก็บถาวรคอนเทนต์ส่วนตัวและกึ่งส่วนตัวให้เหมาะกับสภาพแวดล้อมเว็บสมัยใหม่
ความสำคัญของการเก็บถาวร
- ทั้งครอบครัว บุคคล และองค์กร ต่างต้องการเก็บรักษาคอนเทนต์ที่สำคัญสำหรับตนเอง
- การเก็บถาวรคอนเทนต์ส่วนบุคคลมีความท้าทายด้านความปลอดภัยและต้องใช้อย่างระมัดระวัง
คอนเทนต์ที่เป็นอันตราย
- อาร์ไคฟ์สาธารณะอาจก่อให้เกิดปัญหาได้ในบางครั้งจากการเก็บรักษาคอนเทนต์อย่างการเหยียดเชื้อชาติ ความรุนแรง และวาจาสร้างความเกลียดชัง
- จำเป็นต้องพิจารณาอย่างรอบคอบว่าจะเก็บรักษาคอนเทนต์เหล่านี้อย่างไร
แนะนำระบบนิเวศปลั๊กอินใหม่ของ ArchiveBox
- ArchiveBox v0.8 เป็นอัปเดตครั้งใหญ่ที่สุดในประวัติศาสตร์ของโปรเจ็กต์ โดยเพิ่มระบบนิเวศปลั๊กอินใหม่เข้ามา
- มีปลั๊กอินที่รวมความสามารถซึ่งชุมชนสนับสนุนไว้หลากหลาย
yt-dlpดาวน์โหลดวิดีโอ เสียง และซับไตเติลจาก YouTube, Soundcloud, YouKu และอื่น ๆpapers-dlดาวน์โหลดไฟล์ PDF ของบทความวิชาการโดยอัตโนมัติเมื่อพบหมายเลข DOIgallery-dlดาวน์โหลดแกลเลอรีภาพจาก Flickr, Instagram และอื่น ๆforum-dlดาวน์โหลดฟอรัมเก่าและเธรดคอมเมนต์ที่ซ้อนลึกreadabilityแยกข้อความบทความออกเป็น .txt, .md, .epubaiส่งภาพหน้าจอและข้อความของหน้าไปยัง LLM พร้อมพรอมป์ต์ที่กำหนดเอง แล้วบันทึกคำตอบwebhooksเรียกใช้ API ภายนอกทุกครั้งที่มีการบันทึกผลลัพธ์บางส่วน และส่ง ping ไปยัง Slack, N8N และอื่น ๆ- ยังมีความสามารถอื่น ๆ อีกมาก
- ระบบปลั๊กอินสร้างขึ้นบนไลบรารี pluggy และ pydantic
การพัฒนาเพิ่มเติม
- REST API ใหม่ถูกสร้างด้วย django-ninja
- เพิ่มการรองรับสตอเรจภายนอก
- เริ่มนำระบบสตอเรจแบบ content-addressable มาใช้ในระยะแรก
- เพิ่มระบบงานเบื้องหลัง
- มีแผนเปิดตัวเครื่องมือใหม่
abx-dlสำหรับผู้ใช้ทั่วไป
"ArchiveBox ออกแบบมาให้เป็น Local-First โดยใช้ SQLite และ P2P เป็นเพียงตัวเลือกเสมอ"
สรุปโดย GN⁺
- ArchiveBox เป็นเครื่องมือที่ช่วยให้บุคคลและองค์กรสร้างอินเทอร์เน็ตอาร์ไคฟ์ของตนเองได้ และการเปลี่ยนแปลงล่าสุดยิ่งเสริมความสามารถนี้ให้ชัดเจนขึ้น
- ช่วยเติมเต็มข้อจำกัดของอาร์ไคฟ์สาธารณะ และมอบวิธีเก็บรักษาคอนเทนต์ส่วนตัวหรืออ่อนไหวได้อย่างปลอดภัย
- ระบบนิเวศปลั๊กอินมอบความสามารถที่หลากหลายเพื่อยกระดับประสบการณ์ผู้ใช้
2 ความคิดเห็น
ArchiveBox - เครื่องมือเก็บถาวรเว็บแบบโฮสต์เอง
ความคิดเห็นบน Hacker News
มีความเห็นเกี่ยวกับความยั่งยืนของ ArchiveBox และความจำเป็นในการปรับปรุง โดยการมีส่วนร่วมของชุมชนเป็นสิ่งสำคัญ และเข้าใจถึงความยากลำบากของนักพัฒนาเดี่ยว
มีความคาดหวังต่อ API และปลั๊กอินใหม่ของ ArchiveBox โดยใช้งานเพื่อทำอาร์ไคฟ์มาแล้ว 2 ปี
เครื่องมืออย่าง
grab-siteอาจมีประโยชน์สำหรับการสร้างและจัดเก็บ WARC archive อาจจำเป็นต้องมีดัชนี CDX และการรองรับลายเซ็นเข้ารหัสสำหรับอาร์ไคฟ์แบบกระจายศูนย์มีการแชร์ประสบการณ์การใช้ ArchiveBox เพื่อเก็บข้อมูลเกี่ยวกับเรือเก่า พร้อมแสดงความเสียดายที่เว็บฟอรัมในอดีตได้หายไปแล้ว
กำลังใช้ Readeck.org สำหรับการทำอาร์ไคฟ์หน้าเว็บส่วนตัว และสนใจแนวทางอาร์ไคฟ์แบบกระจายศูนย์ของ ArchiveBox
มีคำถามเกี่ยวกับความพร้อมใช้งานของ
abx-dlและแสดงความตั้งใจที่จะช่วยด้านการแพ็กเกจมีความคาดหวังต่อ REST API และรู้สึกเสียดายที่ยังไม่มีฟังก์ชันค้นหา โดยต้องการความสามารถในการคิวรีผ่านดัชนี FTS
รู้สึกว่าควรลองใช้ ArchiveBox เพื่อทำอาร์ไคฟ์เว็บไซต์ โดยฟังก์ชันส่งออกอาร์ไคฟ์ของการสมัครใช้ Pinboard ใช้งานไม่ได้
มีข้อเสนอให้สร้าง Merkle tree สำหรับข้อมูลที่ถูกอาร์ไคฟ์ไว้ และอาจพิจารณาใช้บล็อกเชนเป็นวิธีพิสูจน์ความแท้ของข้อมูล
ขอคำแนะนำเกี่ยวกับระบบมอนิเตอร์การเปลี่ยนแปลงเว็บไซต์แบบ self-hosted โดยกำลังใช้ Huginn อยู่ แต่มีปัญหากับเว็บไซต์สมัยใหม่ที่ใช้ JS เป็นหลัก