18 คะแนน โดย GN⁺ 2024-10-17 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • ArchiveBox เปิดตัวความสามารถใหม่สำหรับการโฮสต์อินเทอร์เน็ตอาร์ไคฟ์ด้วยตนเอง
  • หลังจากการโจมตี Archive.org เมื่อไม่นานมานี้ ความสนใจต่อ ArchiveBox ก็เพิ่มขึ้น
    • ArchiveBox ย้ำว่าสนับสนุนภารกิจของ Archive.org และเน้นว่าบริการของพวกเขามอบคุณค่าที่สำคัญต่อมนุษยชาติ

ข้อจำกัดของอาร์ไคฟ์สาธารณะ

  • ผู้คนมักลังเลที่จะทำการเก็บถาวร เพราะกังวลกับการเก็บไว้แบบถาวร
  • จำเป็นต้องมีสิทธิ์ให้แต่ละคนสามารถเก็บถาวรสิ่งที่ตนเห็นว่าสำคัญได้
  • ต้องการโซลูชันที่สามารถเก็บถาวรคอนเทนต์ส่วนตัวและกึ่งส่วนตัวให้เหมาะกับสภาพแวดล้อมเว็บสมัยใหม่

ความสำคัญของการเก็บถาวร

  • ทั้งครอบครัว บุคคล และองค์กร ต่างต้องการเก็บรักษาคอนเทนต์ที่สำคัญสำหรับตนเอง
  • การเก็บถาวรคอนเทนต์ส่วนบุคคลมีความท้าทายด้านความปลอดภัยและต้องใช้อย่างระมัดระวัง

คอนเทนต์ที่เป็นอันตราย

  • อาร์ไคฟ์สาธารณะอาจก่อให้เกิดปัญหาได้ในบางครั้งจากการเก็บรักษาคอนเทนต์อย่างการเหยียดเชื้อชาติ ความรุนแรง และวาจาสร้างความเกลียดชัง
  • จำเป็นต้องพิจารณาอย่างรอบคอบว่าจะเก็บรักษาคอนเทนต์เหล่านี้อย่างไร

แนะนำระบบนิเวศปลั๊กอินใหม่ของ ArchiveBox

  • ArchiveBox v0.8 เป็นอัปเดตครั้งใหญ่ที่สุดในประวัติศาสตร์ของโปรเจ็กต์ โดยเพิ่มระบบนิเวศปลั๊กอินใหม่เข้ามา
  • มีปลั๊กอินที่รวมความสามารถซึ่งชุมชนสนับสนุนไว้หลากหลาย
    • yt-dlp ดาวน์โหลดวิดีโอ เสียง และซับไตเติลจาก YouTube, Soundcloud, YouKu และอื่น ๆ
    • papers-dl ดาวน์โหลดไฟล์ PDF ของบทความวิชาการโดยอัตโนมัติเมื่อพบหมายเลข DOI
    • gallery-dl ดาวน์โหลดแกลเลอรีภาพจาก Flickr, Instagram และอื่น ๆ
    • forum-dl ดาวน์โหลดฟอรัมเก่าและเธรดคอมเมนต์ที่ซ้อนลึก
    • readability แยกข้อความบทความออกเป็น .txt, .md, .epub
    • ai ส่งภาพหน้าจอและข้อความของหน้าไปยัง LLM พร้อมพรอมป์ต์ที่กำหนดเอง แล้วบันทึกคำตอบ
    • webhooks เรียกใช้ API ภายนอกทุกครั้งที่มีการบันทึกผลลัพธ์บางส่วน และส่ง ping ไปยัง Slack, N8N และอื่น ๆ
    • ยังมีความสามารถอื่น ๆ อีกมาก
  • ระบบปลั๊กอินสร้างขึ้นบนไลบรารี pluggy และ pydantic

การพัฒนาเพิ่มเติม

  • REST API ใหม่ถูกสร้างด้วย django-ninja
  • เพิ่มการรองรับสตอเรจภายนอก
  • เริ่มนำระบบสตอเรจแบบ content-addressable มาใช้ในระยะแรก
  • เพิ่มระบบงานเบื้องหลัง
  • มีแผนเปิดตัวเครื่องมือใหม่ abx-dl สำหรับผู้ใช้ทั่วไป

"ArchiveBox ออกแบบมาให้เป็น Local-First โดยใช้ SQLite และ P2P เป็นเพียงตัวเลือกเสมอ"

สรุปโดย GN⁺

  • ArchiveBox เป็นเครื่องมือที่ช่วยให้บุคคลและองค์กรสร้างอินเทอร์เน็ตอาร์ไคฟ์ของตนเองได้ และการเปลี่ยนแปลงล่าสุดยิ่งเสริมความสามารถนี้ให้ชัดเจนขึ้น
  • ช่วยเติมเต็มข้อจำกัดของอาร์ไคฟ์สาธารณะ และมอบวิธีเก็บรักษาคอนเทนต์ส่วนตัวหรืออ่อนไหวได้อย่างปลอดภัย
  • ระบบนิเวศปลั๊กอินมอบความสามารถที่หลากหลายเพื่อยกระดับประสบการณ์ผู้ใช้

2 ความคิดเห็น

 
GN⁺ 2024-10-17
ความคิดเห็นบน Hacker News
  • มีความเห็นเกี่ยวกับความยั่งยืนของ ArchiveBox และความจำเป็นในการปรับปรุง โดยการมีส่วนร่วมของชุมชนเป็นสิ่งสำคัญ และเข้าใจถึงความยากลำบากของนักพัฒนาเดี่ยว

    • ArchiveBox ต้องการการสนับสนุนจากชุมชนเพื่อให้เป็นโครงการที่มีเสถียรภาพและเชื่อถือได้มากขึ้น
    • การทำอาร์ไคฟ์ไม่ได้มีไว้แค่เพื่ออดีต แต่เพื่ออนาคตด้วย และอาจจำเป็นต้องมีองค์กรพัฒนาที่ยั่งยืน
  • มีความคาดหวังต่อ API และปลั๊กอินใหม่ของ ArchiveBox โดยใช้งานเพื่อทำอาร์ไคฟ์มาแล้ว 2 ปี

  • เครื่องมืออย่าง grab-site อาจมีประโยชน์สำหรับการสร้างและจัดเก็บ WARC archive อาจจำเป็นต้องมีดัชนี CDX และการรองรับลายเซ็นเข้ารหัสสำหรับอาร์ไคฟ์แบบกระจายศูนย์

  • มีการแชร์ประสบการณ์การใช้ ArchiveBox เพื่อเก็บข้อมูลเกี่ยวกับเรือเก่า พร้อมแสดงความเสียดายที่เว็บฟอรัมในอดีตได้หายไปแล้ว

  • กำลังใช้ Readeck.org สำหรับการทำอาร์ไคฟ์หน้าเว็บส่วนตัว และสนใจแนวทางอาร์ไคฟ์แบบกระจายศูนย์ของ ArchiveBox

  • มีคำถามเกี่ยวกับความพร้อมใช้งานของ abx-dl และแสดงความตั้งใจที่จะช่วยด้านการแพ็กเกจ

  • มีความคาดหวังต่อ REST API และรู้สึกเสียดายที่ยังไม่มีฟังก์ชันค้นหา โดยต้องการความสามารถในการคิวรีผ่านดัชนี FTS

  • รู้สึกว่าควรลองใช้ ArchiveBox เพื่อทำอาร์ไคฟ์เว็บไซต์ โดยฟังก์ชันส่งออกอาร์ไคฟ์ของการสมัครใช้ Pinboard ใช้งานไม่ได้

  • มีข้อเสนอให้สร้าง Merkle tree สำหรับข้อมูลที่ถูกอาร์ไคฟ์ไว้ และอาจพิจารณาใช้บล็อกเชนเป็นวิธีพิสูจน์ความแท้ของข้อมูล

  • ขอคำแนะนำเกี่ยวกับระบบมอนิเตอร์การเปลี่ยนแปลงเว็บไซต์แบบ self-hosted โดยกำลังใช้ Huginn อยู่ แต่มีปัญหากับเว็บไซต์สมัยใหม่ที่ใช้ JS เป็นหลัก