3 คะแนน โดย GN⁺ 2025-08-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ArchiveTeam เก็บถาวร ลิงก์ย่อ goo.gl ทั้งหมดได้สำเร็จ
  • ทุกคนสามารถเข้าร่วมโครงการเก็บถาวรได้ผ่านโปรแกรมเก็บถาวรเสมือนชื่อ ArchiveTeam Warrior
  • Warrior นี้สามารถ รันได้อย่างปลอดภัยโดยไม่ก่อความเสี่ยงเพิ่มเติม บน Windows, OS X และ Linux
  • ผู้ใช้สามารถ ตั้งค่าอย่างง่าย เพื่อเลือกโครงการและเข้าร่วมกิจกรรมได้
  • มอบวิธีการที่ ง่ายและเข้าใจได้ทันที สำหรับการช่วยงานเก็บถาวร แม้ไม่มีทักษะเฉพาะทาง

แนะนำ ArchiveTeam Warrior

  • ArchiveTeam Warrior คือ อุปกรณ์เสมือนสำหรับงานเก็บถาวร ที่ใครก็ใช้งานได้อย่างง่ายดาย
  • ผู้ใช้สามารถรัน Warrior เพื่อ ดาวน์โหลดเว็บไซต์และอื่น ๆ และมีส่วนร่วมในการอัปโหลดสิ่งเหล่านั้นไปยังคลังเก็บถาวรของ ArchiveTeam
  • Warrior ไม่ก่อความเสี่ยงต่อสภาพแวดล้อมคอมพิวเตอร์จริง และ ใช้เพียงแบนด์วิดท์อินเทอร์เน็ตกับพื้นที่ดิสก์เล็กน้อย
  • รองรับทั้ง Windows, OS X และ Linux และต้องใช้โปรแกรมเครื่องเสมือน เช่น VirtualBox, VMware

วิธีใช้งานด้วย VirtualBox

  • ดาวน์โหลดอุปกรณ์ Warrior (357MB)
  • ใน VirtualBox คลิกเมนู File > Import Appliance แล้วนำเข้าไฟล์ที่ดาวน์โหลดไว้
  • เมื่อเริ่มเครื่องเสมือน ระบบจะรับการอัปเดตล่าสุดโดยอัตโนมัติ และจะขอให้ใช้งานเว็บเบราว์เซอร์

ขั้นตอนหลังจากรัน Warrior

  • เข้าไปที่ เพื่อตรวจสอบหน้า Settings
  • เลือกชื่อผู้ใช้เพื่อแสดงความคืบหน้าบน leaderboard
  • ในแท็บ All projects สามารถเลือกโครงการที่ต้องการเข้าร่วมได้ และยังเลือก ArchiveTeam’s Choice เพื่อเข้าร่วมโครงการที่เร่งด่วนที่สุดได้เช่นกัน

ประโยชน์ของการเข้าร่วม

  • ไม่ต้องมีทักษะเฉพาะทางหรือขั้นตอนซับซ้อน ใคร ๆ ก็สามารถมีส่วนร่วมกับโครงการเก็บถาวรได้อย่างง่ายดาย
  • ผลงานการเก็บถาวร ของผู้ใช้จะแสดงบนกระดานผู้นำ ช่วยสร้างแรงจูงใจและส่งเสริมการทำงานร่วมกัน

1 ความคิดเห็น

 
GN⁺ 2025-08-18
ความคิดเห็นจาก Hacker News
  • ทุกครั้งที่ ArchiveTeam ทำโปรเจ็กต์แบบนี้ ผมทึ่งมาก หลายปีก่อนตอนแพลตฟอร์มวิดีโอที่ผมทำงานอยู่ประกาศว่าจะปิดบริการในไม่ช้า ผมได้ติดต่อกับคนจาก ArchiveTeam และทราบว่าเขาสนใจงานเก็บรักษาข้อมูล ผมให้คำแนะนำเล็กน้อยกับเขา (ข้อมูลเกี่ยวกับ server endpoint ที่อาจทำให้การทำ archive ยากขึ้น) และให้ยืม EC2 instance ของผมสองสามตัวชั่วคราว เพราะเซิร์ฟเวอร์เป็นของผม ผมจึงเห็นได้ว่าเกิดอะไรขึ้น ภายใน 2 นาที instance ก็พร้อมใช้งานทั้งหมดและเริ่ม archive วิดีโออย่างรวดเร็ว โดยแต่ละ instance ดาวน์โหลดวิดีโอคนละชุดอย่างมีประสิทธิภาพโดยไม่ซ้ำกัน ArchiveTeam ไม่ได้มีแค่ภารกิจที่ดีเท่านั้น แต่วิธีการทำงานก็มีประสิทธิภาพจนน่าประทับใจมาก

  • หัวข้อไม่แม่นยำ จริง ๆ คือ Archiveteam.org ไม่ใช่ Archive.org The Internet Archive เป็นผู้ให้พื้นที่จัดเก็บ แต่การทำ archive จริง ๆ ดำเนินการโดยสมาชิกของ Archiveteam

    • อยากรู้ว่าจริง ๆ แล้ว Archiveteam มีส่วนช่วยอะไรบ้าง ผมยังไม่ค่อยเข้าใจ สุดท้ายมันดูเหมือนเป็นคนกลางที่ไม่จำเป็นระหว่างสิ่งที่จะถูก archive กับเซิร์ฟเวอร์ archive หรือเปล่า เลยสงสัยว่าผมพลาดอะไรไปไหม
  • อยากแชร์เนื้อหาที่เกี่ยวข้อง "เข้าร่วมสงครามกับ Link Rot" (ลิงก์), และกระทู้ HN หลายอันเกี่ยวกับการเปลี่ยนนโยบาย goo.gl ของ Google (รวมโพสต์ที่เกี่ยวข้องปี 2018~2025, ที่นี่, ที่นี่, ที่นี่, ที่นี่, ที่นี่, ที่นี่) มีการถกเถียงหลายแบบ หวังว่าจะเป็นประโยชน์

  • ขอแชร์อัปเดตล่าสุดจาก Google ลิงก์อัปเดตในบล็อก Google

    • อ้อ ผมมองว่านี่เป็นข้อมูลที่ไม่น่าเชื่อถืออย่างยิ่งจากบริษัทที่ไม่น่าเชื่อถืออย่างยิ่งอย่าง Google อยู่แล้ว ดังนั้น "อัปเดต" ครั้งนี้ก็ไม่เชื่อเลยแม้แต่น้อย
    • ตามประกาศของ Google ลิงก์ย่อ (ลิงก์ goo.gl) จะ "หยุดทำงานหลังวันที่ 25 สิงหาคม และแนะนำให้ย้ายไปใช้บริการย่อลิงก์ URL อื่น" ถ้าอย่างนั้นการคงลิงก์บางส่วนไว้ก็แทบไม่มีความหมายไม่ใช่หรือ? นี่หมายความว่าลิงก์ย่อที่ฝังอยู่ในเอกสารและแก้ไขไม่ได้ สุดท้ายก็จะขาดหมดใช่ไหม?
    • ผมยังสงสัยว่าแล้วมันมีประโยชน์อะไร ลิงก์เก่า ๆ ที่แทบไม่มีคนใช้แล้ว (หรือใช้น้อยมาก) ถึง redirect อยู่ก็คงแทบไม่เสียค่าใช้จ่าย ทำไมถึงต้องปิดด้วย (รวมถึงนโยบายที่ยัง redirect ต่อเฉพาะลิงก์ที่มีการใช้งานสูง)
    • ผมยังไม่เข้าใจเรื่องนี้ การเก็บฐานข้อมูลทั้งหมดไว้มันแพงมากขนาดนั้นจริงหรือ ในเมื่อยังไงก็ต้องเก็บบางส่วนไว้อยู่แล้ว
  • มีใครกำลัง archive ทั้ง reddit หรือ twitter อยู่บ้างไหม? ถึงแม้ Terms ของพวกเขาจะเปลี่ยนไปจนไม่อนุญาตแล้วก็ตาม แค่อยากรู้

    • reddit เมื่อก่อนมีโปรเจ็กต์ชื่อ Pushshift ก่อนที่ reddit API จะเปลี่ยน ข้อมูลนี้ดาวน์โหลดได้จาก the-eye ซึ่งเป็นอีกกลุ่มที่ทำงาน archive/อนุรักษ์ข้อมูล สำหรับ twitter เท่าที่ผมรู้ยังไม่มี แถมก็ผ่านมาหลายปีแล้วที่ Wayback Machine archive ทวีตไม่ได้
    • ใน Academictorrents ยังสามารถรับ monthly dump ของทุก submission และ comment ใน reddit ได้ แม้หลังจากมีการจำกัด API แล้วก็ตาม
    • ลองถาม OpenAI ดูก็ได้
  • ผมไม่ค่อยเข้าใจหน้านี้ เห็นมีรายการ dataset (น่าจะใช่?) และขนาดดูใหญ่ถึง 91 TiB แต่ดูไม่น่าเป็นไปได้ว่าต้องใช้ถึง 91 TiB แค่สำหรับรายชื่อลิงก์ย่อของ Google กับ URL ปลายทาง มีใครรู้หลักการบ้างไหม?

    • ผมลองคำนวณคร่าว ๆ ดูแล้ว URL ที่สุ่มจาก Google Search มีขนาด 705 ไบต์, ลิงก์สั้น goo.gl 22 ไบต์, และถ้าเก็บแค่ ID อย่างเดียวคือ 6 ไบต์ แน่นอนว่ามีทั้งที่สั้นและยาวกว่านี้ แต่คร่าว ๆ ก็เห็นได้ว่าเป็นขนาดที่เทียบเท่ากับ URL หลายหมื่นล้านถึงหลายล้านล้านรายการ
  • ผมดีใจที่ได้มีส่วนช่วยงาน archive ครั้งนี้ไม่มากก็น้อย

    • ผมก็ดีใจที่เห็นชื่อตัวเองอยู่บน leaderboard จริง ๆ แล้วผมแค่ติดตั้ง docker container ทิ้งไว้หนึ่งวันแล้วก็ลืมมันไปเลย
  • ผมสงสัยว่ามีกี่ลิงก์ที่ชี้ไปยังวิดีโอ YouTube แบบ private หรือ Google Docs เป็นต้น

    • ใจจริงผมจะเล่นมุกว่า "ตอนนี้ก็แค่ดาวน์โหลดมาแล้วค้นหาเองสิ" แต่จริง ๆ แล้วถ้าดู ที่นี่ จะเห็นว่าเป็น "Access-restricted-item: true" จึงมีการจำกัดการเข้าถึง แถมยังให้มาเป็นไฟล์ละ 10GB ด้วย
  • ผมสงสัยว่าคำว่า "all" หมายถึง URL ที่เปิดเผยต่อสาธารณะทั้งหมดจริง ๆ หรือหมายถึงการลองไล่ทุกค่าใน namespace ของ URL ทั้งหมด

    • จริง ๆ แล้วเป็นวิธีที่อาสาสมัครรัน client เองและไล่ลองทั้ง namespace ของ URL ทั้งหมดโดยไม่โดนบล็อก IP
    • URL goo.gl ที่เปิดเผยต่อสาธารณะนั้นถูกรวมอยู่ใน Internet Archive และการ crawl ของ Common Crawl อยู่แล้ว