ArchiveTeam ทำงานเก็บถาวรลิงก์ย่อ goo.gl ทั้งหมดเสร็จสิ้นแล้ว

(tracker.archiveteam.org)

3 คะแนน โดย GN⁺ 2025-08-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ArchiveTeam เก็บถาวร ลิงก์ย่อ goo.gl ทั้งหมดได้สำเร็จ
ทุกคนสามารถเข้าร่วมโครงการเก็บถาวรได้ผ่านโปรแกรมเก็บถาวรเสมือนชื่อ ArchiveTeam Warrior
Warrior นี้สามารถ รันได้อย่างปลอดภัยโดยไม่ก่อความเสี่ยงเพิ่มเติม บน Windows, OS X และ Linux
ผู้ใช้สามารถ ตั้งค่าอย่างง่าย เพื่อเลือกโครงการและเข้าร่วมกิจกรรมได้
มอบวิธีการที่ ง่ายและเข้าใจได้ทันที สำหรับการช่วยงานเก็บถาวร แม้ไม่มีทักษะเฉพาะทาง

แนะนำ ArchiveTeam Warrior

ArchiveTeam Warrior คือ อุปกรณ์เสมือนสำหรับงานเก็บถาวร ที่ใครก็ใช้งานได้อย่างง่ายดาย
ผู้ใช้สามารถรัน Warrior เพื่อ ดาวน์โหลดเว็บไซต์และอื่น ๆ และมีส่วนร่วมในการอัปโหลดสิ่งเหล่านั้นไปยังคลังเก็บถาวรของ ArchiveTeam
Warrior ไม่ก่อความเสี่ยงต่อสภาพแวดล้อมคอมพิวเตอร์จริง และ ใช้เพียงแบนด์วิดท์อินเทอร์เน็ตกับพื้นที่ดิสก์เล็กน้อย
รองรับทั้ง Windows, OS X และ Linux และต้องใช้โปรแกรมเครื่องเสมือน เช่น VirtualBox, VMware

วิธีใช้งานด้วย VirtualBox

ดาวน์โหลดอุปกรณ์ Warrior (357MB)
ใน VirtualBox คลิกเมนู File > Import Appliance แล้วนำเข้าไฟล์ที่ดาวน์โหลดไว้
เมื่อเริ่มเครื่องเสมือน ระบบจะรับการอัปเดตล่าสุดโดยอัตโนมัติ และจะขอให้ใช้งานเว็บเบราว์เซอร์

ขั้นตอนหลังจากรัน Warrior

เข้าไปที่ เพื่อตรวจสอบหน้า Settings
เลือกชื่อผู้ใช้เพื่อแสดงความคืบหน้าบน leaderboard
ในแท็บ All projects สามารถเลือกโครงการที่ต้องการเข้าร่วมได้ และยังเลือก ArchiveTeam’s Choice เพื่อเข้าร่วมโครงการที่เร่งด่วนที่สุดได้เช่นกัน

ประโยชน์ของการเข้าร่วม

ไม่ต้องมีทักษะเฉพาะทางหรือขั้นตอนซับซ้อน ใคร ๆ ก็สามารถมีส่วนร่วมกับโครงการเก็บถาวรได้อย่างง่ายดาย
ผลงานการเก็บถาวร ของผู้ใช้จะแสดงบนกระดานผู้นำ ช่วยสร้างแรงจูงใจและส่งเสริมการทำงานร่วมกัน

1 ความคิดเห็น

GN⁺ 2025-08-18

ความคิดเห็นจาก Hacker News

ทุกครั้งที่ ArchiveTeam ทำโปรเจ็กต์แบบนี้ ผมทึ่งมาก หลายปีก่อนตอนแพลตฟอร์มวิดีโอที่ผมทำงานอยู่ประกาศว่าจะปิดบริการในไม่ช้า ผมได้ติดต่อกับคนจาก ArchiveTeam และทราบว่าเขาสนใจงานเก็บรักษาข้อมูล ผมให้คำแนะนำเล็กน้อยกับเขา (ข้อมูลเกี่ยวกับ server endpoint ที่อาจทำให้การทำ archive ยากขึ้น) และให้ยืม EC2 instance ของผมสองสามตัวชั่วคราว เพราะเซิร์ฟเวอร์เป็นของผม ผมจึงเห็นได้ว่าเกิดอะไรขึ้น ภายใน 2 นาที instance ก็พร้อมใช้งานทั้งหมดและเริ่ม archive วิดีโออย่างรวดเร็ว โดยแต่ละ instance ดาวน์โหลดวิดีโอคนละชุดอย่างมีประสิทธิภาพโดยไม่ซ้ำกัน ArchiveTeam ไม่ได้มีแค่ภารกิจที่ดีเท่านั้น แต่วิธีการทำงานก็มีประสิทธิภาพจนน่าประทับใจมาก
หัวข้อไม่แม่นยำ จริง ๆ คือ Archiveteam.org ไม่ใช่ Archive.org The Internet Archive เป็นผู้ให้พื้นที่จัดเก็บ แต่การทำ archive จริง ๆ ดำเนินการโดยสมาชิกของ Archiveteam
- อยากรู้ว่าจริง ๆ แล้ว Archiveteam มีส่วนช่วยอะไรบ้าง ผมยังไม่ค่อยเข้าใจ สุดท้ายมันดูเหมือนเป็นคนกลางที่ไม่จำเป็นระหว่างสิ่งที่จะถูก archive กับเซิร์ฟเวอร์ archive หรือเปล่า เลยสงสัยว่าผมพลาดอะไรไปไหม
อยากแชร์เนื้อหาที่เกี่ยวข้อง "เข้าร่วมสงครามกับ Link Rot" (ลิงก์), และกระทู้ HN หลายอันเกี่ยวกับการเปลี่ยนนโยบาย goo.gl ของ Google (รวมโพสต์ที่เกี่ยวข้องปี 2018~2025, ที่นี่, ที่นี่, ที่นี่, ที่นี่, ที่นี่, ที่นี่) มีการถกเถียงหลายแบบ หวังว่าจะเป็นประโยชน์
ขอแชร์อัปเดตล่าสุดจาก Google ลิงก์อัปเดตในบล็อก Google
- อ้อ ผมมองว่านี่เป็นข้อมูลที่ไม่น่าเชื่อถืออย่างยิ่งจากบริษัทที่ไม่น่าเชื่อถืออย่างยิ่งอย่าง Google อยู่แล้ว ดังนั้น "อัปเดต" ครั้งนี้ก็ไม่เชื่อเลยแม้แต่น้อย
- ตามประกาศของ Google ลิงก์ย่อ (ลิงก์ goo.gl) จะ "หยุดทำงานหลังวันที่ 25 สิงหาคม และแนะนำให้ย้ายไปใช้บริการย่อลิงก์ URL อื่น" ถ้าอย่างนั้นการคงลิงก์บางส่วนไว้ก็แทบไม่มีความหมายไม่ใช่หรือ? นี่หมายความว่าลิงก์ย่อที่ฝังอยู่ในเอกสารและแก้ไขไม่ได้ สุดท้ายก็จะขาดหมดใช่ไหม?
- ผมยังสงสัยว่าแล้วมันมีประโยชน์อะไร ลิงก์เก่า ๆ ที่แทบไม่มีคนใช้แล้ว (หรือใช้น้อยมาก) ถึง redirect อยู่ก็คงแทบไม่เสียค่าใช้จ่าย ทำไมถึงต้องปิดด้วย (รวมถึงนโยบายที่ยัง redirect ต่อเฉพาะลิงก์ที่มีการใช้งานสูง)
- ผมยังไม่เข้าใจเรื่องนี้ การเก็บฐานข้อมูลทั้งหมดไว้มันแพงมากขนาดนั้นจริงหรือ ในเมื่อยังไงก็ต้องเก็บบางส่วนไว้อยู่แล้ว
มีใครกำลัง archive ทั้ง reddit หรือ twitter อยู่บ้างไหม? ถึงแม้ Terms ของพวกเขาจะเปลี่ยนไปจนไม่อนุญาตแล้วก็ตาม แค่อยากรู้
- reddit เมื่อก่อนมีโปรเจ็กต์ชื่อ Pushshift ก่อนที่ reddit API จะเปลี่ยน ข้อมูลนี้ดาวน์โหลดได้จาก the-eye ซึ่งเป็นอีกกลุ่มที่ทำงาน archive/อนุรักษ์ข้อมูล สำหรับ twitter เท่าที่ผมรู้ยังไม่มี แถมก็ผ่านมาหลายปีแล้วที่ Wayback Machine archive ทวีตไม่ได้
- ใน Academictorrents ยังสามารถรับ monthly dump ของทุก submission และ comment ใน reddit ได้ แม้หลังจากมีการจำกัด API แล้วก็ตาม
- ลองถาม OpenAI ดูก็ได้
ผมไม่ค่อยเข้าใจหน้านี้ เห็นมีรายการ dataset (น่าจะใช่?) และขนาดดูใหญ่ถึง 91 TiB แต่ดูไม่น่าเป็นไปได้ว่าต้องใช้ถึง 91 TiB แค่สำหรับรายชื่อลิงก์ย่อของ Google กับ URL ปลายทาง มีใครรู้หลักการบ้างไหม?
- ผมลองคำนวณคร่าว ๆ ดูแล้ว URL ที่สุ่มจาก Google Search มีขนาด 705 ไบต์, ลิงก์สั้น goo.gl 22 ไบต์, และถ้าเก็บแค่ ID อย่างเดียวคือ 6 ไบต์ แน่นอนว่ามีทั้งที่สั้นและยาวกว่านี้ แต่คร่าว ๆ ก็เห็นได้ว่าเป็นขนาดที่เทียบเท่ากับ URL หลายหมื่นล้านถึงหลายล้านล้านรายการ
ผมดีใจที่ได้มีส่วนช่วยงาน archive ครั้งนี้ไม่มากก็น้อย
- ผมก็ดีใจที่เห็นชื่อตัวเองอยู่บน leaderboard จริง ๆ แล้วผมแค่ติดตั้ง docker container ทิ้งไว้หนึ่งวันแล้วก็ลืมมันไปเลย
ผมสงสัยว่ามีกี่ลิงก์ที่ชี้ไปยังวิดีโอ YouTube แบบ private หรือ Google Docs เป็นต้น
- ใจจริงผมจะเล่นมุกว่า "ตอนนี้ก็แค่ดาวน์โหลดมาแล้วค้นหาเองสิ" แต่จริง ๆ แล้วถ้าดู ที่นี่ จะเห็นว่าเป็น "Access-restricted-item: true" จึงมีการจำกัดการเข้าถึง แถมยังให้มาเป็นไฟล์ละ 10GB ด้วย
ผมสงสัยว่าคำว่า "all" หมายถึง URL ที่เปิดเผยต่อสาธารณะทั้งหมดจริง ๆ หรือหมายถึงการลองไล่ทุกค่าใน namespace ของ URL ทั้งหมด
- จริง ๆ แล้วเป็นวิธีที่อาสาสมัครรัน client เองและไล่ลองทั้ง namespace ของ URL ทั้งหมดโดยไม่โดนบล็อก IP
- URL goo.gl ที่เปิดเผยต่อสาธารณะนั้นถูกรวมอยู่ใน Internet Archive และการ crawl ของ Common Crawl อยู่แล้ว

ArchiveTeam ทำงานเก็บถาวรลิงก์ย่อ goo.gl ทั้งหมดเสร็จสิ้นแล้ว

แนะนำ ArchiveTeam Warrior

วิธีใช้งานด้วย VirtualBox

ขั้นตอนหลังจากรัน Warrior

ประโยชน์ของการเข้าร่วม

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News