Anna's Archive: อัปเดตล่าสุดจากทีม
(annas-archive.org)- เนื่องจากการโจมตีต่อภารกิจในช่วงหลังเพิ่มมากขึ้น จึงกำลังดำเนินการเสริมความแข็งแกร่งด้านโครงสร้างพื้นฐานและความปลอดภัยในการปฏิบัติการ
- นับตั้งแต่เริ่มต้นในปี 2022 ได้ทำการเก็บรักษาและแบ่งปันหนังสือ บทความวิชาการ นิตยสาร หนังสือพิมพ์ และสื่ออื่น ๆ หลายสิบล้านรายการอย่างปลอดภัย
- ด้วยการสแครปข้อมูลขนาดใหญ่ จึงได้เมทาดาทาจำนวนมหาศาลจาก WorldCat, Google Books เป็นต้น เพื่อนำมาใช้ระบุสื่อที่ยังไม่ได้เก็บรวบรวม
- ผ่านความร่วมมือกับ LibGen, Z-Library และอื่น ๆ ทำให้ได้สื่อเพิ่มเติมอีกหลายสิบล้านรายการ แต่ก็รู้สึกเสียดายที่พาร์ตเนอร์บางรายได้หายไป
- รักษาความสัมพันธ์กับเว็บไซต์เกิดใหม่อย่าง WeLibอย่างระมัดระวัง และแนะนำให้หลีกเลี่ยงการใช้งานเนื่องจากยังมีส่วนร่วมกับชุมชนไม่เพียงพอ
สถานการณ์ล่าสุดและการตอบสนองของทีม
- ช่วงหลังมานี้มีการโจมตีที่มุ่งเป้าไปยังภารกิจของ Anna's Archiveเพิ่มขึ้น
- ด้วยเหตุนี้จึงกำลังดำเนินมาตรการเสริมความแข็งแกร่งด้านโครงสร้างพื้นฐานและความปลอดภัยในการปฏิบัติการ
- การเก็บรักษามรดกความรู้ของมนุษยชาติไว้อย่างปลอดภัยยังคงเป็นสิ่งที่คุ้มค่าแก่การเดินหน้าต่อไป
การปลดปล่อยและจัดเก็บสื่อ
- นับตั้งแต่เริ่มต้นในปี 2022 ได้รวบรวมหนังสือ งานวิจัยทางวิทยาศาสตร์ นิตยสาร หนังสือพิมพ์ และคอนเทนต์หลากหลายประเภทหลายสิบล้านรายการ
- สื่อเหล่านี้อยู่ในสถานะที่ได้รับการปกป้องจากภัยคุกคามหลากหลายรูปแบบ เช่น ภัยธรรมชาติ สงคราม และการตัดงบประมาณ
- ด้วยความร่วมมือของทุกคนที่ช่วยเผยแพร่ไฟล์ผ่านทอร์เรนต์ ความกังวลเรื่องการสูญหายของข้อมูลจึงลดลงอย่างมาก
การสแครปข้อมูลขนาดใหญ่และการจัดหาเมทาดาทา
- Anna's Archive ได้จัดการสแครปข้อมูลขนาดใหญ่อย่างเป็นระบบจากIA Controlled Digital Lending, HathiTrust, DuXiu เป็นต้น
- สามารถจัดหาไฟล์สื่อได้สำเร็จในระดับ tens of millions
- ได้สร้างคอลเลกชันเมทาดาทาหนังสือขนาดมหาศาลจาก WorldCat, Google Books เป็นต้น
- เมทาดาทาที่ได้มาถูกใช้เพื่อระบุหนังสือที่ยังไม่รวมอยู่ในคอลเลกชัน และใช้กับกลยุทธ์การจัดหาเอกสารหายากก่อนเป็นลำดับแรก
ชุมชน ความร่วมมือ และการพัฒนาใหม่
- ร่วมงานกับพาร์ตเนอร์ความร่วมมืออย่าง LibGen forks, STC/Nexus, Z-Library เพื่อจัดหาไฟล์เพิ่มเติมอีกหลายสิบล้านไฟล์
- พาร์ตเนอร์เหล่านี้ช่วยภารกิจอย่างมาก เช่น การทำมิเรอร์ไฟล์
- อย่างไรก็ตาม การหายไปของหนึ่งใน LibGen forks ก็ถูกมองว่าเป็นเรื่องน่าเสียดาย
โครงการเกิดใหม่และข้อควรระวัง
- ช่วงหลังมีโครงการใหม่ชื่อ WeLibปรากฏขึ้น
- ทำมิเรอร์คอลเลกชันของอาร์ไคฟ์ส่วนใหญ่ และกำลังใช้โค้ดเบสฟอร์กของ Anna’s Archive
- ได้นำบางส่วนของการปรับปรุงส่วนติดต่อผู้ใช้ของ WeLib มาปรับใช้
- อย่างไรก็ตาม ยังไม่มีการแบ่งปันคอลเลกชันใหม่หรือการปรับปรุงโค้ดเบสกลับคืนมา ทำให้ยังขาดคำมั่นด้านการมีส่วนร่วมต่อระบบนิเวศ
- ด้วยเหตุนี้จึงแนะนำให้ใช้ WeLib ด้วยความระมัดระวัง
- นอกจากนี้ ภายในยังมีคอลเลกชันใหม่ขนาดหลายร้อยเทราไบต์ที่เตรียมไว้บนเซิร์ฟเวอร์และกำลังรอการประมวลผล
การขออาสาสมัครและการสนับสนุน
-
ทุกคนสามารถเข้าร่วมโครงการได้ผ่านหน้าอาสาสมัครและหน้าบริจาค
-
ทุกฝ่ายดำเนินงานด้วยงบประมาณขนาดเล็ก จึงแม้ความช่วยเหลือเพียงเล็กน้อยก็มีคุณค่าอย่างมาก
-
พร้อมทั้งส่งเสริมให้มีความพยายามอย่างต่อเนื่องเพื่อปกป้องและปลดปล่อยมรดกความรู้ต่อไป
-
Anna และทีมงานทั้งหมด (อ้างอิงชุมชน Reddit)
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
ฉันเลือกซื้อหนังสือที่ฉันอ่านจาก Anna's Archive, หนังสือการ์ตูนจาก readComicsOnline, และกราฟิกโนเวลยุโรปจาก #WONTTELL, เป็นลูกค้าประจำของร้านออฟไลน์ทั้งสามแห่งนี้บ่อยมาก, แทนที่จะซื้อตามกระแสจากโฆษณา ฉันค้นหาหนักมากเพื่อหาแต่งานที่ดีจริง ๆ, บางครั้งพนักงานร้านก็ต้องลำบากสั่งหนังสือหายากที่ฉันไปเจอออนไลน์มาให้, ฉันสงสัยว่าตัวเองเป็นกรณีพิเศษไหม แต่บริการพวกนี้ช่วยปกป้องเสรีภาพในการเลือกของฉัน
นี่เป็นประเด็นที่ซับซ้อน, เมื่อก่อนฉันเคยอยู่ในกลุ่มปล่อยหนัง, สมาชิกในกลุ่มส่วนใหญ่สะสม VHS/DVD มากกว่าคนทั่วไปพอสมควร, เพราะมันเป็นงานที่ต้องลงแรงและใช้เวลาไม่น้อย, ส่วนคนที่แค่ดาวน์โหลดอย่างเดียวนั้นมีความหลากหลายปนกันมากกว่า, บางคนอยู่ต่างประเทศเลยดูผลงานที่ออกในประเทศตัวเองไม่ได้, บางคนก็ภูมิใจด้วยซ้ำที่ไม่เคยซื้อสื่ออะไรเลย
สถานการณ์คล้ายกัน, Anna's Archive ทำให้ฉันหาข้อมูลได้สะดวกกว่าห้องสมุดของโรงเรียนเสียอีก, ค้นจากบ้าน, เอาข้อมูลที่ต้องการ, แล้วลบทิ้งได้, ได้ลองดูก่อนว่าข้างในมีอะไรแล้วถ้าดีจริงค่อยซื้อเก็บ, แม้จะไม่ได้ซื้อหนังสือมากขึ้นกว่าเดิม แต่ความพึงพอใจสูงขึ้นมาก, ในทางกลับกัน เว็บไซต์อัปโหลดต่าง ๆ ทำให้ฉันได้รู้จักหนังดี ๆ ที่ไม่เคยได้ยินมาก่อน จนตอนนี้ฉันซื้อหนังมากกว่าเมื่อก่อนเยอะ
วงการสแกนเถื่อนการ์ตูนฝรั่งเศสมีกติกาว่าจะปล่อยผลงานช้ากว่าที่วางจำหน่ายราว 6 เดือน, วงการนี้เล็กพอที่กฎนี้ใช้ได้ผล, มันทำให้ฉันเริ่มสนใจการ์ตูน, และถ้าเจอเรื่องที่ชอบก็ยินดีซื้อทันทีตอนออกวางขาย พร้อมเอา DRM ออกเพื่อเก็บไว้ใช้ส่วนตัว, การดาวน์โหลดส่วนใหญ่ของฉันออกแนวสะสม/เก็บถาวรมากกว่า, และถ้าอ่านจนจบแล้วชอบจริง ๆ ฉันก็สนับสนุนผู้เขียน
ฉันก็เหมือนกันทุกอย่าง, ถ้าซีรีส์ไหนน่าสนใจ ฉันจะโหลดมาแค่เล่มแรกก่อนแล้วอ่านสักประมาณ 1/3, ถ้าดีจริงค่อยไปซื้อมาอ่านทีหลัง, เดือนหนึ่งฉันซื้อหนังสือราว 3-4 เล่ม (ถ้าเลือกได้จะชอบ epub แบบ drm free), ส่วนกราฟิกโนเวลยุโรปซื้อประมาณ 10 เล่มต่อเดือน (ซื้อแต่เล่มกระดาษ), ฉันก็เป็นผู้บริโภคหนักเหมือนกัน
เมื่อก่อนฉันเคยตามเกมอินดี้เกมหนึ่งอยู่, ผู้พัฒนาพยายามมอบประสบการณ์แบบไม่มี DRM, มีฟีเจอร์ออนไลน์ด้วย (เช่น leaderboard), แล้วก็ช็อกเมื่อพบว่ามีบัญชีออนไลน์เข้าใช้งานมากกว่ายอดขายจริงมาก, บรรดานักพัฒนาจึงเริ่มเปลี่ยนไปเขียนคำขอร้องในคำอธิบายฟีเจอร์ว่าอย่าใช้สำเนาเถื่อนและช่วยซื้อของแท้กันด้วย, สุดท้ายแม้เกมจะดังมาก แต่เพราะมีการก๊อปเถื่อนมากเกินไปและมีคนจ่ายเงินน้อยเกินไป ทีมจึงเลิกทำโปรเจกต์นี้, ทุกครั้งที่มีการพูดถึงของเถื่อน มักมีคนพยายามทำให้การกระทำของตัวเองดูชอบธรรมด้วยการบอกว่าตัวเองบริโภคมากกว่าค่าเฉลี่ย, แต่ถ้าดูข้อมูลสถิติจริง คนส่วนใหญ่บอกว่าใช้ของฟรีเพราะมันฟรีนั่นแหละ
ผู้ดูแล shadow library สร้างคุณูปการอย่างยิ่งใหญ่ให้มนุษยชาติ, คู่ควรกับโนเบล, Satoshi เองก็คงภูมิใจแน่
สิ่งที่ Satoshi น่าจะภูมิใจก็คือการที่สามารถสนับสนุน shadow library ได้โดยไม่ต้องกลัวการเซ็นเซอร์, แถมมีแค่ 1 รายการก็ยังนับเป็นลิสต์ได้
aaronsw ก็คงภูมิใจเหมือนกัน
เขาน่าจะช่วยออกเงินได้สักไม่กี่เหรียญ, สำหรับเขามันก็แค่เศษเงิน
มีลิสต์ torrents ที่ใครก็ช่วย seed เพื่อร่วมเก็บรักษาระยะยาวได้ https://annas-archive.org/torrents
น่าแปลกที่ torrent บน i2p ยังไม่แพร่หลายพอจนเว็บแบบนี้ไม่ยอมใส่มาเป็นตัวเลือก, ฉันคิดว่าคงมีหลายคนที่ช่วยไม่ได้เพราะภาระทางกฎหมาย, i2p น่าจะช่วยได้
น่าทึ่งที่ sci-hub มีประมาณ 90TB และ libgen-non-fiction ราว 77.5TB, สองอันนี้แหละคือคลังที่เก็บองค์ความรู้วิทยาศาสตร์หลัก ๆ อย่างบทความวิจัยและตำราเรียน จึงเป็นคลังที่ต้องปกป้องให้ได้, ฉันเองก็เก็บไว้ในเซิร์ฟเวอร์ที่บ้านประมาณ 16TB แต่ถ้าจะขยายเป็นระดับ 200TB ก็ไม่ใช่เรื่องเล็กทั้งอุปกรณ์และค่าใช้จ่าย (แค่ดิสก์ 16TB 12 ลูกก็ 2200 ดอลลาร์แล้ว), ถ้าคิดรวมการทำสำเนาซ้ำของข้อมูลและฮาร์ดแวร์เซิร์ฟเวอร์ด้วย ก็ประมาณ 5,000 ดอลลาร์เพื่อ cache องค์ความรู้วิทยาศาสตร์หลักทั้งหมดที่มนุษยชาติสะสมไว้ได้, ที่น่าสนใจคือขนาดของคลังพวกนี้แทบไม่โตขึ้นเลยในช่วงหลัง, scihub ก็หยุดอัปเดตตั้งแต่ปี 2022, และวารสารคุณภาพต่ำที่เพิ่มขึ้นมาในช่วงหลังก็คงมีความสำคัญไม่มากนัก
ตอนอ่านหนังสือชุดจากห้องสมุด ฉันงงมากที่เล่ม 3 หรือ 4 หายไป, น่าจะสูญหายหรือชำรุด, เคยคิดจะซื้อจากร้านหนังสือมือสองแล้วบริจาคให้เองด้วยซ้ำ แต่ฉบับพิมพ์ใหม่ทั้งราคาแพงขึ้นและบรรยากาศก็เปลี่ยนไป เลยคิดไปคิดมาจนล้มเลิก, สุดท้ายก็ไปหาเอาที่ Anna’s Archive, หนังสือไม่กี่เล่มท้ายของชุดนั้นห้องสมุดก็ไม่มีเหมือนกัน (อาจมีคนยืมไปแล้วไม่คืน หรือไม่ก็ไม่เคยมีตั้งแต่แรก), ฉันแค่อยากอ่านงานทั้งหมดของนักเขียนคนนี้ให้จบเท่านั้นเอง, และสำหรับหนังสือที่ชอบจริง ๆ ฉันก็ซื้อทั้งฉบับกระดาษและออดิโอบุ๊กถึงสองครั้ง, เมื่อก่อนเพื่อน ๆ ติดการสะสมหนังสือกันมาก แต่ฉันเป็นสายเก็บไว้เฉพาะเล่มที่จะกลับมาอ่านซ้ำ, ถ้าเกิดความอยากสะสมให้ครบก็ใช้ห้องสมุดหรือ e-book แทน, ยิ่งอายุมากขึ้นยิ่งรู้สึกถึงทั้งหนังสือและความมีขีดจำกัดของตัวเอง, ถึงจะเกษียณแล้วอ่านได้สัปดาห์ละ 3-4 เล่ม ก็ยังมีหนังสือกองพะเนินที่ไม่มีวันอ่านหมดทั้งชีวิต, แถมยังมีหนังสือใหม่และเสียงใหม่ ๆ เกิดขึ้นตลอด, ล่าสุดฉันอ่าน Dune ซ้ำแล้วก็เอาไปปล่อยร้านหนังสือมือสอง, ถ้าจะอ่านอีกก็คงเป็นเวอร์ชันออดิโอบุ๊ก
ฉันคิดว่าส่วนที่บอกว่า "Anna’s Archive ได้ไฟล์หลายสิบล้านไฟล์จาก IA Controlled Digital Lending" มองภาพรวมแล้วไม่ค่อยเป็นผลดีนัก
นี่เป็นคำพูดกำกวมมากจนสุดท้ายคงต้องไปว่ากันในศาล
การที่ Anna's Archive ออกมาคุยโตแบบไม่รับผิดชอบว่า 'เราทำแบบนี้ด้วย' ดูเป็นการกระทำที่เห็นแก่ตัวมาก, ไม่คำนึงถึงผลลัพธ์อะไรเลย
ฉันไม่เห็นว่ามันจะเป็นปัญหาตรงไหน, เดิมทีจุดประสงค์ของพวกเขาก็คือการรวบรวมหนังสืออยู่แล้ว
ฉันคิดว่าสถานที่แบบ Anna's Archive เป็นหนึ่งในสิ่งดี ๆ ไม่กี่อย่างสุดท้ายที่ยังเหลืออยู่บนอินเทอร์เน็ต
ฉันสงสัยว่าพวกเขาหาเงินทุนกันยังไง และทำยังไงให้เว็บอยู่รอดได้, ดูเหมือนว่าบริษัทหรือรัฐที่มีเงินมหาศาลคงอยากกำจัดเว็บนี้
เห็นด้วยว่าเป็นหนึ่งในสิ่งดี ๆ ชุดสุดท้าย (เป็น one of the last แต่ไม่ใช่ the least แน่นอน)
ขอชื่นชมทีมของโปรเจกต์นี้, ฉันประทับใจที่ในช่วงปีที่ผ่านมา UI ดูดีขึ้น, ปัญหาที่เหลือคือจะทำยังไงให้บริการยังเข้าถึงได้ต่อไปและอยู่รอด, สงสัยว่าต้องใช้ความพยายามมากแค่ไหน และรับมือไหวได้อย่างไรในสภาพที่โดนโจมตีแบบนี้
เผื่อไว้บอกว่าเว็บนี้ก็ใช้งานได้มีประโยชน์พอสมควรเหมือนกัน https://open-slum.org/
เว็บเข้าไม่ได้, อยากให้ช่วยอธิบายหน่อยว่ามีอะไรและมีประโยชน์ยังไง
เว็บนี้ดูเหมือนจะเป็นอินสแตนซ์ของ Uptime Kuma, ซึ่งเป็นโปรเจกต์โอเพนซอร์สที่เด่นเรื่อง monitoring และ dashboard https://github.com/louislam/uptime-kuma
มันค่อนข้างน่าขำที่ประชาชนสนับสนุนของอย่าง Anna's Archive แต่รัฐบาลกลับคัดค้าน, ดูเป็นหลักฐานอย่างหนึ่งของความเป็นชนชั้นนำ
มันไม่ได้ตลกหรือแปลกอะไร, มุมมองของผู้มีส่วนได้ส่วนเสียโดยตรงอย่างผู้เขียน (นักเขียน) หายไปจากการคุยนี้, ฉันสงสัยว่านักเขียนที่มีหนังสืออยู่ใน Anna’s Archive จะพอใจแค่ไหน, ส่วนตัวฉันมองว่าให้สังคมโดยรวมอ่านหนังสือมากขึ้นน่าจะเป็นผลดี จึงมอง Anna’s Archive, sci-hub ฯลฯ ในทางบวก, แต่ภายใต้ระบบปัจจุบันมันก็มีประเด็นเรื่องค่าตอบแทน กฎหมาย และเรื่องให้คิดอีกหลายอย่าง
ฉันสงสัยว่านักเขียนจะคิดยังไง
ฉันสงสัยว่า Anna's Archive หรือเว็บคล้ายกันมีชุด PDF ของ New York Times ทั้งหมด (ฉบับก่อนปี 1930) หรือของหนังสือพิมพ์อื่น ๆ ไหม, ตอนนี้แม้แต่ข้อมูลสาธารณสมบัติก็ยังถูกขังอยู่ในเว็บปิดอย่าง Newspapers.com หรือไม่ก็อยู่ในสภาพค้นหาแทบไม่ได้เหมือน Google News/หนังสือพิมพ์ยุคเก่า, ฉันหวังว่าการแข่งขันเพื่อหา data สำหรับเทรน AI จะทำให้เกิดคลังใหม่ที่เปิดกว้างกว่าเว็บเก็บเงินหรือเว็บที่ถูกทิ้งร้างในอดีต และมีฟังก์ชันสำรวจค้นหาแบบ AI, บางส่วนหาได้จาก Internet Archive เป็นต้น แต่สิ่งที่ต้องการจริง ๆ คือความสามารถในการค้นหาแบบ AI