Anna's Archive: อัปเดตล่าสุดจากทีม

(annas-archive.org)

1 คะแนน โดย GN⁺ 2025-08-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เนื่องจากการโจมตีต่อภารกิจในช่วงหลังเพิ่มมากขึ้น จึงกำลังดำเนินการเสริมความแข็งแกร่งด้านโครงสร้างพื้นฐานและความปลอดภัยในการปฏิบัติการ
นับตั้งแต่เริ่มต้นในปี 2022 ได้ทำการเก็บรักษาและแบ่งปันหนังสือ บทความวิชาการ นิตยสาร หนังสือพิมพ์ และสื่ออื่น ๆ หลายสิบล้านรายการอย่างปลอดภัย
ด้วยการสแครปข้อมูลขนาดใหญ่ จึงได้เมทาดาทาจำนวนมหาศาลจาก WorldCat, Google Books เป็นต้น เพื่อนำมาใช้ระบุสื่อที่ยังไม่ได้เก็บรวบรวม
ผ่านความร่วมมือกับ LibGen, Z-Library และอื่น ๆ ทำให้ได้สื่อเพิ่มเติมอีกหลายสิบล้านรายการ แต่ก็รู้สึกเสียดายที่พาร์ตเนอร์บางรายได้หายไป
รักษาความสัมพันธ์กับเว็บไซต์เกิดใหม่อย่าง WeLibอย่างระมัดระวัง และแนะนำให้หลีกเลี่ยงการใช้งานเนื่องจากยังมีส่วนร่วมกับชุมชนไม่เพียงพอ

สถานการณ์ล่าสุดและการตอบสนองของทีม

ช่วงหลังมานี้มีการโจมตีที่มุ่งเป้าไปยังภารกิจของ Anna's Archiveเพิ่มขึ้น
ด้วยเหตุนี้จึงกำลังดำเนินมาตรการเสริมความแข็งแกร่งด้านโครงสร้างพื้นฐานและความปลอดภัยในการปฏิบัติการ
การเก็บรักษามรดกความรู้ของมนุษยชาติไว้อย่างปลอดภัยยังคงเป็นสิ่งที่คุ้มค่าแก่การเดินหน้าต่อไป

การปลดปล่อยและจัดเก็บสื่อ

นับตั้งแต่เริ่มต้นในปี 2022 ได้รวบรวมหนังสือ งานวิจัยทางวิทยาศาสตร์ นิตยสาร หนังสือพิมพ์ และคอนเทนต์หลากหลายประเภทหลายสิบล้านรายการ
สื่อเหล่านี้อยู่ในสถานะที่ได้รับการปกป้องจากภัยคุกคามหลากหลายรูปแบบ เช่น ภัยธรรมชาติ สงคราม และการตัดงบประมาณ
ด้วยความร่วมมือของทุกคนที่ช่วยเผยแพร่ไฟล์ผ่านทอร์เรนต์ ความกังวลเรื่องการสูญหายของข้อมูลจึงลดลงอย่างมาก

การสแครปข้อมูลขนาดใหญ่และการจัดหาเมทาดาทา

Anna's Archive ได้จัดการสแครปข้อมูลขนาดใหญ่อย่างเป็นระบบจากIA Controlled Digital Lending, HathiTrust, DuXiu เป็นต้น
สามารถจัดหาไฟล์สื่อได้สำเร็จในระดับ tens of millions
ได้สร้างคอลเลกชันเมทาดาทาหนังสือขนาดมหาศาลจาก WorldCat, Google Books เป็นต้น
เมทาดาทาที่ได้มาถูกใช้เพื่อระบุหนังสือที่ยังไม่รวมอยู่ในคอลเลกชัน และใช้กับกลยุทธ์การจัดหาเอกสารหายากก่อนเป็นลำดับแรก

ชุมชน ความร่วมมือ และการพัฒนาใหม่

ร่วมงานกับพาร์ตเนอร์ความร่วมมืออย่าง LibGen forks, STC/Nexus, Z-Library เพื่อจัดหาไฟล์เพิ่มเติมอีกหลายสิบล้านไฟล์
พาร์ตเนอร์เหล่านี้ช่วยภารกิจอย่างมาก เช่น การทำมิเรอร์ไฟล์
อย่างไรก็ตาม การหายไปของหนึ่งใน LibGen forks ก็ถูกมองว่าเป็นเรื่องน่าเสียดาย

โครงการเกิดใหม่และข้อควรระวัง

ช่วงหลังมีโครงการใหม่ชื่อ WeLibปรากฏขึ้น
- ทำมิเรอร์คอลเลกชันของอาร์ไคฟ์ส่วนใหญ่ และกำลังใช้โค้ดเบสฟอร์กของ Anna’s Archive
- ได้นำบางส่วนของการปรับปรุงส่วนติดต่อผู้ใช้ของ WeLib มาปรับใช้
- อย่างไรก็ตาม ยังไม่มีการแบ่งปันคอลเลกชันใหม่หรือการปรับปรุงโค้ดเบสกลับคืนมา ทำให้ยังขาดคำมั่นด้านการมีส่วนร่วมต่อระบบนิเวศ
- ด้วยเหตุนี้จึงแนะนำให้ใช้ WeLib ด้วยความระมัดระวัง
นอกจากนี้ ภายในยังมีคอลเลกชันใหม่ขนาดหลายร้อยเทราไบต์ที่เตรียมไว้บนเซิร์ฟเวอร์และกำลังรอการประมวลผล

การขออาสาสมัครและการสนับสนุน

ทุกคนสามารถเข้าร่วมโครงการได้ผ่านหน้าอาสาสมัครและหน้าบริจาค
ทุกฝ่ายดำเนินงานด้วยงบประมาณขนาดเล็ก จึงแม้ความช่วยเหลือเพียงเล็กน้อยก็มีคุณค่าอย่างมาก
พร้อมทั้งส่งเสริมให้มีความพยายามอย่างต่อเนื่องเพื่อปกป้องและปลดปล่อยมรดกความรู้ต่อไป
Anna และทีมงานทั้งหมด (อ้างอิงชุมชน Reddit)

1 ความคิดเห็น

GN⁺ 2025-08-19

ความคิดเห็นบน Hacker News

ฉันเลือกซื้อหนังสือที่ฉันอ่านจาก Anna's Archive, หนังสือการ์ตูนจาก readComicsOnline, และกราฟิกโนเวลยุโรปจาก #WONTTELL, เป็นลูกค้าประจำของร้านออฟไลน์ทั้งสามแห่งนี้บ่อยมาก, แทนที่จะซื้อตามกระแสจากโฆษณา ฉันค้นหาหนักมากเพื่อหาแต่งานที่ดีจริง ๆ, บางครั้งพนักงานร้านก็ต้องลำบากสั่งหนังสือหายากที่ฉันไปเจอออนไลน์มาให้, ฉันสงสัยว่าตัวเองเป็นกรณีพิเศษไหม แต่บริการพวกนี้ช่วยปกป้องเสรีภาพในการเลือกของฉัน
- นี่เป็นประเด็นที่ซับซ้อน, เมื่อก่อนฉันเคยอยู่ในกลุ่มปล่อยหนัง, สมาชิกในกลุ่มส่วนใหญ่สะสม VHS/DVD มากกว่าคนทั่วไปพอสมควร, เพราะมันเป็นงานที่ต้องลงแรงและใช้เวลาไม่น้อย, ส่วนคนที่แค่ดาวน์โหลดอย่างเดียวนั้นมีความหลากหลายปนกันมากกว่า, บางคนอยู่ต่างประเทศเลยดูผลงานที่ออกในประเทศตัวเองไม่ได้, บางคนก็ภูมิใจด้วยซ้ำที่ไม่เคยซื้อสื่ออะไรเลย
- สถานการณ์คล้ายกัน, Anna's Archive ทำให้ฉันหาข้อมูลได้สะดวกกว่าห้องสมุดของโรงเรียนเสียอีก, ค้นจากบ้าน, เอาข้อมูลที่ต้องการ, แล้วลบทิ้งได้, ได้ลองดูก่อนว่าข้างในมีอะไรแล้วถ้าดีจริงค่อยซื้อเก็บ, แม้จะไม่ได้ซื้อหนังสือมากขึ้นกว่าเดิม แต่ความพึงพอใจสูงขึ้นมาก, ในทางกลับกัน เว็บไซต์อัปโหลดต่าง ๆ ทำให้ฉันได้รู้จักหนังดี ๆ ที่ไม่เคยได้ยินมาก่อน จนตอนนี้ฉันซื้อหนังมากกว่าเมื่อก่อนเยอะ
- วงการสแกนเถื่อนการ์ตูนฝรั่งเศสมีกติกาว่าจะปล่อยผลงานช้ากว่าที่วางจำหน่ายราว 6 เดือน, วงการนี้เล็กพอที่กฎนี้ใช้ได้ผล, มันทำให้ฉันเริ่มสนใจการ์ตูน, และถ้าเจอเรื่องที่ชอบก็ยินดีซื้อทันทีตอนออกวางขาย พร้อมเอา DRM ออกเพื่อเก็บไว้ใช้ส่วนตัว, การดาวน์โหลดส่วนใหญ่ของฉันออกแนวสะสม/เก็บถาวรมากกว่า, และถ้าอ่านจนจบแล้วชอบจริง ๆ ฉันก็สนับสนุนผู้เขียน
- ฉันก็เหมือนกันทุกอย่าง, ถ้าซีรีส์ไหนน่าสนใจ ฉันจะโหลดมาแค่เล่มแรกก่อนแล้วอ่านสักประมาณ 1/3, ถ้าดีจริงค่อยไปซื้อมาอ่านทีหลัง, เดือนหนึ่งฉันซื้อหนังสือราว 3-4 เล่ม (ถ้าเลือกได้จะชอบ epub แบบ drm free), ส่วนกราฟิกโนเวลยุโรปซื้อประมาณ 10 เล่มต่อเดือน (ซื้อแต่เล่มกระดาษ), ฉันก็เป็นผู้บริโภคหนักเหมือนกัน
- เมื่อก่อนฉันเคยตามเกมอินดี้เกมหนึ่งอยู่, ผู้พัฒนาพยายามมอบประสบการณ์แบบไม่มี DRM, มีฟีเจอร์ออนไลน์ด้วย (เช่น leaderboard), แล้วก็ช็อกเมื่อพบว่ามีบัญชีออนไลน์เข้าใช้งานมากกว่ายอดขายจริงมาก, บรรดานักพัฒนาจึงเริ่มเปลี่ยนไปเขียนคำขอร้องในคำอธิบายฟีเจอร์ว่าอย่าใช้สำเนาเถื่อนและช่วยซื้อของแท้กันด้วย, สุดท้ายแม้เกมจะดังมาก แต่เพราะมีการก๊อปเถื่อนมากเกินไปและมีคนจ่ายเงินน้อยเกินไป ทีมจึงเลิกทำโปรเจกต์นี้, ทุกครั้งที่มีการพูดถึงของเถื่อน มักมีคนพยายามทำให้การกระทำของตัวเองดูชอบธรรมด้วยการบอกว่าตัวเองบริโภคมากกว่าค่าเฉลี่ย, แต่ถ้าดูข้อมูลสถิติจริง คนส่วนใหญ่บอกว่าใช้ของฟรีเพราะมันฟรีนั่นแหละ
ผู้ดูแล shadow library สร้างคุณูปการอย่างยิ่งใหญ่ให้มนุษยชาติ, คู่ควรกับโนเบล, Satoshi เองก็คงภูมิใจแน่
- สิ่งที่ Satoshi น่าจะภูมิใจก็คือการที่สามารถสนับสนุน shadow library ได้โดยไม่ต้องกลัวการเซ็นเซอร์, แถมมีแค่ 1 รายการก็ยังนับเป็นลิสต์ได้
- aaronsw ก็คงภูมิใจเหมือนกัน
- เขาน่าจะช่วยออกเงินได้สักไม่กี่เหรียญ, สำหรับเขามันก็แค่เศษเงิน
มีลิสต์ torrents ที่ใครก็ช่วย seed เพื่อร่วมเก็บรักษาระยะยาวได้ https://annas-archive.org/torrents
- น่าแปลกที่ torrent บน i2p ยังไม่แพร่หลายพอจนเว็บแบบนี้ไม่ยอมใส่มาเป็นตัวเลือก, ฉันคิดว่าคงมีหลายคนที่ช่วยไม่ได้เพราะภาระทางกฎหมาย, i2p น่าจะช่วยได้
- น่าทึ่งที่ sci-hub มีประมาณ 90TB และ libgen-non-fiction ราว 77.5TB, สองอันนี้แหละคือคลังที่เก็บองค์ความรู้วิทยาศาสตร์หลัก ๆ อย่างบทความวิจัยและตำราเรียน จึงเป็นคลังที่ต้องปกป้องให้ได้, ฉันเองก็เก็บไว้ในเซิร์ฟเวอร์ที่บ้านประมาณ 16TB แต่ถ้าจะขยายเป็นระดับ 200TB ก็ไม่ใช่เรื่องเล็กทั้งอุปกรณ์และค่าใช้จ่าย (แค่ดิสก์ 16TB 12 ลูกก็ 2200 ดอลลาร์แล้ว), ถ้าคิดรวมการทำสำเนาซ้ำของข้อมูลและฮาร์ดแวร์เซิร์ฟเวอร์ด้วย ก็ประมาณ 5,000 ดอลลาร์เพื่อ cache องค์ความรู้วิทยาศาสตร์หลักทั้งหมดที่มนุษยชาติสะสมไว้ได้, ที่น่าสนใจคือขนาดของคลังพวกนี้แทบไม่โตขึ้นเลยในช่วงหลัง, scihub ก็หยุดอัปเดตตั้งแต่ปี 2022, และวารสารคุณภาพต่ำที่เพิ่มขึ้นมาในช่วงหลังก็คงมีความสำคัญไม่มากนัก
ตอนอ่านหนังสือชุดจากห้องสมุด ฉันงงมากที่เล่ม 3 หรือ 4 หายไป, น่าจะสูญหายหรือชำรุด, เคยคิดจะซื้อจากร้านหนังสือมือสองแล้วบริจาคให้เองด้วยซ้ำ แต่ฉบับพิมพ์ใหม่ทั้งราคาแพงขึ้นและบรรยากาศก็เปลี่ยนไป เลยคิดไปคิดมาจนล้มเลิก, สุดท้ายก็ไปหาเอาที่ Anna’s Archive, หนังสือไม่กี่เล่มท้ายของชุดนั้นห้องสมุดก็ไม่มีเหมือนกัน (อาจมีคนยืมไปแล้วไม่คืน หรือไม่ก็ไม่เคยมีตั้งแต่แรก), ฉันแค่อยากอ่านงานทั้งหมดของนักเขียนคนนี้ให้จบเท่านั้นเอง, และสำหรับหนังสือที่ชอบจริง ๆ ฉันก็ซื้อทั้งฉบับกระดาษและออดิโอบุ๊กถึงสองครั้ง, เมื่อก่อนเพื่อน ๆ ติดการสะสมหนังสือกันมาก แต่ฉันเป็นสายเก็บไว้เฉพาะเล่มที่จะกลับมาอ่านซ้ำ, ถ้าเกิดความอยากสะสมให้ครบก็ใช้ห้องสมุดหรือ e-book แทน, ยิ่งอายุมากขึ้นยิ่งรู้สึกถึงทั้งหนังสือและความมีขีดจำกัดของตัวเอง, ถึงจะเกษียณแล้วอ่านได้สัปดาห์ละ 3-4 เล่ม ก็ยังมีหนังสือกองพะเนินที่ไม่มีวันอ่านหมดทั้งชีวิต, แถมยังมีหนังสือใหม่และเสียงใหม่ ๆ เกิดขึ้นตลอด, ล่าสุดฉันอ่าน Dune ซ้ำแล้วก็เอาไปปล่อยร้านหนังสือมือสอง, ถ้าจะอ่านอีกก็คงเป็นเวอร์ชันออดิโอบุ๊ก
ฉันคิดว่าส่วนที่บอกว่า "Anna’s Archive ได้ไฟล์หลายสิบล้านไฟล์จาก IA Controlled Digital Lending" มองภาพรวมแล้วไม่ค่อยเป็นผลดีนัก
- นี่เป็นคำพูดกำกวมมากจนสุดท้ายคงต้องไปว่ากันในศาล
- การที่ Anna's Archive ออกมาคุยโตแบบไม่รับผิดชอบว่า 'เราทำแบบนี้ด้วย' ดูเป็นการกระทำที่เห็นแก่ตัวมาก, ไม่คำนึงถึงผลลัพธ์อะไรเลย
- ฉันไม่เห็นว่ามันจะเป็นปัญหาตรงไหน, เดิมทีจุดประสงค์ของพวกเขาก็คือการรวบรวมหนังสืออยู่แล้ว
ฉันคิดว่าสถานที่แบบ Anna's Archive เป็นหนึ่งในสิ่งดี ๆ ไม่กี่อย่างสุดท้ายที่ยังเหลืออยู่บนอินเทอร์เน็ต
- ฉันสงสัยว่าพวกเขาหาเงินทุนกันยังไง และทำยังไงให้เว็บอยู่รอดได้, ดูเหมือนว่าบริษัทหรือรัฐที่มีเงินมหาศาลคงอยากกำจัดเว็บนี้
- เห็นด้วยว่าเป็นหนึ่งในสิ่งดี ๆ ชุดสุดท้าย (เป็น one of the last แต่ไม่ใช่ the least แน่นอน)
ขอชื่นชมทีมของโปรเจกต์นี้, ฉันประทับใจที่ในช่วงปีที่ผ่านมา UI ดูดีขึ้น, ปัญหาที่เหลือคือจะทำยังไงให้บริการยังเข้าถึงได้ต่อไปและอยู่รอด, สงสัยว่าต้องใช้ความพยายามมากแค่ไหน และรับมือไหวได้อย่างไรในสภาพที่โดนโจมตีแบบนี้
- ช่วง 2-5 วันที่ผ่านมามีอัปเดต UI ครั้งใหญ่, จุดที่น่าเสียดายนิดหน่อยคือบนมือถือเมื่อก่อนดูผลการค้นหาได้มีประสิทธิภาพกว่ามาก, ดีไซน์ใหม่ทำให้หนึ่งหน้าจอเห็นได้แค่ประมาณ 4-5 รายการ
เผื่อไว้บอกว่าเว็บนี้ก็ใช้งานได้มีประโยชน์พอสมควรเหมือนกัน https://open-slum.org/
- เว็บเข้าไม่ได้, อยากให้ช่วยอธิบายหน่อยว่ามีอะไรและมีประโยชน์ยังไง
- เว็บนี้ดูเหมือนจะเป็นอินสแตนซ์ของ Uptime Kuma, ซึ่งเป็นโปรเจกต์โอเพนซอร์สที่เด่นเรื่อง monitoring และ dashboard https://github.com/louislam/uptime-kuma
มันค่อนข้างน่าขำที่ประชาชนสนับสนุนของอย่าง Anna's Archive แต่รัฐบาลกลับคัดค้าน, ดูเป็นหลักฐานอย่างหนึ่งของความเป็นชนชั้นนำ
- มันไม่ได้ตลกหรือแปลกอะไร, มุมมองของผู้มีส่วนได้ส่วนเสียโดยตรงอย่างผู้เขียน (นักเขียน) หายไปจากการคุยนี้, ฉันสงสัยว่านักเขียนที่มีหนังสืออยู่ใน Anna’s Archive จะพอใจแค่ไหน, ส่วนตัวฉันมองว่าให้สังคมโดยรวมอ่านหนังสือมากขึ้นน่าจะเป็นผลดี จึงมอง Anna’s Archive, sci-hub ฯลฯ ในทางบวก, แต่ภายใต้ระบบปัจจุบันมันก็มีประเด็นเรื่องค่าตอบแทน กฎหมาย และเรื่องให้คิดอีกหลายอย่าง
- ฉันสงสัยว่านักเขียนจะคิดยังไง
ฉันสงสัยว่า Anna's Archive หรือเว็บคล้ายกันมีชุด PDF ของ New York Times ทั้งหมด (ฉบับก่อนปี 1930) หรือของหนังสือพิมพ์อื่น ๆ ไหม, ตอนนี้แม้แต่ข้อมูลสาธารณสมบัติก็ยังถูกขังอยู่ในเว็บปิดอย่าง Newspapers.com หรือไม่ก็อยู่ในสภาพค้นหาแทบไม่ได้เหมือน Google News/หนังสือพิมพ์ยุคเก่า, ฉันหวังว่าการแข่งขันเพื่อหา data สำหรับเทรน AI จะทำให้เกิดคลังใหม่ที่เปิดกว้างกว่าเว็บเก็บเงินหรือเว็บที่ถูกทิ้งร้างในอดีต และมีฟังก์ชันสำรวจค้นหาแบบ AI, บางส่วนหาได้จาก Internet Archive เป็นต้น แต่สิ่งที่ต้องการจริง ๆ คือความสามารถในการค้นหาแบบ AI
- ลิงก์ https://archive.org/search?query=title%3ANew+York+Times&sort=-date&and%5B%5D=year%3A%5B1530+TO+1930%5D พอจะหา NYT ฉบับเก่าได้บางส่วน, อาจจะดาวน์โหลดทีเดียวแบบชุด PDF ทั้งก้อนไม่ได้ แต่สามารถหา PDF แยกแต่ละไฟล์ผ่าน torrents ของ Anna’s Archive แล้วค่อยรวมกันได้, ส่วนการค้นหาแบบ AI ถ้ามีเวลาและความตั้งใจก็สามารถทำ OCR บทความเก่าของ NYT ให้เป็นข้อความ แล้วป้อนเข้า LLM หรือระบบคล้ายกันเพื่อให้ค้นหาเชิงความหมายได้, โปรเจกต์แบบนี้ถ้าเป็นไปได้ก็น่าให้กองทุนวัฒนธรรมสาธารณะสนับสนุนในฐานะงานวิจัยวิชาการ

Anna's Archive: อัปเดตล่าสุดจากทีม

สถานการณ์ล่าสุดและการตอบสนองของทีม

การปลดปล่อยและจัดเก็บสื่อ

การสแครปข้อมูลขนาดใหญ่และการจัดหาเมทาดาทา

ชุมชน ความร่วมมือ และการพัฒนาใหม่

โครงการเกิดใหม่และข้อควรระวัง

การขออาสาสมัครและการสนับสนุน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News