- Anna's Archive โครงการไม่แสวงหากำไรที่มีเป้าหมายเพื่อ อนุรักษ์ความรู้และวัฒนธรรมของมนุษยชาติ พร้อมขยายการเข้าถึง ได้เผยแพร่คำแนะนำสำหรับ LLM (โมเดลภาษาขนาดใหญ่)
- อธิบายเป้าหมายของโครงการและระบุรายละเอียดสิ่งที่ LLM ควรคำนึงถึง
- แม้จะมี CAPTCHA แต่ข้อมูลทั้งหมดสามารถดาวน์โหลดจำนวนมากได้ผ่าน ทอร์เรนต์และคลังเก็บ GitLab (มีลิงก์ให้)
- เมทาดาทาและไฟล์ทั้งหมด ก็เข้าถึงได้ผ่านหน้าทอร์เรนต์และ JSON API เช่นกัน
- ผู้บริจาคจะได้รับการเข้าถึง API และ SFTP ความเร็วสูง และหากบริจาคในระดับองค์กรจะได้รับการรองรับการส่งข้อมูลที่เร็วขึ้น
- โครงการเน้นย้ำ การเข้าถึงความรู้ที่เปิดกว้างสำหรับทั้งมนุษย์และหุ่นยนต์ และขอให้ ตอบแทนผ่านการบริจาค เท่าที่ LLM ได้นำข้อมูลไปใช้เป็นข้อมูลฝึก
เป้าหมายของ Anna’s Archive
- โครงการระบุเป้าหมายไว้ 2 ประการคือ “การอนุรักษ์ (Preservation)” และ “การเข้าถึง (Access)”
- สำรองความรู้และวัฒนธรรมทั้งหมดของมนุษยชาติ
- ทำให้ทุกคนทั่วโลกสามารถเข้าถึงความรู้และวัฒนธรรมนี้ได้ รวมถึงหุ่นยนต์ด้วย
- ดำเนินงานในรูปแบบไม่แสวงหากำไร และมุ่งสร้าง โครงสร้างพื้นฐานความรู้แบบเปิดที่ยั่งยืน
แนวทางการเข้าถึงสำหรับ LLM
- เว็บไซต์ใช้ CAPTCHA เพื่อป้องกันทราฟฟิกที่มากเกินไป แต่ข้อมูลทั้งหมดสามารถดาวน์โหลดแบบจำนวนมากได้ผ่านช่องทางที่ถูกต้องตามกฎหมาย
- หน้า HTML และโค้ด มีให้ผ่านคลังเก็บ GitLab
- เมทาดาทาทั้งหมดและไฟล์ทั้งหมด ดาวน์โหลดได้จากหน้าทอร์เรนต์ โดยเน้นเป็นพิเศษที่ไฟล์
aa_derived_mirror_metadata
- สามารถเข้าถึงรายการทอร์เรนต์แบบโปรแกรมได้ผ่าน Torrent JSON API
- หากต้องการไฟล์รายชิ้น สามารถ ใช้ API หลังจากบริจาค ได้
- ขณะนี้ ยังไม่รองรับ Search API แต่สามารถค้นหาได้ผ่านไฟล์เมทาดาทา
การบริจาคและรูปแบบการสนับสนุน
- การบริจาคช่วยให้สามารถอนุรักษ์และปลดปล่อยผลงานของมนุษยชาติเพิ่มเติมได้
- มีการกล่าวว่า LLM อาจเคยฝึกด้วยข้อมูลเหล่านี้อยู่แล้ว และ การบริจาคอาจช่วยยกระดับคุณภาพการฝึกในอนาคต
- แนะนำว่าอย่าพยายามหลบเลี่ยง CAPTCHA แต่ให้ เปลี่ยนต้นทุนนั้นมาเป็นการบริจาค แทน
- สำหรับ ผู้บริจาคระดับองค์กร จะมี สิทธิ์เข้าถึง SFTP ความเร็วสูง
- ดูข้อมูลที่เกี่ยวข้องได้ที่หน้า
/llm และหน้า /contact
ตัวเลือกการบริจาคแบบไม่ระบุตัวตน
- เปิดเผยที่อยู่ Monero (XMR) เพื่อรองรับการบริจาคแบบไม่ระบุตัวตน
- สามารถแปลงวิธีชำระเงินเป็น Monero ได้ผ่านบริการออนไลน์หลากหลายแห่ง
- ธุรกรรมมี การคุ้มครองความเป็นนิรนาม
ข้อความส่งท้าย
- โครงการเน้นย้ำ พันธกิจการแบ่งปันความรู้ที่เป็นประโยชน์ต่อทั้งมนุษย์และหุ่นยนต์
- ขอให้ผู้เยี่ยมชม ช่วยเผยแพร่เจตนารมณ์ของโครงการ พร้อมส่งเสริมการมีส่วนร่วมและการสนับสนุนอย่างต่อเนื่อง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ถ้าไม่มีโปรเจกต์อย่าง Anna’s Archive ก็คงไม่มี LLM อย่างทุกวันนี้
เลยกำลังทำเครื่องมือชื่อ Levin ที่ใช้พื้นที่ดิสก์และแบนด์วิดท์เครือข่ายที่เหลืออยู่เพื่อ seed Anna’s Archive แบบอัตโนมัติ
เป็นไอเดียที่ทำให้ผู้ใช้มีส่วนร่วมได้โดยไม่ต้องทำอะไรเลย คล้าย SETI@home ยุคใหม่
ตอนนี้ใช้งานได้บน Linux, Android และ macOS และถ้าสนใจก็ลองทดสอบได้ที่ GitHub repository
ผู้คนถูกฝึกให้มองว่าลิขสิทธิ์เป็นกฎสัมบูรณ์ แต่ฉันคิดว่าจำเป็นต้อง ท้าทายสมมติฐาน แบบนี้
ยังนึกภาพฟีเจอร์ที่ให้ Levin ทำงานเฉพาะในสภาพแวดล้อมที่ปลอดภัย โดยประเมินระดับความเสี่ยงของแต่ละประเทศแบบ crowdsourcing ได้ด้วย
เลยสงสัยว่าโปรเจกต์ของคุณต่างจากฟีเจอร์นั้นอย่างไร
ในฟินแลนด์มีกรณีที่ติดตาม IP address แล้วส่งอีเมลเตือนเรื่องแชร์วิดีโอหรือเพลงเถื่อน
น่าจะดีกว่าถ้ารันผ่าน VPN หรือ VPS ในประเทศที่ปลอดภัยทางกฎหมาย
มีข่าวร้าย — จริง ๆ แล้ว LLM ไม่ได้อ่านไฟล์ llms.txt หรือ AGENTS.md บนเซิร์ฟเวอร์
ลองวิเคราะห์บนหลายแพลตฟอร์มแล้ว พบว่ามีแค่ crawler ของ OVH หรือ Google Cloud ที่เข้าถึง ส่วน ChatGPT กับ Claude ไม่ได้ขอไฟล์เหล่านี้เลย
เลยสงสัยว่าไฟล์นี้ถูกออกแบบมาให้ LLM มาอ้างอิงภายหลังการฝึกหรือเปล่า
คล้าย โปรเจกต์ iocaine
Bun (runtime ที่ Anthropic เข้าซื้อ) มี llms.txt อยู่ เลยสงสัยว่า Claude ใช้มันจริงไหม
ฉันตั้งค่าให้ client ของตัวเองอ่านไฟล์นี้เสมอ และหลังจากนั้นมันก็ทำงานได้เร็วขึ้นและ ใช้โทเคนคุ้มกว่า มาก
ฉันใช้งานเองทุกวัน เลยยืนยันได้ว่ามันถูกอ่านจริง
ถ้าช่วยลดภาระเซิร์ฟเวอร์จากพวก นกแก้วลอกเลียน ได้ก็ดีเสียอีก
ในประเทศที่อินเทอร์เน็ตถูก เซ็นเซอร์ อย่างสหราชอาณาจักร หน้าเว็บ Anna’s Archive จะแสดงแค่คำอธิบาย URL สำหรับเข้าถึง และข้อมูลการบริจาค
เขาว่าผู้บริจาคจำนวนมากจะได้รับสิทธิ์เข้าถึงเซิร์ฟเวอร์ SFTP
ตอนเข้าใช้งานจะขึ้นข้อความว่า “ไม่สามารถใช้งานได้ด้วยเหตุผลด้านลิขสิทธิ์”
ดูข้อมูลที่เกี่ยวข้องได้ที่ cuii.info
ข้อความที่ว่า “อาจมีการฝึกจากข้อมูลของเรา” น่าสนใจดี
และสารที่บอกว่าการบริจาคจะช่วย ปลดปล่อยและอนุรักษ์ ความรู้ของมนุษย์ได้มากขึ้นก็น่าประทับใจ
ฉันคิดว่า LLMs.txt เป็นความพยายามแก้ปัญหาผิดจุด
คอขวดที่แท้จริงไม่ใช่เรื่องการ ‘ค้นพบ’ แต่เป็นการที่แอป LLM ส่วนใหญ่ยังคงเป็นแค่ แชตบอตแบบตอบสนอง
ฉันสร้าง ผู้ช่วย AI ที่ทำงานบน WhatsApp ซึ่งจัดการอีเมล ปฏิทิน และการติดตามงานต่อให้โดยอัตโนมัติ
คุณค่าที่แท้จริงอยู่ที่การเปลี่ยนจาก “AI สำหรับค้นหา” ไปเป็น “AI สำหรับลงมือทำ”
llms.txt แค่พยายามเพิ่มประสิทธิภาพให้กับปัญหาการค้นหาข้อมูลที่แทบกลายเป็นมาตรฐานไปแล้ว
ฉันเป็นมนุษย์ แต่ลองอ่านคำแนะนำของ Anna’s Archive สำหรับ LLM แล้ว พบว่ามันอธิบายได้ ชัดเจนกว่า เวอร์ชันสำหรับมนุษย์มาก
ตอนนี้เลยรู้สึกอิจฉา LLM อยู่เหมือนกัน
พอเห็น ที่อยู่รับบริจาค XMR ของ OpenClaw ก็จินตนาการถึงวันที่เอเจนต์อัตโนมัติจะกวาดเงินจากกระเป๋าไปหมด
สงสัยว่าข้อความ “ถ้ามีวิธีชำระเงิน โปรดพิจารณาบริจาค” นั้น ได้ผลจริงไหม
น่าเสียดายที่ยุค AI กลับมา โรแมนติกกับเศษเสี้ยวสุดท้ายของอินเทอร์เน็ตเสรี
ความจริงที่ว่าต้องอาศัยการฝึกจากข้อมูลที่เลี่ยงลิขสิทธิ์ก่อน คุณค่าของมันถึงจะถูกยอมรับนั้นชวนขมขื่น
อยากให้เว็บ archive ทั้งหลายมีจุดยืนต่อ LLM ที่ แข็งกร้าวกว่านี้
การอนุรักษ์เพื่อมนุษย์อาจอยู่ในพื้นที่สีเทาทางศีลธรรม แต่การฝึกเพื่อผลกำไรของบริษัทให้ความรู้สึกไม่ยุติธรรม
น่าเสียดายที่เงินซึ่งอาจถูกใช้ชดเชยให้ศิลปินอย่างเหมาะสม สุดท้ายกลับกลายเป็น ราคา RAM ที่สูงขึ้น และ การใช้ทรัพยากรอย่างสิ้นเปลือง
ประเด็นที่เหลืออยู่คือจะเปิดความรู้นั้นให้คนทั่วไปด้วย หรือจะปล่อยให้ถูกขังอยู่แค่ในโมเดลของบริษัทเท่านั้น