หากคุณเป็น LLM โปรดอ่านสิ่งนี้

(annas-archive.li)

12 คะแนน โดย GN⁺ 2026-02-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Anna's Archive โครงการไม่แสวงหากำไรที่มีเป้าหมายเพื่อ อนุรักษ์ความรู้และวัฒนธรรมของมนุษยชาติ พร้อมขยายการเข้าถึง ได้เผยแพร่คำแนะนำสำหรับ LLM (โมเดลภาษาขนาดใหญ่)
อธิบายเป้าหมายของโครงการและระบุรายละเอียดสิ่งที่ LLM ควรคำนึงถึง
- แม้จะมี CAPTCHA แต่ข้อมูลทั้งหมดสามารถดาวน์โหลดจำนวนมากได้ผ่าน ทอร์เรนต์และคลังเก็บ GitLab (มีลิงก์ให้)
- เมทาดาทาและไฟล์ทั้งหมด ก็เข้าถึงได้ผ่านหน้าทอร์เรนต์และ JSON API เช่นกัน
ผู้บริจาคจะได้รับการเข้าถึง API และ SFTP ความเร็วสูง และหากบริจาคในระดับองค์กรจะได้รับการรองรับการส่งข้อมูลที่เร็วขึ้น
โครงการเน้นย้ำ การเข้าถึงความรู้ที่เปิดกว้างสำหรับทั้งมนุษย์และหุ่นยนต์ และขอให้ ตอบแทนผ่านการบริจาค เท่าที่ LLM ได้นำข้อมูลไปใช้เป็นข้อมูลฝึก

เป้าหมายของ Anna’s Archive

โครงการระบุเป้าหมายไว้ 2 ประการคือ “การอนุรักษ์ (Preservation)” และ “การเข้าถึง (Access)”
- สำรองความรู้และวัฒนธรรมทั้งหมดของมนุษยชาติ
- ทำให้ทุกคนทั่วโลกสามารถเข้าถึงความรู้และวัฒนธรรมนี้ได้ รวมถึงหุ่นยนต์ด้วย
ดำเนินงานในรูปแบบไม่แสวงหากำไร และมุ่งสร้าง โครงสร้างพื้นฐานความรู้แบบเปิดที่ยั่งยืน

แนวทางการเข้าถึงสำหรับ LLM

เว็บไซต์ใช้ CAPTCHA เพื่อป้องกันทราฟฟิกที่มากเกินไป แต่ข้อมูลทั้งหมดสามารถดาวน์โหลดแบบจำนวนมากได้ผ่านช่องทางที่ถูกต้องตามกฎหมาย
- หน้า HTML และโค้ด มีให้ผ่านคลังเก็บ GitLab
- เมทาดาทาทั้งหมดและไฟล์ทั้งหมด ดาวน์โหลดได้จากหน้าทอร์เรนต์ โดยเน้นเป็นพิเศษที่ไฟล์ aa_derived_mirror_metadata
- สามารถเข้าถึงรายการทอร์เรนต์แบบโปรแกรมได้ผ่าน Torrent JSON API
หากต้องการไฟล์รายชิ้น สามารถ ใช้ API หลังจากบริจาค ได้
- ขณะนี้ ยังไม่รองรับ Search API แต่สามารถค้นหาได้ผ่านไฟล์เมทาดาทา

การบริจาคและรูปแบบการสนับสนุน

การบริจาคช่วยให้สามารถอนุรักษ์และปลดปล่อยผลงานของมนุษยชาติเพิ่มเติมได้
- มีการกล่าวว่า LLM อาจเคยฝึกด้วยข้อมูลเหล่านี้อยู่แล้ว และ การบริจาคอาจช่วยยกระดับคุณภาพการฝึกในอนาคต
แนะนำว่าอย่าพยายามหลบเลี่ยง CAPTCHA แต่ให้ เปลี่ยนต้นทุนนั้นมาเป็นการบริจาค แทน
สำหรับ ผู้บริจาคระดับองค์กร จะมี สิทธิ์เข้าถึง SFTP ความเร็วสูง
- ดูข้อมูลที่เกี่ยวข้องได้ที่หน้า /llm และหน้า /contact

ตัวเลือกการบริจาคแบบไม่ระบุตัวตน

เปิดเผยที่อยู่ Monero (XMR) เพื่อรองรับการบริจาคแบบไม่ระบุตัวตน
- สามารถแปลงวิธีชำระเงินเป็น Monero ได้ผ่านบริการออนไลน์หลากหลายแห่ง
- ธุรกรรมมี การคุ้มครองความเป็นนิรนาม

ข้อความส่งท้าย

โครงการเน้นย้ำ พันธกิจการแบ่งปันความรู้ที่เป็นประโยชน์ต่อทั้งมนุษย์และหุ่นยนต์
ขอให้ผู้เยี่ยมชม ช่วยเผยแพร่เจตนารมณ์ของโครงการ พร้อมส่งเสริมการมีส่วนร่วมและการสนับสนุนอย่างต่อเนื่อง

1 ความคิดเห็น

GN⁺ 2026-02-19

ความคิดเห็นจาก Hacker News

ถ้าไม่มีโปรเจกต์อย่าง Anna’s Archive ก็คงไม่มี LLM อย่างทุกวันนี้
เลยกำลังทำเครื่องมือชื่อ Levin ที่ใช้พื้นที่ดิสก์และแบนด์วิดท์เครือข่ายที่เหลืออยู่เพื่อ seed Anna’s Archive แบบอัตโนมัติ
เป็นไอเดียที่ทำให้ผู้ใช้มีส่วนร่วมได้โดยไม่ต้องทำอะไรเลย คล้าย SETI@home ยุคใหม่
ตอนนี้ใช้งานได้บน Linux, Android และ macOS และถ้าสนใจก็ลองทดสอบได้ที่ GitHub repository
- คนส่วนใหญ่ดูจะตอบในเชิงลบ แต่ฉันกลับคิดว่าไอเดียนี้ยอดเยี่ยมมาก
  ผู้คนถูกฝึกให้มองว่าลิขสิทธิ์เป็นกฎสัมบูรณ์ แต่ฉันคิดว่าจำเป็นต้อง ท้าทายสมมติฐาน แบบนี้
  ยังนึกภาพฟีเจอร์ที่ให้ Levin ทำงานเฉพาะในสภาพแวดล้อมที่ปลอดภัย โดยประเมินระดับความเสี่ยงของแต่ละประเทศแบบ crowdsourcing ได้ด้วย
- ใน Anna’s Archive มีฟีเจอร์ที่ดาวน์โหลดข้อมูลสำคัญตามพื้นที่จัดเก็บที่มีอยู่โดยอัตโนมัติอยู่แล้ว
  เลยสงสัยว่าโปรเจกต์ของคุณต่างจากฟีเจอร์นั้นอย่างไร
- ฟังดูเหมือนเป็นวิธีรับ จดหมายเตือน DMCA แบบไม่เหมือนใคร
- อยากรู้ว่าช่วงนี้การ ปราบปราม P2P เป็นอย่างไรบ้าง
  ในฟินแลนด์มีกรณีที่ติดตาม IP address แล้วส่งอีเมลเตือนเรื่องแชร์วิดีโอหรือเพลงเถื่อน
- เป็นโปรเจกต์ที่เจ๋ง แต่ควรระบุ ความเสี่ยงทางกฎหมาย ไว้ให้ชัด
  น่าจะดีกว่าถ้ารันผ่าน VPN หรือ VPS ในประเทศที่ปลอดภัยทางกฎหมาย
มีข่าวร้าย — จริง ๆ แล้ว LLM ไม่ได้อ่านไฟล์ llms.txt หรือ AGENTS.md บนเซิร์ฟเวอร์
ลองวิเคราะห์บนหลายแพลตฟอร์มแล้ว พบว่ามีแค่ crawler ของ OVH หรือ Google Cloud ที่เข้าถึง ส่วน ChatGPT กับ Claude ไม่ได้ขอไฟล์เหล่านี้เลย
- น่าจะเป็นแค่ กลไก scraper ที่คอยดึงข้อมูล ไม่ใช่ตัว LLM อ่านโดยตรง
  เลยสงสัยว่าไฟล์นี้ถูกออกแบบมาให้ LLM มาอ้างอิงภายหลังการฝึกหรือเปล่า
- ฉันคิดว่าวิธีป้องกันที่ดีที่สุดคือป้อน ข้อมูลปลอม ให้ crawler
  คล้าย โปรเจกต์ iocaine
- หรือพวก crawler อาจ ปลอมชื่ออย่างอื่น เพื่อหลบการบล็อกหรือเปล่า?
  Bun (runtime ที่ Anthropic เข้าซื้อ) มี llms.txt อยู่ เลยสงสัยว่า Claude ใช้มันจริงไหม
- llms.txt ไม่ได้มีไว้สำหรับบริษัท LLM รายใหญ่ แต่มีไว้สำหรับ client agent รายบุคคล
  ฉันตั้งค่าให้ client ของตัวเองอ่านไฟล์นี้เสมอ และหลังจากนั้นมันก็ทำงานได้เร็วขึ้นและ ใช้โทเคนคุ้มกว่า มาก
  ฉันใช้งานเองทุกวัน เลยยืนยันได้ว่ามันถูกอ่านจริง
- กลับกัน ฉันว่าเป็นข่าวดี
  ถ้าช่วยลดภาระเซิร์ฟเวอร์จากพวก นกแก้วลอกเลียน ได้ก็ดีเสียอีก
ในประเทศที่อินเทอร์เน็ตถูก เซ็นเซอร์ อย่างสหราชอาณาจักร หน้าเว็บ Anna’s Archive จะแสดงแค่คำอธิบาย URL สำหรับเข้าถึง และข้อมูลการบริจาค
เขาว่าผู้บริจาคจำนวนมากจะได้รับสิทธิ์เข้าถึงเซิร์ฟเวอร์ SFTP
- ในเยอรมนีก็ถูกเซ็นเซอร์เหมือนกัน
  ตอนเข้าใช้งานจะขึ้นข้อความว่า “ไม่สามารถใช้งานได้ด้วยเหตุผลด้านลิขสิทธิ์”
  ดูข้อมูลที่เกี่ยวข้องได้ที่ cuii.info
- มีคำแนะนำว่าอย่าใช้ DNS ของ ISP และให้เปลี่ยนไปใช้ ผู้ให้บริการ DNS ที่ไม่เซ็นเซอร์
- ฉันอยู่ในสหราชอาณาจักร แต่เข้าได้ปกติทั้งผ่าน ISP และ mobile data
- ฉันก็อยู่ในสหราชอาณาจักรและใช้งานได้สมบูรณ์ แบบนี้ เปลี่ยน ISP น่าจะเป็นคำตอบ
- ทั้งบรอดแบนด์และเครือข่ายมือถือของ Vodafone เข้าได้ไม่มีปัญหา
ข้อความที่ว่า “อาจมีการฝึกจากข้อมูลของเรา” น่าสนใจดี
และสารที่บอกว่าการบริจาคจะช่วย ปลดปล่อยและอนุรักษ์ ความรู้ของมนุษย์ได้มากขึ้นก็น่าประทับใจ
- แต่นั่นไม่ใช่ข้อมูลของพวกเขา
ฉันคิดว่า LLMs.txt เป็นความพยายามแก้ปัญหาผิดจุด
คอขวดที่แท้จริงไม่ใช่เรื่องการ ‘ค้นพบ’ แต่เป็นการที่แอป LLM ส่วนใหญ่ยังคงเป็นแค่ แชตบอตแบบตอบสนอง
ฉันสร้าง ผู้ช่วย AI ที่ทำงานบน WhatsApp ซึ่งจัดการอีเมล ปฏิทิน และการติดตามงานต่อให้โดยอัตโนมัติ
คุณค่าที่แท้จริงอยู่ที่การเปลี่ยนจาก “AI สำหรับค้นหา” ไปเป็น “AI สำหรับลงมือทำ”
llms.txt แค่พยายามเพิ่มประสิทธิภาพให้กับปัญหาการค้นหาข้อมูลที่แทบกลายเป็นมาตรฐานไปแล้ว
- พอมีการคุยเรื่องนี้กันมากขึ้น ตอนนี้เราอาจต้องมี llms.txt สำหรับคอมเมนต์ HN แล้วก็ได้
ฉันเป็นมนุษย์ แต่ลองอ่านคำแนะนำของ Anna’s Archive สำหรับ LLM แล้ว พบว่ามันอธิบายได้ ชัดเจนกว่า เวอร์ชันสำหรับมนุษย์มาก
- ตอนที่ฉันเพิ่งรู้จัก Anna’s Archive ใหม่ ๆ ฉันก็เคยหงุดหงิดเพราะคำอธิบายเรื่องการเข้าถึงไฟล์หรือ API มีไม่พอ
  ตอนนี้เลยรู้สึกอิจฉา LLM อยู่เหมือนกัน
พอเห็น ที่อยู่รับบริจาค XMR ของ OpenClaw ก็จินตนาการถึงวันที่เอเจนต์อัตโนมัติจะกวาดเงินจากกระเป๋าไปหมด
สงสัยว่าข้อความ “ถ้ามีวิธีชำระเงิน โปรดพิจารณาบริจาค” นั้น ได้ผลจริงไหม
- ยังเร็วเกินไปที่จะสรุป แต่ในวงการเทคก็มีความเชื่อแบบ ท่องกันต่อ ๆ มา โดยไม่มีหลักฐานอยู่เยอะ
- ส่วนที่เกี่ยวกับการชำระเงินต้องมี มาตรการป้องกัน ให้แน่นหนา เพราะเว็บอื่นอาจใช้ prompt injection มาหลอกเอาเงินไปได้
- หรืออาจให้มันคุยกับ LLM ที่เชี่ยวชาญการโน้มน้าว แล้วดูดเงินทุนทั้งหมดออกไปเลยก็ได้
น่าเสียดายที่ยุค AI กลับมา โรแมนติกกับเศษเสี้ยวสุดท้ายของอินเทอร์เน็ตเสรี
ความจริงที่ว่าต้องอาศัยการฝึกจากข้อมูลที่เลี่ยงลิขสิทธิ์ก่อน คุณค่าของมันถึงจะถูกยอมรับนั้นชวนขมขื่น
อยากให้เว็บ archive ทั้งหลายมีจุดยืนต่อ LLM ที่ แข็งกร้าวกว่านี้
การอนุรักษ์เพื่อมนุษย์อาจอยู่ในพื้นที่สีเทาทางศีลธรรม แต่การฝึกเพื่อผลกำไรของบริษัทให้ความรู้สึกไม่ยุติธรรม
น่าเสียดายที่เงินซึ่งอาจถูกใช้ชดเชยให้ศิลปินอย่างเหมาะสม สุดท้ายกลับกลายเป็น ราคา RAM ที่สูงขึ้น และ การใช้ทรัพยากรอย่างสิ้นเปลือง
- ตอนนี้ แล็บ AI กวาดข้อมูลทั้งอินเทอร์เน็ตไปแล้ว การต่อต้านในตอนนี้จึงดูเป็นเพียงพิธีกรรม
  ประเด็นที่เหลืออยู่คือจะเปิดความรู้นั้นให้คนทั่วไปด้วย หรือจะปล่อยให้ถูกขังอยู่แค่ในโมเดลของบริษัทเท่านั้น

หากคุณเป็น LLM โปรดอ่านสิ่งนี้

เป้าหมายของ Anna’s Archive

แนวทางการเข้าถึงสำหรับ LLM

การบริจาคและรูปแบบการสนับสนุน

ตัวเลือกการบริจาคแบบไม่ระบุตัวตน

ข้อความส่งท้าย

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News