12 คะแนน โดย GN⁺ 2026-02-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Anna's Archive โครงการไม่แสวงหากำไรที่มีเป้าหมายเพื่อ อนุรักษ์ความรู้และวัฒนธรรมของมนุษยชาติ พร้อมขยายการเข้าถึง ได้เผยแพร่คำแนะนำสำหรับ LLM (โมเดลภาษาขนาดใหญ่)
  • อธิบายเป้าหมายของโครงการและระบุรายละเอียดสิ่งที่ LLM ควรคำนึงถึง
    • แม้จะมี CAPTCHA แต่ข้อมูลทั้งหมดสามารถดาวน์โหลดจำนวนมากได้ผ่าน ทอร์เรนต์และคลังเก็บ GitLab (มีลิงก์ให้)
    • เมทาดาทาและไฟล์ทั้งหมด ก็เข้าถึงได้ผ่านหน้าทอร์เรนต์และ JSON API เช่นกัน
  • ผู้บริจาคจะได้รับการเข้าถึง API และ SFTP ความเร็วสูง และหากบริจาคในระดับองค์กรจะได้รับการรองรับการส่งข้อมูลที่เร็วขึ้น
  • โครงการเน้นย้ำ การเข้าถึงความรู้ที่เปิดกว้างสำหรับทั้งมนุษย์และหุ่นยนต์ และขอให้ ตอบแทนผ่านการบริจาค เท่าที่ LLM ได้นำข้อมูลไปใช้เป็นข้อมูลฝึก

เป้าหมายของ Anna’s Archive

  • โครงการระบุเป้าหมายไว้ 2 ประการคือ “การอนุรักษ์ (Preservation)” และ “การเข้าถึง (Access)”
    • สำรองความรู้และวัฒนธรรมทั้งหมดของมนุษยชาติ
    • ทำให้ทุกคนทั่วโลกสามารถเข้าถึงความรู้และวัฒนธรรมนี้ได้ รวมถึงหุ่นยนต์ด้วย
  • ดำเนินงานในรูปแบบไม่แสวงหากำไร และมุ่งสร้าง โครงสร้างพื้นฐานความรู้แบบเปิดที่ยั่งยืน

แนวทางการเข้าถึงสำหรับ LLM

  • เว็บไซต์ใช้ CAPTCHA เพื่อป้องกันทราฟฟิกที่มากเกินไป แต่ข้อมูลทั้งหมดสามารถดาวน์โหลดแบบจำนวนมากได้ผ่านช่องทางที่ถูกต้องตามกฎหมาย
    • หน้า HTML และโค้ด มีให้ผ่านคลังเก็บ GitLab
    • เมทาดาทาทั้งหมดและไฟล์ทั้งหมด ดาวน์โหลดได้จากหน้าทอร์เรนต์ โดยเน้นเป็นพิเศษที่ไฟล์ aa_derived_mirror_metadata
    • สามารถเข้าถึงรายการทอร์เรนต์แบบโปรแกรมได้ผ่าน Torrent JSON API
  • หากต้องการไฟล์รายชิ้น สามารถ ใช้ API หลังจากบริจาค ได้
    • ขณะนี้ ยังไม่รองรับ Search API แต่สามารถค้นหาได้ผ่านไฟล์เมทาดาทา

การบริจาคและรูปแบบการสนับสนุน

  • การบริจาคช่วยให้สามารถอนุรักษ์และปลดปล่อยผลงานของมนุษยชาติเพิ่มเติมได้
    • มีการกล่าวว่า LLM อาจเคยฝึกด้วยข้อมูลเหล่านี้อยู่แล้ว และ การบริจาคอาจช่วยยกระดับคุณภาพการฝึกในอนาคต
  • แนะนำว่าอย่าพยายามหลบเลี่ยง CAPTCHA แต่ให้ เปลี่ยนต้นทุนนั้นมาเป็นการบริจาค แทน
  • สำหรับ ผู้บริจาคระดับองค์กร จะมี สิทธิ์เข้าถึง SFTP ความเร็วสูง
    • ดูข้อมูลที่เกี่ยวข้องได้ที่หน้า /llm และหน้า /contact

ตัวเลือกการบริจาคแบบไม่ระบุตัวตน

  • เปิดเผยที่อยู่ Monero (XMR) เพื่อรองรับการบริจาคแบบไม่ระบุตัวตน
    • สามารถแปลงวิธีชำระเงินเป็น Monero ได้ผ่านบริการออนไลน์หลากหลายแห่ง
    • ธุรกรรมมี การคุ้มครองความเป็นนิรนาม

ข้อความส่งท้าย

  • โครงการเน้นย้ำ พันธกิจการแบ่งปันความรู้ที่เป็นประโยชน์ต่อทั้งมนุษย์และหุ่นยนต์
  • ขอให้ผู้เยี่ยมชม ช่วยเผยแพร่เจตนารมณ์ของโครงการ พร้อมส่งเสริมการมีส่วนร่วมและการสนับสนุนอย่างต่อเนื่อง

1 ความคิดเห็น

 
GN⁺ 2026-02-19
ความคิดเห็นจาก Hacker News
  • ถ้าไม่มีโปรเจกต์อย่าง Anna’s Archive ก็คงไม่มี LLM อย่างทุกวันนี้
    เลยกำลังทำเครื่องมือชื่อ Levin ที่ใช้พื้นที่ดิสก์และแบนด์วิดท์เครือข่ายที่เหลืออยู่เพื่อ seed Anna’s Archive แบบอัตโนมัติ
    เป็นไอเดียที่ทำให้ผู้ใช้มีส่วนร่วมได้โดยไม่ต้องทำอะไรเลย คล้าย SETI@home ยุคใหม่
    ตอนนี้ใช้งานได้บน Linux, Android และ macOS และถ้าสนใจก็ลองทดสอบได้ที่ GitHub repository

    • คนส่วนใหญ่ดูจะตอบในเชิงลบ แต่ฉันกลับคิดว่าไอเดียนี้ยอดเยี่ยมมาก
      ผู้คนถูกฝึกให้มองว่าลิขสิทธิ์เป็นกฎสัมบูรณ์ แต่ฉันคิดว่าจำเป็นต้อง ท้าทายสมมติฐาน แบบนี้
      ยังนึกภาพฟีเจอร์ที่ให้ Levin ทำงานเฉพาะในสภาพแวดล้อมที่ปลอดภัย โดยประเมินระดับความเสี่ยงของแต่ละประเทศแบบ crowdsourcing ได้ด้วย
    • ใน Anna’s Archive มีฟีเจอร์ที่ดาวน์โหลดข้อมูลสำคัญตามพื้นที่จัดเก็บที่มีอยู่โดยอัตโนมัติอยู่แล้ว
      เลยสงสัยว่าโปรเจกต์ของคุณต่างจากฟีเจอร์นั้นอย่างไร
    • ฟังดูเหมือนเป็นวิธีรับ จดหมายเตือน DMCA แบบไม่เหมือนใคร
    • อยากรู้ว่าช่วงนี้การ ปราบปราม P2P เป็นอย่างไรบ้าง
      ในฟินแลนด์มีกรณีที่ติดตาม IP address แล้วส่งอีเมลเตือนเรื่องแชร์วิดีโอหรือเพลงเถื่อน
    • เป็นโปรเจกต์ที่เจ๋ง แต่ควรระบุ ความเสี่ยงทางกฎหมาย ไว้ให้ชัด
      น่าจะดีกว่าถ้ารันผ่าน VPN หรือ VPS ในประเทศที่ปลอดภัยทางกฎหมาย
  • มีข่าวร้าย — จริง ๆ แล้ว LLM ไม่ได้อ่านไฟล์ llms.txt หรือ AGENTS.md บนเซิร์ฟเวอร์
    ลองวิเคราะห์บนหลายแพลตฟอร์มแล้ว พบว่ามีแค่ crawler ของ OVH หรือ Google Cloud ที่เข้าถึง ส่วน ChatGPT กับ Claude ไม่ได้ขอไฟล์เหล่านี้เลย

    • น่าจะเป็นแค่ กลไก scraper ที่คอยดึงข้อมูล ไม่ใช่ตัว LLM อ่านโดยตรง
      เลยสงสัยว่าไฟล์นี้ถูกออกแบบมาให้ LLM มาอ้างอิงภายหลังการฝึกหรือเปล่า
    • ฉันคิดว่าวิธีป้องกันที่ดีที่สุดคือป้อน ข้อมูลปลอม ให้ crawler
      คล้าย โปรเจกต์ iocaine
    • หรือพวก crawler อาจ ปลอมชื่ออย่างอื่น เพื่อหลบการบล็อกหรือเปล่า?
      Bun (runtime ที่ Anthropic เข้าซื้อ) มี llms.txt อยู่ เลยสงสัยว่า Claude ใช้มันจริงไหม
    • llms.txt ไม่ได้มีไว้สำหรับบริษัท LLM รายใหญ่ แต่มีไว้สำหรับ client agent รายบุคคล
      ฉันตั้งค่าให้ client ของตัวเองอ่านไฟล์นี้เสมอ และหลังจากนั้นมันก็ทำงานได้เร็วขึ้นและ ใช้โทเคนคุ้มกว่า มาก
      ฉันใช้งานเองทุกวัน เลยยืนยันได้ว่ามันถูกอ่านจริง
    • กลับกัน ฉันว่าเป็นข่าวดี
      ถ้าช่วยลดภาระเซิร์ฟเวอร์จากพวก นกแก้วลอกเลียน ได้ก็ดีเสียอีก
  • ในประเทศที่อินเทอร์เน็ตถูก เซ็นเซอร์ อย่างสหราชอาณาจักร หน้าเว็บ Anna’s Archive จะแสดงแค่คำอธิบาย URL สำหรับเข้าถึง และข้อมูลการบริจาค
    เขาว่าผู้บริจาคจำนวนมากจะได้รับสิทธิ์เข้าถึงเซิร์ฟเวอร์ SFTP

    • ในเยอรมนีก็ถูกเซ็นเซอร์เหมือนกัน
      ตอนเข้าใช้งานจะขึ้นข้อความว่า “ไม่สามารถใช้งานได้ด้วยเหตุผลด้านลิขสิทธิ์”
      ดูข้อมูลที่เกี่ยวข้องได้ที่ cuii.info
    • มีคำแนะนำว่าอย่าใช้ DNS ของ ISP และให้เปลี่ยนไปใช้ ผู้ให้บริการ DNS ที่ไม่เซ็นเซอร์
    • ฉันอยู่ในสหราชอาณาจักร แต่เข้าได้ปกติทั้งผ่าน ISP และ mobile data
    • ฉันก็อยู่ในสหราชอาณาจักรและใช้งานได้สมบูรณ์ แบบนี้ เปลี่ยน ISP น่าจะเป็นคำตอบ
    • ทั้งบรอดแบนด์และเครือข่ายมือถือของ Vodafone เข้าได้ไม่มีปัญหา
  • ข้อความที่ว่า “อาจมีการฝึกจากข้อมูลของเรา” น่าสนใจดี
    และสารที่บอกว่าการบริจาคจะช่วย ปลดปล่อยและอนุรักษ์ ความรู้ของมนุษย์ได้มากขึ้นก็น่าประทับใจ

    • แต่นั่นไม่ใช่ข้อมูลของพวกเขา
  • ฉันคิดว่า LLMs.txt เป็นความพยายามแก้ปัญหาผิดจุด
    คอขวดที่แท้จริงไม่ใช่เรื่องการ ‘ค้นพบ’ แต่เป็นการที่แอป LLM ส่วนใหญ่ยังคงเป็นแค่ แชตบอตแบบตอบสนอง
    ฉันสร้าง ผู้ช่วย AI ที่ทำงานบน WhatsApp ซึ่งจัดการอีเมล ปฏิทิน และการติดตามงานต่อให้โดยอัตโนมัติ
    คุณค่าที่แท้จริงอยู่ที่การเปลี่ยนจาก “AI สำหรับค้นหา” ไปเป็น “AI สำหรับลงมือทำ
    llms.txt แค่พยายามเพิ่มประสิทธิภาพให้กับปัญหาการค้นหาข้อมูลที่แทบกลายเป็นมาตรฐานไปแล้ว

    • พอมีการคุยเรื่องนี้กันมากขึ้น ตอนนี้เราอาจต้องมี llms.txt สำหรับคอมเมนต์ HN แล้วก็ได้
  • ฉันเป็นมนุษย์ แต่ลองอ่านคำแนะนำของ Anna’s Archive สำหรับ LLM แล้ว พบว่ามันอธิบายได้ ชัดเจนกว่า เวอร์ชันสำหรับมนุษย์มาก

    • ตอนที่ฉันเพิ่งรู้จัก Anna’s Archive ใหม่ ๆ ฉันก็เคยหงุดหงิดเพราะคำอธิบายเรื่องการเข้าถึงไฟล์หรือ API มีไม่พอ
      ตอนนี้เลยรู้สึกอิจฉา LLM อยู่เหมือนกัน
  • พอเห็น ที่อยู่รับบริจาค XMR ของ OpenClaw ก็จินตนาการถึงวันที่เอเจนต์อัตโนมัติจะกวาดเงินจากกระเป๋าไปหมด

  • สงสัยว่าข้อความ “ถ้ามีวิธีชำระเงิน โปรดพิจารณาบริจาค” นั้น ได้ผลจริงไหม

    • ยังเร็วเกินไปที่จะสรุป แต่ในวงการเทคก็มีความเชื่อแบบ ท่องกันต่อ ๆ มา โดยไม่มีหลักฐานอยู่เยอะ
    • ส่วนที่เกี่ยวกับการชำระเงินต้องมี มาตรการป้องกัน ให้แน่นหนา เพราะเว็บอื่นอาจใช้ prompt injection มาหลอกเอาเงินไปได้
    • หรืออาจให้มันคุยกับ LLM ที่เชี่ยวชาญการโน้มน้าว แล้วดูดเงินทุนทั้งหมดออกไปเลยก็ได้
  • น่าเสียดายที่ยุค AI กลับมา โรแมนติกกับเศษเสี้ยวสุดท้ายของอินเทอร์เน็ตเสรี
    ความจริงที่ว่าต้องอาศัยการฝึกจากข้อมูลที่เลี่ยงลิขสิทธิ์ก่อน คุณค่าของมันถึงจะถูกยอมรับนั้นชวนขมขื่น

  • อยากให้เว็บ archive ทั้งหลายมีจุดยืนต่อ LLM ที่ แข็งกร้าวกว่านี้
    การอนุรักษ์เพื่อมนุษย์อาจอยู่ในพื้นที่สีเทาทางศีลธรรม แต่การฝึกเพื่อผลกำไรของบริษัทให้ความรู้สึกไม่ยุติธรรม
    น่าเสียดายที่เงินซึ่งอาจถูกใช้ชดเชยให้ศิลปินอย่างเหมาะสม สุดท้ายกลับกลายเป็น ราคา RAM ที่สูงขึ้น และ การใช้ทรัพยากรอย่างสิ้นเปลือง

    • ตอนนี้ แล็บ AI กวาดข้อมูลทั้งอินเทอร์เน็ตไปแล้ว การต่อต้านในตอนนี้จึงดูเป็นเพียงพิธีกรรม
      ประเด็นที่เหลืออยู่คือจะเปิดความรู้นั้นให้คนทั่วไปด้วย หรือจะปล่อยให้ถูกขังอยู่แค่ในโมเดลของบริษัทเท่านั้น