9 คะแนน โดย GN⁺ 2025-03-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • AI crawler ก่อให้เกิดทราฟฟิกจำนวนมากเกินไปบนเว็บไซต์โปรเจ็กต์โอเพนซอร์ส จนสร้างความเสียหายถึงระดับที่บริการล่มจริง
  • AI crawler หลบเลี่ยงระบบป้องกันเดิมด้วยการเพิกเฉยต่อ robots.txt, ปลอมแปลง User-Agent และอ้อมผ่าน IP จากพื้นที่พำนัก
  • นักพัฒนา Xe Iaso ย้ายเซิร์ฟเวอร์ไปไว้หลัง VPN และนำระบบยืนยันตัวตนแบบให้ผู้ใช้แก้ปริศนาก่อนเข้าถึงชื่อ 'Anubis' มาใช้เพื่อป้องกันเรื่องนี้
  • ตามรายงานของ LibreNews ในบางโปรเจ็กต์ ทราฟฟิกทั้งหมดถึง 97% มาจาก AI crawler
  • โปรเจ็กต์ชื่อดังอย่าง Fedora, GNOME และ KDE ก็กำลังรับมือด้วยการบล็อกทั้งประเทศ, ใช้ Anubis หรือปิดระบบชั่วคราว

กรณีความเสียหายจริงและการเข้าถึงแบบไร้การควบคุมของ AI crawler

  • ใน GitLab ของ GNOME จาก 84,056 คำขอ มีเพียง 3.2% เท่านั้นที่ผ่าน Anubis → จึงคาดว่าส่วนใหญ่เป็นการครอว์ลที่ผิดปกติ
  • KDE ระบุว่าทราฟฟิกจาก IP ของ Alibaba ทำให้โครงสร้างพื้นฐาน GitLab ใช้งานไม่ได้ชั่วคราว
  • ผู้ใช้มือถือบางส่วนต้องใช้เวลามากกว่า 2 นาทีในการโหลดปริศนา
  • Dennis Schubert ผู้ดูแลโครงสร้างพื้นฐานของ Diaspora เรียกทราฟฟิกจาก AI crawler ว่าเป็น "DDoS ต่อทั้งอินเทอร์เน็ต"
  • Read the Docs ระบุว่าหลังบล็อก AI crawler แล้ว ทราฟฟิกลดจาก 800GB ต่อวันเหลือ 200GB และช่วยประหยัดค่าใช้จ่ายได้ราว $1,500 ต่อเดือน

ภาระที่ไม่สมดุลซึ่งตกหนักกับโปรเจ็กต์โอเพนซอร์ส

  • โอเพนซอร์สดำเนินงานด้วยทรัพยากรที่จำกัด และตั้งอยู่บนพื้นฐานของการร่วมมือแบบเปิดเผย
  • crawler จำนวนมากเพิกเฉยต่อ robots.txt, ปลอม User-Agent และเปลี่ยน IP ตลอดเวลาเพื่อเข้าถึง
  • Martin Owens จาก Inkscape ระบุว่ากำลังต้องดูแลรายการบล็อกขนาดใหญ่ เพราะบริษัท AI ปลอมข้อมูลเบราว์เซอร์
  • บน Hacker News มีความไม่พอใจต่ออำนาจทุนและท่าทีไม่ให้ความร่วมมือของบริษัท AI แพร่กระจายมากขึ้น
  • Drew DeVault จาก SourceHut ระบุว่า crawler เข้าถึงทุกหน้า git log รวมถึง commit ต่างๆ จนใช้ทรัพยากรมากเกินจำเป็น
  • มีรายงานว่าโปรเจ็กต์ Curl เคยได้รับรายงานบั๊กปลอมที่สร้างโดย AI

เป้าหมายของ AI crawler และพฤติกรรมที่แตกต่างกันของแต่ละบริษัท

  • AI crawler มีหลายเป้าหมาย ทั้งการเก็บข้อมูลฝึกสอน หรือการค้นหาแบบเรียลไทม์เพื่อใช้ตอบคำถามของ AI
  • ผลวิเคราะห์ของ Diaspora: ทราฟฟิก 25% มาจาก OpenAI, 15% จาก Amazon และ 4.3% จาก Anthropic
  • crawler จะครอว์ลหน้าเดิมซ้ำเป็นระยะๆ อย่างสม่ำเสมอ เช่น ทุก 6 ชั่วโมง
  • OpenAI และ Anthropic ใช้ User-Agent ค่อนข้างปกติเมื่อเทียบกัน ขณะที่บริษัท AI บางแห่งในจีนมีการอำพรางที่ซับซ้อนกว่า
  • Amazon และ Alibaba ก็ปรากฏในกรณีความเสียหายเช่นกัน แต่ทั้งสองบริษัทยังไม่มีจุดยืนอย่างเป็นทางการ

วิธีรับมือ: Tarpit, ปริศนา และแนวทางความร่วมมือ

  • เครื่องมือชื่อ "Nepenthes" เป็นวิธีป้องกันเชิงรุกที่ทำให้ AI crawler ติดอยู่ในเขาวงกตคอนเทนต์ปลอมที่ไม่มีที่สิ้นสุด
  • Aaron ผู้สร้างเครื่องมือนี้อ้างว่ามันช่วยเพิ่มต้นทุนของ crawler และทำให้ข้อมูลฝึกสอนปนเปื้อน
  • Cloudflare เปิดตัวฟีเจอร์ความปลอดภัยเชิงพาณิชย์ชื่อ 'AI Labyrinth' เพื่อหลอกให้ crawler ไปสำรวจหน้าที่ไม่มีความหมาย
  • มีคำขอ AI crawling มากกว่า 5 หมื่นล้านครั้งต่อวันเกิดขึ้นบนเครือข่ายของ Cloudflare
  • โปรเจ็กต์โอเพนซอร์ส "ai.robots.txt" มีรายการ AI crawler และไฟล์ robots.txt / .htaccess สำหรับใช้บล็อก

การเก็บข้อมูลของ AI ที่ยังดำเนินต่อไปและวิกฤตของเว็บแบบเปิด

  • บริษัท AI ที่ยังคงเก็บข้อมูลปริมาณมหาศาลโดยไม่มีการกำกับดูแล กำลังก่อภัยคุกคามร้ายแรงต่อโครงสร้างพื้นฐานโอเพนซอร์ส
  • มีเสียงวิจารณ์ว่า AI กำลังทำลายระบบนิเวศดิจิทัลที่ตัวเองพึ่งพาอยู่
  • ระบบเก็บข้อมูลแบบร่วมมืออาจเป็นทางเลือกได้ แต่บริษัท AI รายใหญ่ยังขาดความตั้งใจจะร่วมมือโดยสมัครใจ
  • หากไม่มีทั้งกฎระเบียบที่มีความหมายและจิตสำนึกรับผิดชอบด้วยตนเอง ความขัดแย้งระหว่าง AI กับโอเพนซอร์สอาจรุนแรงขึ้นอีก

1 ความคิดเห็น

 
GN⁺ 2025-03-26
ความคิดเห็นบน Hacker News
  • เป้าหมายคือทำให้บอตได้รับค่าอรรถประโยชน์เชิงลบจากการเข้าชมเว็บไซต์ ซึ่งมีประสิทธิภาพกว่าการบล็อกเฉยๆ

    • หากพยายามเข้าถึงหน้าที่ถูกห้ามใน robots.txt ก็เสิร์ฟบทความเกี่ยวกับประโยชน์ของการดื่มน้ำยาฟอกขาว
    • ถ้าเป็น user agent ที่น่าสงสัย ก็ปล่อยให้มันดูดโค้ดที่ไม่เสถียรไปได้เลย
    • หากเป็นความเร็วในการร้องขอที่ไม่ใช่มนุษย์ ก็เสิร์ฟบทความที่สร้างขึ้นว่าหัดมีผลดีต่อสมรรถนะบนเตียง
    • Nepenthes นั้นดี แต่ word salad ถูกตรวจจับได้ง่าย ต้องมีความสามารถในการสร้างข้อความที่ดูสมเหตุสมผลทางภาษา แต่เป็นขยะในเชิงข้อเท็จจริง
  • ไม่ชัดเจนว่าทำไมบริษัทต่างๆ ถึงไม่ใช้แนวทางที่ร่วมมือกันมากกว่านี้ อย่างน้อยก็ควรจำกัดความเร็วในการเก็บข้อมูลเพื่อไม่ให้ถล่มเว็บไซต์ต้นทาง

  • คิดว่าควรนำ microtransaction มาใช้เพื่อเข้าถึงทรัพยากร จ่ายเงินเล็กน้อยให้เซิร์ฟเวอร์แล้วค่อยคืนคอนเทนต์มา หากครอว์เลอร์กินทราฟฟิกเป็นหลัก ก็ต้องจ่ายตามต้นทุนนั้น

  • พอเปิดให้ใช้ sugaku.net ได้โดยไม่ต้องล็อกอิน ครอว์เลอร์ก็เริ่มเข้ามาอย่างรวดเร็ว อยากให้เว็บไซต์เข้าถึงได้สำหรับทุกคน แต่สุดท้ายต้องจำกัดฟีเจอร์แบบไดนามิกส่วนใหญ่ไว้ให้ผู้ใช้ที่ล็อกอินเท่านั้น จำกัด robots.txt แล้ว ใช้ Cloudflare บล็อก AI crawler กับบอตไม่ดีแล้ว แต่ก็ยังได้รับคำขออัตโนมัติราว 1 ล้านครั้งต่อวัน ดูท่าว่าอีกไม่นานคงต้องจำกัดทั้งเว็บให้เฉพาะผู้ใช้ที่ล็อกอิน

  • ไม่นานมานี้เริ่ม side project ด้วยแนวทาง "code everything in prod" ทำแบบนี้มาหลายครั้งในช่วง 20 ปีที่ผ่านมา แต่ครั้งนี้ต่างออกไป ไม่ได้โฆษณาชื่อโฮสต์ไว้ที่ไหนเลย แต่ยังไม่ถึง 24 ชั่วโมงก็มีการส่งฟอร์มสแปมเข้ามาเยอะ คิดไว้อยู่แล้วว่าอาจเกิดหลังจากโปรโมตเล็กน้อย แต่ไม่คิดว่าพอบูตเซิร์ฟเวอร์แล้วบอตจะเริ่มโต้ตอบทันที

  • ประเด็นไม่ใช่การกันไม่ให้คนอื่นใช้ Lynx หรือ curl เพื่อคัดลอกไฟล์ แต่เป็นการป้องกันไม่ให้ซอฟต์แวร์ที่ทำงานผิดพลาดทำให้เซิร์ฟเวอร์โอเวอร์โหลด

    • เคยตั้งค่า port knocking ไว้กับ HTTP server ชั่วคราว แต่เอาออกเพราะ kernel panic ถ้าแก้ปัญหาได้ภายหลังก็อาจตั้งกลับ
    • ตอนนี้พวก LLM scraper ยังทำตัวไม่ "ฉลาด" ถ้าอนาคตเป็นแบบนั้น ก็อาจใช้จุดนั้นให้เป็นประโยชน์ได้
    • น่าจะมีวิธีทำให้ scraper สับสนได้ เช่น หากประกาศ user agent ที่ไม่ทำสิ่งที่ประกาศไว้ ก็แสดงข้อความผิดพลาด ผู้ใช้ Lynx จะไม่ได้รับผลกระทบและยังเข้าถึงได้เหมือนเดิม
  • เคยโดน ClaudeBot (Anthropic) โจมตีแบบ DoS เข้าเว็บไซต์ 700,000 ครั้งต่อเดือน จนเกินโควตาแบนด์วิดท์ของผู้ให้บริการโฮสติ้ง การบล็อก user agent และประสานงานกับฝ่ายซัพพอร์ตของผู้ให้บริการเพื่อยกเลิกข้อจำกัดนั้นยุ่งยากมาก

    • บอตของ ChatGPT เป็นทราฟฟิกมากเป็นอันดับสองของเว็บไซต์นี้ แต่ยังไม่ถึงขั้นก่อปัญหา
  • มาตรการ "แอนตีบอต" ที่เน้น JS จะยิ่งตอกย้ำการผูกขาดของเบราว์เซอร์ แนะนำให้ใช้ฟอร์ม HTML แบบง่ายแทน โดยถามคำถามที่ LLM ยังตอบไม่ได้หรือมักตอบผิดอย่างสม่ำเสมอ ยิ่งเป็นคำถามที่เกี่ยวกับเนื้อหาของเว็บไซต์ยิ่งดี ในฟอรัมอิเล็กทรอนิกส์เคยใช้คำถาม "ทดสอบทางเทคนิค" ลักษณะนี้ในฟอร์มสมัครสมาชิก บางข้อ LLM ก็แก้ได้ แต่ก็ยังเป็น CAPTCHA ที่มีแต่มนุษย์เท่านั้นที่ผ่านได้

  • การสแปมเว็บไซต์มากเกินไปเป็นพฤติกรรมที่แย่ แต่ถ้าบล็อก AI crawler สุดท้ายก็จะเสียเปรียบ ลองเดาดูว่าในระยะยาวอะไรจะมาแทน SEO

  • เคยดูแลเว็บไซต์คอนเทนต์หลายแห่ง และในช่วงไม่กี่วันที่ผ่านมาได้ปิดบางเว็บไปเพราะ AI bot ที่ก้าวร้าว Alexa ดูจะแย่ที่สุด

    • เว็บไซต์เหล่านี้สร้างเมื่อ 20 ปีก่อนและมีการอัปเดตมาเรื่อยๆ เคยมีทราฟฟิก แต่ตลอด 1 ปีที่ผ่านมาลดลงเหลือผู้เข้าชมจริงไม่ถึง 1,000 คน ตอนนี้กลับต้องมาคอยรับมืออีเมลเซิร์ฟเวอร์ล่มจากบอตก้าวร้าวที่ไม่สนใจไฟล์ robots