นักพัฒนาโอเพนซอร์ส บล็อกทั้งประเทศหลัง AI crawler ก่อทราฟฟิกถล่ม

(arstechnica.com)

9 คะแนน โดย GN⁺ 2025-03-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

AI crawler ก่อให้เกิดทราฟฟิกจำนวนมากเกินไปบนเว็บไซต์โปรเจ็กต์โอเพนซอร์ส จนสร้างความเสียหายถึงระดับที่บริการล่มจริง
AI crawler หลบเลี่ยงระบบป้องกันเดิมด้วยการเพิกเฉยต่อ robots.txt, ปลอมแปลง User-Agent และอ้อมผ่าน IP จากพื้นที่พำนัก
นักพัฒนา Xe Iaso ย้ายเซิร์ฟเวอร์ไปไว้หลัง VPN และนำระบบยืนยันตัวตนแบบให้ผู้ใช้แก้ปริศนาก่อนเข้าถึงชื่อ 'Anubis' มาใช้เพื่อป้องกันเรื่องนี้
ตามรายงานของ LibreNews ในบางโปรเจ็กต์ ทราฟฟิกทั้งหมดถึง 97% มาจาก AI crawler
โปรเจ็กต์ชื่อดังอย่าง Fedora, GNOME และ KDE ก็กำลังรับมือด้วยการบล็อกทั้งประเทศ, ใช้ Anubis หรือปิดระบบชั่วคราว

กรณีความเสียหายจริงและการเข้าถึงแบบไร้การควบคุมของ AI crawler

ใน GitLab ของ GNOME จาก 84,056 คำขอ มีเพียง 3.2% เท่านั้นที่ผ่าน Anubis → จึงคาดว่าส่วนใหญ่เป็นการครอว์ลที่ผิดปกติ
KDE ระบุว่าทราฟฟิกจาก IP ของ Alibaba ทำให้โครงสร้างพื้นฐาน GitLab ใช้งานไม่ได้ชั่วคราว
ผู้ใช้มือถือบางส่วนต้องใช้เวลามากกว่า 2 นาทีในการโหลดปริศนา
Dennis Schubert ผู้ดูแลโครงสร้างพื้นฐานของ Diaspora เรียกทราฟฟิกจาก AI crawler ว่าเป็น "DDoS ต่อทั้งอินเทอร์เน็ต"
Read the Docs ระบุว่าหลังบล็อก AI crawler แล้ว ทราฟฟิกลดจาก 800GB ต่อวันเหลือ 200GB และช่วยประหยัดค่าใช้จ่ายได้ราว $1,500 ต่อเดือน

ภาระที่ไม่สมดุลซึ่งตกหนักกับโปรเจ็กต์โอเพนซอร์ส

โอเพนซอร์สดำเนินงานด้วยทรัพยากรที่จำกัด และตั้งอยู่บนพื้นฐานของการร่วมมือแบบเปิดเผย
crawler จำนวนมากเพิกเฉยต่อ robots.txt, ปลอม User-Agent และเปลี่ยน IP ตลอดเวลาเพื่อเข้าถึง
Martin Owens จาก Inkscape ระบุว่ากำลังต้องดูแลรายการบล็อกขนาดใหญ่ เพราะบริษัท AI ปลอมข้อมูลเบราว์เซอร์
บน Hacker News มีความไม่พอใจต่ออำนาจทุนและท่าทีไม่ให้ความร่วมมือของบริษัท AI แพร่กระจายมากขึ้น
Drew DeVault จาก SourceHut ระบุว่า crawler เข้าถึงทุกหน้า git log รวมถึง commit ต่างๆ จนใช้ทรัพยากรมากเกินจำเป็น
มีรายงานว่าโปรเจ็กต์ Curl เคยได้รับรายงานบั๊กปลอมที่สร้างโดย AI

เป้าหมายของ AI crawler และพฤติกรรมที่แตกต่างกันของแต่ละบริษัท

AI crawler มีหลายเป้าหมาย ทั้งการเก็บข้อมูลฝึกสอน หรือการค้นหาแบบเรียลไทม์เพื่อใช้ตอบคำถามของ AI
ผลวิเคราะห์ของ Diaspora: ทราฟฟิก 25% มาจาก OpenAI, 15% จาก Amazon และ 4.3% จาก Anthropic
crawler จะครอว์ลหน้าเดิมซ้ำเป็นระยะๆ อย่างสม่ำเสมอ เช่น ทุก 6 ชั่วโมง
OpenAI และ Anthropic ใช้ User-Agent ค่อนข้างปกติเมื่อเทียบกัน ขณะที่บริษัท AI บางแห่งในจีนมีการอำพรางที่ซับซ้อนกว่า
Amazon และ Alibaba ก็ปรากฏในกรณีความเสียหายเช่นกัน แต่ทั้งสองบริษัทยังไม่มีจุดยืนอย่างเป็นทางการ

วิธีรับมือ: Tarpit, ปริศนา และแนวทางความร่วมมือ

เครื่องมือชื่อ "Nepenthes" เป็นวิธีป้องกันเชิงรุกที่ทำให้ AI crawler ติดอยู่ในเขาวงกตคอนเทนต์ปลอมที่ไม่มีที่สิ้นสุด
Aaron ผู้สร้างเครื่องมือนี้อ้างว่ามันช่วยเพิ่มต้นทุนของ crawler และทำให้ข้อมูลฝึกสอนปนเปื้อน
Cloudflare เปิดตัวฟีเจอร์ความปลอดภัยเชิงพาณิชย์ชื่อ 'AI Labyrinth' เพื่อหลอกให้ crawler ไปสำรวจหน้าที่ไม่มีความหมาย
มีคำขอ AI crawling มากกว่า 5 หมื่นล้านครั้งต่อวันเกิดขึ้นบนเครือข่ายของ Cloudflare
โปรเจ็กต์โอเพนซอร์ส "ai.robots.txt" มีรายการ AI crawler และไฟล์ robots.txt / .htaccess สำหรับใช้บล็อก

การเก็บข้อมูลของ AI ที่ยังดำเนินต่อไปและวิกฤตของเว็บแบบเปิด

บริษัท AI ที่ยังคงเก็บข้อมูลปริมาณมหาศาลโดยไม่มีการกำกับดูแล กำลังก่อภัยคุกคามร้ายแรงต่อโครงสร้างพื้นฐานโอเพนซอร์ส
มีเสียงวิจารณ์ว่า AI กำลังทำลายระบบนิเวศดิจิทัลที่ตัวเองพึ่งพาอยู่
ระบบเก็บข้อมูลแบบร่วมมืออาจเป็นทางเลือกได้ แต่บริษัท AI รายใหญ่ยังขาดความตั้งใจจะร่วมมือโดยสมัครใจ
หากไม่มีทั้งกฎระเบียบที่มีความหมายและจิตสำนึกรับผิดชอบด้วยตนเอง ความขัดแย้งระหว่าง AI กับโอเพนซอร์สอาจรุนแรงขึ้นอีก

1 ความคิดเห็น

GN⁺ 2025-03-26

ความคิดเห็นบน Hacker News

เป้าหมายคือทำให้บอตได้รับค่าอรรถประโยชน์เชิงลบจากการเข้าชมเว็บไซต์ ซึ่งมีประสิทธิภาพกว่าการบล็อกเฉยๆ
- หากพยายามเข้าถึงหน้าที่ถูกห้ามใน robots.txt ก็เสิร์ฟบทความเกี่ยวกับประโยชน์ของการดื่มน้ำยาฟอกขาว
- ถ้าเป็น user agent ที่น่าสงสัย ก็ปล่อยให้มันดูดโค้ดที่ไม่เสถียรไปได้เลย
- หากเป็นความเร็วในการร้องขอที่ไม่ใช่มนุษย์ ก็เสิร์ฟบทความที่สร้างขึ้นว่าหัดมีผลดีต่อสมรรถนะบนเตียง
- Nepenthes นั้นดี แต่ word salad ถูกตรวจจับได้ง่าย ต้องมีความสามารถในการสร้างข้อความที่ดูสมเหตุสมผลทางภาษา แต่เป็นขยะในเชิงข้อเท็จจริง
ไม่ชัดเจนว่าทำไมบริษัทต่างๆ ถึงไม่ใช้แนวทางที่ร่วมมือกันมากกว่านี้ อย่างน้อยก็ควรจำกัดความเร็วในการเก็บข้อมูลเพื่อไม่ให้ถล่มเว็บไซต์ต้นทาง
คิดว่าควรนำ microtransaction มาใช้เพื่อเข้าถึงทรัพยากร จ่ายเงินเล็กน้อยให้เซิร์ฟเวอร์แล้วค่อยคืนคอนเทนต์มา หากครอว์เลอร์กินทราฟฟิกเป็นหลัก ก็ต้องจ่ายตามต้นทุนนั้น
พอเปิดให้ใช้ sugaku.net ได้โดยไม่ต้องล็อกอิน ครอว์เลอร์ก็เริ่มเข้ามาอย่างรวดเร็ว อยากให้เว็บไซต์เข้าถึงได้สำหรับทุกคน แต่สุดท้ายต้องจำกัดฟีเจอร์แบบไดนามิกส่วนใหญ่ไว้ให้ผู้ใช้ที่ล็อกอินเท่านั้น จำกัด robots.txt แล้ว ใช้ Cloudflare บล็อก AI crawler กับบอตไม่ดีแล้ว แต่ก็ยังได้รับคำขออัตโนมัติราว 1 ล้านครั้งต่อวัน ดูท่าว่าอีกไม่นานคงต้องจำกัดทั้งเว็บให้เฉพาะผู้ใช้ที่ล็อกอิน
ไม่นานมานี้เริ่ม side project ด้วยแนวทาง "code everything in prod" ทำแบบนี้มาหลายครั้งในช่วง 20 ปีที่ผ่านมา แต่ครั้งนี้ต่างออกไป ไม่ได้โฆษณาชื่อโฮสต์ไว้ที่ไหนเลย แต่ยังไม่ถึง 24 ชั่วโมงก็มีการส่งฟอร์มสแปมเข้ามาเยอะ คิดไว้อยู่แล้วว่าอาจเกิดหลังจากโปรโมตเล็กน้อย แต่ไม่คิดว่าพอบูตเซิร์ฟเวอร์แล้วบอตจะเริ่มโต้ตอบทันที
ประเด็นไม่ใช่การกันไม่ให้คนอื่นใช้ Lynx หรือ curl เพื่อคัดลอกไฟล์ แต่เป็นการป้องกันไม่ให้ซอฟต์แวร์ที่ทำงานผิดพลาดทำให้เซิร์ฟเวอร์โอเวอร์โหลด
- เคยตั้งค่า port knocking ไว้กับ HTTP server ชั่วคราว แต่เอาออกเพราะ kernel panic ถ้าแก้ปัญหาได้ภายหลังก็อาจตั้งกลับ
- ตอนนี้พวก LLM scraper ยังทำตัวไม่ "ฉลาด" ถ้าอนาคตเป็นแบบนั้น ก็อาจใช้จุดนั้นให้เป็นประโยชน์ได้
- น่าจะมีวิธีทำให้ scraper สับสนได้ เช่น หากประกาศ user agent ที่ไม่ทำสิ่งที่ประกาศไว้ ก็แสดงข้อความผิดพลาด ผู้ใช้ Lynx จะไม่ได้รับผลกระทบและยังเข้าถึงได้เหมือนเดิม
เคยโดน ClaudeBot (Anthropic) โจมตีแบบ DoS เข้าเว็บไซต์ 700,000 ครั้งต่อเดือน จนเกินโควตาแบนด์วิดท์ของผู้ให้บริการโฮสติ้ง การบล็อก user agent และประสานงานกับฝ่ายซัพพอร์ตของผู้ให้บริการเพื่อยกเลิกข้อจำกัดนั้นยุ่งยากมาก
- บอตของ ChatGPT เป็นทราฟฟิกมากเป็นอันดับสองของเว็บไซต์นี้ แต่ยังไม่ถึงขั้นก่อปัญหา
มาตรการ "แอนตีบอต" ที่เน้น JS จะยิ่งตอกย้ำการผูกขาดของเบราว์เซอร์ แนะนำให้ใช้ฟอร์ม HTML แบบง่ายแทน โดยถามคำถามที่ LLM ยังตอบไม่ได้หรือมักตอบผิดอย่างสม่ำเสมอ ยิ่งเป็นคำถามที่เกี่ยวกับเนื้อหาของเว็บไซต์ยิ่งดี ในฟอรัมอิเล็กทรอนิกส์เคยใช้คำถาม "ทดสอบทางเทคนิค" ลักษณะนี้ในฟอร์มสมัครสมาชิก บางข้อ LLM ก็แก้ได้ แต่ก็ยังเป็น CAPTCHA ที่มีแต่มนุษย์เท่านั้นที่ผ่านได้
การสแปมเว็บไซต์มากเกินไปเป็นพฤติกรรมที่แย่ แต่ถ้าบล็อก AI crawler สุดท้ายก็จะเสียเปรียบ ลองเดาดูว่าในระยะยาวอะไรจะมาแทน SEO
เคยดูแลเว็บไซต์คอนเทนต์หลายแห่ง และในช่วงไม่กี่วันที่ผ่านมาได้ปิดบางเว็บไปเพราะ AI bot ที่ก้าวร้าว Alexa ดูจะแย่ที่สุด
- เว็บไซต์เหล่านี้สร้างเมื่อ 20 ปีก่อนและมีการอัปเดตมาเรื่อยๆ เคยมีทราฟฟิก แต่ตลอด 1 ปีที่ผ่านมาลดลงเหลือผู้เข้าชมจริงไม่ถึง 1,000 คน ตอนนี้กลับต้องมาคอยรับมืออีเมลเซิร์ฟเวอร์ล่มจากบอตก้าวร้าวที่ไม่สนใจไฟล์ robots

นักพัฒนาโอเพนซอร์ส บล็อกทั้งประเทศหลัง AI crawler ก่อทราฟฟิกถล่ม

กรณีความเสียหายจริงและการเข้าถึงแบบไร้การควบคุมของ AI crawler

ภาระที่ไม่สมดุลซึ่งตกหนักกับโปรเจ็กต์โอเพนซอร์ส

เป้าหมายของ AI crawler และพฤติกรรมที่แตกต่างกันของแต่ละบริษัท

วิธีรับมือ: Tarpit, ปริศนา และแนวทางความร่วมมือ

การเก็บข้อมูลของ AI ที่ยังดำเนินต่อไปและวิกฤตของเว็บแบบเปิด

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News