- ผลการวิเคราะห์ปัญหาโหลดพุ่งและความหน่วงในเว็บอินฟราสตรักเจอร์ของโครงการ diaspora เมื่อไม่นานมานี้ (เช่น Discourse, Wiki, เว็บไซต์โครงการ ฯลฯ) พบว่า “ทราฟฟิกส่วนใหญ่เกิดจากบอตสำหรับคลานข้อมูลของ LLM”
- ในช่วง 60 วันที่ผ่านมา มีคำขอเข้ามา 11.3 ล้านครั้ง (เฉลี่ย 2.19 req/s) โดยในจำนวนนั้น มากกว่า 70% มาจากบอตคลานข้อมูลที่เกี่ยวข้องกับ LLM
- GPTBot/1.2: 24.6% (2.78 ล้านคำขอ)
- Amazonbot/0.1: 14.9% (1.69 ล้านคำขอ)
- ClaudeBot/1.0: 4.3% (490,000 คำขอ)
- meta-externalagent/1.1: 2.2% (220,000 คำขอ)
- รูปแบบการคลานข้อมูลที่ผิดปกติ
- คลานซ้ำ: คลานหน้าเดิมซ้ำทุก 6 ชั่วโมง
- เพิกเฉยต่อ
robots.txt: ไม่ปฏิบัติตามกฎจำกัดการคลานเลย
- คลานอย่างไม่มีประสิทธิภาพ: คลานข้อมูลที่แทบไม่มีความหมายจำนวนมาก (เช่น ประวัติการแก้ไขทั้งหมดของ Wiki)
- โหลดพุ่ง: ในบางช่วงสร้างคำขอเกิน 10req/s ทำให้ฐานข้อมูลและเซิร์ฟเวอร์ MediaWiki รับภาระเกิน
- ป้องกันก็แทบทำไม่ได้
- เปลี่ยน IP: เปลี่ยน IP อย่างต่อเนื่องเพื่อหลบเลี่ยง rate limit
- เปลี่ยนสตริง UA: เปลี่ยน user agent ของบอตเป็นสตริงตามอำเภอใจเพื่อหลบการบล็อก
- ครอว์เลอร์ของเสิร์ชเอนจินแบบเดิมอย่าง Googlebot และ Bingbot แสดงให้เห็นถึง รูปแบบการคลานที่ปกติและมีประสิทธิภาพ
- Googlebot: 0.14% (16,600 คำขอ)
- Bingbot: 0.14% (15,900 คำขอ)
- ลดการคลานซ้ำให้เหลือน้อยที่สุด และปฏิบัติตามกฎของ
robots.txt
ผลลัพธ์และผลกระทบ
- ไม่สามารถให้บริการได้อย่างมีประสิทธิภาพ: บอตคลานข้อมูลของ LLM ทำให้ประสบการณ์ของผู้ใช้จริงแย่ลงอย่างมาก
- เซิร์ฟเวอร์โอเวอร์โหลด: เซิร์ฟเวอร์ฐานข้อมูลและ MediaWiki เผชิญกับโหลดพุ่งซ้ำแล้วซ้ำเล่า
- แทบจะเป็น DDoS ของทั้งอินเทอร์เน็ต: วิธีการคลานลักษณะนี้ทำให้เกิดการสิ้นเปลืองทรัพยากรโดยไม่จำเป็นในระดับทั่วโลก
บทสรุป
- อินฟราสตรักเจอร์กำลังแบกรับภาระอย่างต่อเนื่องจากรูปแบบทราฟฟิกที่ผิดปกติของบอตคลานข้อมูล LLM และความพยายามในการป้องกันก็ยังไม่ได้ผล
- ปัญหานี้ไม่ได้เป็นแค่ความเหนื่อยล้าส่วนบุคคลอีกต่อไป แต่กำลังส่งผลกระทบรุนแรงต่อระบบนิเวศของอินเทอร์เน็ตโดยรวม
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
มีการแชร์ประสบการณ์ที่ AI bot ของ Meta ครอว์ลเว็บไซต์มากเกินไปจนทำให้เซิร์ฟเวอร์ล่ม และอธิบายวิธีบล็อกด้วย Cloudflare
มีการแชร์ข้อมูลทราฟฟิกจาก bot บนหลายแพลตฟอร์ม
robots.txtหรือไม่ยอม back off แม้จะเกิดความหน่วงมีการพูดคุยเกี่ยวกับวิธีบล็อก bot
กล่าวถึงกรณีที่ฟอรัม CGTalk ปิดตัวลงเพราะปัญหาด้านทรัพยากร
มีความเห็นว่าบริษัท AI ควรสแครปอย่างชาญฉลาดกว่านี้
แสดงความสนใจเกี่ยวกับการโจมตีแบบ poisoning
มีการแชร์ประสบการณ์ว่าแอปที่ deploy บน GCP มีค่าใช้จ่ายเพิ่มขึ้นเพราะ bot traffic
มีการแชร์ประสบการณ์การถูกครอว์ลของฟอรัมขนาดใหญ่
มีความเห็นว่าพฤติกรรมของ bot ที่เมิน
robots.txtและส่งผลเสียต่อบริการอาจถือเป็นสิ่งผิดกฎหมายได้