บริษัท AI กำลังสร้างทราฟฟิกบนเว็บเป็นส่วนใหญ่

(pod.geraspora.de)

14 คะแนน โดย GN⁺ 2024-12-31 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ผลการวิเคราะห์ปัญหาโหลดพุ่งและความหน่วงในเว็บอินฟราสตรักเจอร์ของโครงการ diaspora เมื่อไม่นานมานี้ (เช่น Discourse, Wiki, เว็บไซต์โครงการ ฯลฯ) พบว่า “ทราฟฟิกส่วนใหญ่เกิดจากบอตสำหรับคลานข้อมูลของ LLM”
ในช่วง 60 วันที่ผ่านมา มีคำขอเข้ามา 11.3 ล้านครั้ง (เฉลี่ย 2.19 req/s) โดยในจำนวนนั้น มากกว่า 70% มาจากบอตคลานข้อมูลที่เกี่ยวข้องกับ LLM
- GPTBot/1.2: 24.6% (2.78 ล้านคำขอ)
- Amazonbot/0.1: 14.9% (1.69 ล้านคำขอ)
- ClaudeBot/1.0: 4.3% (490,000 คำขอ)
- meta-externalagent/1.1: 2.2% (220,000 คำขอ)
รูปแบบการคลานข้อมูลที่ผิดปกติ
- คลานซ้ำ: คลานหน้าเดิมซ้ำทุก 6 ชั่วโมง
- เพิกเฉยต่อ robots.txt: ไม่ปฏิบัติตามกฎจำกัดการคลานเลย
- คลานอย่างไม่มีประสิทธิภาพ: คลานข้อมูลที่แทบไม่มีความหมายจำนวนมาก (เช่น ประวัติการแก้ไขทั้งหมดของ Wiki)
- โหลดพุ่ง: ในบางช่วงสร้างคำขอเกิน 10req/s ทำให้ฐานข้อมูลและเซิร์ฟเวอร์ MediaWiki รับภาระเกิน
ป้องกันก็แทบทำไม่ได้
- เปลี่ยน IP: เปลี่ยน IP อย่างต่อเนื่องเพื่อหลบเลี่ยง rate limit
- เปลี่ยนสตริง UA: เปลี่ยน user agent ของบอตเป็นสตริงตามอำเภอใจเพื่อหลบการบล็อก
ครอว์เลอร์ของเสิร์ชเอนจินแบบเดิมอย่าง Googlebot และ Bingbot แสดงให้เห็นถึง รูปแบบการคลานที่ปกติและมีประสิทธิภาพ
- Googlebot: 0.14% (16,600 คำขอ)
- Bingbot: 0.14% (15,900 คำขอ)
ลดการคลานซ้ำให้เหลือน้อยที่สุด และปฏิบัติตามกฎของ robots.txt

ผลลัพธ์และผลกระทบ

ไม่สามารถให้บริการได้อย่างมีประสิทธิภาพ: บอตคลานข้อมูลของ LLM ทำให้ประสบการณ์ของผู้ใช้จริงแย่ลงอย่างมาก
เซิร์ฟเวอร์โอเวอร์โหลด: เซิร์ฟเวอร์ฐานข้อมูลและ MediaWiki เผชิญกับโหลดพุ่งซ้ำแล้วซ้ำเล่า
แทบจะเป็น DDoS ของทั้งอินเทอร์เน็ต: วิธีการคลานลักษณะนี้ทำให้เกิดการสิ้นเปลืองทรัพยากรโดยไม่จำเป็นในระดับทั่วโลก

บทสรุป

อินฟราสตรักเจอร์กำลังแบกรับภาระอย่างต่อเนื่องจากรูปแบบทราฟฟิกที่ผิดปกติของบอตคลานข้อมูล LLM และความพยายามในการป้องกันก็ยังไม่ได้ผล
ปัญหานี้ไม่ได้เป็นแค่ความเหนื่อยล้าส่วนบุคคลอีกต่อไป แต่กำลังส่งผลกระทบรุนแรงต่อระบบนิเวศของอินเทอร์เน็ตโดยรวม

1 ความคิดเห็น

GN⁺ 2024-12-31

ความคิดเห็นจาก Hacker News

มีการแชร์ประสบการณ์ที่ AI bot ของ Meta ครอว์ลเว็บไซต์มากเกินไปจนทำให้เซิร์ฟเวอร์ล่ม และอธิบายวิธีบล็อกด้วย Cloudflare
- ระบุว่าฟีเจอร์บล็อก AI bot ของ Cloudflare มีประโยชน์
- อ้างว่าการที่ AI bot เข้าถึงคอนเทนต์นั้นไม่มีคุณค่า
มีการแชร์ข้อมูลทราฟฟิกจาก bot บนหลายแพลตฟอร์ม
- bot ของ Claude, Amazon, Data For SEO, Chat GPT และอื่น ๆ สร้างทราฟฟิกจำนวนมาก
- อธิบายว่า bot เหล่านี้เมิน robots.txt หรือไม่ยอม back off แม้จะเกิดความหน่วง
มีการพูดคุยเกี่ยวกับวิธีบล็อก bot
- อธิบายพฤติกรรมของ bot ที่เปลี่ยน IP หรือสลับไปใช้ User Agent ที่ไม่ใช่บอต
- แชร์ลิงก์ GitHub ที่เปิดเผยช่วง IP ของ OpenAI
- เสนอวิธีบล็อก AI bot โดยใช้ปลั๊กอิน WordPress
กล่าวถึงกรณีที่ฟอรัม CGTalk ปิดตัวลงเพราะปัญหาด้านทรัพยากร
- หลายฟอรัมย้ายไป Slack และ Discord เพื่อลดภาระในการดูแลเซิร์ฟเวอร์
มีความเห็นว่าบริษัท AI ควรสแครปอย่างชาญฉลาดกว่านี้
- ระบุว่าพฤติกรรมของบริษัท AI เป็นเรื่องน่าละอาย
แสดงความสนใจเกี่ยวกับการโจมตีแบบ poisoning
- สำรวจความเป็นไปได้ในการทำให้โมเดล AI สับสนด้วยคอนเทนต์ผิด ๆ ที่มนุษย์เขียนขึ้น
มีการแชร์ประสบการณ์ว่าแอปที่ deploy บน GCP มีค่าใช้จ่ายเพิ่มขึ้นเพราะ bot traffic
- คาดว่าเกิดจากการแชร์แอปบน Reddit
มีการแชร์ประสบการณ์การถูกครอว์ลของฟอรัมขนาดใหญ่
- ระบุว่า ChatGPT รู้ประวัติของฟอรัมเป็นอย่างดี
- เสนอไอเดียในการเพิ่มข้อความที่อาจมีผลต่อ LLMs
มีความเห็นว่าพฤติกรรมของ bot ที่เมิน robots.txt และส่งผลเสียต่อบริการอาจถือเป็นสิ่งผิดกฎหมายได้
- แนะนำให้ติดต่อหน่วยงานบังคับใช้กฎหมายไซเบอร์ในพื้นที่

บริษัท AI กำลังสร้างทราฟฟิกบนเว็บเป็นส่วนใหญ่

ผลลัพธ์และผลกระทบ

บทสรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News