14 คะแนน โดย GN⁺ 2024-12-31 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ผลการวิเคราะห์ปัญหาโหลดพุ่งและความหน่วงในเว็บอินฟราสตรักเจอร์ของโครงการ diaspora เมื่อไม่นานมานี้ (เช่น Discourse, Wiki, เว็บไซต์โครงการ ฯลฯ) พบว่า “ทราฟฟิกส่วนใหญ่เกิดจากบอตสำหรับคลานข้อมูลของ LLM”
  • ในช่วง 60 วันที่ผ่านมา มีคำขอเข้ามา 11.3 ล้านครั้ง (เฉลี่ย 2.19 req/s) โดยในจำนวนนั้น มากกว่า 70% มาจากบอตคลานข้อมูลที่เกี่ยวข้องกับ LLM
    • GPTBot/1.2: 24.6% (2.78 ล้านคำขอ)
    • Amazonbot/0.1: 14.9% (1.69 ล้านคำขอ)
    • ClaudeBot/1.0: 4.3% (490,000 คำขอ)
    • meta-externalagent/1.1: 2.2% (220,000 คำขอ)
  • รูปแบบการคลานข้อมูลที่ผิดปกติ
    • คลานซ้ำ: คลานหน้าเดิมซ้ำทุก 6 ชั่วโมง
    • เพิกเฉยต่อ robots.txt: ไม่ปฏิบัติตามกฎจำกัดการคลานเลย
    • คลานอย่างไม่มีประสิทธิภาพ: คลานข้อมูลที่แทบไม่มีความหมายจำนวนมาก (เช่น ประวัติการแก้ไขทั้งหมดของ Wiki)
    • โหลดพุ่ง: ในบางช่วงสร้างคำขอเกิน 10req/s ทำให้ฐานข้อมูลและเซิร์ฟเวอร์ MediaWiki รับภาระเกิน
  • ป้องกันก็แทบทำไม่ได้
    • เปลี่ยน IP: เปลี่ยน IP อย่างต่อเนื่องเพื่อหลบเลี่ยง rate limit
    • เปลี่ยนสตริง UA: เปลี่ยน user agent ของบอตเป็นสตริงตามอำเภอใจเพื่อหลบการบล็อก
  • ครอว์เลอร์ของเสิร์ชเอนจินแบบเดิมอย่าง Googlebot และ Bingbot แสดงให้เห็นถึง รูปแบบการคลานที่ปกติและมีประสิทธิภาพ
    • Googlebot: 0.14% (16,600 คำขอ)
    • Bingbot: 0.14% (15,900 คำขอ)
  • ลดการคลานซ้ำให้เหลือน้อยที่สุด และปฏิบัติตามกฎของ robots.txt

ผลลัพธ์และผลกระทบ

  • ไม่สามารถให้บริการได้อย่างมีประสิทธิภาพ: บอตคลานข้อมูลของ LLM ทำให้ประสบการณ์ของผู้ใช้จริงแย่ลงอย่างมาก
  • เซิร์ฟเวอร์โอเวอร์โหลด: เซิร์ฟเวอร์ฐานข้อมูลและ MediaWiki เผชิญกับโหลดพุ่งซ้ำแล้วซ้ำเล่า
  • แทบจะเป็น DDoS ของทั้งอินเทอร์เน็ต: วิธีการคลานลักษณะนี้ทำให้เกิดการสิ้นเปลืองทรัพยากรโดยไม่จำเป็นในระดับทั่วโลก

บทสรุป

  • อินฟราสตรักเจอร์กำลังแบกรับภาระอย่างต่อเนื่องจากรูปแบบทราฟฟิกที่ผิดปกติของบอตคลานข้อมูล LLM และความพยายามในการป้องกันก็ยังไม่ได้ผล
  • ปัญหานี้ไม่ได้เป็นแค่ความเหนื่อยล้าส่วนบุคคลอีกต่อไป แต่กำลังส่งผลกระทบรุนแรงต่อระบบนิเวศของอินเทอร์เน็ตโดยรวม

1 ความคิดเห็น

 
GN⁺ 2024-12-31
ความคิดเห็นจาก Hacker News
  • มีการแชร์ประสบการณ์ที่ AI bot ของ Meta ครอว์ลเว็บไซต์มากเกินไปจนทำให้เซิร์ฟเวอร์ล่ม และอธิบายวิธีบล็อกด้วย Cloudflare

    • ระบุว่าฟีเจอร์บล็อก AI bot ของ Cloudflare มีประโยชน์
    • อ้างว่าการที่ AI bot เข้าถึงคอนเทนต์นั้นไม่มีคุณค่า
  • มีการแชร์ข้อมูลทราฟฟิกจาก bot บนหลายแพลตฟอร์ม

    • bot ของ Claude, Amazon, Data For SEO, Chat GPT และอื่น ๆ สร้างทราฟฟิกจำนวนมาก
    • อธิบายว่า bot เหล่านี้เมิน robots.txt หรือไม่ยอม back off แม้จะเกิดความหน่วง
  • มีการพูดคุยเกี่ยวกับวิธีบล็อก bot

    • อธิบายพฤติกรรมของ bot ที่เปลี่ยน IP หรือสลับไปใช้ User Agent ที่ไม่ใช่บอต
    • แชร์ลิงก์ GitHub ที่เปิดเผยช่วง IP ของ OpenAI
    • เสนอวิธีบล็อก AI bot โดยใช้ปลั๊กอิน WordPress
  • กล่าวถึงกรณีที่ฟอรัม CGTalk ปิดตัวลงเพราะปัญหาด้านทรัพยากร

    • หลายฟอรัมย้ายไป Slack และ Discord เพื่อลดภาระในการดูแลเซิร์ฟเวอร์
  • มีความเห็นว่าบริษัท AI ควรสแครปอย่างชาญฉลาดกว่านี้

    • ระบุว่าพฤติกรรมของบริษัท AI เป็นเรื่องน่าละอาย
  • แสดงความสนใจเกี่ยวกับการโจมตีแบบ poisoning

    • สำรวจความเป็นไปได้ในการทำให้โมเดล AI สับสนด้วยคอนเทนต์ผิด ๆ ที่มนุษย์เขียนขึ้น
  • มีการแชร์ประสบการณ์ว่าแอปที่ deploy บน GCP มีค่าใช้จ่ายเพิ่มขึ้นเพราะ bot traffic

    • คาดว่าเกิดจากการแชร์แอปบน Reddit
  • มีการแชร์ประสบการณ์การถูกครอว์ลของฟอรัมขนาดใหญ่

    • ระบุว่า ChatGPT รู้ประวัติของฟอรัมเป็นอย่างดี
    • เสนอไอเดียในการเพิ่มข้อความที่อาจมีผลต่อ LLMs
  • มีความเห็นว่าพฤติกรรมของ bot ที่เมิน robots.txt และส่งผลเสียต่อบริการอาจถือเป็นสิ่งผิดกฎหมายได้

    • แนะนำให้ติดต่อหน่วยงานบังคับใช้กฎหมายไซเบอร์ในพื้นที่