1 คะแนน โดย GN⁺ 2025-03-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Drew DeVault (ผู้ก่อตั้ง SourceHut) เตือนว่าครอว์เลอร์ AI เพิกเฉยต่อ robots.txt และทำให้ SourceHut เกิด ปัญหาระบบรุนแรง
  • โครงสร้างพื้นฐาน GitLab ของ KDE ก็เข้าสู่สภาวะ ไม่สามารถเข้าถึงได้ จาก การโจมตีของครอว์เลอร์ AI ที่มาจากช่วง IP ของ Alibaba
  • ปัญหาของครอว์เลอร์ AI
    • ครอว์เลอร์ AI เพิกเฉยต่อ ข้อกำหนดของ robots.txt
      • ครอว์ลทุกหน้าและทุกคอมมิตของ git blame, git log
      • ส่งคำขอด้วย User-Agent แบบสุ่มและจาก IP หลายหมื่นรายการ → ปลอมตัวเป็นทราฟฟิกผู้ใช้ทั่วไป
    • บล็อกครอว์เลอร์ได้ยาก → งานที่มีลำดับความสำคัญสูงล่าช้าไปหลายสัปดาห์หรือหลายเดือน
  • ข้อร้องเรียนของผู้ดูแลระบบ
    • ปัญหาครอว์เลอร์ AI ไม่ใช่กรณีเฉพาะราย แต่เป็น ปัญหาในวงกว้าง
      • ผู้ดูแลระบบจำนวนมากกำลังเจอปัญหาเดียวกัน
      • OpenAI และ Anthropic ตั้งค่า User-Agent ที่ถูกต้องชัดเจน แต่บริษัท AI ของจีนไม่ได้ทำเช่นนั้น
  • การตอบสนองของ KDE GitLab
    • บล็อกบอตที่ปลอมเป็น MS Edge → เป็นทางแก้ชั่วคราว
    • GNOME ใช้มาตรการจำกัดความเร็วในการดู merge request และคอมมิตสำหรับผู้ใช้ที่ไม่ได้ล็อกอิน
    • นำ Anubis มาใช้ → อนุญาตการเข้าถึงเมื่อเบราว์เซอร์แก้โจทย์ผ่าน
  • ปัญหาของ Anubis
    • ส่งผลกระทบต่อผู้ใช้ด้วย → ต้องใช้เวลาในการแก้โจทย์
      • เมื่อมีการแชร์ลิงก์ในห้องแชตจะเกิดโอเวอร์โหลด → ต้องรอ 1–2 นาที
  • 97% ของทราฟฟิกเป็นบอต
    • ที่ GNOME มี 81,000 คำขอ ภายใน 2 ชั่วโมงครึ่ง → 97% เป็นครอว์เลอร์ AI
    • บางโปรเจ็กต์มี ทราฟฟิกลดลง 75% หลังจากบล็อกครอว์เลอร์ AI
  • ปัญหาในโปรเจ็กต์ FOSS อื่น ๆ
    • Fedora → บล็อก IP ทั้งประเทศบราซิล เพื่อสกัดครอว์เลอร์
    • Inkscape → ครอว์เลอร์ปลอมข้อมูลเบราว์เซอร์ → บล็อก IP จำนวนมาก
    • Frama Software → สร้าง รายการบล็อก IP 460,000 รายการ
  • โปรเจ็กต์รับมือครอว์เลอร์ AI
    • ai.robots.txt → ให้โอเพนลิสต์สำหรับบล็อกครอว์เลอร์ AI
      • ตั้งค่าไฟล์ robots.txt และ .htaccess → ส่งคืนหน้า error เมื่อมีคำขอจากครอว์เลอร์ AI
  • ผลการวิเคราะห์ทราฟฟิก
    • ในกรณีของ Diaspora 70% ของทราฟฟิกเป็นครอว์เลอร์ AI
      • User agent ของ OpenAI: 25%
      • Amazon: 15%
      • Anthropic: 4.3%
    • สัดส่วนทราฟฟิกของครอว์เลอร์จาก Google และ Bing อยู่ที่ ต่ำกว่า 1%
  • ปัญหารายงานบั๊กที่สร้างโดย AI
    • โปรเจ็กต์ Curl พบปัญหา รายงานบั๊กที่สร้างโดย AI
      • บั๊กที่ถูกรายงานส่วนใหญ่เป็นปัญหา hallucination
    • CPython, pip, urllib3, Requests → ใช้เวลาไปกับการจัดการ รายงานด้านความปลอดภัยที่สร้างโดย AI
      • ความน่าเชื่อถือต่ำ → แต่ก็ยังต้องตรวจสอบ → เพิ่มภาระให้ผู้ดูแลโครงการ

บทสรุป

  • ครอว์เลอร์ AI และรายงานบั๊กที่สร้างโดย AI กำลังสร้างภาระหนักให้ชุมชนโอเพนซอร์ส
  • โปรเจ็กต์โอเพนซอร์สมีทรัพยากรน้อยกว่าผลิตภัณฑ์เชิงพาณิชย์และขับเคลื่อนด้วยชุมชน จึงเปราะบางต่อปัญหาเหล่านี้มากกว่า

1 ความคิดเห็น

 
GN⁺ 2025-03-21
ความเห็นจาก Hacker News
  • หลายคนที่ดูแลโครงสร้างพื้นฐานอินเทอร์เน็ตขนาดใหญ่กำลังเผชิญประสบการณ์คล้ายกัน

    • มีการแชร์เรื่องการใช้งาน AI crawler ในทางที่ผิด และมีบทความที่รวบรวมปัญหาเหล่านี้ไว้ในที่เดียว
    • สตาร์ตอัปบางรายแก้ปัญหาและคืนค่าใช้จ่ายให้แล้ว แต่ Facebook ไม่ตอบอีเมล
  • Fastly กำลังให้บริการด้านความปลอดภัยฟรีแก่โครงการ FOSS

    • ช่วงหลังมีคำขอเกี่ยวกับการรับมือ AI scraping เพิ่มขึ้น
  • รู้สึกประหลาดใจที่โปรเจ็กต์ของตัวเองไปปรากฏอยู่ในภาพตัวอย่าง

    • นำโปรเจ็กต์ไป deploy ที่ xeiaso.net เพื่อดูว่ามันทำงานอย่างไรในสภาพแวดล้อมจริง
  • ไม่ใช่แค่โครงสร้างพื้นฐาน FOSS เท่านั้น แต่การเข้าถึงอินเทอร์เน็ตแบบไม่ระบุตัวตนเองก็กำลังถูกคุกคาม

    • บอตรุ่นใหม่สามารถแก้ CAPTCHA และทำตัวเหมือนผู้ใช้จริงได้
    • เว็บไซต์ต่าง ๆ อาจเริ่มบังคับให้ยืนยันตัวตนด้วยบัตรเครดิตหรือบริการอย่าง Worldcoin
  • เมื่อไม่นานมานี้มีอินสแตนซ์ Forgejo ถูกโจมตี

    • ดิสก์เต็มไปด้วยไฟล์ zip ที่ถูกสร้างขึ้น และหลังจากบล็อกช่วง IP ของ Alibaba Cloud การโจมตีก็ลดลง
    • แนะนำให้ตั้งค่า DISABLE_DOWNLOAD_SOURCE_ARCHIVES เป็น true
  • ในอดีตมีการสร้าง robots.txt ขึ้นมาเพื่อแก้ปัญหาจาก search engine แต่ตอนนี้ indexer รุ่นใหม่กำลังเพิกเฉยต่อมัน

    • มีความเห็นว่าจำเป็นต้องมีบทลงโทษทางกฎหมาย
  • อิทธิพลของ Google และเว็บที่ขับเคลื่อนด้วยโฆษณาจะอ่อนกำลังลง

    • CAPTCHA จะทำให้ search engine ไม่สามารถจัดทำดัชนีเว็บไซต์ได้ และจะลดคุณค่าของ search engine ลง
  • ใช้ LLaMa สร้างโพสต์ที่ขัดแย้งกันเพื่อทำให้ข้อมูลสับสน

  • VideoLAN ก็กำลังถูกโจมตีที่ฟอรัมและ GitLab จากบอตของบริษัท AI เช่นกัน

    • บอตส่วนใหญ่เมิน robots.txt
  • มีความเป็นไปได้ว่าจะเกิดเว็บที่ search engine จัดทำดัชนีไม่ได้

    • มีการเสนอให้บังคับใช้ proof-of-work เป็นวิธีรับมือกับการ scrape โดย LLM