- Drew DeVault (ผู้ก่อตั้ง SourceHut) เตือนว่าครอว์เลอร์ AI เพิกเฉยต่อ robots.txt และทำให้ SourceHut เกิด ปัญหาระบบรุนแรง
- โครงสร้างพื้นฐาน GitLab ของ KDE ก็เข้าสู่สภาวะ ไม่สามารถเข้าถึงได้ จาก การโจมตีของครอว์เลอร์ AI ที่มาจากช่วง IP ของ Alibaba
- ปัญหาของครอว์เลอร์ AI
- ครอว์เลอร์ AI เพิกเฉยต่อ ข้อกำหนดของ robots.txt
- ครอว์ลทุกหน้าและทุกคอมมิตของ git blame, git log
- ส่งคำขอด้วย User-Agent แบบสุ่มและจาก IP หลายหมื่นรายการ → ปลอมตัวเป็นทราฟฟิกผู้ใช้ทั่วไป
- บล็อกครอว์เลอร์ได้ยาก → งานที่มีลำดับความสำคัญสูงล่าช้าไปหลายสัปดาห์หรือหลายเดือน
- ข้อร้องเรียนของผู้ดูแลระบบ
- ปัญหาครอว์เลอร์ AI ไม่ใช่กรณีเฉพาะราย แต่เป็น ปัญหาในวงกว้าง
- ผู้ดูแลระบบจำนวนมากกำลังเจอปัญหาเดียวกัน
- OpenAI และ Anthropic ตั้งค่า User-Agent ที่ถูกต้องชัดเจน แต่บริษัท AI ของจีนไม่ได้ทำเช่นนั้น
- การตอบสนองของ KDE GitLab
- บล็อกบอตที่ปลอมเป็น MS Edge → เป็นทางแก้ชั่วคราว
- GNOME ใช้มาตรการจำกัดความเร็วในการดู merge request และคอมมิตสำหรับผู้ใช้ที่ไม่ได้ล็อกอิน
- นำ Anubis มาใช้ → อนุญาตการเข้าถึงเมื่อเบราว์เซอร์แก้โจทย์ผ่าน
- ปัญหาของ Anubis
- ส่งผลกระทบต่อผู้ใช้ด้วย → ต้องใช้เวลาในการแก้โจทย์
- เมื่อมีการแชร์ลิงก์ในห้องแชตจะเกิดโอเวอร์โหลด → ต้องรอ 1–2 นาที
- 97% ของทราฟฟิกเป็นบอต
- ที่ GNOME มี 81,000 คำขอ ภายใน 2 ชั่วโมงครึ่ง → 97% เป็นครอว์เลอร์ AI
- บางโปรเจ็กต์มี ทราฟฟิกลดลง 75% หลังจากบล็อกครอว์เลอร์ AI
- ปัญหาในโปรเจ็กต์ FOSS อื่น ๆ
- Fedora → บล็อก IP ทั้งประเทศบราซิล เพื่อสกัดครอว์เลอร์
- Inkscape → ครอว์เลอร์ปลอมข้อมูลเบราว์เซอร์ → บล็อก IP จำนวนมาก
- Frama Software → สร้าง รายการบล็อก IP 460,000 รายการ
- โปรเจ็กต์รับมือครอว์เลอร์ AI
- ai.robots.txt → ให้โอเพนลิสต์สำหรับบล็อกครอว์เลอร์ AI
- ตั้งค่าไฟล์ robots.txt และ .htaccess → ส่งคืนหน้า error เมื่อมีคำขอจากครอว์เลอร์ AI
- ผลการวิเคราะห์ทราฟฟิก
- ในกรณีของ Diaspora 70% ของทราฟฟิกเป็นครอว์เลอร์ AI
- User agent ของ OpenAI: 25%
- Amazon: 15%
- Anthropic: 4.3%
- สัดส่วนทราฟฟิกของครอว์เลอร์จาก Google และ Bing อยู่ที่ ต่ำกว่า 1%
- ปัญหารายงานบั๊กที่สร้างโดย AI
- โปรเจ็กต์ Curl พบปัญหา รายงานบั๊กที่สร้างโดย AI
- บั๊กที่ถูกรายงานส่วนใหญ่เป็นปัญหา hallucination
- CPython, pip, urllib3, Requests → ใช้เวลาไปกับการจัดการ รายงานด้านความปลอดภัยที่สร้างโดย AI
- ความน่าเชื่อถือต่ำ → แต่ก็ยังต้องตรวจสอบ → เพิ่มภาระให้ผู้ดูแลโครงการ
บทสรุป
- ครอว์เลอร์ AI และรายงานบั๊กที่สร้างโดย AI กำลังสร้างภาระหนักให้ชุมชนโอเพนซอร์ส
- โปรเจ็กต์โอเพนซอร์สมีทรัพยากรน้อยกว่าผลิตภัณฑ์เชิงพาณิชย์และขับเคลื่อนด้วยชุมชน จึงเปราะบางต่อปัญหาเหล่านี้มากกว่า
1 ความคิดเห็น
ความเห็นจาก Hacker News
หลายคนที่ดูแลโครงสร้างพื้นฐานอินเทอร์เน็ตขนาดใหญ่กำลังเผชิญประสบการณ์คล้ายกัน
Fastly กำลังให้บริการด้านความปลอดภัยฟรีแก่โครงการ FOSS
รู้สึกประหลาดใจที่โปรเจ็กต์ของตัวเองไปปรากฏอยู่ในภาพตัวอย่าง
ไม่ใช่แค่โครงสร้างพื้นฐาน FOSS เท่านั้น แต่การเข้าถึงอินเทอร์เน็ตแบบไม่ระบุตัวตนเองก็กำลังถูกคุกคาม
เมื่อไม่นานมานี้มีอินสแตนซ์ Forgejo ถูกโจมตี
DISABLE_DOWNLOAD_SOURCE_ARCHIVESเป็นtrueในอดีตมีการสร้าง
robots.txtขึ้นมาเพื่อแก้ปัญหาจาก search engine แต่ตอนนี้ indexer รุ่นใหม่กำลังเพิกเฉยต่อมันอิทธิพลของ Google และเว็บที่ขับเคลื่อนด้วยโฆษณาจะอ่อนกำลังลง
ใช้ LLaMa สร้างโพสต์ที่ขัดแย้งกันเพื่อทำให้ข้อมูลสับสน
VideoLAN ก็กำลังถูกโจมตีที่ฟอรัมและ GitLab จากบอตของบริษัท AI เช่นกัน
robots.txtมีความเป็นไปได้ว่าจะเกิดเว็บที่ search engine จัดทำดัชนีไม่ได้