โครงสร้างพื้นฐาน FOSS กำลังถูกโจมตีจากบริษัท AI

(thelibre.news)

1 คะแนน โดย GN⁺ 2025-03-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Drew DeVault (ผู้ก่อตั้ง SourceHut) เตือนว่าครอว์เลอร์ AI เพิกเฉยต่อ robots.txt และทำให้ SourceHut เกิด ปัญหาระบบรุนแรง
โครงสร้างพื้นฐาน GitLab ของ KDE ก็เข้าสู่สภาวะ ไม่สามารถเข้าถึงได้ จาก การโจมตีของครอว์เลอร์ AI ที่มาจากช่วง IP ของ Alibaba
ปัญหาของครอว์เลอร์ AI
- ครอว์เลอร์ AI เพิกเฉยต่อ ข้อกำหนดของ robots.txt
  - ครอว์ลทุกหน้าและทุกคอมมิตของ git blame, git log
  - ส่งคำขอด้วย User-Agent แบบสุ่มและจาก IP หลายหมื่นรายการ → ปลอมตัวเป็นทราฟฟิกผู้ใช้ทั่วไป
- บล็อกครอว์เลอร์ได้ยาก → งานที่มีลำดับความสำคัญสูงล่าช้าไปหลายสัปดาห์หรือหลายเดือน
ข้อร้องเรียนของผู้ดูแลระบบ
- ปัญหาครอว์เลอร์ AI ไม่ใช่กรณีเฉพาะราย แต่เป็น ปัญหาในวงกว้าง
  - ผู้ดูแลระบบจำนวนมากกำลังเจอปัญหาเดียวกัน
  - OpenAI และ Anthropic ตั้งค่า User-Agent ที่ถูกต้องชัดเจน แต่บริษัท AI ของจีนไม่ได้ทำเช่นนั้น
การตอบสนองของ KDE GitLab
- บล็อกบอตที่ปลอมเป็น MS Edge → เป็นทางแก้ชั่วคราว
- GNOME ใช้มาตรการจำกัดความเร็วในการดู merge request และคอมมิตสำหรับผู้ใช้ที่ไม่ได้ล็อกอิน
- นำ Anubis มาใช้ → อนุญาตการเข้าถึงเมื่อเบราว์เซอร์แก้โจทย์ผ่าน
ปัญหาของ Anubis
- ส่งผลกระทบต่อผู้ใช้ด้วย → ต้องใช้เวลาในการแก้โจทย์
  - เมื่อมีการแชร์ลิงก์ในห้องแชตจะเกิดโอเวอร์โหลด → ต้องรอ 1–2 นาที
97% ของทราฟฟิกเป็นบอต
- ที่ GNOME มี 81,000 คำขอ ภายใน 2 ชั่วโมงครึ่ง → 97% เป็นครอว์เลอร์ AI
- บางโปรเจ็กต์มี ทราฟฟิกลดลง 75% หลังจากบล็อกครอว์เลอร์ AI
ปัญหาในโปรเจ็กต์ FOSS อื่น ๆ
- Fedora → บล็อก IP ทั้งประเทศบราซิล เพื่อสกัดครอว์เลอร์
- Inkscape → ครอว์เลอร์ปลอมข้อมูลเบราว์เซอร์ → บล็อก IP จำนวนมาก
- Frama Software → สร้าง รายการบล็อก IP 460,000 รายการ
โปรเจ็กต์รับมือครอว์เลอร์ AI
- ai.robots.txt → ให้โอเพนลิสต์สำหรับบล็อกครอว์เลอร์ AI
  - ตั้งค่าไฟล์ robots.txt และ .htaccess → ส่งคืนหน้า error เมื่อมีคำขอจากครอว์เลอร์ AI
ผลการวิเคราะห์ทราฟฟิก
- ในกรณีของ Diaspora 70% ของทราฟฟิกเป็นครอว์เลอร์ AI
  - User agent ของ OpenAI: 25%
  - Amazon: 15%
  - Anthropic: 4.3%
- สัดส่วนทราฟฟิกของครอว์เลอร์จาก Google และ Bing อยู่ที่ ต่ำกว่า 1%
ปัญหารายงานบั๊กที่สร้างโดย AI
- โปรเจ็กต์ Curl พบปัญหา รายงานบั๊กที่สร้างโดย AI
  - บั๊กที่ถูกรายงานส่วนใหญ่เป็นปัญหา hallucination
- CPython, pip, urllib3, Requests → ใช้เวลาไปกับการจัดการ รายงานด้านความปลอดภัยที่สร้างโดย AI
  - ความน่าเชื่อถือต่ำ → แต่ก็ยังต้องตรวจสอบ → เพิ่มภาระให้ผู้ดูแลโครงการ

บทสรุป

ครอว์เลอร์ AI และรายงานบั๊กที่สร้างโดย AI กำลังสร้างภาระหนักให้ชุมชนโอเพนซอร์ส
โปรเจ็กต์โอเพนซอร์สมีทรัพยากรน้อยกว่าผลิตภัณฑ์เชิงพาณิชย์และขับเคลื่อนด้วยชุมชน จึงเปราะบางต่อปัญหาเหล่านี้มากกว่า

1 ความคิดเห็น

GN⁺ 2025-03-21

ความเห็นจาก Hacker News

หลายคนที่ดูแลโครงสร้างพื้นฐานอินเทอร์เน็ตขนาดใหญ่กำลังเผชิญประสบการณ์คล้ายกัน
- มีการแชร์เรื่องการใช้งาน AI crawler ในทางที่ผิด และมีบทความที่รวบรวมปัญหาเหล่านี้ไว้ในที่เดียว
- สตาร์ตอัปบางรายแก้ปัญหาและคืนค่าใช้จ่ายให้แล้ว แต่ Facebook ไม่ตอบอีเมล
Fastly กำลังให้บริการด้านความปลอดภัยฟรีแก่โครงการ FOSS
- ช่วงหลังมีคำขอเกี่ยวกับการรับมือ AI scraping เพิ่มขึ้น
รู้สึกประหลาดใจที่โปรเจ็กต์ของตัวเองไปปรากฏอยู่ในภาพตัวอย่าง
- นำโปรเจ็กต์ไป deploy ที่ xeiaso.net เพื่อดูว่ามันทำงานอย่างไรในสภาพแวดล้อมจริง
ไม่ใช่แค่โครงสร้างพื้นฐาน FOSS เท่านั้น แต่การเข้าถึงอินเทอร์เน็ตแบบไม่ระบุตัวตนเองก็กำลังถูกคุกคาม
- บอตรุ่นใหม่สามารถแก้ CAPTCHA และทำตัวเหมือนผู้ใช้จริงได้
- เว็บไซต์ต่าง ๆ อาจเริ่มบังคับให้ยืนยันตัวตนด้วยบัตรเครดิตหรือบริการอย่าง Worldcoin
เมื่อไม่นานมานี้มีอินสแตนซ์ Forgejo ถูกโจมตี
- ดิสก์เต็มไปด้วยไฟล์ zip ที่ถูกสร้างขึ้น และหลังจากบล็อกช่วง IP ของ Alibaba Cloud การโจมตีก็ลดลง
- แนะนำให้ตั้งค่า DISABLE_DOWNLOAD_SOURCE_ARCHIVES เป็น true
ในอดีตมีการสร้าง robots.txt ขึ้นมาเพื่อแก้ปัญหาจาก search engine แต่ตอนนี้ indexer รุ่นใหม่กำลังเพิกเฉยต่อมัน
- มีความเห็นว่าจำเป็นต้องมีบทลงโทษทางกฎหมาย
อิทธิพลของ Google และเว็บที่ขับเคลื่อนด้วยโฆษณาจะอ่อนกำลังลง
- CAPTCHA จะทำให้ search engine ไม่สามารถจัดทำดัชนีเว็บไซต์ได้ และจะลดคุณค่าของ search engine ลง
ใช้ LLaMa สร้างโพสต์ที่ขัดแย้งกันเพื่อทำให้ข้อมูลสับสน
VideoLAN ก็กำลังถูกโจมตีที่ฟอรัมและ GitLab จากบอตของบริษัท AI เช่นกัน
- บอตส่วนใหญ่เมิน robots.txt
มีความเป็นไปได้ว่าจะเกิดเว็บที่ search engine จัดทำดัชนีไม่ได้
- มีการเสนอให้บังคับใช้ proof-of-work เป็นวิธีรับมือกับการ scrape โดย LLM

โครงสร้างพื้นฐาน FOSS กำลังถูกโจมตีจากบริษัท AI

บทสรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News