LWN กำลังเผชิญกับการโจมตีจากสแครปเปอร์ที่รุนแรงที่สุดเท่าที่เคยมีมา
(social.kernel.org)- LWN.net กำลังเผชิญกับ การโจมตี DDoS ขนาดใหญ่ที่อาศัยการสแครปข้อมูล จากที่อยู่หลายหมื่นแห่ง ทำให้ความเร็วในการตอบสนองของเว็บไซต์ลดลง
- Jonathan Corbet กล่าวถึงสถานการณ์ที่ต้องปกป้องเว็บไซต์จาก สแครปเปอร์ที่เกี่ยวข้องกับ AI โดยระบุว่าไม่อยากตั้งกำแพงต่อการเข้าถึงของผู้อ่าน แต่ก็อาจจำเป็น
- ในชุมชนมีการพูดถึงความเป็นไปได้ที่บริษัทเก็บรวบรวมข้อมูลเชิงพาณิชย์อย่าง Bright Data อาจอยู่เบื้องหลังการโจมตี และมีผู้ใช้หลายรายรายงานว่าเกิด ทราฟฟิกพุ่งสูงในลักษณะคล้ายกัน
- บางส่วนกำลังรับมือด้วย การสมัครรับข้อมูล RSS, การสร้างเว็บไซต์แบบสแตติก, LLM tarpit เป็นต้น และยังมีการแชร์กรณีที่การโจมตีมาจาก IP คลาวด์รายใหญ่อย่าง Azure, Google และ AliCloud
- เหตุการณ์ครั้งนี้ถูกจับตาในฐานะตัวอย่างที่แสดงให้เห็นถึง ความเสียหายที่การเก็บข้อมูลเพื่อ AI สร้างต่อเสถียรภาพของระบบนิเวศเว็บและความยั่งยืนของผู้สร้างสรรค์ผลงาน
การโจมตีจากสแครปเปอร์ขนาดใหญ่ต่อ LWN.net
-
Jonathan Corbet เปิดเผยว่า LWN.net กำลังเผชิญกับ การโจมตีจากสแครปเปอร์ที่รุนแรงที่สุดเท่าที่เคยมีมา
- การโจมตีอยู่ในรูปแบบ DDoS ที่ใช้ ที่อยู่ IP หลายหมื่นรายการ ทำให้การตอบสนองของเว็บไซต์ช้าลง
- เขากล่าวว่า “การต้องปกป้อง LWN จากสแครปเปอร์ที่เกี่ยวข้องกับ AI ไม่ใช่สิ่งที่อยากทำ” พร้อมระบุว่าไม่ต้องการใช้มาตรการที่สร้างอุปสรรคต่อการเข้าถึงของผู้อ่าน แต่ก็อาจจำเป็น
-
Corbet ระบุว่ายังไม่สามารถชี้ชัดได้ว่าใครเป็นผู้โจมตี และกล่าวถึงความเป็นไปได้ที่ Bright Data หรือคู่แข่งลักษณะคล้ายกัน อาจมีส่วนเกี่ยวข้อง
- บางช่วงมีภาระ CPU สูงอย่างรุนแรง และแม้จะสามารถขยายเซิร์ฟเวอร์ได้ แต่เขากล่าวว่า “มันน่าหงุดหงิดที่ต้องจ่ายเงินเพื่อป้อนบทความที่เขียนอย่างตั้งใจให้คนแบบนั้น”
ปฏิกิริยาและข้อเสนอจากชุมชน
- Tristan Colgate-McFarlane ชี้ว่า เสิร์ชเอนจินแสดงเนื้อหาที่ถูกขโมยขึ้นมาก่อน ส่งผลให้ทราฟฟิกและรายได้โฆษณาของผู้สร้างต้นฉบับถูกแย่งไป
- ผู้ใช้หลายรายรายงานว่าเคยเจอ ทราฟฟิกจาก AI สแครปเปอร์พุ่งสูง
- Light Owl ระบุว่าทราฟฟิกของเว็บไซต์ตนเพิ่มขึ้น 20 เท่าจากปกติ
- Ben Tasker อธิบายว่ากำลังใช้กับดักบอตแบบ LLM tarpit เพื่อบล็อกคำขอบางส่วน
- บางรายรายงานว่าการโจมตีมาจาก IP คลาวด์รายใหญ่อย่าง Azure, Google, AliCloud
- Dec, mx alex tax1a และ David Gerard ต่างแชร์กรณีของตนที่มีการ บล็อกช่วง IP ของ MSFT, Google และ Ali
การหารือเรื่องแนวทางรับมือ
- Riku Voipio เสนอให้ใช้ เซิร์ฟเวอร์สำหรับสมาชิกเท่านั้น (subscriber.lwn.net) แต่ Corbet ตอบว่าอาจทำให้การรับสมาชิกใหม่ยากขึ้น
- Jani Nikula เสนอให้ เข้าถึงได้เฉพาะผู้ใช้ที่ลงทะเบียน แต่ Corbet ระบุว่ามีปัญหา บอตสร้างบัญชีอยู่แล้ว จึงมีประสิทธิผลต่ำ
- trademark เสนอให้ใช้ การแบ่งชาร์ดเนื้อหา (sharding) เพื่อเพิ่มประสิทธิภาพแคช แต่ Corbet ตอบว่าปัญหาไม่ได้อยู่ที่แคช
ประสบการณ์ที่ผู้ดูแลเว็บไซต์รายอื่นแชร์
- ผู้ดูแลหลายรายรายงานว่าเจอ รูปแบบการโจมตีคล้ายกัน
- Dec ระบุว่ามีการสแกนช่องโหว่ PHP และพยายามล็อกอิน wp-admin จาก IP ของ MSFT
- David Gerard อธิบายว่า RationalWiki กำลังรับมือด้วย การตรวจสอบคุกกี้แบบใช้ JavaScript ซึ่งมีผลข้างเคียงคือแม้แต่ Googlebot ก็ถูกบล็อก
- Catherine (whitequark) ระบุว่าเพียงแค่ จัดการการตอบกลับ 404 ก็ช่วยบรรเทาภาระของเซิร์ฟเวอร์ได้
มุมมองภายในชุมชน
- บางคนกล่าวว่า “เว็บกำลังพังจริง ๆ” พร้อมวิจารณ์ว่า การสแครปเพื่อ AI กำลังเร่งการล่มสลายของระบบนิเวศเว็บ
- Ayush Agarwal ชี้ว่าแม้แต่ในชุมชนเคอร์เนลเองก็ควรตระหนักถึงความจริงที่ว่า การใช้ LLM กำลังสร้างความเสียหายให้เว็บไซต์ขนาดเล็ก
- Martin Roukala พูดเชิงประชดว่า “มันเป็นปัญหาที่เกิดจากความเกี่ยวข้องมากเกินไป” แต่ Jani Nikula ตอบว่า “พวกสแครปเปอร์ไม่สนใจเรื่องแบบนั้น”
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
สงสัยว่าใครเป็นคนรัน สแครปเปอร์แบบก้าวร้าว พวกนี้
ถ้าเป็นแล็บ AI การไล่เก็บข้อมูลจากหลายไซต์พร้อมกันคงมีประสิทธิภาพดี แต่ก็ไม่เข้าใจว่าเหตุใดถึงยอมเสี่ยงด้านชื่อเสียงเพื่อทำให้เว็บไซต์ยอดนิยมทำงานหนักเกินไป
เป็นไปได้มากว่าเอาสแครปเปอร์ที่ AI สร้างให้มาทดสอบแบบลวกๆ แล้วปล่อยใช้งานทันที
แถมยังซ่อนตัวตนผ่าน ‘residential IP provider’ จึงแทบไม่มีความเสี่ยงด้านชื่อเสียง
ต่อให้เป็นบริษัทใหญ่แบบ OpenAI หรือ Anthropic ผู้คนก็คงปล่อยผ่านอยู่ดี
ด้วยเครื่องมืออย่าง Claude Cowork ผู้ใช้สามารถสร้างครอว์เลอร์เองได้ และผมเองก็เคยโดนบล็อกชั่วคราวหลังจากไปยิง หน้า 404 รัวๆ ใส่เว็บไซต์ NASA
สุดท้ายแม้แต่ผู้ใช้ที่ ‘มีเจตนาดี’ ก็ยังกำลังเปลี่ยนรูปแบบทราฟฟิกบนเว็บ
ดูสถิติที่เกี่ยวข้องได้ที่ Cloudflare AI Insights
นอกจาก GPTBot ของ OpenAI แล้ว ที่เหลือส่วนใหญ่เป็น บริษัทเล็กๆ ที่ไม่เคยได้ยินชื่อมาก่อน และบางรายถึงขั้นซ่อน User-Agent
ทั้งที่ข้อมูลมีอยู่แล้วใน Common Crawl แต่ก็ไม่เข้าใจว่าทำไมยังต้องมาสแครปอีก
ปัญหาใหญ่คือ AI เอาโค้ดโอเพนซอร์สไปขายต่อราวกับเป็นของตัวเอง เป็นการ เลี่ยงไลเซนส์
ไม่ใช่แค่โค้ด แต่คอนเทนต์ประเภทอื่นก็ถูกสแครปไปเหมือนกัน
เปลี่ยนแค่ชื่อตัวแปรเล็กน้อย แต่โครงสร้างเหมือนเดิม
ถ้าคนในบริษัททำแบบนี้คงโดนไล่ออกทันที
แต่พอเป็น AI กลับมาอ้างความชอบธรรมทางศีลธรรมด้วยคำว่า “fair use” มันแปลกมาก
การสแครปแบบนี้อาจไม่ใช่แค่การเก็บข้อมูลเพื่อ AI อย่างเดียว
เว็บไซต์ FOSS หลายแห่งถูกโจมตีต่อเนื่อง ซึ่งมัน ไม่คุ้มในเชิงเศรษฐศาสตร์
เลยอดคิดไม่ได้ว่าอาจมีเจตนาจะก่อกวนวงการเทคหรือชุมชนโอเพนซอร์สก็ได้
ทั้งที่เป็นโปรเจ็กต์ไม่แสวงกำไร แต่ก็มีทราฟฟิกระดับ DDOS ถาโถมเข้ามาจนสุดท้ายต้องตั้ง กำแพงล็อกอิน
ส่วนใหญ่ใช้ IP ที่อยู่อาศัย และดูเหมือนต้นตอของปัญหาจะเป็นคนที่คิดง่ายๆ ว่า “ทุกอย่างบนอินเทอร์เน็ตเป็นของฉัน”
บล็อกของผม ไม่น่าสนใจพอ เลยไม่เจอปัญหาการสแครป
อย่างที่บอกว่าเป็น “การโจมตี DDOS ที่เกี่ยวข้องกับที่อยู่นับหมื่น” การโจมตีนี้ กระจายตัวสูงมาก
แม้แต่เว็บเล็กๆ ก็ยังมีทราฟฟิกถาโถมมาจาก IP หลายพันรายการ
BrightData เป็นตัวอย่างที่เด่น แม้จะแพงกว่า IP จากดาต้าเซ็นเตอร์ แต่ก็ปิดกั้นได้ยากกว่า
การตีความที่แย่ที่สุดคือเป็นแค่ นักพัฒนาต่อต้านสังคม ที่ทำบอตแบบไม่คิดอะไรเลย
Residential proxy ควรถูกมองว่าเป็นมัลแวร์โดยพฤตินัย
ควรเพิ่มเข้าไปในฐานข้อมูลแอนติไวรัสและไล่ออกจากแอปสโตร์
สงสัยว่านี่เป็นการสแครปเพื่อฝึก AI จริงหรือเปล่า
ถ้าแยกไม่ออกจาก DDOS ปกติ ก็คงมั่นใจไม่ได้ไม่ใช่หรือ
ตอนนี้ดูเหมือนการโจมตีจะหยุดแล้ว
หน้าแรกก็โหลดได้ตามปกติ
ผมบล็อกสแครปเปอร์บล็อกด้วยการ เขียนทับเมธอด JavaScript เพื่อทำให้เนื้อหาในหน้าว่างเปล่า
ถ้าซ่อนองค์ประกอบด้วย Shadow DOM ก็ทำให้ยากขึ้นได้อีก
แต่วิธีพวกนี้จะสร้างปัญหาให้กับเครื่องมือทดสอบอย่าง Playwright หรือ Selenium รวมถึงการทำดัชนีของเสิร์ชเอนจิน
มีคนหนึ่งอ้างว่า “บริษัท AI กำลัง ทำ DDOS ให้เว็บคู่แข่งล่มเพื่อผูกขาดข้อมูล”
ต่อให้สแครปเว็บแบบนี้ AI ก็ไม่น่าได้อะไร และยิ่งดูเหมือนหวาดระแวงเกินไป