LWN กำลังเผชิญกับการโจมตีจากสแครปเปอร์ที่รุนแรงที่สุดเท่าที่เคยมีมา

(social.kernel.org)

1 คะแนน โดย GN⁺ 2026-01-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

LWN.net กำลังเผชิญกับ การโจมตี DDoS ขนาดใหญ่ที่อาศัยการสแครปข้อมูล จากที่อยู่หลายหมื่นแห่ง ทำให้ความเร็วในการตอบสนองของเว็บไซต์ลดลง
Jonathan Corbet กล่าวถึงสถานการณ์ที่ต้องปกป้องเว็บไซต์จาก สแครปเปอร์ที่เกี่ยวข้องกับ AI โดยระบุว่าไม่อยากตั้งกำแพงต่อการเข้าถึงของผู้อ่าน แต่ก็อาจจำเป็น
ในชุมชนมีการพูดถึงความเป็นไปได้ที่บริษัทเก็บรวบรวมข้อมูลเชิงพาณิชย์อย่าง Bright Data อาจอยู่เบื้องหลังการโจมตี และมีผู้ใช้หลายรายรายงานว่าเกิด ทราฟฟิกพุ่งสูงในลักษณะคล้ายกัน
บางส่วนกำลังรับมือด้วย การสมัครรับข้อมูล RSS, การสร้างเว็บไซต์แบบสแตติก, LLM tarpit เป็นต้น และยังมีการแชร์กรณีที่การโจมตีมาจาก IP คลาวด์รายใหญ่อย่าง Azure, Google และ AliCloud
เหตุการณ์ครั้งนี้ถูกจับตาในฐานะตัวอย่างที่แสดงให้เห็นถึง ความเสียหายที่การเก็บข้อมูลเพื่อ AI สร้างต่อเสถียรภาพของระบบนิเวศเว็บและความยั่งยืนของผู้สร้างสรรค์ผลงาน

การโจมตีจากสแครปเปอร์ขนาดใหญ่ต่อ LWN.net

Jonathan Corbet เปิดเผยว่า LWN.net กำลังเผชิญกับ การโจมตีจากสแครปเปอร์ที่รุนแรงที่สุดเท่าที่เคยมีมา
- การโจมตีอยู่ในรูปแบบ DDoS ที่ใช้ ที่อยู่ IP หลายหมื่นรายการ ทำให้การตอบสนองของเว็บไซต์ช้าลง
- เขากล่าวว่า “การต้องปกป้อง LWN จากสแครปเปอร์ที่เกี่ยวข้องกับ AI ไม่ใช่สิ่งที่อยากทำ” พร้อมระบุว่าไม่ต้องการใช้มาตรการที่สร้างอุปสรรคต่อการเข้าถึงของผู้อ่าน แต่ก็อาจจำเป็น
Corbet ระบุว่ายังไม่สามารถชี้ชัดได้ว่าใครเป็นผู้โจมตี และกล่าวถึงความเป็นไปได้ที่ Bright Data หรือคู่แข่งลักษณะคล้ายกัน อาจมีส่วนเกี่ยวข้อง
- บางช่วงมีภาระ CPU สูงอย่างรุนแรง และแม้จะสามารถขยายเซิร์ฟเวอร์ได้ แต่เขากล่าวว่า “มันน่าหงุดหงิดที่ต้องจ่ายเงินเพื่อป้อนบทความที่เขียนอย่างตั้งใจให้คนแบบนั้น”

ปฏิกิริยาและข้อเสนอจากชุมชน

Tristan Colgate-McFarlane ชี้ว่า เสิร์ชเอนจินแสดงเนื้อหาที่ถูกขโมยขึ้นมาก่อน ส่งผลให้ทราฟฟิกและรายได้โฆษณาของผู้สร้างต้นฉบับถูกแย่งไป
ผู้ใช้หลายรายรายงานว่าเคยเจอ ทราฟฟิกจาก AI สแครปเปอร์พุ่งสูง
- Light Owl ระบุว่าทราฟฟิกของเว็บไซต์ตนเพิ่มขึ้น 20 เท่าจากปกติ
- Ben Tasker อธิบายว่ากำลังใช้กับดักบอตแบบ LLM tarpit เพื่อบล็อกคำขอบางส่วน
บางรายรายงานว่าการโจมตีมาจาก IP คลาวด์รายใหญ่อย่าง Azure, Google, AliCloud
- Dec, mx alex tax1a และ David Gerard ต่างแชร์กรณีของตนที่มีการ บล็อกช่วง IP ของ MSFT, Google และ Ali

การหารือเรื่องแนวทางรับมือ

Riku Voipio เสนอให้ใช้ เซิร์ฟเวอร์สำหรับสมาชิกเท่านั้น (subscriber.lwn.net) แต่ Corbet ตอบว่าอาจทำให้การรับสมาชิกใหม่ยากขึ้น
Jani Nikula เสนอให้ เข้าถึงได้เฉพาะผู้ใช้ที่ลงทะเบียน แต่ Corbet ระบุว่ามีปัญหา บอตสร้างบัญชีอยู่แล้ว จึงมีประสิทธิผลต่ำ
trademark เสนอให้ใช้ การแบ่งชาร์ดเนื้อหา (sharding) เพื่อเพิ่มประสิทธิภาพแคช แต่ Corbet ตอบว่าปัญหาไม่ได้อยู่ที่แคช

ประสบการณ์ที่ผู้ดูแลเว็บไซต์รายอื่นแชร์

ผู้ดูแลหลายรายรายงานว่าเจอ รูปแบบการโจมตีคล้ายกัน
- Dec ระบุว่ามีการสแกนช่องโหว่ PHP และพยายามล็อกอิน wp-admin จาก IP ของ MSFT
- David Gerard อธิบายว่า RationalWiki กำลังรับมือด้วย การตรวจสอบคุกกี้แบบใช้ JavaScript ซึ่งมีผลข้างเคียงคือแม้แต่ Googlebot ก็ถูกบล็อก
- Catherine (whitequark) ระบุว่าเพียงแค่ จัดการการตอบกลับ 404 ก็ช่วยบรรเทาภาระของเซิร์ฟเวอร์ได้

มุมมองภายในชุมชน

บางคนกล่าวว่า “เว็บกำลังพังจริง ๆ” พร้อมวิจารณ์ว่า การสแครปเพื่อ AI กำลังเร่งการล่มสลายของระบบนิเวศเว็บ
Ayush Agarwal ชี้ว่าแม้แต่ในชุมชนเคอร์เนลเองก็ควรตระหนักถึงความจริงที่ว่า การใช้ LLM กำลังสร้างความเสียหายให้เว็บไซต์ขนาดเล็ก
Martin Roukala พูดเชิงประชดว่า “มันเป็นปัญหาที่เกิดจากความเกี่ยวข้องมากเกินไป” แต่ Jani Nikula ตอบว่า “พวกสแครปเปอร์ไม่สนใจเรื่องแบบนั้น”

1 ความคิดเห็น

GN⁺ 2026-01-19

ความคิดเห็นจาก Hacker News

สงสัยว่าใครเป็นคนรัน สแครปเปอร์แบบก้าวร้าว พวกนี้
ถ้าเป็นแล็บ AI การไล่เก็บข้อมูลจากหลายไซต์พร้อมกันคงมีประสิทธิภาพดี แต่ก็ไม่เข้าใจว่าเหตุใดถึงยอมเสี่ยงด้านชื่อเสียงเพื่อทำให้เว็บไซต์ยอดนิยมทำงานหนักเกินไป
- พอเห็นกรณีแบบนี้แล้ว มักรู้สึกว่าเป็นเพราะขาดทั้ง ความสามารถทางเทคนิคและความใส่ใจ
  เป็นไปได้มากว่าเอาสแครปเปอร์ที่ AI สร้างให้มาทดสอบแบบลวกๆ แล้วปล่อยใช้งานทันที
  แถมยังซ่อนตัวตนผ่าน ‘residential IP provider’ จึงแทบไม่มีความเสี่ยงด้านชื่อเสียง
  ต่อให้เป็นบริษัทใหญ่แบบ OpenAI หรือ Anthropic ผู้คนก็คงปล่อยผ่านอยู่ดี
- ตอนแรกหลายคนสงสัยบริษัทอเมริกันรายใหญ่อย่าง OpenAI หรือ Anthropic แต่ในความเป็นจริงตอนนี้มี เอเจนต์ AI ส่วนบุคคล ที่ไล่สแครปหน้าเว็บเพิ่มขึ้นเรื่อยๆ
  ด้วยเครื่องมืออย่าง Claude Cowork ผู้ใช้สามารถสร้างครอว์เลอร์เองได้ และผมเองก็เคยโดนบล็อกชั่วคราวหลังจากไปยิง หน้า 404 รัวๆ ใส่เว็บไซต์ NASA
  สุดท้ายแม้แต่ผู้ใช้ที่ ‘มีเจตนาดี’ ก็ยังกำลังเปลี่ยนรูปแบบทราฟฟิกบนเว็บ
  ดูสถิติที่เกี่ยวข้องได้ที่ Cloudflare AI Insights
- เว็บไซต์ส่วนตัวของผมก็เคยล่มเพราะสแครปเปอร์เป็นพักๆ
  นอกจาก GPTBot ของ OpenAI แล้ว ที่เหลือส่วนใหญ่เป็น บริษัทเล็กๆ ที่ไม่เคยได้ยินชื่อมาก่อน และบางรายถึงขั้นซ่อน User-Agent
  ทั้งที่ข้อมูลมีอยู่แล้วใน Common Crawl แต่ก็ไม่เข้าใจว่าทำไมยังต้องมาสแครปอีก
- น่าจะมีใครสักคนสั่ง Claude Code ว่า “ให้เก็บถาวร LWN ทั้งหมด”
- ใน LWN มี คลังเก็บเมลลิงลิสต์ หลายชุดรวมอยู่ด้วย นั่นอาจเป็นสาเหตุ
ปัญหาใหญ่คือ AI เอาโค้ดโอเพนซอร์สไปขายต่อราวกับเป็นของตัวเอง เป็นการ เลี่ยงไลเซนส์
ไม่ใช่แค่โค้ด แต่คอนเทนต์ประเภทอื่นก็ถูกสแครปไปเหมือนกัน
- ผมเคยทำโปรเจ็กต์เกี่ยวกับเกม DOS เก่า แล้ว Claude ก็สแครปโค้ดของผมไปแทบทั้งดุ้นแล้ว ผลิตซ้ำ ใต้ไลเซนส์อื่น
  เปลี่ยนแค่ชื่อตัวแปรเล็กน้อย แต่โครงสร้างเหมือนเดิม
  ถ้าคนในบริษัททำแบบนี้คงโดนไล่ออกทันที
  แต่พอเป็น AI กลับมาอ้างความชอบธรรมทางศีลธรรมด้วยคำว่า “fair use” มันแปลกมาก
- สุดท้ายมันก็กลายเป็น การฟอกทรัพย์สินทางปัญญา ซึ่งเหมือนเงินฟอกรูปแบบใหม่
- แต่ก็ยัง ไม่เคยมีคำพิพากษา ว่า AI ทำแบบนั้นได้อย่างถูกกฎหมาย มีเพียงฝั่งอุตสาหกรรม AI ที่อ้างกันเองเท่านั้น
การสแครปแบบนี้อาจไม่ใช่แค่การเก็บข้อมูลเพื่อ AI อย่างเดียว
เว็บไซต์ FOSS หลายแห่งถูกโจมตีต่อเนื่อง ซึ่งมัน ไม่คุ้มในเชิงเศรษฐศาสตร์
เลยอดคิดไม่ได้ว่าอาจมีเจตนาจะก่อกวนวงการเทคหรือชุมชนโอเพนซอร์สก็ได้
- ชุมชนม็อดเกมของ NickHan ก็เจอการโจมตีแบบเดียวกัน
  ทั้งที่เป็นโปรเจ็กต์ไม่แสวงกำไร แต่ก็มีทราฟฟิกระดับ DDOS ถาโถมเข้ามาจนสุดท้ายต้องตั้ง กำแพงล็อกอิน
- น่าจะมีนักวิทยาศาสตร์ข้อมูลจำนวนไม่น้อยที่ใช้สแครปเปอร์ที่ AI สร้างขึ้น โดยไม่สนใจเลยว่ามันจะไปถี่แค่ไหนกับแต่ละเว็บไซต์
- ฟอรัมบางแห่งที่ผมติดตาม สุดท้ายก็อ่านไม่ได้ถ้าไม่ล็อกอิน
- ผมเองก็ทำ วิกิเกมเบราว์เซอร์ ขนาดเล็ก และโดนบอตมากมายรวมถึง Claude กับ OpenAI ไล่สแครปอย่างหนัก
  ส่วนใหญ่ใช้ IP ที่อยู่อาศัย และดูเหมือนต้นตอของปัญหาจะเป็นคนที่คิดง่ายๆ ว่า “ทุกอย่างบนอินเทอร์เน็ตเป็นของฉัน”
- ถ้าเป็นคอมมูนิตี้งานอดิเรกที่ยึดโยงกับพื้นที่ท้องถิ่น อย่างน้อยก็ยังบล็อกได้แรงหน่อย ซึ่งถือว่าโชคดี
บล็อกของผม ไม่น่าสนใจพอ เลยไม่เจอปัญหาการสแครป
- แต่เพราะบล็อกนั้นเอง ผมเพิ่งรู้จัก Git Brag เป็นครั้งแรก น่าสนใจดี
- ถ้าคุณทำให้ LLM รู้สึกเบื่อได้ นั่นก็ถือว่าเก่งเหมือนกัน
อย่างที่บอกว่าเป็น “การโจมตี DDOS ที่เกี่ยวข้องกับที่อยู่นับหมื่น” การโจมตีนี้ กระจายตัวสูงมาก
แม้แต่เว็บเล็กๆ ก็ยังมีทราฟฟิกถาโถมมาจาก IP หลายพันรายการ
- การโจมตีแบบนี้ส่วนใหญ่ทำผ่าน บริการ residential proxy
  BrightData เป็นตัวอย่างที่เด่น แม้จะแพงกว่า IP จากดาต้าเซ็นเตอร์ แต่ก็ปิดกั้นได้ยากกว่า
- git.ardour.org ก็เคยโดน การสแครป git แบบไร้สาระ จาก IP มากกว่า 1 ล้านรายการ
- การตีความแบบใจดีที่สุดคือบริษัท AI ไม่รู้ว่ามีทรัพยากรทางเลือกอย่าง CommonCrawl จึง ไล่สแครปเองโดยตรง และ
  การตีความที่แย่ที่สุดคือเป็นแค่ นักพัฒนาต่อต้านสังคม ที่ทำบอตแบบไม่คิดอะไรเลย
- อยากเรียกการโจมตีแบบนี้ว่า “Distributed Intelligence Logic Denial Of Service (DILDOS) ”
Residential proxy ควรถูกมองว่าเป็นมัลแวร์โดยพฤตินัย
ควรเพิ่มเข้าไปในฐานข้อมูลแอนติไวรัสและไล่ออกจากแอปสโตร์
สงสัยว่านี่เป็นการสแครปเพื่อฝึก AI จริงหรือเปล่า
ถ้าแยกไม่ออกจาก DDOS ปกติ ก็คงมั่นใจไม่ได้ไม่ใช่หรือ
- แต่ LWN เปิดมานานเกือบ 30 ปีแล้ว และก่อนยุค การครอว์ลิงของ AI ก็ไม่เคยมี DDOS
ตอนนี้ดูเหมือนการโจมตีจะหยุดแล้ว
หน้าแรกก็โหลดได้ตามปกติ
ผมบล็อกสแครปเปอร์บล็อกด้วยการ เขียนทับเมธอด JavaScript เพื่อทำให้เนื้อหาในหน้าว่างเปล่า
ถ้าซ่อนองค์ประกอบด้วย Shadow DOM ก็ทำให้ยากขึ้นได้อีก
แต่วิธีพวกนี้จะสร้างปัญหาให้กับเครื่องมือทดสอบอย่าง Playwright หรือ Selenium รวมถึงการทำดัชนีของเสิร์ชเอนจิน
- แต่ก็ ไม่แน่ใจเหมือนกัน ว่าวิธีนี้ได้ผลจริงแค่ไหน
- การทำให้ฟังก์ชัน สร้างข้อมูลขยะ เพื่อทำให้บอตสับสนก็ดูเป็นไอเดียที่สนุกดี
มีคนหนึ่งอ้างว่า “บริษัท AI กำลัง ทำ DDOS ให้เว็บคู่แข่งล่มเพื่อผูกขาดข้อมูล”
- แต่ฟังดูเหมือน ทฤษฎีสมคบคิด
- มันอาจเป็นกลยุทธ์แบบ ‘เตะบันไดทิ้ง’ ก็ได้
- แต่ LWN ก็เป็นเว็บจดหมายข่าวเก่าอยู่แล้ว เลย แทบไม่มีข้อมูลที่มีมูลค่า
  ต่อให้สแครปเว็บแบบนี้ AI ก็ไม่น่าได้อะไร และยิ่งดูเหมือนหวาดระแวงเกินไป

LWN กำลังเผชิญกับการโจมตีจากสแครปเปอร์ที่รุนแรงที่สุดเท่าที่เคยมีมา

การโจมตีจากสแครปเปอร์ขนาดใหญ่ต่อ LWN.net

ปฏิกิริยาและข้อเสนอจากชุมชน

การหารือเรื่องแนวทางรับมือ

ประสบการณ์ที่ผู้ดูแลเว็บไซต์รายอื่นแชร์

มุมมองภายในชุมชน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News