1 คะแนน โดย GN⁺ 2026-01-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • LWN.net กำลังเผชิญกับ การโจมตี DDoS ขนาดใหญ่ที่อาศัยการสแครปข้อมูล จากที่อยู่หลายหมื่นแห่ง ทำให้ความเร็วในการตอบสนองของเว็บไซต์ลดลง
  • Jonathan Corbet กล่าวถึงสถานการณ์ที่ต้องปกป้องเว็บไซต์จาก สแครปเปอร์ที่เกี่ยวข้องกับ AI โดยระบุว่าไม่อยากตั้งกำแพงต่อการเข้าถึงของผู้อ่าน แต่ก็อาจจำเป็น
  • ในชุมชนมีการพูดถึงความเป็นไปได้ที่บริษัทเก็บรวบรวมข้อมูลเชิงพาณิชย์อย่าง Bright Data อาจอยู่เบื้องหลังการโจมตี และมีผู้ใช้หลายรายรายงานว่าเกิด ทราฟฟิกพุ่งสูงในลักษณะคล้ายกัน
  • บางส่วนกำลังรับมือด้วย การสมัครรับข้อมูล RSS, การสร้างเว็บไซต์แบบสแตติก, LLM tarpit เป็นต้น และยังมีการแชร์กรณีที่การโจมตีมาจาก IP คลาวด์รายใหญ่อย่าง Azure, Google และ AliCloud
  • เหตุการณ์ครั้งนี้ถูกจับตาในฐานะตัวอย่างที่แสดงให้เห็นถึง ความเสียหายที่การเก็บข้อมูลเพื่อ AI สร้างต่อเสถียรภาพของระบบนิเวศเว็บและความยั่งยืนของผู้สร้างสรรค์ผลงาน

การโจมตีจากสแครปเปอร์ขนาดใหญ่ต่อ LWN.net

  • Jonathan Corbet เปิดเผยว่า LWN.net กำลังเผชิญกับ การโจมตีจากสแครปเปอร์ที่รุนแรงที่สุดเท่าที่เคยมีมา

    • การโจมตีอยู่ในรูปแบบ DDoS ที่ใช้ ที่อยู่ IP หลายหมื่นรายการ ทำให้การตอบสนองของเว็บไซต์ช้าลง
    • เขากล่าวว่า “การต้องปกป้อง LWN จากสแครปเปอร์ที่เกี่ยวข้องกับ AI ไม่ใช่สิ่งที่อยากทำ” พร้อมระบุว่าไม่ต้องการใช้มาตรการที่สร้างอุปสรรคต่อการเข้าถึงของผู้อ่าน แต่ก็อาจจำเป็น
  • Corbet ระบุว่ายังไม่สามารถชี้ชัดได้ว่าใครเป็นผู้โจมตี และกล่าวถึงความเป็นไปได้ที่ Bright Data หรือคู่แข่งลักษณะคล้ายกัน อาจมีส่วนเกี่ยวข้อง

    • บางช่วงมีภาระ CPU สูงอย่างรุนแรง และแม้จะสามารถขยายเซิร์ฟเวอร์ได้ แต่เขากล่าวว่า “มันน่าหงุดหงิดที่ต้องจ่ายเงินเพื่อป้อนบทความที่เขียนอย่างตั้งใจให้คนแบบนั้น”

ปฏิกิริยาและข้อเสนอจากชุมชน

  • Tristan Colgate-McFarlane ชี้ว่า เสิร์ชเอนจินแสดงเนื้อหาที่ถูกขโมยขึ้นมาก่อน ส่งผลให้ทราฟฟิกและรายได้โฆษณาของผู้สร้างต้นฉบับถูกแย่งไป
  • ผู้ใช้หลายรายรายงานว่าเคยเจอ ทราฟฟิกจาก AI สแครปเปอร์พุ่งสูง
    • Light Owl ระบุว่าทราฟฟิกของเว็บไซต์ตนเพิ่มขึ้น 20 เท่าจากปกติ
    • Ben Tasker อธิบายว่ากำลังใช้กับดักบอตแบบ LLM tarpit เพื่อบล็อกคำขอบางส่วน
  • บางรายรายงานว่าการโจมตีมาจาก IP คลาวด์รายใหญ่อย่าง Azure, Google, AliCloud
    • Dec, mx alex tax1a และ David Gerard ต่างแชร์กรณีของตนที่มีการ บล็อกช่วง IP ของ MSFT, Google และ Ali

การหารือเรื่องแนวทางรับมือ

  • Riku Voipio เสนอให้ใช้ เซิร์ฟเวอร์สำหรับสมาชิกเท่านั้น (subscriber.lwn.net) แต่ Corbet ตอบว่าอาจทำให้การรับสมาชิกใหม่ยากขึ้น
  • Jani Nikula เสนอให้ เข้าถึงได้เฉพาะผู้ใช้ที่ลงทะเบียน แต่ Corbet ระบุว่ามีปัญหา บอตสร้างบัญชีอยู่แล้ว จึงมีประสิทธิผลต่ำ
  • trademark เสนอให้ใช้ การแบ่งชาร์ดเนื้อหา (sharding) เพื่อเพิ่มประสิทธิภาพแคช แต่ Corbet ตอบว่าปัญหาไม่ได้อยู่ที่แคช

ประสบการณ์ที่ผู้ดูแลเว็บไซต์รายอื่นแชร์

  • ผู้ดูแลหลายรายรายงานว่าเจอ รูปแบบการโจมตีคล้ายกัน
    • Dec ระบุว่ามีการสแกนช่องโหว่ PHP และพยายามล็อกอิน wp-admin จาก IP ของ MSFT
    • David Gerard อธิบายว่า RationalWiki กำลังรับมือด้วย การตรวจสอบคุกกี้แบบใช้ JavaScript ซึ่งมีผลข้างเคียงคือแม้แต่ Googlebot ก็ถูกบล็อก
    • Catherine (whitequark) ระบุว่าเพียงแค่ จัดการการตอบกลับ 404 ก็ช่วยบรรเทาภาระของเซิร์ฟเวอร์ได้

มุมมองภายในชุมชน

  • บางคนกล่าวว่า “เว็บกำลังพังจริง ๆ” พร้อมวิจารณ์ว่า การสแครปเพื่อ AI กำลังเร่งการล่มสลายของระบบนิเวศเว็บ
  • Ayush Agarwal ชี้ว่าแม้แต่ในชุมชนเคอร์เนลเองก็ควรตระหนักถึงความจริงที่ว่า การใช้ LLM กำลังสร้างความเสียหายให้เว็บไซต์ขนาดเล็ก
  • Martin Roukala พูดเชิงประชดว่า “มันเป็นปัญหาที่เกิดจากความเกี่ยวข้องมากเกินไป” แต่ Jani Nikula ตอบว่า “พวกสแครปเปอร์ไม่สนใจเรื่องแบบนั้น”

1 ความคิดเห็น

 
GN⁺ 2026-01-19
ความคิดเห็นจาก Hacker News
  • สงสัยว่าใครเป็นคนรัน สแครปเปอร์แบบก้าวร้าว พวกนี้
    ถ้าเป็นแล็บ AI การไล่เก็บข้อมูลจากหลายไซต์พร้อมกันคงมีประสิทธิภาพดี แต่ก็ไม่เข้าใจว่าเหตุใดถึงยอมเสี่ยงด้านชื่อเสียงเพื่อทำให้เว็บไซต์ยอดนิยมทำงานหนักเกินไป

    • พอเห็นกรณีแบบนี้แล้ว มักรู้สึกว่าเป็นเพราะขาดทั้ง ความสามารถทางเทคนิคและความใส่ใจ
      เป็นไปได้มากว่าเอาสแครปเปอร์ที่ AI สร้างให้มาทดสอบแบบลวกๆ แล้วปล่อยใช้งานทันที
      แถมยังซ่อนตัวตนผ่าน ‘residential IP provider’ จึงแทบไม่มีความเสี่ยงด้านชื่อเสียง
      ต่อให้เป็นบริษัทใหญ่แบบ OpenAI หรือ Anthropic ผู้คนก็คงปล่อยผ่านอยู่ดี
    • ตอนแรกหลายคนสงสัยบริษัทอเมริกันรายใหญ่อย่าง OpenAI หรือ Anthropic แต่ในความเป็นจริงตอนนี้มี เอเจนต์ AI ส่วนบุคคล ที่ไล่สแครปหน้าเว็บเพิ่มขึ้นเรื่อยๆ
      ด้วยเครื่องมืออย่าง Claude Cowork ผู้ใช้สามารถสร้างครอว์เลอร์เองได้ และผมเองก็เคยโดนบล็อกชั่วคราวหลังจากไปยิง หน้า 404 รัวๆ ใส่เว็บไซต์ NASA
      สุดท้ายแม้แต่ผู้ใช้ที่ ‘มีเจตนาดี’ ก็ยังกำลังเปลี่ยนรูปแบบทราฟฟิกบนเว็บ
      ดูสถิติที่เกี่ยวข้องได้ที่ Cloudflare AI Insights
    • เว็บไซต์ส่วนตัวของผมก็เคยล่มเพราะสแครปเปอร์เป็นพักๆ
      นอกจาก GPTBot ของ OpenAI แล้ว ที่เหลือส่วนใหญ่เป็น บริษัทเล็กๆ ที่ไม่เคยได้ยินชื่อมาก่อน และบางรายถึงขั้นซ่อน User-Agent
      ทั้งที่ข้อมูลมีอยู่แล้วใน Common Crawl แต่ก็ไม่เข้าใจว่าทำไมยังต้องมาสแครปอีก
    • น่าจะมีใครสักคนสั่ง Claude Code ว่า “ให้เก็บถาวร LWN ทั้งหมด”
    • ใน LWN มี คลังเก็บเมลลิงลิสต์ หลายชุดรวมอยู่ด้วย นั่นอาจเป็นสาเหตุ
  • ปัญหาใหญ่คือ AI เอาโค้ดโอเพนซอร์สไปขายต่อราวกับเป็นของตัวเอง เป็นการ เลี่ยงไลเซนส์
    ไม่ใช่แค่โค้ด แต่คอนเทนต์ประเภทอื่นก็ถูกสแครปไปเหมือนกัน

    • ผมเคยทำโปรเจ็กต์เกี่ยวกับเกม DOS เก่า แล้ว Claude ก็สแครปโค้ดของผมไปแทบทั้งดุ้นแล้ว ผลิตซ้ำ ใต้ไลเซนส์อื่น
      เปลี่ยนแค่ชื่อตัวแปรเล็กน้อย แต่โครงสร้างเหมือนเดิม
      ถ้าคนในบริษัททำแบบนี้คงโดนไล่ออกทันที
      แต่พอเป็น AI กลับมาอ้างความชอบธรรมทางศีลธรรมด้วยคำว่า “fair use” มันแปลกมาก
    • สุดท้ายมันก็กลายเป็น การฟอกทรัพย์สินทางปัญญา ซึ่งเหมือนเงินฟอกรูปแบบใหม่
    • แต่ก็ยัง ไม่เคยมีคำพิพากษา ว่า AI ทำแบบนั้นได้อย่างถูกกฎหมาย มีเพียงฝั่งอุตสาหกรรม AI ที่อ้างกันเองเท่านั้น
  • การสแครปแบบนี้อาจไม่ใช่แค่การเก็บข้อมูลเพื่อ AI อย่างเดียว
    เว็บไซต์ FOSS หลายแห่งถูกโจมตีต่อเนื่อง ซึ่งมัน ไม่คุ้มในเชิงเศรษฐศาสตร์
    เลยอดคิดไม่ได้ว่าอาจมีเจตนาจะก่อกวนวงการเทคหรือชุมชนโอเพนซอร์สก็ได้

    • ชุมชนม็อดเกมของ NickHan ก็เจอการโจมตีแบบเดียวกัน
      ทั้งที่เป็นโปรเจ็กต์ไม่แสวงกำไร แต่ก็มีทราฟฟิกระดับ DDOS ถาโถมเข้ามาจนสุดท้ายต้องตั้ง กำแพงล็อกอิน
    • น่าจะมีนักวิทยาศาสตร์ข้อมูลจำนวนไม่น้อยที่ใช้สแครปเปอร์ที่ AI สร้างขึ้น โดยไม่สนใจเลยว่ามันจะไปถี่แค่ไหนกับแต่ละเว็บไซต์
    • ฟอรัมบางแห่งที่ผมติดตาม สุดท้ายก็อ่านไม่ได้ถ้าไม่ล็อกอิน
    • ผมเองก็ทำ วิกิเกมเบราว์เซอร์ ขนาดเล็ก และโดนบอตมากมายรวมถึง Claude กับ OpenAI ไล่สแครปอย่างหนัก
      ส่วนใหญ่ใช้ IP ที่อยู่อาศัย และดูเหมือนต้นตอของปัญหาจะเป็นคนที่คิดง่ายๆ ว่า “ทุกอย่างบนอินเทอร์เน็ตเป็นของฉัน”
    • ถ้าเป็นคอมมูนิตี้งานอดิเรกที่ยึดโยงกับพื้นที่ท้องถิ่น อย่างน้อยก็ยังบล็อกได้แรงหน่อย ซึ่งถือว่าโชคดี
  • บล็อกของผม ไม่น่าสนใจพอ เลยไม่เจอปัญหาการสแครป

    • แต่เพราะบล็อกนั้นเอง ผมเพิ่งรู้จัก Git Brag เป็นครั้งแรก น่าสนใจดี
    • ถ้าคุณทำให้ LLM รู้สึกเบื่อได้ นั่นก็ถือว่าเก่งเหมือนกัน
  • อย่างที่บอกว่าเป็น “การโจมตี DDOS ที่เกี่ยวข้องกับที่อยู่นับหมื่น” การโจมตีนี้ กระจายตัวสูงมาก
    แม้แต่เว็บเล็กๆ ก็ยังมีทราฟฟิกถาโถมมาจาก IP หลายพันรายการ

    • การโจมตีแบบนี้ส่วนใหญ่ทำผ่าน บริการ residential proxy
      BrightData เป็นตัวอย่างที่เด่น แม้จะแพงกว่า IP จากดาต้าเซ็นเตอร์ แต่ก็ปิดกั้นได้ยากกว่า
    • git.ardour.org ก็เคยโดน การสแครป git แบบไร้สาระ จาก IP มากกว่า 1 ล้านรายการ
    • การตีความแบบใจดีที่สุดคือบริษัท AI ไม่รู้ว่ามีทรัพยากรทางเลือกอย่าง CommonCrawl จึง ไล่สแครปเองโดยตรง และ
      การตีความที่แย่ที่สุดคือเป็นแค่ นักพัฒนาต่อต้านสังคม ที่ทำบอตแบบไม่คิดอะไรเลย
    • อยากเรียกการโจมตีแบบนี้ว่า “Distributed Intelligence Logic Denial Of Service (DILDOS)
  • Residential proxy ควรถูกมองว่าเป็นมัลแวร์โดยพฤตินัย
    ควรเพิ่มเข้าไปในฐานข้อมูลแอนติไวรัสและไล่ออกจากแอปสโตร์

  • สงสัยว่านี่เป็นการสแครปเพื่อฝึก AI จริงหรือเปล่า
    ถ้าแยกไม่ออกจาก DDOS ปกติ ก็คงมั่นใจไม่ได้ไม่ใช่หรือ

    • แต่ LWN เปิดมานานเกือบ 30 ปีแล้ว และก่อนยุค การครอว์ลิงของ AI ก็ไม่เคยมี DDOS
  • ตอนนี้ดูเหมือนการโจมตีจะหยุดแล้ว
    หน้าแรกก็โหลดได้ตามปกติ

  • ผมบล็อกสแครปเปอร์บล็อกด้วยการ เขียนทับเมธอด JavaScript เพื่อทำให้เนื้อหาในหน้าว่างเปล่า
    ถ้าซ่อนองค์ประกอบด้วย Shadow DOM ก็ทำให้ยากขึ้นได้อีก
    แต่วิธีพวกนี้จะสร้างปัญหาให้กับเครื่องมือทดสอบอย่าง Playwright หรือ Selenium รวมถึงการทำดัชนีของเสิร์ชเอนจิน

    • แต่ก็ ไม่แน่ใจเหมือนกัน ว่าวิธีนี้ได้ผลจริงแค่ไหน
    • การทำให้ฟังก์ชัน สร้างข้อมูลขยะ เพื่อทำให้บอตสับสนก็ดูเป็นไอเดียที่สนุกดี
  • มีคนหนึ่งอ้างว่า “บริษัท AI กำลัง ทำ DDOS ให้เว็บคู่แข่งล่มเพื่อผูกขาดข้อมูล

    • แต่ฟังดูเหมือน ทฤษฎีสมคบคิด
    • มันอาจเป็นกลยุทธ์แบบ ‘เตะบันไดทิ้ง’ ก็ได้
    • แต่ LWN ก็เป็นเว็บจดหมายข่าวเก่าอยู่แล้ว เลย แทบไม่มีข้อมูลที่มีมูลค่า
      ต่อให้สแครปเว็บแบบนี้ AI ก็ไม่น่าได้อะไร และยิ่งดูเหมือนหวาดระแวงเกินไป