"เว็บพังแล้ว" - ถ้าอุปกรณ์ของฉันกลายเป็น Botnet ที่ใช้โจมตีคนอื่น? การครอว์ลิงของ AI และระบบนิเวศพร็อกซีที่ซ่อนอยู่
(jan.wildeboer.net)- บริษัท AI บางแห่ง ฝัง 'SDK พร็อกซี P2P แบบทำให้กลายเป็นบอตเน็ต' ลงในแอปเพื่อเก็บข้อมูล ทำให้ผู้ใช้ถูกดึงเข้าไปเป็นส่วนหนึ่งของโครงสร้างพื้นฐานสำหรับเว็บครอว์ลิงโดยไม่รู้ตัว
- SDK นี้ นำแบนด์วิดท์เครือข่ายบางส่วนของผู้ใช้ (120~150kbps) ไป 'ขาย' โดยไม่ได้รับอนุญาต เพื่อสร้างรายได้ให้ผู้พัฒนา (18 เซนต์ต่อผู้ใช้ 1 คน) และถูกใช้ทำพฤติกรรมผิดปกติ เช่น การครอว์ลิงและการ brute-force เมลเซิร์ฟเวอร์
- บอตเน็ตนี้ ใช้ IP ที่อยู่อาศัย/มือถือจำนวนหลายหมื่นรายการเพื่อหลบการตรวจจับ และพยายามโจมตีเพียงวันละ 1 ครั้งต่อ 1 IP เพื่อหลีกเลี่ยงระบบความปลอดภัยอย่าง fail2ban
- กรณีตัวอย่างสำคัญคือ Infatica SDK เป็นต้น และนักพัฒนาแอปที่รวม SDK เหล่านี้เข้าไปก็แทบไม่ต่างจาก ทำให้ผู้ใช้ติดบอตเน็ต
- ตลาด 'residential proxy' กำลังเติบโตอย่างรวดเร็วจากความต้องการครอว์ลิงของ AI และในทางปฏิบัติก็คือโครงสร้างพื้นฐานสำหรับการครอว์ลิงที่ไม่ได้รับอนุญาต
- โครงสร้างบอตเน็ตลักษณะนี้คือการโจมตีไซเบอร์แบบลอบเร้นรูปแบบใหม่ และนักพัฒนาแอปกำลังมีส่วนร่วมในระบบนิเวศนี้
- ผู้เขียน นิยามการเว็บครอว์ลิงเองว่าเป็น 'การโจมตีรากฐานของเว็บ' พร้อมเรียกร้องความรับผิดชอบจากนักพัฒนาและบริษัทแพลตฟอร์ม และเสนอว่าควรบล็อกการครอว์ลิงทั้งหมด
สเตลธ์บอตเน็ต ตัวตนที่แท้จริง: Botnet Part 1
การโจมตีของบอตเน็ตต่อเมลเซิร์ฟเวอร์ส่วนตัว
- เมลเซิร์ฟเวอร์ของผู้เขียนถูกโจมตีแบบ SMTP brute-force อย่างต่อเนื่อง
- เป้าหมายของการโจมตี: ยึดบัญชีเพื่อพยายาม ส่งอีเมลสแปม
- แม้ส่วนใหญ่จะล้มเหลว แต่ ความพยายามนั้นเกิดขึ้นต่อเนื่องและดื้อดึง
ตัวตนของบอตเน็ต: การติดอุปกรณ์ผ่าน SDK
- จ่ายเงินให้นักพัฒนาแอปเพื่อแลกกับการฝัง SDK
- ตัวอย่าง: 18 เซนต์ต่อผู้ใช้ 1 คนต่อเดือน
- SDK นี้ ปล่อยเช่าทราฟฟิกบางส่วนของผู้ใช้ (120~150kbps)
- ถูกโฆษณาเป็น "P2P proxy" หรือ "residential proxy" แต่ความจริงคือ ใช้อุปกรณ์ของผู้ใช้เป็นโหนดของบอตเน็ต
วิธีการโจมตี: การโจมตีแบบกระจายที่ออกแบบมาเพื่อหลบการตรวจจับ
- พยายามล็อกอิน เพียงครั้งเดียวต่อ IP ต่อวัน → หลบระบบตรวจจับอัตโนมัติอย่าง fail2ban, UFW
- แต่เพราะมี IP หลายหมื่นรายการ จึงสามารถโจมตีได้ อย่างต่อเนื่องและกระจายตัว
- ผู้เขียนชี้ว่าวิธีนี้ ทำให้เครื่องมือความปลอดภัยมาตรฐานใช้การไม่ได้
ความไม่มีประสิทธิภาพของการบล็อกตาม ASN
- วิเคราะห์ว่า IP กระจุกอยู่ที่ผู้ให้บริการเครือข่าย (ASN) รายใดหรือไม่
- ผลลัพธ์: มี IP โจมตีเฉลี่ยไม่ถึง 4 รายการต่อ ASN → การบล็อกทั้ง ASN จึงไม่คุ้มค่า
- ปัจจุบันยังคงใช้วิธี วิเคราะห์ล็อกทุกวัน → ส่งอีเมลคำสั่งบล็อก IP ใหม่ → บล็อกด้วยมือ
วิธีรับมือและแนวคิด
- แม้จะทำอัตโนมัติได้ แต่ผู้เขียนเลือก ตรวจดูและรับมือด้วยตนเองเพื่อจับรูปแบบและคงความตระหนักในการเฝ้าระวัง
- จำนวน IP ของผู้โจมตี: ปัจจุบัน บล็อกไปแล้วมากกว่าประมาณ 50,000 รายการ
- ส่วนใหญ่เป็น IPv4 และการโจมตีผ่าน IPv6 ยังพบไม่มาก
ความจริงของระบบนิเวศบอตเน็ต
- โครงสร้างการกระจายแบบ "รวม SDK → แบ่งรายได้" ที่ดูเหมือนถูกกฎหมาย
- แต่ความจริงคือการนำทราฟฟิกของผู้ใช้ไปใช้โดยไม่ยินยอมเพื่อ สแปม การโจมตี การครอว์ลิง ฯลฯ
- บอตเน็ตลักษณะนี้ ไม่ถูกตรวจจับโดยแอนติไวรัสหรือระบบความปลอดภัยทั่วไป
บทสรุป
- หากนักพัฒนาแอปรวม SDK แบบนี้เข้าไป ก็เท่ากับว่า มีส่วนร่วมในการสร้างบอตเน็ต
- ผู้ใช้ทั่วไปไม่สามารถรู้ได้ว่าแอปมี SDK เหล่านี้อยู่หรือไม่ และจึง ถูกดึงเข้าร่วมบอตเน็ตโดยอัตโนมัติ
- จากความตระหนักต่อปัญหานี้ ผู้เขียนเตือนถึง การพังทลายของระบบนิเวศเว็บ
"ผมไม่เชื่อบริษัทที่อ้างว่านี่คือ 'SDK ปกติ' เลยแม้แต่น้อย นี่คือบอตเน็ต"
— Jan Wildeboer, กุมภาพันธ์ 2025
# เว็บพังแล้ว: Botnet Part 2
การเพิ่มขึ้นอย่างรวดเร็วของเว็บครอว์เลอร์และฉากหลัง
- ช่วงหลังมานี้ ความต้องการ เก็บข้อมูลขนาดใหญ่เพื่อฝึกโมเดล AI เพิ่มสูงขึ้น
- บริษัท AI กวาดเอาคอนเทนต์บนเว็บทั้งหมดไปอย่างเงียบ ๆ จนทำให้เกิดภาระทราฟฟิกเกิน
- เว็บมาสเตอร์และผู้ดูแลเซิร์ฟเวอร์ทั่วไปต่างถูกรบกวนจากครอว์เลอร์ แต่ บ่อยครั้งไม่รู้ด้วยซ้ำว่าใครเป็นผู้ควบคุมครอว์เลอร์เหล่านั้น
รูปแบบใหม่ของบอตเน็ต: การติดผู้ใช้ผ่าน SDK
- บางบริษัท จ่ายเงินให้นักพัฒนาแอปเป็นค่าตอบแทนในการฝัง SDK
- ผู้ใช้ทั่วไปที่ติดตั้งแอปซึ่งรวม SDK ดังกล่าวไว้ จะถูกนำทราฟฟิกของตนไปใช้สำหรับ AI crawler โดยไม่รู้ตัว
- SDK เหล่านี้สามารถฝังลงในแอป iOS, Android, MacOS, Windows ได้
กรณีตัวอย่าง: Infatica
- เว็บไซต์: https://infatica.io
- ในหน้าคำอธิบายสำหรับนักพัฒนา มีการโปรโมตว่าสามารถ ครอว์ลิงผ่านเครือข่ายของผู้ใช้ได้
- อ้างว่าสามารถให้บริการ IP แบบ หมุนเวียน (residential/mobile) ได้หลายล้านรายการ
ทำไมสิ่งนี้ถึงเป็นปัญหา?
- บริษัทอย่าง Infatica อ้างว่าตนคอยตรวจสอบว่าลูกค้า (เช่น บริษัท AI ที่ต้องการครอว์ลิง) รันคำสั่งอะไรอยู่บ้าง แต่ในทางปฏิบัติโครงสร้างนี้คือการปัดความรับผิดชอบ
- รายงานของ Trend Micro ปี 2023 ก็ยืนยันว่ามีกรณีคล้ายกัน
- บางกรณี แอบฝัง SDK ลงในซอฟต์แวร์ฟรีแล้วแจกจ่าย โดยติดตั้งโดยที่ผู้ใช้ไม่ยินยอม
ผลกระทบ: ทั้งผู้ใช้บุคคลและเซิร์ฟเวอร์ขนาดเล็กได้รับผลเสีย
- นักพัฒนาแอป: ถูกล่อด้วยผลตอบแทนทางการเงินให้รวม SDK เข้าไป → แทบไม่ต่างจาก ผู้เผยแพร่มัลแวร์
- ผู้ใช้: อุปกรณ์และเครือข่ายของตนถูกใช้กับ เว็บครอว์ลิงและ DDoS
- ผู้ดูแลเซิร์ฟเวอร์: กลายเป็นเป้าหมายที่ได้รับ คำขอปริมาณมากเกินไปโดยไม่รู้ตัว
- ตัวอย่าง: อินสแตนซ์
Forgejoของผู้เขียนก็ถูกตั้งเป็นไม่สาธารณะเพราะทราฟฟิกบอตมากเกินไป
- ตัวอย่าง: อินสแตนซ์
ภาพลักษณ์ที่เรียกว่า 'residential proxy'
- พร็อกซีที่ใช้อุปกรณ์ของผู้ใช้เป็นจุดผ่านถูกเรียกว่า "residential IP"
- ตัวอย่างเว็บรีวิวบริการพร็อกซี:
https://proxyway.com/reviews - ภายนอกดูเหมือนเป็น 'โครงสร้างพื้นฐานที่ถูกกฎหมาย' แต่แท้จริงแล้วเป็น โครงสร้างการแพร่กระจายและทำพร็อกซีโดยไม่ได้รับอนุญาต
บทสรุป: เว็บครอว์ลิงตอนนี้ถูกใช้เกินขอบเขตแล้ว
- ผู้เขียนเสนอว่า การเว็บครอว์ลิงทุกรูปแบบควรถูกมองว่าเป็นการกระทำที่เป็นอันตราย
- มองว่าพวกเว็บครอว์เลอร์กำลัง โจมตีรากฐานของเว็บ
- AI คือแรงขับเคลื่อนหลักของโครงสร้างนี้ และผู้เขียนคัดค้านอย่างหนักต่อคำกล่าวอ้างว่าสิ่งนี้เป็นเรื่อง ‘ถูกกฎหมาย’
ข้อเสนอและประเด็นปัญหา
- นักพัฒนาแอปที่รวม SDK แบบนี้ต้องรับผิดชอบ
- ผู้ดูแลแพลตฟอร์มอย่าง Apple, Google, Microsoft ต้องเข้ามาควบคุมตลาดนี้
- แทบเป็นไปไม่ได้เลยที่ผู้ใช้ทั่วไปจะระบุหรือบล็อกสิ่งนี้ได้
- ผู้ดูแลเว็บพยายาม บล็อกครอว์เลอร์ด้วยวิธีทางเทคนิค แต่ก็ยังมีข้อจำกัด
“เพราะ AI เว็บจึงกำลังกลายเป็นพื้นที่ที่ไม่อาจไว้ใจได้อีกต่อไป ขอบคุณนะ AI”
– Jan Wildeboer, เมษายน 2025
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
การที่นักพัฒนาแอปรวม 3rd party SDK เข้าไปเพื่อสร้างรายได้เป็นส่วนหนึ่งของปัญหา และควรต้องรับผิดชอบต่อการส่งมอบมัลแวร์ให้ผู้ใช้
มีตลาดที่ทำให้นักพัฒนาแอปรวมไลบรารีสำหรับขายแบนด์วิดท์เครือข่ายของผู้ใช้บน iOS, Android, MacOS, Windows
ปัญหาของเว็บคือเพื่อให้ข้อมูลยังคงอ่านได้ จะต้องมีผู้ดูแลระบบบางคนคอยดูแลเซิร์ฟเวอร์
ซอฟต์แวร์แชร์เครือข่ายควรถูกจัดเป็นแอปพลิเคชันไม่พึงประสงค์
แอปที่มีมัลแวร์ควรถูกกักกันทันที
การสแครปเว็บควรถูกมองว่าเป็นการใช้งานในทางที่ผิด และเว็บเซิร์ฟเวอร์ควรบล็อกมัน
สงสัยว่ามีใครเคยรวบรวมรายชื่อซอฟต์แวร์ที่ใช้ไลบรารีเหล่านี้ไว้หรือไม่
พร็อกซี residential IP มีจุดอ่อนคือที่อยู่ IP เปลี่ยนบ่อย
จนถึงตอนนี้ยังไม่มีหลักฐานที่ชัดเจน แต่พฤติกรรมแบบนี้ตรวจจับได้ไม่ยาก
สงสัยว่ามีรายชื่อเซิร์ฟเวอร์ c&c ที่สามารถนำไปเพิ่มใน Pihole หรือเครื่องมืออื่นได้หรือไม่