"เว็บพังแล้ว" - ถ้าอุปกรณ์ของฉันกลายเป็น Botnet ที่ใช้โจมตีคนอื่น? การครอว์ลิงของ AI และระบบนิเวศพร็อกซีที่ซ่อนอยู่

(jan.wildeboer.net)

8 คะแนน โดย GN⁺ 2025-04-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

บริษัท AI บางแห่ง ฝัง 'SDK พร็อกซี P2P แบบทำให้กลายเป็นบอตเน็ต' ลงในแอปเพื่อเก็บข้อมูล ทำให้ผู้ใช้ถูกดึงเข้าไปเป็นส่วนหนึ่งของโครงสร้างพื้นฐานสำหรับเว็บครอว์ลิงโดยไม่รู้ตัว
SDK นี้ นำแบนด์วิดท์เครือข่ายบางส่วนของผู้ใช้ (120~150kbps) ไป 'ขาย' โดยไม่ได้รับอนุญาต เพื่อสร้างรายได้ให้ผู้พัฒนา (18 เซนต์ต่อผู้ใช้ 1 คน) และถูกใช้ทำพฤติกรรมผิดปกติ เช่น การครอว์ลิงและการ brute-force เมลเซิร์ฟเวอร์
บอตเน็ตนี้ ใช้ IP ที่อยู่อาศัย/มือถือจำนวนหลายหมื่นรายการเพื่อหลบการตรวจจับ และพยายามโจมตีเพียงวันละ 1 ครั้งต่อ 1 IP เพื่อหลีกเลี่ยงระบบความปลอดภัยอย่าง fail2ban
กรณีตัวอย่างสำคัญคือ Infatica SDK เป็นต้น และนักพัฒนาแอปที่รวม SDK เหล่านี้เข้าไปก็แทบไม่ต่างจาก ทำให้ผู้ใช้ติดบอตเน็ต
ตลาด 'residential proxy' กำลังเติบโตอย่างรวดเร็วจากความต้องการครอว์ลิงของ AI และในทางปฏิบัติก็คือโครงสร้างพื้นฐานสำหรับการครอว์ลิงที่ไม่ได้รับอนุญาต
โครงสร้างบอตเน็ตลักษณะนี้คือการโจมตีไซเบอร์แบบลอบเร้นรูปแบบใหม่ และนักพัฒนาแอปกำลังมีส่วนร่วมในระบบนิเวศนี้
ผู้เขียน นิยามการเว็บครอว์ลิงเองว่าเป็น 'การโจมตีรากฐานของเว็บ' พร้อมเรียกร้องความรับผิดชอบจากนักพัฒนาและบริษัทแพลตฟอร์ม และเสนอว่าควรบล็อกการครอว์ลิงทั้งหมด

สเตลธ์บอตเน็ต ตัวตนที่แท้จริง: Botnet Part 1

การโจมตีของบอตเน็ตต่อเมลเซิร์ฟเวอร์ส่วนตัว

เมลเซิร์ฟเวอร์ของผู้เขียนถูกโจมตีแบบ SMTP brute-force อย่างต่อเนื่อง
เป้าหมายของการโจมตี: ยึดบัญชีเพื่อพยายาม ส่งอีเมลสแปม
แม้ส่วนใหญ่จะล้มเหลว แต่ ความพยายามนั้นเกิดขึ้นต่อเนื่องและดื้อดึง

ตัวตนของบอตเน็ต: การติดอุปกรณ์ผ่าน SDK

จ่ายเงินให้นักพัฒนาแอปเพื่อแลกกับการฝัง SDK
- ตัวอย่าง: 18 เซนต์ต่อผู้ใช้ 1 คนต่อเดือน
SDK นี้ ปล่อยเช่าทราฟฟิกบางส่วนของผู้ใช้ (120~150kbps)
ถูกโฆษณาเป็น "P2P proxy" หรือ "residential proxy" แต่ความจริงคือ ใช้อุปกรณ์ของผู้ใช้เป็นโหนดของบอตเน็ต

วิธีการโจมตี: การโจมตีแบบกระจายที่ออกแบบมาเพื่อหลบการตรวจจับ

พยายามล็อกอิน เพียงครั้งเดียวต่อ IP ต่อวัน → หลบระบบตรวจจับอัตโนมัติอย่าง fail2ban, UFW
แต่เพราะมี IP หลายหมื่นรายการ จึงสามารถโจมตีได้ อย่างต่อเนื่องและกระจายตัว
ผู้เขียนชี้ว่าวิธีนี้ ทำให้เครื่องมือความปลอดภัยมาตรฐานใช้การไม่ได้

ความไม่มีประสิทธิภาพของการบล็อกตาม ASN

วิเคราะห์ว่า IP กระจุกอยู่ที่ผู้ให้บริการเครือข่าย (ASN) รายใดหรือไม่
- ผลลัพธ์: มี IP โจมตีเฉลี่ยไม่ถึง 4 รายการต่อ ASN → การบล็อกทั้ง ASN จึงไม่คุ้มค่า
ปัจจุบันยังคงใช้วิธี วิเคราะห์ล็อกทุกวัน → ส่งอีเมลคำสั่งบล็อก IP ใหม่ → บล็อกด้วยมือ

วิธีรับมือและแนวคิด

แม้จะทำอัตโนมัติได้ แต่ผู้เขียนเลือก ตรวจดูและรับมือด้วยตนเองเพื่อจับรูปแบบและคงความตระหนักในการเฝ้าระวัง
จำนวน IP ของผู้โจมตี: ปัจจุบัน บล็อกไปแล้วมากกว่าประมาณ 50,000 รายการ
ส่วนใหญ่เป็น IPv4 และการโจมตีผ่าน IPv6 ยังพบไม่มาก

ความจริงของระบบนิเวศบอตเน็ต

โครงสร้างการกระจายแบบ "รวม SDK → แบ่งรายได้" ที่ดูเหมือนถูกกฎหมาย
แต่ความจริงคือการนำทราฟฟิกของผู้ใช้ไปใช้โดยไม่ยินยอมเพื่อ สแปม การโจมตี การครอว์ลิง ฯลฯ
บอตเน็ตลักษณะนี้ ไม่ถูกตรวจจับโดยแอนติไวรัสหรือระบบความปลอดภัยทั่วไป

บทสรุป

หากนักพัฒนาแอปรวม SDK แบบนี้เข้าไป ก็เท่ากับว่า มีส่วนร่วมในการสร้างบอตเน็ต
ผู้ใช้ทั่วไปไม่สามารถรู้ได้ว่าแอปมี SDK เหล่านี้อยู่หรือไม่ และจึง ถูกดึงเข้าร่วมบอตเน็ตโดยอัตโนมัติ
จากความตระหนักต่อปัญหานี้ ผู้เขียนเตือนถึง การพังทลายของระบบนิเวศเว็บ

"ผมไม่เชื่อบริษัทที่อ้างว่านี่คือ 'SDK ปกติ' เลยแม้แต่น้อย นี่คือบอตเน็ต"
— Jan Wildeboer, กุมภาพันธ์ 2025

# เว็บพังแล้ว: Botnet Part 2

การเพิ่มขึ้นอย่างรวดเร็วของเว็บครอว์เลอร์และฉากหลัง

ช่วงหลังมานี้ ความต้องการ เก็บข้อมูลขนาดใหญ่เพื่อฝึกโมเดล AI เพิ่มสูงขึ้น
บริษัท AI กวาดเอาคอนเทนต์บนเว็บทั้งหมดไปอย่างเงียบ ๆ จนทำให้เกิดภาระทราฟฟิกเกิน
เว็บมาสเตอร์และผู้ดูแลเซิร์ฟเวอร์ทั่วไปต่างถูกรบกวนจากครอว์เลอร์ แต่ บ่อยครั้งไม่รู้ด้วยซ้ำว่าใครเป็นผู้ควบคุมครอว์เลอร์เหล่านั้น

รูปแบบใหม่ของบอตเน็ต: การติดผู้ใช้ผ่าน SDK

บางบริษัท จ่ายเงินให้นักพัฒนาแอปเป็นค่าตอบแทนในการฝัง SDK
ผู้ใช้ทั่วไปที่ติดตั้งแอปซึ่งรวม SDK ดังกล่าวไว้ จะถูกนำทราฟฟิกของตนไปใช้สำหรับ AI crawler โดยไม่รู้ตัว
SDK เหล่านี้สามารถฝังลงในแอป iOS, Android, MacOS, Windows ได้

กรณีตัวอย่าง: Infatica

เว็บไซต์: https://infatica.io
ในหน้าคำอธิบายสำหรับนักพัฒนา มีการโปรโมตว่าสามารถ ครอว์ลิงผ่านเครือข่ายของผู้ใช้ได้
อ้างว่าสามารถให้บริการ IP แบบ หมุนเวียน (residential/mobile) ได้หลายล้านรายการ

ทำไมสิ่งนี้ถึงเป็นปัญหา?

บริษัทอย่าง Infatica อ้างว่าตนคอยตรวจสอบว่าลูกค้า (เช่น บริษัท AI ที่ต้องการครอว์ลิง) รันคำสั่งอะไรอยู่บ้าง แต่ในทางปฏิบัติโครงสร้างนี้คือการปัดความรับผิดชอบ
รายงานของ Trend Micro ปี 2023 ก็ยืนยันว่ามีกรณีคล้ายกัน
บางกรณี แอบฝัง SDK ลงในซอฟต์แวร์ฟรีแล้วแจกจ่าย โดยติดตั้งโดยที่ผู้ใช้ไม่ยินยอม

ผลกระทบ: ทั้งผู้ใช้บุคคลและเซิร์ฟเวอร์ขนาดเล็กได้รับผลเสีย

นักพัฒนาแอป: ถูกล่อด้วยผลตอบแทนทางการเงินให้รวม SDK เข้าไป → แทบไม่ต่างจาก ผู้เผยแพร่มัลแวร์
ผู้ใช้: อุปกรณ์และเครือข่ายของตนถูกใช้กับ เว็บครอว์ลิงและ DDoS
ผู้ดูแลเซิร์ฟเวอร์: กลายเป็นเป้าหมายที่ได้รับ คำขอปริมาณมากเกินไปโดยไม่รู้ตัว
- ตัวอย่าง: อินสแตนซ์ Forgejo ของผู้เขียนก็ถูกตั้งเป็นไม่สาธารณะเพราะทราฟฟิกบอตมากเกินไป

ภาพลักษณ์ที่เรียกว่า 'residential proxy'

พร็อกซีที่ใช้อุปกรณ์ของผู้ใช้เป็นจุดผ่านถูกเรียกว่า "residential IP"
ตัวอย่างเว็บรีวิวบริการพร็อกซี:
https://proxyway.com/reviews
ภายนอกดูเหมือนเป็น 'โครงสร้างพื้นฐานที่ถูกกฎหมาย' แต่แท้จริงแล้วเป็น โครงสร้างการแพร่กระจายและทำพร็อกซีโดยไม่ได้รับอนุญาต

บทสรุป: เว็บครอว์ลิงตอนนี้ถูกใช้เกินขอบเขตแล้ว

ผู้เขียนเสนอว่า การเว็บครอว์ลิงทุกรูปแบบควรถูกมองว่าเป็นการกระทำที่เป็นอันตราย
มองว่าพวกเว็บครอว์เลอร์กำลัง โจมตีรากฐานของเว็บ
AI คือแรงขับเคลื่อนหลักของโครงสร้างนี้ และผู้เขียนคัดค้านอย่างหนักต่อคำกล่าวอ้างว่าสิ่งนี้เป็นเรื่อง ‘ถูกกฎหมาย’

ข้อเสนอและประเด็นปัญหา

นักพัฒนาแอปที่รวม SDK แบบนี้ต้องรับผิดชอบ
ผู้ดูแลแพลตฟอร์มอย่าง Apple, Google, Microsoft ต้องเข้ามาควบคุมตลาดนี้
แทบเป็นไปไม่ได้เลยที่ผู้ใช้ทั่วไปจะระบุหรือบล็อกสิ่งนี้ได้
ผู้ดูแลเว็บพยายาม บล็อกครอว์เลอร์ด้วยวิธีทางเทคนิค แต่ก็ยังมีข้อจำกัด

“เพราะ AI เว็บจึงกำลังกลายเป็นพื้นที่ที่ไม่อาจไว้ใจได้อีกต่อไป ขอบคุณนะ AI”
– Jan Wildeboer, เมษายน 2025

1 ความคิดเห็น

GN⁺ 2025-04-20

ความคิดเห็นจาก Hacker News

การที่นักพัฒนาแอปรวม 3rd party SDK เข้าไปเพื่อสร้างรายได้เป็นส่วนหนึ่งของปัญหา และควรต้องรับผิดชอบต่อการส่งมอบมัลแวร์ให้ผู้ใช้
- สงสัยว่า SDK จำนวนมากมีปัญหาแบบนี้
- โดยส่วนตัวชอบหลีกเลี่ยงการเสพติด dependency และเลือกพัฒนาเองมากกว่า
- ผู้ไม่หวังดีใช้ประโยชน์จากการเสพติด dependency ของนักพัฒนายุคใหม่เพื่อวางกับดัก
มีตลาดที่ทำให้นักพัฒนาแอปรวมไลบรารีสำหรับขายแบนด์วิดท์เครือข่ายของผู้ใช้บน iOS, Android, MacOS, Windows
- เรื่องนี้เกี่ยวข้องกับเหตุผลที่ Cloudflare และ Google ต้องบังคับใช้ CAPTCHA
- ไม่เข้าใจว่าทำไม Play Protect, MS Defender และแอนติไวรัสของ Apple ถึงไม่ตรวจพบมัลแวร์เหล่านี้
- การที่ไลบรารี SDK ทำให้อุปกรณ์ของผู้ใช้กลายเป็นส่วนหนึ่งของบอตเน็ตเป็นตัวอย่างที่ชัดเจนของโทรจัน
ปัญหาของเว็บคือเพื่อให้ข้อมูลยังคงอ่านได้ จะต้องมีผู้ดูแลระบบบางคนคอยดูแลเซิร์ฟเวอร์
- หากใช้โมเดล content-addressed ก็จะตัดข้อจำกัดเรื่องความเป็นเอกลักษณ์ออกได้
- AI scraper จะสามารถแชร์ข้อมูลกันเองได้และไม่สร้างภาระให้กับแหล่งข้อมูลต้นฉบับ
ซอฟต์แวร์แชร์เครือข่ายควรถูกจัดเป็นแอปพลิเคชันไม่พึงประสงค์
- มันถูกติดตั้งมาพร้อมกับสิ่งที่ผู้ใช้อยากติดตั้ง และนำทรัพยากรไปใช้อย่างสิ้นเปลือง
- อยากใช้ Wireshark เพื่อตรวจสอบกิจกรรมที่น่าสงสัย
- ควรมีคลังสาธารณะที่รวบรวมแอปที่มีพฤติกรรมแบบนี้
แอปที่มีมัลแวร์ควรถูกกักกันทันที
- ถึงจะไม่ได้ก่อความเสียหายโดยตรง ก็ยังถือว่าเป็นมัลแวร์
การสแครปเว็บควรถูกมองว่าเป็นการใช้งานในทางที่ผิด และเว็บเซิร์ฟเวอร์ควรบล็อกมัน
- แพลตฟอร์มอย่าง Youtube น่าจะเห็นด้วยกับเรื่องนี้
สงสัยว่ามีใครเคยรวบรวมรายชื่อซอฟต์แวร์ที่ใช้ไลบรารีเหล่านี้ไว้หรือไม่
- ถ้ารู้ว่าแอปไหนควรหลีกเลี่ยงก็คงดี
พร็อกซี residential IP มีจุดอ่อนคือที่อยู่ IP เปลี่ยนบ่อย
- IP ที่มาจากผู้ให้บริการพร็อกซีรายเดียวกันสามารถตรวจจับได้ง่าย
- กำลังพัฒนาแพลตฟอร์มป้องกันการฉ้อโกงแบบโอเพนซอร์ส และการตรวจจับผู้ใช้ปลอมจาก residential proxy เป็นหนึ่งในกรณีใช้งาน
จนถึงตอนนี้ยังไม่มีหลักฐานที่ชัดเจน แต่พฤติกรรมแบบนี้ตรวจจับได้ไม่ยาก
- iOS มีฟีเจอร์ที่ตรวจสอบการเชื่อมต่อของแอปได้
- Android ไม่มีฟีเจอร์นี้ แต่สามารถใช้ไฟร์วอลล์จากบุคคลที่สามอย่าง pcapdroid ได้
- MacOS ใช้ Little Snitch ได้ ส่วน Windows ใช้ Fort Firewall ได้
- แม้จะมีคนใช้แอปเหล่านี้ไม่มาก แต่มีแนวโน้มว่าจะรายงานแอปที่ใช้อุปกรณ์เป็นบอตเน็ต
สงสัยว่ามีรายชื่อเซิร์ฟเวอร์ c&c ที่สามารถนำไปเพิ่มใน Pihole หรือเครื่องมืออื่นได้หรือไม่

สเตลธ์บอตเน็ต ตัวตนที่แท้จริง: Botnet Part 1

การโจมตีของบอตเน็ตต่อเมลเซิร์ฟเวอร์ส่วนตัว

ตัวตนของบอตเน็ต: การติดอุปกรณ์ผ่าน SDK

วิธีการโจมตี: การโจมตีแบบกระจายที่ออกแบบมาเพื่อหลบการตรวจจับ

ความไม่มีประสิทธิภาพของการบล็อกตาม ASN

วิธีรับมือและแนวคิด

ความจริงของระบบนิเวศบอตเน็ต

บทสรุป

# เว็บพังแล้ว: Botnet Part 2

การเพิ่มขึ้นอย่างรวดเร็วของเว็บครอว์เลอร์และฉากหลัง

รูปแบบใหม่ของบอตเน็ต: การติดผู้ใช้ผ่าน SDK

กรณีตัวอย่าง: Infatica

ทำไมสิ่งนี้ถึงเป็นปัญหา?

ผลกระทบ: ทั้งผู้ใช้บุคคลและเซิร์ฟเวอร์ขนาดเล็กได้รับผลเสีย

ภาพลักษณ์ที่เรียกว่า 'residential proxy'

บทสรุป: เว็บครอว์ลิงตอนนี้ถูกใช้เกินขอบเขตแล้ว

ข้อเสนอและประเด็นปัญหา

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News