8 คะแนน โดย GN⁺ 2025-04-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • บริษัท AI บางแห่ง ฝัง 'SDK พร็อกซี P2P แบบทำให้กลายเป็นบอตเน็ต' ลงในแอปเพื่อเก็บข้อมูล ทำให้ผู้ใช้ถูกดึงเข้าไปเป็นส่วนหนึ่งของโครงสร้างพื้นฐานสำหรับเว็บครอว์ลิงโดยไม่รู้ตัว
  • SDK นี้ นำแบนด์วิดท์เครือข่ายบางส่วนของผู้ใช้ (120~150kbps) ไป 'ขาย' โดยไม่ได้รับอนุญาต เพื่อสร้างรายได้ให้ผู้พัฒนา (18 เซนต์ต่อผู้ใช้ 1 คน) และถูกใช้ทำพฤติกรรมผิดปกติ เช่น การครอว์ลิงและการ brute-force เมลเซิร์ฟเวอร์
  • บอตเน็ตนี้ ใช้ IP ที่อยู่อาศัย/มือถือจำนวนหลายหมื่นรายการเพื่อหลบการตรวจจับ และพยายามโจมตีเพียงวันละ 1 ครั้งต่อ 1 IP เพื่อหลีกเลี่ยงระบบความปลอดภัยอย่าง fail2ban
  • กรณีตัวอย่างสำคัญคือ Infatica SDK เป็นต้น และนักพัฒนาแอปที่รวม SDK เหล่านี้เข้าไปก็แทบไม่ต่างจาก ทำให้ผู้ใช้ติดบอตเน็ต
  • ตลาด 'residential proxy' กำลังเติบโตอย่างรวดเร็วจากความต้องการครอว์ลิงของ AI และในทางปฏิบัติก็คือโครงสร้างพื้นฐานสำหรับการครอว์ลิงที่ไม่ได้รับอนุญาต
  • โครงสร้างบอตเน็ตลักษณะนี้คือการโจมตีไซเบอร์แบบลอบเร้นรูปแบบใหม่ และนักพัฒนาแอปกำลังมีส่วนร่วมในระบบนิเวศนี้
  • ผู้เขียน นิยามการเว็บครอว์ลิงเองว่าเป็น 'การโจมตีรากฐานของเว็บ' พร้อมเรียกร้องความรับผิดชอบจากนักพัฒนาและบริษัทแพลตฟอร์ม และเสนอว่าควรบล็อกการครอว์ลิงทั้งหมด

สเตลธ์บอตเน็ต ตัวตนที่แท้จริง: Botnet Part 1

การโจมตีของบอตเน็ตต่อเมลเซิร์ฟเวอร์ส่วนตัว

  • เมลเซิร์ฟเวอร์ของผู้เขียนถูกโจมตีแบบ SMTP brute-force อย่างต่อเนื่อง
  • เป้าหมายของการโจมตี: ยึดบัญชีเพื่อพยายาม ส่งอีเมลสแปม
  • แม้ส่วนใหญ่จะล้มเหลว แต่ ความพยายามนั้นเกิดขึ้นต่อเนื่องและดื้อดึง

ตัวตนของบอตเน็ต: การติดอุปกรณ์ผ่าน SDK

  • จ่ายเงินให้นักพัฒนาแอปเพื่อแลกกับการฝัง SDK
    • ตัวอย่าง: 18 เซนต์ต่อผู้ใช้ 1 คนต่อเดือน
  • SDK นี้ ปล่อยเช่าทราฟฟิกบางส่วนของผู้ใช้ (120~150kbps)
  • ถูกโฆษณาเป็น "P2P proxy" หรือ "residential proxy" แต่ความจริงคือ ใช้อุปกรณ์ของผู้ใช้เป็นโหนดของบอตเน็ต

วิธีการโจมตี: การโจมตีแบบกระจายที่ออกแบบมาเพื่อหลบการตรวจจับ

  • พยายามล็อกอิน เพียงครั้งเดียวต่อ IP ต่อวัน → หลบระบบตรวจจับอัตโนมัติอย่าง fail2ban, UFW
  • แต่เพราะมี IP หลายหมื่นรายการ จึงสามารถโจมตีได้ อย่างต่อเนื่องและกระจายตัว
  • ผู้เขียนชี้ว่าวิธีนี้ ทำให้เครื่องมือความปลอดภัยมาตรฐานใช้การไม่ได้

ความไม่มีประสิทธิภาพของการบล็อกตาม ASN

  • วิเคราะห์ว่า IP กระจุกอยู่ที่ผู้ให้บริการเครือข่าย (ASN) รายใดหรือไม่
    • ผลลัพธ์: มี IP โจมตีเฉลี่ยไม่ถึง 4 รายการต่อ ASN → การบล็อกทั้ง ASN จึงไม่คุ้มค่า
  • ปัจจุบันยังคงใช้วิธี วิเคราะห์ล็อกทุกวัน → ส่งอีเมลคำสั่งบล็อก IP ใหม่ → บล็อกด้วยมือ

วิธีรับมือและแนวคิด

  • แม้จะทำอัตโนมัติได้ แต่ผู้เขียนเลือก ตรวจดูและรับมือด้วยตนเองเพื่อจับรูปแบบและคงความตระหนักในการเฝ้าระวัง
  • จำนวน IP ของผู้โจมตี: ปัจจุบัน บล็อกไปแล้วมากกว่าประมาณ 50,000 รายการ
  • ส่วนใหญ่เป็น IPv4 และการโจมตีผ่าน IPv6 ยังพบไม่มาก

ความจริงของระบบนิเวศบอตเน็ต

  • โครงสร้างการกระจายแบบ "รวม SDK → แบ่งรายได้" ที่ดูเหมือนถูกกฎหมาย
  • แต่ความจริงคือการนำทราฟฟิกของผู้ใช้ไปใช้โดยไม่ยินยอมเพื่อ สแปม การโจมตี การครอว์ลิง ฯลฯ
  • บอตเน็ตลักษณะนี้ ไม่ถูกตรวจจับโดยแอนติไวรัสหรือระบบความปลอดภัยทั่วไป

บทสรุป

  • หากนักพัฒนาแอปรวม SDK แบบนี้เข้าไป ก็เท่ากับว่า มีส่วนร่วมในการสร้างบอตเน็ต
  • ผู้ใช้ทั่วไปไม่สามารถรู้ได้ว่าแอปมี SDK เหล่านี้อยู่หรือไม่ และจึง ถูกดึงเข้าร่วมบอตเน็ตโดยอัตโนมัติ
  • จากความตระหนักต่อปัญหานี้ ผู้เขียนเตือนถึง การพังทลายของระบบนิเวศเว็บ

"ผมไม่เชื่อบริษัทที่อ้างว่านี่คือ 'SDK ปกติ' เลยแม้แต่น้อย นี่คือบอตเน็ต"
— Jan Wildeboer, กุมภาพันธ์ 2025


# เว็บพังแล้ว: Botnet Part 2

การเพิ่มขึ้นอย่างรวดเร็วของเว็บครอว์เลอร์และฉากหลัง

  • ช่วงหลังมานี้ ความต้องการ เก็บข้อมูลขนาดใหญ่เพื่อฝึกโมเดล AI เพิ่มสูงขึ้น
  • บริษัท AI กวาดเอาคอนเทนต์บนเว็บทั้งหมดไปอย่างเงียบ ๆ จนทำให้เกิดภาระทราฟฟิกเกิน
  • เว็บมาสเตอร์และผู้ดูแลเซิร์ฟเวอร์ทั่วไปต่างถูกรบกวนจากครอว์เลอร์ แต่ บ่อยครั้งไม่รู้ด้วยซ้ำว่าใครเป็นผู้ควบคุมครอว์เลอร์เหล่านั้น

รูปแบบใหม่ของบอตเน็ต: การติดผู้ใช้ผ่าน SDK

  • บางบริษัท จ่ายเงินให้นักพัฒนาแอปเป็นค่าตอบแทนในการฝัง SDK
  • ผู้ใช้ทั่วไปที่ติดตั้งแอปซึ่งรวม SDK ดังกล่าวไว้ จะถูกนำทราฟฟิกของตนไปใช้สำหรับ AI crawler โดยไม่รู้ตัว
  • SDK เหล่านี้สามารถฝังลงในแอป iOS, Android, MacOS, Windows ได้

กรณีตัวอย่าง: Infatica

  • เว็บไซต์: https://infatica.io
  • ในหน้าคำอธิบายสำหรับนักพัฒนา มีการโปรโมตว่าสามารถ ครอว์ลิงผ่านเครือข่ายของผู้ใช้ได้
  • อ้างว่าสามารถให้บริการ IP แบบ หมุนเวียน (residential/mobile) ได้หลายล้านรายการ

ทำไมสิ่งนี้ถึงเป็นปัญหา?

  • บริษัทอย่าง Infatica อ้างว่าตนคอยตรวจสอบว่าลูกค้า (เช่น บริษัท AI ที่ต้องการครอว์ลิง) รันคำสั่งอะไรอยู่บ้าง แต่ในทางปฏิบัติโครงสร้างนี้คือการปัดความรับผิดชอบ
  • รายงานของ Trend Micro ปี 2023 ก็ยืนยันว่ามีกรณีคล้ายกัน
  • บางกรณี แอบฝัง SDK ลงในซอฟต์แวร์ฟรีแล้วแจกจ่าย โดยติดตั้งโดยที่ผู้ใช้ไม่ยินยอม

ผลกระทบ: ทั้งผู้ใช้บุคคลและเซิร์ฟเวอร์ขนาดเล็กได้รับผลเสีย

  • นักพัฒนาแอป: ถูกล่อด้วยผลตอบแทนทางการเงินให้รวม SDK เข้าไป → แทบไม่ต่างจาก ผู้เผยแพร่มัลแวร์
  • ผู้ใช้: อุปกรณ์และเครือข่ายของตนถูกใช้กับ เว็บครอว์ลิงและ DDoS
  • ผู้ดูแลเซิร์ฟเวอร์: กลายเป็นเป้าหมายที่ได้รับ คำขอปริมาณมากเกินไปโดยไม่รู้ตัว
    • ตัวอย่าง: อินสแตนซ์ Forgejo ของผู้เขียนก็ถูกตั้งเป็นไม่สาธารณะเพราะทราฟฟิกบอตมากเกินไป

ภาพลักษณ์ที่เรียกว่า 'residential proxy'

  • พร็อกซีที่ใช้อุปกรณ์ของผู้ใช้เป็นจุดผ่านถูกเรียกว่า "residential IP"
  • ตัวอย่างเว็บรีวิวบริการพร็อกซี:
    https://proxyway.com/reviews
  • ภายนอกดูเหมือนเป็น 'โครงสร้างพื้นฐานที่ถูกกฎหมาย' แต่แท้จริงแล้วเป็น โครงสร้างการแพร่กระจายและทำพร็อกซีโดยไม่ได้รับอนุญาต

บทสรุป: เว็บครอว์ลิงตอนนี้ถูกใช้เกินขอบเขตแล้ว

  • ผู้เขียนเสนอว่า การเว็บครอว์ลิงทุกรูปแบบควรถูกมองว่าเป็นการกระทำที่เป็นอันตราย
  • มองว่าพวกเว็บครอว์เลอร์กำลัง โจมตีรากฐานของเว็บ
  • AI คือแรงขับเคลื่อนหลักของโครงสร้างนี้ และผู้เขียนคัดค้านอย่างหนักต่อคำกล่าวอ้างว่าสิ่งนี้เป็นเรื่อง ‘ถูกกฎหมาย’

ข้อเสนอและประเด็นปัญหา

  • นักพัฒนาแอปที่รวม SDK แบบนี้ต้องรับผิดชอบ
  • ผู้ดูแลแพลตฟอร์มอย่าง Apple, Google, Microsoft ต้องเข้ามาควบคุมตลาดนี้
  • แทบเป็นไปไม่ได้เลยที่ผู้ใช้ทั่วไปจะระบุหรือบล็อกสิ่งนี้ได้
  • ผู้ดูแลเว็บพยายาม บล็อกครอว์เลอร์ด้วยวิธีทางเทคนิค แต่ก็ยังมีข้อจำกัด

“เพราะ AI เว็บจึงกำลังกลายเป็นพื้นที่ที่ไม่อาจไว้ใจได้อีกต่อไป ขอบคุณนะ AI”
– Jan Wildeboer, เมษายน 2025

1 ความคิดเห็น

 
GN⁺ 2025-04-20
ความคิดเห็นจาก Hacker News
  • การที่นักพัฒนาแอปรวม 3rd party SDK เข้าไปเพื่อสร้างรายได้เป็นส่วนหนึ่งของปัญหา และควรต้องรับผิดชอบต่อการส่งมอบมัลแวร์ให้ผู้ใช้

    • สงสัยว่า SDK จำนวนมากมีปัญหาแบบนี้
    • โดยส่วนตัวชอบหลีกเลี่ยงการเสพติด dependency และเลือกพัฒนาเองมากกว่า
    • ผู้ไม่หวังดีใช้ประโยชน์จากการเสพติด dependency ของนักพัฒนายุคใหม่เพื่อวางกับดัก
  • มีตลาดที่ทำให้นักพัฒนาแอปรวมไลบรารีสำหรับขายแบนด์วิดท์เครือข่ายของผู้ใช้บน iOS, Android, MacOS, Windows

    • เรื่องนี้เกี่ยวข้องกับเหตุผลที่ Cloudflare และ Google ต้องบังคับใช้ CAPTCHA
    • ไม่เข้าใจว่าทำไม Play Protect, MS Defender และแอนติไวรัสของ Apple ถึงไม่ตรวจพบมัลแวร์เหล่านี้
    • การที่ไลบรารี SDK ทำให้อุปกรณ์ของผู้ใช้กลายเป็นส่วนหนึ่งของบอตเน็ตเป็นตัวอย่างที่ชัดเจนของโทรจัน
  • ปัญหาของเว็บคือเพื่อให้ข้อมูลยังคงอ่านได้ จะต้องมีผู้ดูแลระบบบางคนคอยดูแลเซิร์ฟเวอร์

    • หากใช้โมเดล content-addressed ก็จะตัดข้อจำกัดเรื่องความเป็นเอกลักษณ์ออกได้
    • AI scraper จะสามารถแชร์ข้อมูลกันเองได้และไม่สร้างภาระให้กับแหล่งข้อมูลต้นฉบับ
  • ซอฟต์แวร์แชร์เครือข่ายควรถูกจัดเป็นแอปพลิเคชันไม่พึงประสงค์

    • มันถูกติดตั้งมาพร้อมกับสิ่งที่ผู้ใช้อยากติดตั้ง และนำทรัพยากรไปใช้อย่างสิ้นเปลือง
    • อยากใช้ Wireshark เพื่อตรวจสอบกิจกรรมที่น่าสงสัย
    • ควรมีคลังสาธารณะที่รวบรวมแอปที่มีพฤติกรรมแบบนี้
  • แอปที่มีมัลแวร์ควรถูกกักกันทันที

    • ถึงจะไม่ได้ก่อความเสียหายโดยตรง ก็ยังถือว่าเป็นมัลแวร์
  • การสแครปเว็บควรถูกมองว่าเป็นการใช้งานในทางที่ผิด และเว็บเซิร์ฟเวอร์ควรบล็อกมัน

    • แพลตฟอร์มอย่าง Youtube น่าจะเห็นด้วยกับเรื่องนี้
  • สงสัยว่ามีใครเคยรวบรวมรายชื่อซอฟต์แวร์ที่ใช้ไลบรารีเหล่านี้ไว้หรือไม่

    • ถ้ารู้ว่าแอปไหนควรหลีกเลี่ยงก็คงดี
  • พร็อกซี residential IP มีจุดอ่อนคือที่อยู่ IP เปลี่ยนบ่อย

    • IP ที่มาจากผู้ให้บริการพร็อกซีรายเดียวกันสามารถตรวจจับได้ง่าย
    • กำลังพัฒนาแพลตฟอร์มป้องกันการฉ้อโกงแบบโอเพนซอร์ส และการตรวจจับผู้ใช้ปลอมจาก residential proxy เป็นหนึ่งในกรณีใช้งาน
  • จนถึงตอนนี้ยังไม่มีหลักฐานที่ชัดเจน แต่พฤติกรรมแบบนี้ตรวจจับได้ไม่ยาก

    • iOS มีฟีเจอร์ที่ตรวจสอบการเชื่อมต่อของแอปได้
    • Android ไม่มีฟีเจอร์นี้ แต่สามารถใช้ไฟร์วอลล์จากบุคคลที่สามอย่าง pcapdroid ได้
    • MacOS ใช้ Little Snitch ได้ ส่วน Windows ใช้ Fort Firewall ได้
    • แม้จะมีคนใช้แอปเหล่านี้ไม่มาก แต่มีแนวโน้มว่าจะรายงานแอปที่ใช้อุปกรณ์เป็นบอตเน็ต
  • สงสัยว่ามีรายชื่อเซิร์ฟเวอร์ c&c ที่สามารถนำไปเพิ่มใน Pihole หรือเครื่องมืออื่นได้หรือไม่