6 คะแนน โดย GN⁺ 2025-01-14 | 4 ความคิดเห็น | แชร์ทาง WhatsApp
  • Triplegangers เป็นบริษัทขนาดเล็กที่มีพนักงาน 7 คน และจำหน่ายฐานข้อมูล "มนุษย์ดิจิทัลฝาแฝด"
    • ให้บริการไฟล์ภาพ 3D และภาพถ่ายแก่ศิลปิน 3D ผู้พัฒนาเกมวิดีโอ และลูกค้ากลุ่มอื่น ๆ
  • ปัญหาที่เกิดขึ้น: บอตของ OpenAI ใช้ IP มากกว่า 600 รายการเพื่อครอว์ลเว็บไซต์อย่างหนักจนเซิร์ฟเวอร์ล่ม
    • พยายามเก็บข้อมูลหน้าสินค้ามากกว่า 65,000 หน้าและรูปภาพหลายแสนภาพ
    • คำขอจำนวนมหาศาลที่ "คล้ายการโจมตีแบบ DDoS" เช่นนี้ คาดว่าจะทำให้ค่าใช้จ่าย AWS เพิ่มขึ้น
  • GPTBot ของ OpenAI สามารถครอว์ลข้อมูลได้อย่างอิสระหากไม่มีการตั้งค่าไฟล์ robots.txt อย่างเหมาะสม
    • หากเว็บไซต์ไม่ได้บล็อกไว้เป็นพิเศษ กิจกรรมของบอตจะได้รับอนุญาตโดยค่าเริ่มต้น
    • robots.txt: ไฟล์ที่กำหนดว่าเสิร์ชเอนจินไม่ควรครอว์ลข้อมูลใด
    • Triplegangers ไม่ได้ตั้งค่าไฟล์ robots.txt ของเว็บไซต์อย่างถูกต้อง ทำให้บอตของ OpenAI สามารถสแครปข้อมูลได้
  • ปัญหาเพิ่มเติม:
    • OpenAI ใช้เวลาสูงสุด 24 ชั่วโมงในการรับรู้คำขอให้หยุดการครอว์ล
    • บริษัท AI รายอื่นก็ครอว์ลข้อมูลด้วยวิธีคล้ายกัน

การรับมือของ Triplegangers

  • มาตรการตอบโต้:
    • สร้างไฟล์ robots.txt ที่ตั้งค่าอย่างเหมาะสม
    • ตั้งค่าบัญชี Cloudflare เพื่อบล็อก GPTBot และ AI crawler อื่น ๆ
  • ผลลัพธ์:
    • ทำให้เว็บไซต์กลับมามีเสถียรภาพได้สำเร็จ
    • แต่ยังไม่สามารถรู้ได้ว่า OpenAI นำข้อมูลใดไปบ้าง และก็ไม่มีวิธีขอให้ลบข้อมูลเหล่านั้น
    • เครื่องมือ opt-out ของ OpenAI ที่ยังไม่สมบูรณ์: ทำให้ธุรกิจต่าง ๆ ป้องกันการครอว์ลได้ยากยิ่งขึ้น

เหตุใดปัญหาการครอว์ลจึงร้ายแรงเป็นพิเศษ

  • AI crawler นำข้อมูลจากเว็บไซต์ไปโดยไม่ได้รับอนุญาต ซึ่งเป็นปัญหาใหญ่โดยเฉพาะสำหรับบริษัทอย่าง Triplegangers
  • ความอ่อนไหวของข้อมูล:
    • Triplegangers มีฐานข้อมูลที่สร้างจากการสแกนคนจริง
    • กฎหมายคุ้มครองข้อมูลส่วนบุคคล เช่น GDPR ห้ามใช้ข้อมูลโดยไม่ได้รับอนุญาต
  • ความน่าสนใจของข้อมูล:
    • ข้อมูลถูกติดแท็กไว้ จึงมีประโยชน์ต่อการฝึก AI
    • ตัวอย่าง: มีการระบุรายละเอียดเช่น เชื้อชาติ อายุ และลักษณะทางกายภาพ

บทเรียนสำหรับธุรกิจขนาดเล็กอื่น ๆ

  • การตรวจจับบอต AI:
    • หากต้องการตรวจสอบว่ามีการครอว์ลโดยบอต AI หรือไม่ จำเป็นต้องมอนิเตอร์ล็อก
    • เว็บไซต์ส่วนใหญ่ไม่รู้ด้วยซ้ำว่าตัวเองถูกครอว์ล
  • ปัญหาการครอว์ลที่เพิ่มขึ้น:
    • ในปี 2024 ทราฟฟิกที่โดยทั่วไปถือว่าไม่ถูกต้อง (Invalid Traffic) เพิ่มขึ้น 86%
    • AI crawler และ scraper เป็นสาเหตุหลัก

บทสรุป

  • ปัญหาการครอว์ลของบอต AI ส่งผลกระทบอย่างรุนแรงต่อธุรกิจขนาดเล็ก
  • บริษัท AI ควรขออนุญาตก่อนนำข้อมูลไป
  • บริษัทขนาดเล็กควรใช้ robots.txt และไฟร์วอลล์อย่างจริงจัง พร้อมติดตามตรวจสอบอย่างต่อเนื่อง

4 ความคิดเห็น

 
crawler 2025-01-14

ถ้า IP 600 ตัวที่เข้าเว็บหนึ่งเว็บเป็นของจริง ก็คงต้องบอกว่าไล่เก็บข้อมูลกันแบบบ้าคลั่งจริง ๆ แต่พอเห็นว่าไม่ได้ใช้ robots.txt ก็แอบรู้สึกว่า "หือ?" นิดหน่อย
ดูเหมือนจะเป็นบริษัทที่ข้อมูลสำคัญ และเว็บไซต์ก็น่าจะมีการใช้งานอยู่ แบบนี้น่าจะตั้งค่า robots.txt ซึ่งเป็นพื้นฐานที่สุดก่อนสิ...

 
unsure4000 2025-01-14

ผมคิดว่า Cloudflare ดูเหมือนเป็นสิ่งจำเป็นที่ทั้งรักทั้งเกลียดจริง ๆ เป็นจุดเดียวที่ถ้าโดนโจมตีก็สร้างผลกระทบได้รุนแรงมาก แต่ประสิทธิภาพก็สูงมากเช่นกัน

 
GN⁺ 2025-01-14
ความคิดเห็นจาก Hacker News
  • บริษัท AI กำลังก่อให้เกิดทราฟฟิกจำนวนมากในฟอรัม

    • มีกรณีที่บอกว่าบอต AI สร้างทราฟฟิกมากกว่า 10TB บน Read the Docs
    • มีข้อกล่าวหาว่า OpenAI ใช้ 600 IP เพื่อสแครปข้อมูล
    • มีการบันทึกไว้เพียง IP ของ reverse proxy ของ Cloudflare จึงไม่สามารถทราบ IP ของไคลเอนต์จริงได้
    • มีความเห็นว่าการอ้างว่าเป็นการโจมตี DDOS นั้นไม่ยุติธรรม เพราะในล็อกไม่มี timestamp และไม่มีการกล่าวถึงความเร็วของคำขอ
  • ในฐานะเว็บดีเวลอปเปอร์ มีความไม่พอใจกับสแครปเปอร์ที่ไม่มีประสิทธิภาพของบริษัท AI

    • แนะนำให้ปฏิบัติตามกฎพื้นฐานคืออย่าทำให้ไซต์รับโหลดมากเกินไป
    • รู้สึกว่าสแครปเปอร์ของบริษัท AI ไม่มีประสิทธิภาพและน่ารำคาญ
  • ชี้ว่าบทความเขียน "robots.txt" ผิด

    • มองว่าการใช้ไฟล์ล็อกที่ไม่มี timestamp เป็นหลักฐานนั้นน่าสงสัย
    • ประเมินว่า OpenAI ไม่ได้ไร้ความผิดโดยสิ้นเชิง แต่คุณภาพของบทความต่ำ
  • มีความเห็นว่าประวัติศาสตร์ของเว็บกำลังซ้ำรอย

    • ในอดีตสามารถรับข้อมูลผ่าน API ได้ แต่ตอนนี้ส่วนใหญ่ถูกบล็อกแล้ว
    • คาดหวังว่า AI อาจทำให้ปฏิสัมพันธ์อัตโนมัติลักษณะนี้กลับมาเป็นไปได้อีกครั้ง
  • เคยสนใจเว็บครอว์เลอร์ส่วนตัว แต่ตอนนี้ผิดหวังกับระบบเศรษฐกิจของ Google ที่ไม่เป็นธรรม

    • กังวลว่าแม้ LLMs จะมอบประโยชน์ใช้สอยได้มาก แต่ความกลัวว่าจะถูกขโมยความคิดสร้างสรรค์จะทำให้ผู้คนปิดประตูใส่มัน
  • ช่วงหลังผู้ที่ตีพิมพ์หนังสือบน Amazon กำลังต้องแข่งขันกับของปลอมหลอกลวงที่สร้างโดย AI

    • มีกรณีที่ BBC ไปสัมภาษณ์ประสบการณ์ที่เกี่ยวข้องกับเรื่องนี้
  • เตือนว่าหากไซต์ใช้ robots.txt ไม่ถูกต้อง AI ก็สามารถสแครปได้ตามใจ

    • แนะนำให้ตรวจสอบ robots.txt
  • ไซต์สามารถใช้ HTTP error 429 เพื่อควบคุมความเร็วของบอตได้

    • หากบอตมาจาก subnet เดียวกัน ก็เสนอให้ใช้กับทั้ง subnet แทนที่จะใช้กับแต่ละ IP