บอตของ OpenAI ทำให้เว็บไซต์ของบริษัทเล็ก ๆ เป็นอัมพาตราวกับถูก 'โจมตีแบบ DDoS'

(techcrunch.com)

6 คะแนน โดย GN⁺ 2025-01-14 | 4 ความคิดเห็น | แชร์ทาง WhatsApp

Triplegangers เป็นบริษัทขนาดเล็กที่มีพนักงาน 7 คน และจำหน่ายฐานข้อมูล "มนุษย์ดิจิทัลฝาแฝด"
- ให้บริการไฟล์ภาพ 3D และภาพถ่ายแก่ศิลปิน 3D ผู้พัฒนาเกมวิดีโอ และลูกค้ากลุ่มอื่น ๆ
ปัญหาที่เกิดขึ้น: บอตของ OpenAI ใช้ IP มากกว่า 600 รายการเพื่อครอว์ลเว็บไซต์อย่างหนักจนเซิร์ฟเวอร์ล่ม
- พยายามเก็บข้อมูลหน้าสินค้ามากกว่า 65,000 หน้าและรูปภาพหลายแสนภาพ
- คำขอจำนวนมหาศาลที่ "คล้ายการโจมตีแบบ DDoS" เช่นนี้ คาดว่าจะทำให้ค่าใช้จ่าย AWS เพิ่มขึ้น
GPTBot ของ OpenAI สามารถครอว์ลข้อมูลได้อย่างอิสระหากไม่มีการตั้งค่าไฟล์ robots.txt อย่างเหมาะสม
- หากเว็บไซต์ไม่ได้บล็อกไว้เป็นพิเศษ กิจกรรมของบอตจะได้รับอนุญาตโดยค่าเริ่มต้น
- robots.txt: ไฟล์ที่กำหนดว่าเสิร์ชเอนจินไม่ควรครอว์ลข้อมูลใด
- Triplegangers ไม่ได้ตั้งค่าไฟล์ robots.txt ของเว็บไซต์อย่างถูกต้อง ทำให้บอตของ OpenAI สามารถสแครปข้อมูลได้
ปัญหาเพิ่มเติม:
- OpenAI ใช้เวลาสูงสุด 24 ชั่วโมงในการรับรู้คำขอให้หยุดการครอว์ล
- บริษัท AI รายอื่นก็ครอว์ลข้อมูลด้วยวิธีคล้ายกัน

การรับมือของ Triplegangers

มาตรการตอบโต้:
- สร้างไฟล์ robots.txt ที่ตั้งค่าอย่างเหมาะสม
- ตั้งค่าบัญชี Cloudflare เพื่อบล็อก GPTBot และ AI crawler อื่น ๆ
ผลลัพธ์:
- ทำให้เว็บไซต์กลับมามีเสถียรภาพได้สำเร็จ
- แต่ยังไม่สามารถรู้ได้ว่า OpenAI นำข้อมูลใดไปบ้าง และก็ไม่มีวิธีขอให้ลบข้อมูลเหล่านั้น
- เครื่องมือ opt-out ของ OpenAI ที่ยังไม่สมบูรณ์: ทำให้ธุรกิจต่าง ๆ ป้องกันการครอว์ลได้ยากยิ่งขึ้น

เหตุใดปัญหาการครอว์ลจึงร้ายแรงเป็นพิเศษ

AI crawler นำข้อมูลจากเว็บไซต์ไปโดยไม่ได้รับอนุญาต ซึ่งเป็นปัญหาใหญ่โดยเฉพาะสำหรับบริษัทอย่าง Triplegangers
ความอ่อนไหวของข้อมูล:
- Triplegangers มีฐานข้อมูลที่สร้างจากการสแกนคนจริง
- กฎหมายคุ้มครองข้อมูลส่วนบุคคล เช่น GDPR ห้ามใช้ข้อมูลโดยไม่ได้รับอนุญาต
ความน่าสนใจของข้อมูล:
- ข้อมูลถูกติดแท็กไว้ จึงมีประโยชน์ต่อการฝึก AI
- ตัวอย่าง: มีการระบุรายละเอียดเช่น เชื้อชาติ อายุ และลักษณะทางกายภาพ

บทเรียนสำหรับธุรกิจขนาดเล็กอื่น ๆ

การตรวจจับบอต AI:
- หากต้องการตรวจสอบว่ามีการครอว์ลโดยบอต AI หรือไม่ จำเป็นต้องมอนิเตอร์ล็อก
- เว็บไซต์ส่วนใหญ่ไม่รู้ด้วยซ้ำว่าตัวเองถูกครอว์ล
ปัญหาการครอว์ลที่เพิ่มขึ้น:
- ในปี 2024 ทราฟฟิกที่โดยทั่วไปถือว่าไม่ถูกต้อง (Invalid Traffic) เพิ่มขึ้น 86%
- AI crawler และ scraper เป็นสาเหตุหลัก

บทสรุป

ปัญหาการครอว์ลของบอต AI ส่งผลกระทบอย่างรุนแรงต่อธุรกิจขนาดเล็ก
บริษัท AI ควรขออนุญาตก่อนนำข้อมูลไป
บริษัทขนาดเล็กควรใช้ robots.txt และไฟร์วอลล์อย่างจริงจัง พร้อมติดตามตรวจสอบอย่างต่อเนื่อง

4 ความคิดเห็น

crawler 2025-01-14

ถ้า IP 600 ตัวที่เข้าเว็บหนึ่งเว็บเป็นของจริง ก็คงต้องบอกว่าไล่เก็บข้อมูลกันแบบบ้าคลั่งจริง ๆ แต่พอเห็นว่าไม่ได้ใช้ robots.txt ก็แอบรู้สึกว่า "หือ?" นิดหน่อย
ดูเหมือนจะเป็นบริษัทที่ข้อมูลสำคัญ และเว็บไซต์ก็น่าจะมีการใช้งานอยู่ แบบนี้น่าจะตั้งค่า robots.txt ซึ่งเป็นพื้นฐานที่สุดก่อนสิ...

xguru 2025-01-14

บอตของ OpenAI ทำให้เว็บไซต์ของบริษัทเล็ก ๆ เป็นอัมพาตราวกับถูกโจมตีแบบ 'DDoS'

unsure4000 2025-01-14

ผมคิดว่า Cloudflare ดูเหมือนเป็นสิ่งจำเป็นที่ทั้งรักทั้งเกลียดจริง ๆ เป็นจุดเดียวที่ถ้าโดนโจมตีก็สร้างผลกระทบได้รุนแรงมาก แต่ประสิทธิภาพก็สูงมากเช่นกัน

GN⁺ 2025-01-14

ความคิดเห็นจาก Hacker News

บริษัท AI กำลังก่อให้เกิดทราฟฟิกจำนวนมากในฟอรัม
- มีกรณีที่บอกว่าบอต AI สร้างทราฟฟิกมากกว่า 10TB บน Read the Docs
- มีข้อกล่าวหาว่า OpenAI ใช้ 600 IP เพื่อสแครปข้อมูล
- มีการบันทึกไว้เพียง IP ของ reverse proxy ของ Cloudflare จึงไม่สามารถทราบ IP ของไคลเอนต์จริงได้
- มีความเห็นว่าการอ้างว่าเป็นการโจมตี DDOS นั้นไม่ยุติธรรม เพราะในล็อกไม่มี timestamp และไม่มีการกล่าวถึงความเร็วของคำขอ
ในฐานะเว็บดีเวลอปเปอร์ มีความไม่พอใจกับสแครปเปอร์ที่ไม่มีประสิทธิภาพของบริษัท AI
- แนะนำให้ปฏิบัติตามกฎพื้นฐานคืออย่าทำให้ไซต์รับโหลดมากเกินไป
- รู้สึกว่าสแครปเปอร์ของบริษัท AI ไม่มีประสิทธิภาพและน่ารำคาญ
ชี้ว่าบทความเขียน "robots.txt" ผิด
- มองว่าการใช้ไฟล์ล็อกที่ไม่มี timestamp เป็นหลักฐานนั้นน่าสงสัย
- ประเมินว่า OpenAI ไม่ได้ไร้ความผิดโดยสิ้นเชิง แต่คุณภาพของบทความต่ำ
มีความเห็นว่าประวัติศาสตร์ของเว็บกำลังซ้ำรอย
- ในอดีตสามารถรับข้อมูลผ่าน API ได้ แต่ตอนนี้ส่วนใหญ่ถูกบล็อกแล้ว
- คาดหวังว่า AI อาจทำให้ปฏิสัมพันธ์อัตโนมัติลักษณะนี้กลับมาเป็นไปได้อีกครั้ง
เคยสนใจเว็บครอว์เลอร์ส่วนตัว แต่ตอนนี้ผิดหวังกับระบบเศรษฐกิจของ Google ที่ไม่เป็นธรรม
- กังวลว่าแม้ LLMs จะมอบประโยชน์ใช้สอยได้มาก แต่ความกลัวว่าจะถูกขโมยความคิดสร้างสรรค์จะทำให้ผู้คนปิดประตูใส่มัน
ช่วงหลังผู้ที่ตีพิมพ์หนังสือบน Amazon กำลังต้องแข่งขันกับของปลอมหลอกลวงที่สร้างโดย AI
- มีกรณีที่ BBC ไปสัมภาษณ์ประสบการณ์ที่เกี่ยวข้องกับเรื่องนี้
เตือนว่าหากไซต์ใช้ robots.txt ไม่ถูกต้อง AI ก็สามารถสแครปได้ตามใจ
- แนะนำให้ตรวจสอบ robots.txt
ไซต์สามารถใช้ HTTP error 429 เพื่อควบคุมความเร็วของบอตได้
- หากบอตมาจาก subnet เดียวกัน ก็เสนอให้ใช้กับทั้ง subnet แทนที่จะใช้กับแต่ละ IP