- Triplegangers เป็นบริษัทขนาดเล็กที่มีพนักงาน 7 คน และจำหน่ายฐานข้อมูล "มนุษย์ดิจิทัลฝาแฝด"
- ให้บริการไฟล์ภาพ 3D และภาพถ่ายแก่ศิลปิน 3D ผู้พัฒนาเกมวิดีโอ และลูกค้ากลุ่มอื่น ๆ
- ปัญหาที่เกิดขึ้น: บอตของ OpenAI ใช้ IP มากกว่า 600 รายการเพื่อครอว์ลเว็บไซต์อย่างหนักจนเซิร์ฟเวอร์ล่ม
- พยายามเก็บข้อมูลหน้าสินค้ามากกว่า 65,000 หน้าและรูปภาพหลายแสนภาพ
- คำขอจำนวนมหาศาลที่ "คล้ายการโจมตีแบบ DDoS" เช่นนี้ คาดว่าจะทำให้ค่าใช้จ่าย AWS เพิ่มขึ้น
- GPTBot ของ OpenAI สามารถครอว์ลข้อมูลได้อย่างอิสระหากไม่มีการตั้งค่าไฟล์ robots.txt อย่างเหมาะสม
- หากเว็บไซต์ไม่ได้บล็อกไว้เป็นพิเศษ กิจกรรมของบอตจะได้รับอนุญาตโดยค่าเริ่มต้น
- robots.txt: ไฟล์ที่กำหนดว่าเสิร์ชเอนจินไม่ควรครอว์ลข้อมูลใด
- Triplegangers ไม่ได้ตั้งค่าไฟล์ robots.txt ของเว็บไซต์อย่างถูกต้อง ทำให้บอตของ OpenAI สามารถสแครปข้อมูลได้
- ปัญหาเพิ่มเติม:
- OpenAI ใช้เวลาสูงสุด 24 ชั่วโมงในการรับรู้คำขอให้หยุดการครอว์ล
- บริษัท AI รายอื่นก็ครอว์ลข้อมูลด้วยวิธีคล้ายกัน
การรับมือของ Triplegangers
- มาตรการตอบโต้:
- สร้างไฟล์ robots.txt ที่ตั้งค่าอย่างเหมาะสม
- ตั้งค่าบัญชี Cloudflare เพื่อบล็อก GPTBot และ AI crawler อื่น ๆ
- ผลลัพธ์:
- ทำให้เว็บไซต์กลับมามีเสถียรภาพได้สำเร็จ
- แต่ยังไม่สามารถรู้ได้ว่า OpenAI นำข้อมูลใดไปบ้าง และก็ไม่มีวิธีขอให้ลบข้อมูลเหล่านั้น
- เครื่องมือ opt-out ของ OpenAI ที่ยังไม่สมบูรณ์: ทำให้ธุรกิจต่าง ๆ ป้องกันการครอว์ลได้ยากยิ่งขึ้น
เหตุใดปัญหาการครอว์ลจึงร้ายแรงเป็นพิเศษ
- AI crawler นำข้อมูลจากเว็บไซต์ไปโดยไม่ได้รับอนุญาต ซึ่งเป็นปัญหาใหญ่โดยเฉพาะสำหรับบริษัทอย่าง Triplegangers
- ความอ่อนไหวของข้อมูล:
- Triplegangers มีฐานข้อมูลที่สร้างจากการสแกนคนจริง
- กฎหมายคุ้มครองข้อมูลส่วนบุคคล เช่น GDPR ห้ามใช้ข้อมูลโดยไม่ได้รับอนุญาต
- ความน่าสนใจของข้อมูล:
- ข้อมูลถูกติดแท็กไว้ จึงมีประโยชน์ต่อการฝึก AI
- ตัวอย่าง: มีการระบุรายละเอียดเช่น เชื้อชาติ อายุ และลักษณะทางกายภาพ
บทเรียนสำหรับธุรกิจขนาดเล็กอื่น ๆ
- การตรวจจับบอต AI:
- หากต้องการตรวจสอบว่ามีการครอว์ลโดยบอต AI หรือไม่ จำเป็นต้องมอนิเตอร์ล็อก
- เว็บไซต์ส่วนใหญ่ไม่รู้ด้วยซ้ำว่าตัวเองถูกครอว์ล
- ปัญหาการครอว์ลที่เพิ่มขึ้น:
- ในปี 2024 ทราฟฟิกที่โดยทั่วไปถือว่าไม่ถูกต้อง (Invalid Traffic) เพิ่มขึ้น 86%
- AI crawler และ scraper เป็นสาเหตุหลัก
บทสรุป
- ปัญหาการครอว์ลของบอต AI ส่งผลกระทบอย่างรุนแรงต่อธุรกิจขนาดเล็ก
- บริษัท AI ควรขออนุญาตก่อนนำข้อมูลไป
- บริษัทขนาดเล็กควรใช้ robots.txt และไฟร์วอลล์อย่างจริงจัง พร้อมติดตามตรวจสอบอย่างต่อเนื่อง
4 ความคิดเห็น
ถ้า IP 600 ตัวที่เข้าเว็บหนึ่งเว็บเป็นของจริง ก็คงต้องบอกว่าไล่เก็บข้อมูลกันแบบบ้าคลั่งจริง ๆ แต่พอเห็นว่าไม่ได้ใช้
robots.txtก็แอบรู้สึกว่า "หือ?" นิดหน่อยดูเหมือนจะเป็นบริษัทที่ข้อมูลสำคัญ และเว็บไซต์ก็น่าจะมีการใช้งานอยู่ แบบนี้น่าจะตั้งค่า
robots.txtซึ่งเป็นพื้นฐานที่สุดก่อนสิ...บอตของ OpenAI ทำให้เว็บไซต์ของบริษัทเล็ก ๆ เป็นอัมพาตราวกับถูกโจมตีแบบ 'DDoS'
ผมคิดว่า Cloudflare ดูเหมือนเป็นสิ่งจำเป็นที่ทั้งรักทั้งเกลียดจริง ๆ เป็นจุดเดียวที่ถ้าโดนโจมตีก็สร้างผลกระทบได้รุนแรงมาก แต่ประสิทธิภาพก็สูงมากเช่นกัน
ความคิดเห็นจาก Hacker News
บริษัท AI กำลังก่อให้เกิดทราฟฟิกจำนวนมากในฟอรัม
ในฐานะเว็บดีเวลอปเปอร์ มีความไม่พอใจกับสแครปเปอร์ที่ไม่มีประสิทธิภาพของบริษัท AI
ชี้ว่าบทความเขียน "robots.txt" ผิด
มีความเห็นว่าประวัติศาสตร์ของเว็บกำลังซ้ำรอย
เคยสนใจเว็บครอว์เลอร์ส่วนตัว แต่ตอนนี้ผิดหวังกับระบบเศรษฐกิจของ Google ที่ไม่เป็นธรรม
ช่วงหลังผู้ที่ตีพิมพ์หนังสือบน Amazon กำลังต้องแข่งขันกับของปลอมหลอกลวงที่สร้างโดย AI
เตือนว่าหากไซต์ใช้ robots.txt ไม่ถูกต้อง AI ก็สามารถสแครปได้ตามใจ
ไซต์สามารถใช้ HTTP error 429 เพื่อควบคุมความเร็วของบอตได้