- Cloudflare เปิดตัวการตั้งค่าใหม่ที่บล็อก ตัวขูดข้อมูล A.I. เป็นค่าเริ่มต้น
- เจ้าของเว็บไซต์จะบล็อกการครอว์ลของบอต AI โดยอัตโนมัติ เว้นแต่จะให้สิทธิ์ไว้
- เป็นการเสริมบทบาทในการปกป้องคอนเทนต์บนอินเทอร์เน็ต ท่ามกลางการเก็บรวบรวม ข้อมูลคุณภาพสูง ที่จำเป็นต่อการฝึกโมเดล AI
- ผู้สร้างคอนเทนต์และสื่อ ยังคงแสดงความกังวลต่อการใช้ข้อมูลโดยไม่ได้รับอนุญาต
- แนวโน้ม ข้อพิพาททางกฎหมาย ระหว่างบริษัท AI กับเจ้าของคอนเทนต์เกิดขึ้นถี่ขึ้นเรื่อย ๆ
Cloudflare เปิดใช้ฟีเจอร์บล็อกตัวขูดข้อมูล AI เป็นค่าเริ่มต้น
- Cloudflare เป็นบริษัทเทคโนโลยีที่ให้บริการจัดการทราฟฟิกออนไลน์และบริการความปลอดภัย
- จากการที่ บริษัท AI เก็บข้อมูลจากเว็บไซต์โดยไม่ได้รับอนุญาต เพิ่มขึ้นในช่วงหลัง Cloudflare จึงเปิดตัว การตั้งค่าใหม่แบบอิงสิทธิ์การเข้าถึง ที่ช่วยให้ลูกค้าบล็อกการเข้าถึงของ ตัวขูดข้อมูล AI ได้โดยอัตโนมัติ
นโยบายค่าเริ่มต้นใหม่และความเปลี่ยนแปลง
- ฟีเจอร์ใหม่นี้ทำให้เว็บไซต์สามารถบล็อก การครอว์ลอัตโนมัติของบอต AI (การสแครปข้อมูล) ได้ เป็นค่าเริ่มต้น
- หากต้องการให้ครอว์ลข้อมูล เจ้าของเว็บไซต์ต้อง ให้สิทธิ์การเข้าถึงเพิ่มเติมด้วยตนเอง
- ก่อนหน้านี้ บอตที่ Cloudflare ไม่ได้มองว่าเป็นแฮ็กเกอร์หรือผู้ไม่หวังดี สามารถเก็บข้อมูลจากเว็บไซต์ได้อย่างอิสระ
เหตุผลของการเปลี่ยนนโยบายของ Cloudflare
- Matthew Prince ซีอีโอของ Cloudflare เน้นย้ำว่ามาตรการนี้มีเป้าหมายเพื่อ "ปกป้องคอนเทนต์ต้นฉบับบนอินเทอร์เน็ต และเสริมสิทธิประโยชน์ของผู้เผยแพร่บนเว็บ"
- เมื่อบริษัท AI นำข้อมูลบนอินเทอร์เน็ตไปใช้โดยไม่ได้รับอนุญาต จะเกิดปัญหาที่ทำให้ ผู้สร้างคอนเทนต์มีแรงจูงใจในการผลิตคอนเทนต์ใหม่น้อยลง
- เครือข่ายของ Cloudflare รองรับ ทราฟฟิกอินเทอร์เน็ตราว 20% ของโลก
- ช่วงหลังมานี้ กิจกรรมของตัวครอว์ล AI บนเว็บเพิ่มขึ้นอย่างรวดเร็ว จึงมีการผลักดันนโยบายเพื่อรับมือ
ความขัดแย้งเรื่องข้อมูล AI ในอุตสาหกรรมที่รุนแรงขึ้น
- OpenAI, Anthropic และ Google กำลังแข่งขันกันอย่างดุเดือดในการ เก็บข้อมูลจำนวนมหาศาลเพื่อพัฒนาโมเดล AI
- ข้อมูลเว็บคุณภาพสูง มีบทบาทสำคัญต่อความซับซ้อนของโมเดล AI และคุณภาพของผลลัพธ์
- ด้วยเหตุนี้ ผู้ดูแลเว็บไซต์ สำนักข่าว และเจ้าของลิขสิทธิ์ จึงออกมาคัดค้านการเก็บข้อมูลโดยไม่ได้รับอนุญาตและไม่มีค่าตอบแทน
ตัวอย่างการขยายตัวของข้อพิพาททางกฎหมาย
- ในเดือนมิถุนายน 2025 Reddit ยื่นฟ้อง Anthropic และในปี 2023 The New York Times ยื่นฟ้อง OpenAI และ Microsoft โดยกล่าวหาว่ามีการนำข้อมูลไปใช้ฝึก AI โดยไม่ได้รับอนุญาตและละเมิดลิขสิทธิ์
- OpenAI และ Microsoft ปฏิเสธข้อกล่าวหาเรื่องการละเมิดลิขสิทธิ์ดังกล่าว
บทสรุป
- นโยบายบล็อกการเก็บข้อมูล AI เป็นค่าเริ่มต้น แบบใหม่ของ Cloudflare ส่งผลสำคัญต่อ มาตรฐานด้านจริยธรรมและกฎหมายของการเข้าถึงและการใช้ข้อมูล ระหว่างอุตสาหกรรม AI กับเจ้าของคอนเทนต์
- การเปลี่ยนนโยบายครั้งนี้กำลังกลายเป็นจุดเปลี่ยนสำคัญในการวางมาตรฐานเรื่อง การคุ้มครองสิทธิของคอนเทนต์ และการยินยอมล่วงหน้าในระบบนิเวศ AI
2 ความคิดเห็น
Cloudflare เปิดตัวการคิดค่าบริการตามการครอลล์ (pay-per-crawl) สำหรับบอต AI
ความคิดเห็นจาก Hacker News
robots.txtถูกเปลี่ยนอัตโนมัติ ยังไม่แน่ใจว่ามีการทำงานเพิ่มเติมอะไรอีกหรือไม่ โดยในไฟล์robots.txtมีการเพิ่มค่าตั้งเพื่อบล็อกบอตและครอว์ลเลอร์ AI หลายตัวUser-agent: CCBot disallow: /แล้วตั้งคำถามว่า CCBot (Common Crawl) เป็นบอตเฉพาะ AI จริงหรือไม่ เพราะ CCBot ถูกบล็อกในrobots.txtหลายแห่งมานานแล้ว จึงสงสัยว่า Common Crawl มีสิทธิ์ควบคุมวิธีนำคอนเทนต์ไปใช้ได้จริงหรือไม่ และถ้า CC อาศัย fair use อยู่แล้ว จะมีสิทธิ์เรียกเก็บค่าไลเซนส์หรืออนุญาตการใช้งานต่อจริงแค่ไหน รวมถึงสงสัยว่าข้อกำหนดการใช้งานของเว็บไซต์จำนวนมากเปิดทางให้ผู้ดูแลเว็บนำคอนเทนต์ของผู้อื่น (ผู้ใช้) ไปรีไลเซนส์เพื่อใช้กับ LLM และแบ่งรายได้ได้จริงหรือไม่robots.txtกลับยกเว้นให้ใช้เพื่อ AI RAG (Retrieval Augmented Generation) ได้ ซึ่งดูแปลก เพราะ RAG กลับกระทบรายได้ของนักเขียนแบบเรียลไทม์มากกว่าการฝึกโมเดลภาษาเสียอีกuser-agentมีคำว่าbotและมีการขอไฟล์อื่นนอกเหนือจากrobots.txt,humans.txt,favicon.icoก็จะตอบกลับด้วยสถานะ 444 (ตัดการเชื่อมต่อทันที) ส่วนเสิร์ชเอนจินส่วนใหญ่ก็จัดการบล็อก CIDR แบบ blackhole คิดว่าคงมีแค่ตัวเองที่ทำแบบนี้420 Enhance Your Calmมากขึ้น ลิงก์อ้างอิงrobots.txtและประพฤติตัวอย่างซื่อสัตย์ได้ผ่านกฎที่ตั้งไว้ล่วงหน้า แต่บางบริษัทอย่าง Perplexity ก็ปลอมแปลงทราฟฟิกอยู่แล้ว จึงสงสัยว่าการบล็อกแบบนี้จะทำร้ายเฉพาะบอตที่ซื่อสัตย์ และยิ่งจูงใจให้เกิดการปกปิดตัวตนหรือไม่ อย่างไรก็ดี ปรากฏการณ์นี้หรือ arms race ดำเนินมาตั้งแต่ 20 ปีก่อนแล้ว ไม่ใช่เรื่องใหม่ และด้วยสัญญาณระดับโลกของ Cloudflare การให้คะแนนบอต และการทำ fingerprint ทราฟฟิก จึงถูกอธิบายว่าสามารถแยกแยะ AI bot ที่ปลอมตัวได้ค่อนข้างดี พร้อมแชร์ลิงก์อธิบายที่เกี่ยวข้อง อ้างอิง blog.cloudflare.comrobots.txtหรือuser agentแต่ใช้แนวทางวิเคราะห์รูปแบบทราฟฟิก ทำให้ถึงขั้นต้องสร้างกฎ bypass เพิ่มต่างหากเพื่อให้เครื่องมือของตัวเองทำงานได้robots.txtไว้ไม่ให้บอตถูกจัดเป็นอันตรายก็ยังมีช่องให้อนุญาตเป็นรายเว็บไซต์ แต่ที่เหลือก็จะปล่อยให้เป็นวิธีจัดการเฉพาะของ Cloudflarerobots.txtจริงหรือไม่ อาจมีเพียงครอว์ลเลอร์ที่เปิดเผยต่อสาธารณะบางตัวเท่านั้นที่ทำตาม แต่เบื้องหลังก็ยังอาจรันการครอว์ลแบบซ่อนเร้นอยู่ดี เพราะมีประวัติการกวาดใช้ทั้งหนังสือ รูปภาพ และข้อมูลผู้ใช้แบบผิดกฎหมายมาแล้วrobots.txtเป็นเพียงธรรมเนียมเท่านั้น ไม่ได้มีการบังคับทางกฎหมายหรือทางเทคนิคอย่างชัดเจน จะใส่เงื่อนไขในข้อตกลงการใช้งานให้ต้องปฏิบัติตามนโยบายrobots.txtก็ได้ แต่พลังบังคับจริงยังน่าสงสัยrobots.txtแบบเดียวกับเบราว์เซอร์เพื่อการค้นคว้าหรือไม่ หรือควรนับเฉพาะการทำดัชนี