Cloudflare เปิดใช้การบล็อกตัวครอว์ลข้อมูล AI เป็นค่าเริ่มต้น

(nytimes.com)

3 คะแนน โดย GN⁺ 2025-07-03 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Cloudflare เปิดตัวการตั้งค่าใหม่ที่บล็อก ตัวขูดข้อมูล A.I. เป็นค่าเริ่มต้น
เจ้าของเว็บไซต์จะบล็อกการครอว์ลของบอต AI โดยอัตโนมัติ เว้นแต่จะให้สิทธิ์ไว้
เป็นการเสริมบทบาทในการปกป้องคอนเทนต์บนอินเทอร์เน็ต ท่ามกลางการเก็บรวบรวม ข้อมูลคุณภาพสูง ที่จำเป็นต่อการฝึกโมเดล AI
ผู้สร้างคอนเทนต์และสื่อ ยังคงแสดงความกังวลต่อการใช้ข้อมูลโดยไม่ได้รับอนุญาต
แนวโน้ม ข้อพิพาททางกฎหมาย ระหว่างบริษัท AI กับเจ้าของคอนเทนต์เกิดขึ้นถี่ขึ้นเรื่อย ๆ

Cloudflare เปิดใช้ฟีเจอร์บล็อกตัวขูดข้อมูล AI เป็นค่าเริ่มต้น

Cloudflare เป็นบริษัทเทคโนโลยีที่ให้บริการจัดการทราฟฟิกออนไลน์และบริการความปลอดภัย
จากการที่ บริษัท AI เก็บข้อมูลจากเว็บไซต์โดยไม่ได้รับอนุญาต เพิ่มขึ้นในช่วงหลัง Cloudflare จึงเปิดตัว การตั้งค่าใหม่แบบอิงสิทธิ์การเข้าถึง ที่ช่วยให้ลูกค้าบล็อกการเข้าถึงของ ตัวขูดข้อมูล AI ได้โดยอัตโนมัติ

นโยบายค่าเริ่มต้นใหม่และความเปลี่ยนแปลง

ฟีเจอร์ใหม่นี้ทำให้เว็บไซต์สามารถบล็อก การครอว์ลอัตโนมัติของบอต AI (การสแครปข้อมูล) ได้ เป็นค่าเริ่มต้น
หากต้องการให้ครอว์ลข้อมูล เจ้าของเว็บไซต์ต้อง ให้สิทธิ์การเข้าถึงเพิ่มเติมด้วยตนเอง
ก่อนหน้านี้ บอตที่ Cloudflare ไม่ได้มองว่าเป็นแฮ็กเกอร์หรือผู้ไม่หวังดี สามารถเก็บข้อมูลจากเว็บไซต์ได้อย่างอิสระ

เหตุผลของการเปลี่ยนนโยบายของ Cloudflare

Matthew Prince ซีอีโอของ Cloudflare เน้นย้ำว่ามาตรการนี้มีเป้าหมายเพื่อ "ปกป้องคอนเทนต์ต้นฉบับบนอินเทอร์เน็ต และเสริมสิทธิประโยชน์ของผู้เผยแพร่บนเว็บ"
เมื่อบริษัท AI นำข้อมูลบนอินเทอร์เน็ตไปใช้โดยไม่ได้รับอนุญาต จะเกิดปัญหาที่ทำให้ ผู้สร้างคอนเทนต์มีแรงจูงใจในการผลิตคอนเทนต์ใหม่น้อยลง
เครือข่ายของ Cloudflare รองรับ ทราฟฟิกอินเทอร์เน็ตราว 20% ของโลก
ช่วงหลังมานี้ กิจกรรมของตัวครอว์ล AI บนเว็บเพิ่มขึ้นอย่างรวดเร็ว จึงมีการผลักดันนโยบายเพื่อรับมือ

ความขัดแย้งเรื่องข้อมูล AI ในอุตสาหกรรมที่รุนแรงขึ้น

OpenAI, Anthropic และ Google กำลังแข่งขันกันอย่างดุเดือดในการ เก็บข้อมูลจำนวนมหาศาลเพื่อพัฒนาโมเดล AI
ข้อมูลเว็บคุณภาพสูง มีบทบาทสำคัญต่อความซับซ้อนของโมเดล AI และคุณภาพของผลลัพธ์
ด้วยเหตุนี้ ผู้ดูแลเว็บไซต์ สำนักข่าว และเจ้าของลิขสิทธิ์ จึงออกมาคัดค้านการเก็บข้อมูลโดยไม่ได้รับอนุญาตและไม่มีค่าตอบแทน

ตัวอย่างการขยายตัวของข้อพิพาททางกฎหมาย

ในเดือนมิถุนายน 2025 Reddit ยื่นฟ้อง Anthropic และในปี 2023 The New York Times ยื่นฟ้อง OpenAI และ Microsoft โดยกล่าวหาว่ามีการนำข้อมูลไปใช้ฝึก AI โดยไม่ได้รับอนุญาตและละเมิดลิขสิทธิ์
OpenAI และ Microsoft ปฏิเสธข้อกล่าวหาเรื่องการละเมิดลิขสิทธิ์ดังกล่าว

บทสรุป

นโยบายบล็อกการเก็บข้อมูล AI เป็นค่าเริ่มต้น แบบใหม่ของ Cloudflare ส่งผลสำคัญต่อ มาตรฐานด้านจริยธรรมและกฎหมายของการเข้าถึงและการใช้ข้อมูล ระหว่างอุตสาหกรรม AI กับเจ้าของคอนเทนต์
การเปลี่ยนนโยบายครั้งนี้กำลังกลายเป็นจุดเปลี่ยนสำคัญในการวางมาตรฐานเรื่อง การคุ้มครองสิทธิของคอนเทนต์ และการยินยอมล่วงหน้าในระบบนิเวศ AI

2 ความคิดเห็น

xguru 2025-07-03

Cloudflare เปิดตัวการคิดค่าบริการตามการครอลล์ (pay-per-crawl) สำหรับบอต AI

GN⁺ 2025-07-03

ความคิดเห็นจาก Hacker News

ประเด็นที่คนจำนวนมากอาจยังไม่ค่อยตระหนักคือ เกือบทุกอย่างที่เราทำบนออนไลน์จนถึงตอนนี้ ล้วนกลายเป็นการมอบข้อมูลฝึกให้บริษัทอย่าง OpenAI และ Anthropic ฟรี ๆ และในกระบวนการนั้น มนุษย์ที่สร้างคุณค่าจริงกลับถูกกันออกไป มองว่าทิศทางการเน้นประเด็นนี้ถูกต้อง 100% แต่ยากจะเรียกวิธีแก้นี้ว่าเป็นนวัตกรรม และหวังว่าจะมีนวัตกรรมอีกมากกว่านี้เพื่อต่อต้านปรากฏการณ์ AI แบบ寄生
- มีความเห็นว่า Cloudflare หรือผู้ให้บริการลักษณะคล้ายกันต่างหากที่กำลังทำลายความเสรีของอินเทอร์เน็ต ทุกวันนี้มักมีการทำให้เว็บไซต์ช้าหรือบล็อกบ่อยเกินไปโดยอ้างเรื่องการยืนยันตัวตน จนประสบการณ์โหลดช้ากลับไปเหมือนปี 1998 และกำลังกลายเป็นยุคที่ใช้งานเว็บได้ปกติเฉพาะบนเบราว์เซอร์ที่ยอมให้บริษัทโฆษณาติดตามและสร้างรายได้จากผู้ใช้ พร้อมวิจารณ์ว่า Cloudflare ไม่ได้แก้ปัญหา แต่เข้ามาคั่นกลางเพื่อเก็บเงินและทำให้คุณภาพประสบการณ์ใช้อินเทอร์เน็ตโดยรวมแย่ลง
- ฉันเขียนบนออนไลน์เพราะอยากแบ่งปันความคิดของตัวเอง ดังนั้นไม่ว่าจะถูกใช้เป็นข้อมูลฝึก AI หรือมีคนอ่านจริง ๆ ก็พอใจทั้งนั้น
- ฉันคิดว่าการนำข้อมูลสาธารณะบนอินเทอร์เน็ตไปใช้ฝึก AI อย่างเสรีนั้นโอเค 100% แต่สิ่งที่ยอมรับไม่ได้เด็ดขาดคือการครอว์ลด้วยความเร็วสูงเกินไปจนสร้างภาระให้เว็บไซต์เล็ก ๆ ดำเนินการต่อได้ยาก และมองว่านี่คือโศกนาฏกรรมของทรัพยากรส่วนรวมอย่างแท้จริง
- ยังสงสัยว่า Cloudflare จะสามารถหยุดการสแครปข้อมูล AI ทั้งหมดได้สมบูรณ์จริงหรือไม่ มองว่ามาตรการนี้ในทางปฏิบัติคงแค่ทำให้การครอว์ลยากขึ้นและแพงขึ้น ช่วยกันไม่ให้มีการไล่กวาดทุกหน้าทุกวันจนเกิดต้นทุนกับผู้เผยแพร่ แต่ท้ายที่สุดข้อมูลก็คงไปอยู่ในชุดข้อมูลสักแห่งอยู่ดี
ลองเปิดฟีเจอร์นี้แล้ว พบแค่ว่า robots.txt ถูกเปลี่ยนอัตโนมัติ ยังไม่แน่ใจว่ามีการทำงานเพิ่มเติมอะไรอีกหรือไม่ โดยในไฟล์ robots.txt มีการเพิ่มค่าตั้งเพื่อบล็อกบอตและครอว์ลเลอร์ AI หลายตัว
- เห็นบรรทัด User-agent: CCBot disallow: / แล้วตั้งคำถามว่า CCBot (Common Crawl) เป็นบอตเฉพาะ AI จริงหรือไม่ เพราะ CCBot ถูกบล็อกใน robots.txt หลายแห่งมานานแล้ว จึงสงสัยว่า Common Crawl มีสิทธิ์ควบคุมวิธีนำคอนเทนต์ไปใช้ได้จริงหรือไม่ และถ้า CC อาศัย fair use อยู่แล้ว จะมีสิทธิ์เรียกเก็บค่าไลเซนส์หรืออนุญาตการใช้งานต่อจริงแค่ไหน รวมถึงสงสัยว่าข้อกำหนดการใช้งานของเว็บไซต์จำนวนมากเปิดทางให้ผู้ดูแลเว็บนำคอนเทนต์ของผู้อื่น (ผู้ใช้) ไปรีไลเซนส์เพื่อใช้กับ LLM และแบ่งรายได้ได้จริงหรือไม่
- แม้ Cloudflare จะบอกว่ากำลังเปลี่ยนค่าตั้งต้นเพื่อปกป้องคอนเทนต์ต้นฉบับ แต่ในคำอธิบายของ robots.txt กลับยกเว้นให้ใช้เพื่อ AI RAG (Retrieval Augmented Generation) ได้ ซึ่งดูแปลก เพราะ RAG กลับกระทบรายได้ของนักเขียนแบบเรียลไทม์มากกว่าการฝึกโมเดลภาษาเสียอีก
- คิดว่าในท้ายที่สุด Google เองก็จะเก็บข้อมูลไปทั้งเพื่อทำดัชนีเว็บและฝึก AI พร้อมกัน และอาจบังคับให้ต้องเลือก หากผู้ดูแลเว็บไซต์ต้องยอมเสียการแสดงผลบน Google Search เมื่อไม่ยอมให้ใช้เพื่อฝึก AI ก็จะเกิดภาวะกลืนไม่เข้าคายไม่ออกที่ละเอียดอ่อนมาก
- สำหรับเว็บงานอดิเรกส่วนตัว หาก user-agent มีคำว่า bot และมีการขอไฟล์อื่นนอกเหนือจาก robots.txt, humans.txt, favicon.ico ก็จะตอบกลับด้วยสถานะ 444 (ตัดการเชื่อมต่อทันที) ส่วนเสิร์ชเอนจินส่วนใหญ่ก็จัดการบล็อก CIDR แบบ blackhole คิดว่าคงมีแค่ตัวเองที่ทำแบบนี้
- มีสำนักข่าวบางแห่งที่บล็อกทั้ง LLM crawler และฟังก์ชันค้นหาของ ChatGPT ไปพร้อมกัน แต่ค่าตั้งของ Cloudflare ถือว่าสมเหตุสมผลกว่านั้นมากในฐานะค่าเริ่มต้น
พาดหัวครั้งนี้อาจทำให้เข้าใจผิดได้เล็กน้อย ตอนนี้สิ่งที่เกิดขึ้นคือเว็บไซต์ที่ใช้ Cloudflare สามารถเปิดโหมดบล็อก AI bot ทั้งหมดได้อย่างรวดเร็วแบบ opt-in แต่ยังไม่ใช่ค่าเริ่มต้นและไม่ได้ถูกเปิดใช้อัตโนมัติ อย่างไรก็ตาม การที่ Cloudflare สามารถทำมาตรการแบบเหวี่ยงแหนี้ได้หากต้องการ ก็แสดงให้เห็นว่าพวกเขามีอำนาจมากเพียงใด
- มีคำถามว่าไม่ใช่ค่าเริ่มต้นจริงหรือ เพราะในบล็อกทางการของ Cloudflare มีการพูดถึงการเปลี่ยนค่าตั้งต้น
- ตอนนี้ความสัมพันธ์ระหว่าง AI bot กับเว็บไซต์กลายเป็นเชิงปฏิปักษ์ไปแล้ว และ Cloudflare ก็แค่กำลังตอบสนองต่อสถานการณ์นั้น พร้อมตั้งคำถามว่าเรื่องนี้ก็คล้ายกับการป้องกัน DDoS ไม่ใช่หรือ
- รู้สึกว่า Cloudflare ไม่ได้ให้เครื่องมือป้องกันที่ดีจริง แต่ทำให้อินเทอร์เน็ตช้าลงมากกว่า และไม่เคยมี challenge ไหนที่เจาะไม่ได้ภายในครึ่งวัน มองว่ามาตรการเหล่านี้เป็นก้าวแรกเพื่อเข้าสู่ตลาดตัวกลางสำหรับ AI SEO สุดท้ายตีความว่าแก่นแท้ของ Cloudflare ไม่ได้ทำเพื่อเว็บไซต์ แต่เพื่อเก็บค่าธรรมเนียมคั่นกลางระหว่าง scraper กับ publisher จึงเกลียด Cloudflare
ปริมาณข้อมูลที่ให้บริการผ่าน Cloudflare ของฉันพุ่งจาก 20GB เมื่อ 2 ปีก่อนเป็น 100GB ทั้งที่ผู้เข้าชมจริงลดลงเหลือต่ำกว่าครึ่ง จึงคาดว่าในมุมของ Cloudflare มาตรการนี้อาจเป็นไปเพื่อประหยัดต้นทุนทรัพยากร
- เห็นด้วยว่าค่าบริการแบนด์วิดท์แพงสำหรับทราฟฟิกขนาดใหญ่
ใน HN มักมีคนบ่นว่าทราฟฟิกจากบอตทำให้เว็บไซต์ช้าลง แต่ในฐานะผู้ดูแลเว็บก็ไม่ค่อยเข้าใจนัก ถ้าใช้ Cloudflare cache เป็นค่าเริ่มต้น ทราฟฟิกส่วนใหญ่ก็น่าจะถูกดูดซับด้วยแคชแทบทั้งหมดและแทบไม่เพิ่มภาระให้เซิร์ฟเวอร์ อีกทั้งต้นทุน CPU กับแบนด์วิดท์สมัยนี้ก็ถูกลงมากแล้ว จึงสงสัยว่าทำไมหลายคนถึงไวต่อประเด็นนี้นัก
- ฉันเองก็ดูแลเว็บไซต์ใหญ่แห่งหนึ่ง มีหลายแสนหน้า รองรับ 10 ภาษา รวมทั้งหมดเป็นหลายล้านหน้า และมี RPS เกือบ 1000 ถ้า AI crawler ส่งคำขอ 100~200 RPS พร้อมกันโดยกระจายหลาย IP แล้วไปกระหน่ำ endpoint ที่มีต้นทุนสูง มาตรการบล็อกบอตเดิม ๆ ก็เอาไม่อยู่ และให้ผลคล้าย DDoS
- ฉันเองก็เคยล่มเพราะทราฟฟิก AI ต่อให้ใช้แคชหลายชั้น ก็ยังมี endpoint สาธารณะบางตัวที่เปิดโดยไม่ต้องยืนยันตัวตนและแคชไม่ได้ หากถูกยิงซ้ำ ๆ สุดท้ายเว็บก็ล่มได้ เมื่อมีการรีเจน miss-cache ของหลายล้านหน้าพร้อมกันในเวลาสั้น ๆ คำขอจะกองสะสมและเกิด error แล้ว error ก็ทำให้แคชสร้างไม่เสร็จ กลายเป็นวงจรเลวร้าย หากทราฟฟิก AI ยังคงยิง endpoint แบบนี้ต่อ ปัญหาก็จะยืดเยื้อ
- ปัญหาเริ่มตั้งแต่การสมมุติว่าทุกคนใช้ Cloudflare เป็นค่าเริ่มต้นอยู่แล้ว ทุกวันนี้แม้แต่การทำเว็บธรรมดาก็กลายเป็นว่าสิ่งนี้จำเป็นไปแล้วหรือ
- ปัญหาทราฟฟิก AI ที่คนพูดถึงกันมาก มักกระจุกอยู่กับครอว์ลเลอร์ที่คอยยิง API แบบ “ดึงโพสต์ทั้งหมดตามช่วงวันที่” ไม่รู้จบ
- ฉันเองก็แปลกใจอยู่บ้างกับปฏิกิริยารุนแรงเหล่านี้ แต่ก็เข้าใจคนที่อยากหนี AI crawler บนเว็บไซต์ที่ยังไม่ได้ optimize เครื่องมือที่ดูเหมือนแพร่เร็วและกว้างที่สุดตอนนี้คือ Anubis checker ลิงก์ github เมื่อคำนึงว่า AI traffic เป็นครอว์ลแบบกระจายตัว ก็รู้สึกว่าควรมีซอฟต์แวร์โอเพนซอร์สสำหรับการจำกัดแบบร่วมมือกันมากกว่านี้ และพูดถึงว่าบนเว็บน่าจะมีการตอบสนองแบบ HTTP status code 420 Enhance Your Calm มากขึ้น ลิงก์อ้างอิง
มีความกังวลว่าถ้าบริษัท AI ใช้ข้อมูลจากหลายเว็บไซต์โดยไม่ได้รับอนุญาต แรงจูงใจในการผลิตคอนเทนต์ดิจิทัลจะหายไป และท้ายที่สุดโครงสร้างการเติบโตของ AI เองก็จะบ่อนทำลายกิจกรรมดิจิทัลอื่น ๆ จนถึงขั้นทำลายเว็บในตอนจบ (พูดแบบขำ ๆ ก็คือ สำหรับ AI แล้วเว็บเองคือ “เหยื่ออาหาร”)
- มีความเห็นว่าทั่วโลกมีอัตราการใช้ตัวบล็อกโฆษณาอยู่ที่ 30% ดังนั้นตรรกะเรื่องการบ่อนทำลายคอนเทนต์ดิจิทัลจึงซับซ้อนกว่านั้น
- หากสิ่งที่ AI อยากทำในท้ายที่สุดจริง ๆ คือปฏิสัมพันธ์และกิจกรรมทางเศรษฐกิจกับมนุษย์ในรูปแบบต่าง ๆ แต่สิ่งเหล่านั้นไม่เกิดขึ้น ในที่สุด AI เองก็จะเผชิญภาวะทรัพยากรข้อมูลร่อยหรอ
- มุมมองหนึ่งคือ เช่นเดียวกับที่ทุกวันนี้ทุนนิยมทำให้มนุษย์กลายเป็นเป้าหมายหลักของการขูดรีด AI ก็อาจกำลังเดินไปตามเส้นทางโครงสร้างแบบเดียวกัน
Cloudflare อาจจับบอตหรือครอว์ลเลอร์ AI ที่ทำตาม robots.txt และประพฤติตัวอย่างซื่อสัตย์ได้ผ่านกฎที่ตั้งไว้ล่วงหน้า แต่บางบริษัทอย่าง Perplexity ก็ปลอมแปลงทราฟฟิกอยู่แล้ว จึงสงสัยว่าการบล็อกแบบนี้จะทำร้ายเฉพาะบอตที่ซื่อสัตย์ และยิ่งจูงใจให้เกิดการปกปิดตัวตนหรือไม่ อย่างไรก็ดี ปรากฏการณ์นี้หรือ arms race ดำเนินมาตั้งแต่ 20 ปีก่อนแล้ว ไม่ใช่เรื่องใหม่ และด้วยสัญญาณระดับโลกของ Cloudflare การให้คะแนนบอต และการทำ fingerprint ทราฟฟิก จึงถูกอธิบายว่าสามารถแยกแยะ AI bot ที่ปลอมตัวได้ค่อนข้างดี พร้อมแชร์ลิงก์อธิบายที่เกี่ยวข้อง อ้างอิง blog.cloudflare.com
- เมื่อตั้งคำถามว่าหากกำกับเฉพาะบอตที่ซื่อสัตย์และโปร่งใส จะยิ่งเพิ่มการครอว์ลแบบปลอมตัวหรือไม่ ก็มีความเห็นว่าสงครามลักษณะนี้ดำเนินมาเกิน 20 ปีแล้ว และไม่ใช่ทั้งเรื่องใหม่หรือคำตอบใหม่
- ตัวเลือก Block AI Bots ของ Super Bot Fight Mode ช่วยกรอง bot traffic ส่วนใหญ่ได้ดีจริง และไม่ได้พึ่ง robots.txt หรือ user agent แต่ใช้แนวทางวิเคราะห์รูปแบบทราฟฟิก ทำให้ถึงขั้นต้องสร้างกฎ bypass เพิ่มต่างหากเพื่อให้เครื่องมือของตัวเองทำงานได้
- Cloudflare รู้ดีว่าจะทำให้คนที่พวกเขาไม่ชอบใช้อินเทอร์เน็ตได้ยากมากแค่ไหน หากตั้ง robots.txt ไว้ไม่ให้บอตถูกจัดเป็นอันตรายก็ยังมีช่องให้อนุญาตเป็นรายเว็บไซต์ แต่ที่เหลือก็จะปล่อยให้เป็นวิธีจัดการเฉพาะของ Cloudflare
- สำหรับ AI bot ที่สแครปปริมาณมาก ในมุมของ Cloudflare แล้วแทบซ่อนได้ยาก เพราะสามารถจำแนกได้จากหลายสัญญาณทั้งระดับ fingerprint และเครือข่าย อีกทั้งบริษัทใหญ่ ๆ ก็มักสื่อสารกับ Cloudflare โดยตรงอยู่แล้ว จึงคาดว่าสุดท้ายย่อมมีทั้งการเตือนหรือมาตรการตอบสนองได้หลายแบบ
บริษัท AI รายใหญ่เคารพ robots.txt จริงหรือไม่ อาจมีเพียงครอว์ลเลอร์ที่เปิดเผยต่อสาธารณะบางตัวเท่านั้นที่ทำตาม แต่เบื้องหลังก็ยังอาจรันการครอว์ลแบบซ่อนเร้นอยู่ดี เพราะมีประวัติการกวาดใช้ทั้งหนังสือ รูปภาพ และข้อมูลผู้ใช้แบบผิดกฎหมายมาแล้ว
- ครอว์ลเลอร์ขนาดเล็กจำนวนมากก็พยายามปลอมตัวเป็นบริษัทใหญ่เพื่อหลบการบล็อก ทำให้แยกแยะได้ยาก
- การทำตาม robots.txt เป็นเพียงธรรมเนียมเท่านั้น ไม่ได้มีการบังคับทางกฎหมายหรือทางเทคนิคอย่างชัดเจน จะใส่เงื่อนไขในข้อตกลงการใช้งานให้ต้องปฏิบัติตามนโยบาย robots.txt ก็ได้ แต่พลังบังคับจริงยังน่าสงสัย
- ทราฟฟิกส่วนหนึ่งอาจไม่ใช่การสแครปโดยตรงของ AI แต่เป็นรูปแบบที่เมื่อมนุษย์ถาม AI แล้ว AI ค่อยออกไปสำรวจอินเทอร์เน็ตในตอนนั้น จึงเกิดความสับสนว่าจะถือว่าอยู่ในขอบเขตการกำกับของ robots.txt แบบเดียวกับเบราว์เซอร์เพื่อการค้นคว้าหรือไม่ หรือควรนับเฉพาะการทำดัชนี
- แม้จะไม่ค่อยชอบบทบาทผู้เฝ้าประตูของ Cloudflare แต่ก็ยอมรับว่าพวกเขาอยู่ในตำแหน่งที่มีอิทธิพลต่อบริษัท AI ได้จริง
รายชื่อ AI bot ที่ถูกบล็อกในตอนนี้ยังสั้นมาก ลิงก์อ้างอิง
- ในคำอธิบายของ Cloudflare นั้น Common Crawl (CCBot) ก็ถูกจัดเป็น AI Bots และอยู่ในตัวเลือกการบล็อกด้วย แต่ Common Crawl ไม่ใช่บอตเฉพาะ AI จริง ๆ หากเป็นโครงสร้างพื้นฐานการครอว์ลแบบเปิด ลิงก์อ้างอิง
- Cloudflare มองเห็นทราฟฟิกเว็บจำนวนมหาศาล ดังนั้นรายชื่อบอตที่จับอยู่ตอนนี้น่าจะเป็นกลุ่มที่พบได้บ่อยก่อน และเมื่อพบบอตใหม่ก็คงค่อย ๆ เพิ่มเข้าไป แม้การบล็อกครอว์ลเลอร์ทั้งหมดจะเป็นไปไม่ได้ แต่ถ้ามองทั้งอินเทอร์เน็ตแล้ว ก็คงมีไม่กี่แห่งที่ตรวจจับบอตได้มากเท่า Cloudflare
- การบล็อกแค่นี้ก็น่าจะช่วยลดทราฟฟิกของเว็บไซต์ส่วนใหญ่ลงได้มากกว่าครึ่งแล้ว
วิวัฒนาการสำคัญของเว็บ (การล้อมรั้วแบบ web2, ความเลื่อนลอยของ web3 และสถานการณ์ตอนนี้) ดูจะค่อย ๆ ห่างออกจากบทบาทความเป็นชุมชนและคลังความรู้มากขึ้น แม้คุณภาพและเทคโนโลยีจะพัฒนาต่อเนื่อง แต่สิ่งที่สูญเสียไปก็มีมากเช่นกัน

Cloudflare เปิดใช้การบล็อกตัวครอว์ลข้อมูล AI เป็นค่าเริ่มต้น

Cloudflare เปิดใช้ฟีเจอร์บล็อกตัวขูดข้อมูล AI เป็นค่าเริ่มต้น

นโยบายค่าเริ่มต้นใหม่และความเปลี่ยนแปลง

เหตุผลของการเปลี่ยนนโยบายของ Cloudflare

ความขัดแย้งเรื่องข้อมูล AI ในอุตสาหกรรมที่รุนแรงขึ้น

ตัวอย่างการขยายตัวของข้อพิพาททางกฎหมาย

บทสรุป

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นจาก Hacker News