3 คะแนน โดย GN⁺ 2025-07-03 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • Cloudflare เปิดตัวการตั้งค่าใหม่ที่บล็อก ตัวขูดข้อมูล A.I. เป็นค่าเริ่มต้น
  • เจ้าของเว็บไซต์จะบล็อกการครอว์ลของบอต AI โดยอัตโนมัติ เว้นแต่จะให้สิทธิ์ไว้
  • เป็นการเสริมบทบาทในการปกป้องคอนเทนต์บนอินเทอร์เน็ต ท่ามกลางการเก็บรวบรวม ข้อมูลคุณภาพสูง ที่จำเป็นต่อการฝึกโมเดล AI
  • ผู้สร้างคอนเทนต์และสื่อ ยังคงแสดงความกังวลต่อการใช้ข้อมูลโดยไม่ได้รับอนุญาต
  • แนวโน้ม ข้อพิพาททางกฎหมาย ระหว่างบริษัท AI กับเจ้าของคอนเทนต์เกิดขึ้นถี่ขึ้นเรื่อย ๆ

Cloudflare เปิดใช้ฟีเจอร์บล็อกตัวขูดข้อมูล AI เป็นค่าเริ่มต้น

  • Cloudflare เป็นบริษัทเทคโนโลยีที่ให้บริการจัดการทราฟฟิกออนไลน์และบริการความปลอดภัย
  • จากการที่ บริษัท AI เก็บข้อมูลจากเว็บไซต์โดยไม่ได้รับอนุญาต เพิ่มขึ้นในช่วงหลัง Cloudflare จึงเปิดตัว การตั้งค่าใหม่แบบอิงสิทธิ์การเข้าถึง ที่ช่วยให้ลูกค้าบล็อกการเข้าถึงของ ตัวขูดข้อมูล AI ได้โดยอัตโนมัติ

นโยบายค่าเริ่มต้นใหม่และความเปลี่ยนแปลง

  • ฟีเจอร์ใหม่นี้ทำให้เว็บไซต์สามารถบล็อก การครอว์ลอัตโนมัติของบอต AI (การสแครปข้อมูล) ได้ เป็นค่าเริ่มต้น
  • หากต้องการให้ครอว์ลข้อมูล เจ้าของเว็บไซต์ต้อง ให้สิทธิ์การเข้าถึงเพิ่มเติมด้วยตนเอง
  • ก่อนหน้านี้ บอตที่ Cloudflare ไม่ได้มองว่าเป็นแฮ็กเกอร์หรือผู้ไม่หวังดี สามารถเก็บข้อมูลจากเว็บไซต์ได้อย่างอิสระ

เหตุผลของการเปลี่ยนนโยบายของ Cloudflare

  • Matthew Prince ซีอีโอของ Cloudflare เน้นย้ำว่ามาตรการนี้มีเป้าหมายเพื่อ "ปกป้องคอนเทนต์ต้นฉบับบนอินเทอร์เน็ต และเสริมสิทธิประโยชน์ของผู้เผยแพร่บนเว็บ"
  • เมื่อบริษัท AI นำข้อมูลบนอินเทอร์เน็ตไปใช้โดยไม่ได้รับอนุญาต จะเกิดปัญหาที่ทำให้ ผู้สร้างคอนเทนต์มีแรงจูงใจในการผลิตคอนเทนต์ใหม่น้อยลง
  • เครือข่ายของ Cloudflare รองรับ ทราฟฟิกอินเทอร์เน็ตราว 20% ของโลก
  • ช่วงหลังมานี้ กิจกรรมของตัวครอว์ล AI บนเว็บเพิ่มขึ้นอย่างรวดเร็ว จึงมีการผลักดันนโยบายเพื่อรับมือ

ความขัดแย้งเรื่องข้อมูล AI ในอุตสาหกรรมที่รุนแรงขึ้น

  • OpenAI, Anthropic และ Google กำลังแข่งขันกันอย่างดุเดือดในการ เก็บข้อมูลจำนวนมหาศาลเพื่อพัฒนาโมเดล AI
  • ข้อมูลเว็บคุณภาพสูง มีบทบาทสำคัญต่อความซับซ้อนของโมเดล AI และคุณภาพของผลลัพธ์
  • ด้วยเหตุนี้ ผู้ดูแลเว็บไซต์ สำนักข่าว และเจ้าของลิขสิทธิ์ จึงออกมาคัดค้านการเก็บข้อมูลโดยไม่ได้รับอนุญาตและไม่มีค่าตอบแทน

ตัวอย่างการขยายตัวของข้อพิพาททางกฎหมาย

  • ในเดือนมิถุนายน 2025 Reddit ยื่นฟ้อง Anthropic และในปี 2023 The New York Times ยื่นฟ้อง OpenAI และ Microsoft โดยกล่าวหาว่ามีการนำข้อมูลไปใช้ฝึก AI โดยไม่ได้รับอนุญาตและละเมิดลิขสิทธิ์
  • OpenAI และ Microsoft ปฏิเสธข้อกล่าวหาเรื่องการละเมิดลิขสิทธิ์ดังกล่าว

บทสรุป

  • นโยบายบล็อกการเก็บข้อมูล AI เป็นค่าเริ่มต้น แบบใหม่ของ Cloudflare ส่งผลสำคัญต่อ มาตรฐานด้านจริยธรรมและกฎหมายของการเข้าถึงและการใช้ข้อมูล ระหว่างอุตสาหกรรม AI กับเจ้าของคอนเทนต์
  • การเปลี่ยนนโยบายครั้งนี้กำลังกลายเป็นจุดเปลี่ยนสำคัญในการวางมาตรฐานเรื่อง การคุ้มครองสิทธิของคอนเทนต์ และการยินยอมล่วงหน้าในระบบนิเวศ AI

2 ความคิดเห็น

 
GN⁺ 2025-07-03
ความคิดเห็นจาก Hacker News
  • ประเด็นที่คนจำนวนมากอาจยังไม่ค่อยตระหนักคือ เกือบทุกอย่างที่เราทำบนออนไลน์จนถึงตอนนี้ ล้วนกลายเป็นการมอบข้อมูลฝึกให้บริษัทอย่าง OpenAI และ Anthropic ฟรี ๆ และในกระบวนการนั้น มนุษย์ที่สร้างคุณค่าจริงกลับถูกกันออกไป มองว่าทิศทางการเน้นประเด็นนี้ถูกต้อง 100% แต่ยากจะเรียกวิธีแก้นี้ว่าเป็นนวัตกรรม และหวังว่าจะมีนวัตกรรมอีกมากกว่านี้เพื่อต่อต้านปรากฏการณ์ AI แบบ寄生
    • มีความเห็นว่า Cloudflare หรือผู้ให้บริการลักษณะคล้ายกันต่างหากที่กำลังทำลายความเสรีของอินเทอร์เน็ต ทุกวันนี้มักมีการทำให้เว็บไซต์ช้าหรือบล็อกบ่อยเกินไปโดยอ้างเรื่องการยืนยันตัวตน จนประสบการณ์โหลดช้ากลับไปเหมือนปี 1998 และกำลังกลายเป็นยุคที่ใช้งานเว็บได้ปกติเฉพาะบนเบราว์เซอร์ที่ยอมให้บริษัทโฆษณาติดตามและสร้างรายได้จากผู้ใช้ พร้อมวิจารณ์ว่า Cloudflare ไม่ได้แก้ปัญหา แต่เข้ามาคั่นกลางเพื่อเก็บเงินและทำให้คุณภาพประสบการณ์ใช้อินเทอร์เน็ตโดยรวมแย่ลง
    • ฉันเขียนบนออนไลน์เพราะอยากแบ่งปันความคิดของตัวเอง ดังนั้นไม่ว่าจะถูกใช้เป็นข้อมูลฝึก AI หรือมีคนอ่านจริง ๆ ก็พอใจทั้งนั้น
    • ฉันคิดว่าการนำข้อมูลสาธารณะบนอินเทอร์เน็ตไปใช้ฝึก AI อย่างเสรีนั้นโอเค 100% แต่สิ่งที่ยอมรับไม่ได้เด็ดขาดคือการครอว์ลด้วยความเร็วสูงเกินไปจนสร้างภาระให้เว็บไซต์เล็ก ๆ ดำเนินการต่อได้ยาก และมองว่านี่คือโศกนาฏกรรมของทรัพยากรส่วนรวมอย่างแท้จริง
    • ยังสงสัยว่า Cloudflare จะสามารถหยุดการสแครปข้อมูล AI ทั้งหมดได้สมบูรณ์จริงหรือไม่ มองว่ามาตรการนี้ในทางปฏิบัติคงแค่ทำให้การครอว์ลยากขึ้นและแพงขึ้น ช่วยกันไม่ให้มีการไล่กวาดทุกหน้าทุกวันจนเกิดต้นทุนกับผู้เผยแพร่ แต่ท้ายที่สุดข้อมูลก็คงไปอยู่ในชุดข้อมูลสักแห่งอยู่ดี
  • ลองเปิดฟีเจอร์นี้แล้ว พบแค่ว่า robots.txt ถูกเปลี่ยนอัตโนมัติ ยังไม่แน่ใจว่ามีการทำงานเพิ่มเติมอะไรอีกหรือไม่ โดยในไฟล์ robots.txt มีการเพิ่มค่าตั้งเพื่อบล็อกบอตและครอว์ลเลอร์ AI หลายตัว
    • เห็นบรรทัด User-agent: CCBot disallow: / แล้วตั้งคำถามว่า CCBot (Common Crawl) เป็นบอตเฉพาะ AI จริงหรือไม่ เพราะ CCBot ถูกบล็อกใน robots.txt หลายแห่งมานานแล้ว จึงสงสัยว่า Common Crawl มีสิทธิ์ควบคุมวิธีนำคอนเทนต์ไปใช้ได้จริงหรือไม่ และถ้า CC อาศัย fair use อยู่แล้ว จะมีสิทธิ์เรียกเก็บค่าไลเซนส์หรืออนุญาตการใช้งานต่อจริงแค่ไหน รวมถึงสงสัยว่าข้อกำหนดการใช้งานของเว็บไซต์จำนวนมากเปิดทางให้ผู้ดูแลเว็บนำคอนเทนต์ของผู้อื่น (ผู้ใช้) ไปรีไลเซนส์เพื่อใช้กับ LLM และแบ่งรายได้ได้จริงหรือไม่
    • แม้ Cloudflare จะบอกว่ากำลังเปลี่ยนค่าตั้งต้นเพื่อปกป้องคอนเทนต์ต้นฉบับ แต่ในคำอธิบายของ robots.txt กลับยกเว้นให้ใช้เพื่อ AI RAG (Retrieval Augmented Generation) ได้ ซึ่งดูแปลก เพราะ RAG กลับกระทบรายได้ของนักเขียนแบบเรียลไทม์มากกว่าการฝึกโมเดลภาษาเสียอีก
    • คิดว่าในท้ายที่สุด Google เองก็จะเก็บข้อมูลไปทั้งเพื่อทำดัชนีเว็บและฝึก AI พร้อมกัน และอาจบังคับให้ต้องเลือก หากผู้ดูแลเว็บไซต์ต้องยอมเสียการแสดงผลบน Google Search เมื่อไม่ยอมให้ใช้เพื่อฝึก AI ก็จะเกิดภาวะกลืนไม่เข้าคายไม่ออกที่ละเอียดอ่อนมาก
    • สำหรับเว็บงานอดิเรกส่วนตัว หาก user-agent มีคำว่า bot และมีการขอไฟล์อื่นนอกเหนือจาก robots.txt, humans.txt, favicon.ico ก็จะตอบกลับด้วยสถานะ 444 (ตัดการเชื่อมต่อทันที) ส่วนเสิร์ชเอนจินส่วนใหญ่ก็จัดการบล็อก CIDR แบบ blackhole คิดว่าคงมีแค่ตัวเองที่ทำแบบนี้
    • มีสำนักข่าวบางแห่งที่บล็อกทั้ง LLM crawler และฟังก์ชันค้นหาของ ChatGPT ไปพร้อมกัน แต่ค่าตั้งของ Cloudflare ถือว่าสมเหตุสมผลกว่านั้นมากในฐานะค่าเริ่มต้น
  • พาดหัวครั้งนี้อาจทำให้เข้าใจผิดได้เล็กน้อย ตอนนี้สิ่งที่เกิดขึ้นคือเว็บไซต์ที่ใช้ Cloudflare สามารถเปิดโหมดบล็อก AI bot ทั้งหมดได้อย่างรวดเร็วแบบ opt-in แต่ยังไม่ใช่ค่าเริ่มต้นและไม่ได้ถูกเปิดใช้อัตโนมัติ อย่างไรก็ตาม การที่ Cloudflare สามารถทำมาตรการแบบเหวี่ยงแหนี้ได้หากต้องการ ก็แสดงให้เห็นว่าพวกเขามีอำนาจมากเพียงใด
    • มีคำถามว่าไม่ใช่ค่าเริ่มต้นจริงหรือ เพราะในบล็อกทางการของ Cloudflare มีการพูดถึงการเปลี่ยนค่าตั้งต้น
    • ตอนนี้ความสัมพันธ์ระหว่าง AI bot กับเว็บไซต์กลายเป็นเชิงปฏิปักษ์ไปแล้ว และ Cloudflare ก็แค่กำลังตอบสนองต่อสถานการณ์นั้น พร้อมตั้งคำถามว่าเรื่องนี้ก็คล้ายกับการป้องกัน DDoS ไม่ใช่หรือ
    • รู้สึกว่า Cloudflare ไม่ได้ให้เครื่องมือป้องกันที่ดีจริง แต่ทำให้อินเทอร์เน็ตช้าลงมากกว่า และไม่เคยมี challenge ไหนที่เจาะไม่ได้ภายในครึ่งวัน มองว่ามาตรการเหล่านี้เป็นก้าวแรกเพื่อเข้าสู่ตลาดตัวกลางสำหรับ AI SEO สุดท้ายตีความว่าแก่นแท้ของ Cloudflare ไม่ได้ทำเพื่อเว็บไซต์ แต่เพื่อเก็บค่าธรรมเนียมคั่นกลางระหว่าง scraper กับ publisher จึงเกลียด Cloudflare
  • ปริมาณข้อมูลที่ให้บริการผ่าน Cloudflare ของฉันพุ่งจาก 20GB เมื่อ 2 ปีก่อนเป็น 100GB ทั้งที่ผู้เข้าชมจริงลดลงเหลือต่ำกว่าครึ่ง จึงคาดว่าในมุมของ Cloudflare มาตรการนี้อาจเป็นไปเพื่อประหยัดต้นทุนทรัพยากร
    • เห็นด้วยว่าค่าบริการแบนด์วิดท์แพงสำหรับทราฟฟิกขนาดใหญ่
  • ใน HN มักมีคนบ่นว่าทราฟฟิกจากบอตทำให้เว็บไซต์ช้าลง แต่ในฐานะผู้ดูแลเว็บก็ไม่ค่อยเข้าใจนัก ถ้าใช้ Cloudflare cache เป็นค่าเริ่มต้น ทราฟฟิกส่วนใหญ่ก็น่าจะถูกดูดซับด้วยแคชแทบทั้งหมดและแทบไม่เพิ่มภาระให้เซิร์ฟเวอร์ อีกทั้งต้นทุน CPU กับแบนด์วิดท์สมัยนี้ก็ถูกลงมากแล้ว จึงสงสัยว่าทำไมหลายคนถึงไวต่อประเด็นนี้นัก
    • ฉันเองก็ดูแลเว็บไซต์ใหญ่แห่งหนึ่ง มีหลายแสนหน้า รองรับ 10 ภาษา รวมทั้งหมดเป็นหลายล้านหน้า และมี RPS เกือบ 1000 ถ้า AI crawler ส่งคำขอ 100~200 RPS พร้อมกันโดยกระจายหลาย IP แล้วไปกระหน่ำ endpoint ที่มีต้นทุนสูง มาตรการบล็อกบอตเดิม ๆ ก็เอาไม่อยู่ และให้ผลคล้าย DDoS
    • ฉันเองก็เคยล่มเพราะทราฟฟิก AI ต่อให้ใช้แคชหลายชั้น ก็ยังมี endpoint สาธารณะบางตัวที่เปิดโดยไม่ต้องยืนยันตัวตนและแคชไม่ได้ หากถูกยิงซ้ำ ๆ สุดท้ายเว็บก็ล่มได้ เมื่อมีการรีเจน miss-cache ของหลายล้านหน้าพร้อมกันในเวลาสั้น ๆ คำขอจะกองสะสมและเกิด error แล้ว error ก็ทำให้แคชสร้างไม่เสร็จ กลายเป็นวงจรเลวร้าย หากทราฟฟิก AI ยังคงยิง endpoint แบบนี้ต่อ ปัญหาก็จะยืดเยื้อ
    • ปัญหาเริ่มตั้งแต่การสมมุติว่าทุกคนใช้ Cloudflare เป็นค่าเริ่มต้นอยู่แล้ว ทุกวันนี้แม้แต่การทำเว็บธรรมดาก็กลายเป็นว่าสิ่งนี้จำเป็นไปแล้วหรือ
    • ปัญหาทราฟฟิก AI ที่คนพูดถึงกันมาก มักกระจุกอยู่กับครอว์ลเลอร์ที่คอยยิง API แบบ “ดึงโพสต์ทั้งหมดตามช่วงวันที่” ไม่รู้จบ
    • ฉันเองก็แปลกใจอยู่บ้างกับปฏิกิริยารุนแรงเหล่านี้ แต่ก็เข้าใจคนที่อยากหนี AI crawler บนเว็บไซต์ที่ยังไม่ได้ optimize เครื่องมือที่ดูเหมือนแพร่เร็วและกว้างที่สุดตอนนี้คือ Anubis checker ลิงก์ github เมื่อคำนึงว่า AI traffic เป็นครอว์ลแบบกระจายตัว ก็รู้สึกว่าควรมีซอฟต์แวร์โอเพนซอร์สสำหรับการจำกัดแบบร่วมมือกันมากกว่านี้ และพูดถึงว่าบนเว็บน่าจะมีการตอบสนองแบบ HTTP status code 420 Enhance Your Calm มากขึ้น ลิงก์อ้างอิง
  • มีความกังวลว่าถ้าบริษัท AI ใช้ข้อมูลจากหลายเว็บไซต์โดยไม่ได้รับอนุญาต แรงจูงใจในการผลิตคอนเทนต์ดิจิทัลจะหายไป และท้ายที่สุดโครงสร้างการเติบโตของ AI เองก็จะบ่อนทำลายกิจกรรมดิจิทัลอื่น ๆ จนถึงขั้นทำลายเว็บในตอนจบ (พูดแบบขำ ๆ ก็คือ สำหรับ AI แล้วเว็บเองคือ “เหยื่ออาหาร”)
    • มีความเห็นว่าทั่วโลกมีอัตราการใช้ตัวบล็อกโฆษณาอยู่ที่ 30% ดังนั้นตรรกะเรื่องการบ่อนทำลายคอนเทนต์ดิจิทัลจึงซับซ้อนกว่านั้น
    • หากสิ่งที่ AI อยากทำในท้ายที่สุดจริง ๆ คือปฏิสัมพันธ์และกิจกรรมทางเศรษฐกิจกับมนุษย์ในรูปแบบต่าง ๆ แต่สิ่งเหล่านั้นไม่เกิดขึ้น ในที่สุด AI เองก็จะเผชิญภาวะทรัพยากรข้อมูลร่อยหรอ
    • มุมมองหนึ่งคือ เช่นเดียวกับที่ทุกวันนี้ทุนนิยมทำให้มนุษย์กลายเป็นเป้าหมายหลักของการขูดรีด AI ก็อาจกำลังเดินไปตามเส้นทางโครงสร้างแบบเดียวกัน
  • Cloudflare อาจจับบอตหรือครอว์ลเลอร์ AI ที่ทำตาม robots.txt และประพฤติตัวอย่างซื่อสัตย์ได้ผ่านกฎที่ตั้งไว้ล่วงหน้า แต่บางบริษัทอย่าง Perplexity ก็ปลอมแปลงทราฟฟิกอยู่แล้ว จึงสงสัยว่าการบล็อกแบบนี้จะทำร้ายเฉพาะบอตที่ซื่อสัตย์ และยิ่งจูงใจให้เกิดการปกปิดตัวตนหรือไม่ อย่างไรก็ดี ปรากฏการณ์นี้หรือ arms race ดำเนินมาตั้งแต่ 20 ปีก่อนแล้ว ไม่ใช่เรื่องใหม่ และด้วยสัญญาณระดับโลกของ Cloudflare การให้คะแนนบอต และการทำ fingerprint ทราฟฟิก จึงถูกอธิบายว่าสามารถแยกแยะ AI bot ที่ปลอมตัวได้ค่อนข้างดี พร้อมแชร์ลิงก์อธิบายที่เกี่ยวข้อง อ้างอิง blog.cloudflare.com
    • เมื่อตั้งคำถามว่าหากกำกับเฉพาะบอตที่ซื่อสัตย์และโปร่งใส จะยิ่งเพิ่มการครอว์ลแบบปลอมตัวหรือไม่ ก็มีความเห็นว่าสงครามลักษณะนี้ดำเนินมาเกิน 20 ปีแล้ว และไม่ใช่ทั้งเรื่องใหม่หรือคำตอบใหม่
    • ตัวเลือก Block AI Bots ของ Super Bot Fight Mode ช่วยกรอง bot traffic ส่วนใหญ่ได้ดีจริง และไม่ได้พึ่ง robots.txt หรือ user agent แต่ใช้แนวทางวิเคราะห์รูปแบบทราฟฟิก ทำให้ถึงขั้นต้องสร้างกฎ bypass เพิ่มต่างหากเพื่อให้เครื่องมือของตัวเองทำงานได้
    • Cloudflare รู้ดีว่าจะทำให้คนที่พวกเขาไม่ชอบใช้อินเทอร์เน็ตได้ยากมากแค่ไหน หากตั้ง robots.txt ไว้ไม่ให้บอตถูกจัดเป็นอันตรายก็ยังมีช่องให้อนุญาตเป็นรายเว็บไซต์ แต่ที่เหลือก็จะปล่อยให้เป็นวิธีจัดการเฉพาะของ Cloudflare
    • สำหรับ AI bot ที่สแครปปริมาณมาก ในมุมของ Cloudflare แล้วแทบซ่อนได้ยาก เพราะสามารถจำแนกได้จากหลายสัญญาณทั้งระดับ fingerprint และเครือข่าย อีกทั้งบริษัทใหญ่ ๆ ก็มักสื่อสารกับ Cloudflare โดยตรงอยู่แล้ว จึงคาดว่าสุดท้ายย่อมมีทั้งการเตือนหรือมาตรการตอบสนองได้หลายแบบ
  • บริษัท AI รายใหญ่เคารพ robots.txt จริงหรือไม่ อาจมีเพียงครอว์ลเลอร์ที่เปิดเผยต่อสาธารณะบางตัวเท่านั้นที่ทำตาม แต่เบื้องหลังก็ยังอาจรันการครอว์ลแบบซ่อนเร้นอยู่ดี เพราะมีประวัติการกวาดใช้ทั้งหนังสือ รูปภาพ และข้อมูลผู้ใช้แบบผิดกฎหมายมาแล้ว
    • ครอว์ลเลอร์ขนาดเล็กจำนวนมากก็พยายามปลอมตัวเป็นบริษัทใหญ่เพื่อหลบการบล็อก ทำให้แยกแยะได้ยาก
    • การทำตาม robots.txt เป็นเพียงธรรมเนียมเท่านั้น ไม่ได้มีการบังคับทางกฎหมายหรือทางเทคนิคอย่างชัดเจน จะใส่เงื่อนไขในข้อตกลงการใช้งานให้ต้องปฏิบัติตามนโยบาย robots.txt ก็ได้ แต่พลังบังคับจริงยังน่าสงสัย
    • ทราฟฟิกส่วนหนึ่งอาจไม่ใช่การสแครปโดยตรงของ AI แต่เป็นรูปแบบที่เมื่อมนุษย์ถาม AI แล้ว AI ค่อยออกไปสำรวจอินเทอร์เน็ตในตอนนั้น จึงเกิดความสับสนว่าจะถือว่าอยู่ในขอบเขตการกำกับของ robots.txt แบบเดียวกับเบราว์เซอร์เพื่อการค้นคว้าหรือไม่ หรือควรนับเฉพาะการทำดัชนี
    • แม้จะไม่ค่อยชอบบทบาทผู้เฝ้าประตูของ Cloudflare แต่ก็ยอมรับว่าพวกเขาอยู่ในตำแหน่งที่มีอิทธิพลต่อบริษัท AI ได้จริง
  • รายชื่อ AI bot ที่ถูกบล็อกในตอนนี้ยังสั้นมาก ลิงก์อ้างอิง
    • ในคำอธิบายของ Cloudflare นั้น Common Crawl (CCBot) ก็ถูกจัดเป็น AI Bots และอยู่ในตัวเลือกการบล็อกด้วย แต่ Common Crawl ไม่ใช่บอตเฉพาะ AI จริง ๆ หากเป็นโครงสร้างพื้นฐานการครอว์ลแบบเปิด ลิงก์อ้างอิง
    • Cloudflare มองเห็นทราฟฟิกเว็บจำนวนมหาศาล ดังนั้นรายชื่อบอตที่จับอยู่ตอนนี้น่าจะเป็นกลุ่มที่พบได้บ่อยก่อน และเมื่อพบบอตใหม่ก็คงค่อย ๆ เพิ่มเข้าไป แม้การบล็อกครอว์ลเลอร์ทั้งหมดจะเป็นไปไม่ได้ แต่ถ้ามองทั้งอินเทอร์เน็ตแล้ว ก็คงมีไม่กี่แห่งที่ตรวจจับบอตได้มากเท่า Cloudflare
    • การบล็อกแค่นี้ก็น่าจะช่วยลดทราฟฟิกของเว็บไซต์ส่วนใหญ่ลงได้มากกว่าครึ่งแล้ว
  • วิวัฒนาการสำคัญของเว็บ (การล้อมรั้วแบบ web2, ความเลื่อนลอยของ web3 และสถานการณ์ตอนนี้) ดูจะค่อย ๆ ห่างออกจากบทบาทความเป็นชุมชนและคลังความรู้มากขึ้น แม้คุณภาพและเทคโนโลยีจะพัฒนาต่อเนื่อง แต่สิ่งที่สูญเสียไปก็มีมากเช่นกัน