1 คะแนน โดย GN⁺ 2025-09-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • มีการเพิ่มหน้า AI Insights โดยเฉพาะใน Cloudflare Radar ทำให้สามารถดูภาพรวมได้ในหน้าจอเดียวของทราฟฟิกบอต/ครอว์เลอร์ AI, ความนิยมของบริการ Generative AI บนฐาน DNS, คำสั่งใน robots.txt และแนวโน้มการใช้งานโมเดลใน Workers AI
  • กราฟทราฟฟิกบอตและครอว์เลอร์ AI อ้างอิงจากรายการ ai.robots.txt และให้ข้อมูลแบบสรุป/อนุกรมเวลาของ UA ชั้นนำ พร้อมรองรับการวิเคราะห์เชิงลึกผ่าน Radar API และ Data Explorer
  • อันดับบริการ Generative AI ที่อิงข้อมูล DNS ของ 1.1.1.1 แสดงแนวโน้มการเปลี่ยนแปลงแบบรายวัน และช่วยให้เห็นความผันผวนอย่างรวดเร็วของบริการเกิดใหม่ เช่น DeepSeek ที่พุ่งขึ้นแรงช่วงปลายเดือนมกราคม 2025 (ปรากฏ 1/26 → อันดับ 3 ใน 1/29)
  • การวิเคราะห์ robots.txt รวบรวมคำสั่ง Allow/Disallow ที่เกี่ยวข้องกับ AI จาก 10,000 โดเมนชั้นนำ เพื่อแสดงภาพแนวโน้มการบล็อกตามหมวดหมู่ โดยเฉพาะแนวโน้ม ไม่อนุญาตในวงกว้าง ในกลุ่มข่าวและสื่อ
  • ความนิยมของโมเดล/งานใน Workers AI อิงจากข้อมูลที่แชร์ร่วมกัน และแสดงแนวโน้มการใช้งานตามโมเดลและแทสก์ รวมถึงการเปรียบเทียบตามช่วงเวลา เพื่อช่วยทำความเข้าใจกระแสของระบบนิเวศโมเดลที่เปลี่ยนแปลงอย่างรวดเร็ว

ภาพรวม

  • Cloudflare เปิดตัวหน้า AI Insights ใน Radar เพื่อรวมข้อมูล แนวโน้มทราฟฟิก, ความนิยมของบริการ, การควบคุมการเข้าถึง และการใช้งานโมเดล ที่เกี่ยวข้องกับ AI ไว้ในที่เดียว
  • แหล่งข้อมูลมาจาก ทราฟฟิก DNS ของ 1.1.1.1, รายการ user agent ของ ai.robots.txt, ข้อมูลแชร์ของ Workers AI และการเชื่อมต่อกับ API/Data Explorer ของ Radar

แนวโน้มทราฟฟิกของบอตและครอว์เลอร์ AI

  • แสดงภาพกิจกรรมของ บอต/ครอว์เลอร์ AI 5 อันดับแรก ตามช่วงเวลา เพื่อให้เห็นความเข้มข้นของคำขอและความเป็นคาบ
    • เกณฑ์การรวบรวม user agent อ้างอิงจากรายการ ai.robots.txt และมีการอัปเดตต่อเนื่อง
    • รองรับการเข้าถึงแบบโปรแกรมผ่าน endpoint API แบบอนุกรมเวลา/สรุป
  • ใน Data Explorer สามารถสำรวจแนวโน้มภาพรวมของชุดบอต AI ทั้งหมดได้
    • ผู้ดูแลระบบสามารถตรวจสอบทราฟฟิกผิดปกติตามภูมิภาค ช่วงเวลา และ UA ได้
    • นำไปใช้วิเคราะห์ความสัมพันธ์กับนโยบายการตอบสนองภายในได้

ความนิยมของบริการ Generative AI

  • ให้อันดับสัมพัทธ์ของบริการ Generative AI แบบสาธารณะรายวัน โดยอิงจากปริมาณคำขอ DNS ของ 1.1.1.1
    • ในรีวิวประจำปี 2023/2024 ระบุว่า ChatGPT ครองอันดับ 1 ต่อเนื่อง
    • ช่วงปลายเดือนมกราคม 2025 พบว่า อันดับ 6–10 มีความผันผวนสูง
  • DeepSeek ปรากฏครั้งแรกในวันที่ 26 มกราคม และพุ่งขึ้นสู่อันดับ 3 ในวันที่ 29 มกราคม
    • ให้ข้อมูลอันดับความถี่สูงที่เป็นประโยชน์ต่อการตรวจจับบริการเกิดใหม่ที่เติบโตอย่างรวดเร็ว
    • ใน Radar API สามารถเข้าถึงข้อมูลอนุกรมเวลาดิบได้ผ่านพารามิเตอร์ serviceCategory=Generative%20AI

การวิเคราะห์ไฟล์ robots.txt

  • มีการเก็บข้อมูลจาก 10,000 โดเมนชั้นนำ เป็นระยะ เพื่อรวบรวมคำสั่ง Allow/Disallow ที่เกี่ยวข้องกับ AI
    • กราฟสรุปสถานะ อนุญาต/ไม่อนุญาตทั้งหมด และอนุญาต/ไม่อนุญาตบางส่วน แยกตาม user agent
    • หมวดข่าวและสื่อแสดงแนวโน้ม ไม่อนุญาต AI UA อย่างกว้างขวาง
  • เมื่อดูตามคำสั่ง Allow พบว่า จำนวนเว็บไซต์ที่อนุญาตแบบระบุชัดเจนลดลงมาก
    • ควรระวังว่าเมื่อไม่มีการระบุ UA และไม่มี wildcard ระบบจะทำงานแบบอนุญาตทั้งหมดโดยปริยาย
    • รองรับการวิเคราะห์แบบกรองตามบอตหรือคำสั่งแต่ละแบบผ่าน Radar API และ Data Explorer

ความนิยมของโมเดลและงานใน Workers AI

  • แสดงภาพแนวโน้มการใช้งานของ โมเดลและงาน (Task) ที่รองรับแบบสาธารณะใน Workers AI โดยอิงจากข้อมูลที่แชร์ร่วมกัน
    • แสดงทั้ง ความนิยมของโมเดลและความนิยมของงาน ในรูปแบบอนุกรมเวลาและแบบสรุป
    • ใน Data Explorer สามารถใช้ฟังก์ชัน เปรียบเทียบช่วงเวลา (timeCompare) เพื่อวิเคราะห์การเพิ่มขึ้นหรือลดลงเมื่อเทียบกับเดือนก่อนได้
  • ตัวอย่างโมเดลครอบคลุมงานที่หลากหลาย เช่น การสร้างข้อความ การสร้างภาพ การรู้จำเสียง และการจัดหมวดหมู่ภาพ
    • เมื่อมีการเปิดตัวโมเดลใหม่ที่ทรงพลัง ก็สามารถมองเห็นได้ตั้งแต่ระยะแรกและนำไปใช้เพื่อตอบสนองเชิงรุกได้

บทสรุปและนัยสำคัญ

  • ระบบนิเวศ AI มีความผันผวนสูงมาก และมีหลายกรณีที่บริการใหม่เติบโตแบบก้าวกระโดดในระยะสั้น
    • พร้อมกับการขยายตัวของบริการเชิงกำเนิด ประเด็นเรื่องการสแครปคอนเทนต์, ลิขสิทธิ์ และการควบคุมการเข้าถึงยังคงอยู่ในภาวะตึงเครียดต่อเนื่อง
  • หน้า AI Insights รวมข้อมูล ทราฟฟิก, ความนิยม, การควบคุมการเข้าถึง และการใช้งานโมเดล ไว้อย่างครบถ้วน จึงมีประโยชน์ต่อผู้ติดตามอุตสาหกรรมและผู้ปฏิบัติงานจริงในการจับแนวโน้มตามช่วงเวลา
    • ผู้ดูแลระบบสามารถสร้างระบบ มอนิเตอร์และรายงานอัตโนมัติผ่าน Radar API และ Data Explorer ได้
    • สามารถเชื่อมโยงกลยุทธ์คำสั่งใน robots.txt กับ นโยบาย CDN/ความปลอดภัย เพื่อยกระดับการรับมือกับบอต AIให้ละเอียดขึ้น

1 ความคิดเห็น

 
GN⁺ 2025-09-02
ความเห็นจาก Hacker News
  • OpenAI ยืนยันผ่าน WebBotAuth ว่าสถานะการยืนยันเป็น "In Progress" ดูเหมือน Cloudflare กำลังพยายามวางตัวเองเป็นผู้เฝ้าประตูของ "บอตดี" การที่มีสถานะ "In Progress" อยู่ด้วยนั้นมีนัยสำคัญ เพราะกับบริษัทอื่นอาจตอบแค่ว่า "No" แต่กับ OpenAI กลับเป็นแนวว่า "ยังไม่ใช่ตอนนี้ แต่ได้แจ้งแผนให้ CF ทราบแล้ว"
    • ดูเหมือน Cloudflare กำลังพยายามหารายได้สองต่อ คือเก็บเงินจากผู้ใช้ CDN แล้วตอนนี้ยังจะเก็บเงินอีกเพื่อให้เข้าถึงคอนเทนต์ของผู้ใช้เหล่านั้นได้ด้วย แม้จะสะใจที่เห็น OpenAI เจอแบบนี้ แต่คงไม่จบแค่นี้ สงสัยว่า Kagi หรือเสิร์ชเอนจินอื่น ๆ จะยังคงถูกและมีประโยชน์ต่อไปได้ไหม และก็อยากรู้ว่าบริการอย่าง Internet Archive จะดำเนินงานอย่างไรในสถานการณ์นี้
    • ไม่เข้าใจว่าทำไมหลายคนถึงรู้สึกว่ามันน่าตกใจที่ Cloudflare ทำหน้าที่บล็อกทราฟฟิกที่เว็บไซต์ไม่ต้องการ ทั้งที่นี่คือโมเดลธุรกิจของพวกเขามาแต่แรก
    • จริง ๆ แล้วเราควรมีวิธีรับรองตัวตนบอตที่สมเหตุสมผลกว่านี้มานานมากแล้ว และเรื่องนี้ก็ไม่ได้จำกัดแค่บอต AI เท่านั้น
    • เท่ากับว่า Cloudflare เข้าร่วมแถวของผู้คุมประตูอินเทอร์เน็ตแล้ว ตอนนี้มีแค่ OpenAI ที่พยายามขอการยืนยันแบบนี้ และดูเหมือน Amazon ก็เริ่มทำตามอยู่บ้าง หวังว่าบริษัทอื่น ๆ จะต่อต้านข้อเรียกร้องลักษณะนี้
    • Eastdakota (CEO ของ Cloudflare) พูดประมาณว่า "ช่วงนี้ทุกคนกำลังยุ่งกับการกระโจนเข้าสู่เกมของยุคถัดไปอย่างดุเดือด ฉันจัดที่ให้นายได้อีกครั้งนะ" แล้ว Sam (น่าจะฝั่ง OpenAI) ตอบว่า "ไม่รู้เลยว่าฉันโดนเบียดตกจากที่นั่งแล้ว" จากนั้น Eastdakota ก็ตอบทำนองว่า "ยังไม่ได้หลุดเต็มตัวหรอก แต่ก็อยู่ในจุดที่น่าจะเสียใจแล้ว"
  • เป็นข้อมูลที่น่าทึ่งมาก ในกราฟ "Generative AI services popularity" ที่ ChatGPT อยู่อันดับ 1 นั้นไม่แปลก แต่ที่ Character.AI แซง Anthropic, Perplexity และ xAI ขึ้นมาเป็นอันดับ 2 นี่น่าประหลาดใจ คิดว่าข้อมูลนี้อาจได้รับอิทธิพลอย่างมากจากกลยุทธ์ DNS cache ของแต่ละบริการ อีกกราฟที่น่าสนใจคือ "Workers AI model popularity" ซึ่ง llama-3-8b-instruct ครองอันดับ 1 มาตั้งแต่เดือนเมษายนด้วยสัดส่วน 30~40% LLM ขนาดเล็กที่ได้รับความนิยมขนาดนี้หาได้ยาก เดิมคิดว่าโมเดล m2m100-1.2b ของ Meta หรือ Gemma 3 270M ของ Alphabet น่าจะถูกใช้งานมากกว่านี้ แต่คงเป็นเพราะคนมักเลือกใช้โมเดลที่ทรงพลังที่สุดเท่าที่จะรันบน CF worker ได้ ถ้าอยากดูการวิเคราะห์ความนิยมแบบหลากหลายกว่านี้ แนะนำโพสต์บล็อก "LLM Assistant Census" ของฉัน
    ดูอันดับบริการ Generative AI
    ดูอันดับโมเดล Workers AI
    LLM Assistant Census
    • สงสัยว่าทำไม DNS cache ถึงบิดเบือนผลลัพธ์ได้ Cloudflare มองเห็น HTTP request ทั้งหมดอยู่แล้วเวลา proxy เว็บไซต์ ไม่น่าจะไปนับสถิติจาก DNS query อย่างเดียว เห็นคอมเมนต์อื่นพูดถึง DNS กัน เลยสงสัยว่ามีอะไรตกหล่นในวิธีเก็บสถิติหรือเปล่า
    • Character.AI ได้รับความนิยมสูงมากในหมู่ผู้ใช้วัยรุ่น ดังนั้นการขึ้นมาเป็นอันดับ 2 ก็ไม่ได้แปลกขนาดนั้น
  • ช่วงหลังพยายามดูว่าแต่ละบริษัท crawl เว็บลึกแค่ไหน และผลคือบอตของ OpenAI ละเอียดที่สุด โดยตามลิงก์ไปถึง 405 ลิงก์
    ดูข้อมูลการ crawl แบบละเอียด
    • เป็นสถิติที่น่าสนใจ ใน honeypot ของฉัน GPTBot ลงลึกไปได้ถึง 92 ระดับ อาจเป็นเพราะเว็บฉันน่าสนใจน้อยกว่าก็ได้
  • Cloudflare เป็นฝ่ายนิยามเองว่าอะไรคือ AI Bot ในการตัดสินบอต ตัวอย่างเช่น CCBot ของ Common Crawl ถูกใช้เพื่อวัตถุประสงค์หลากหลายมากและมีงานวิจัยอ้างอิงมากกว่า 10,000 ชิ้น แต่ Cloudflare ก็ยังจัด CCBot เป็นแค่ "AI Bot" ทว่าในความเป็นจริง ผู้ดูแลเว็บไซต์ส่วนใหญ่น่าจะไม่ค่อยรู้ว่าบอตไหนถูกนับเป็น AI Bot และทำไมรายชื่อเหล่านั้นถึงถูกคัดมาแบบนั้น
  • เศร้าที่เห็นว่า Firerox มีส่วนแบ่งเพียง 3.8% ใน "Top Browser & user agents"
    สถิติเบราว์เซอร์ของ Cloudflare
    • ในมุมมองของฉัน Firefox เป็นเบราว์เซอร์เพียงตัวเดียวใน 5 อันดับแรกที่ไม่ได้ถูกติดตั้งมาเป็นค่าพื้นฐาน คนส่วนใหญ่ไม่ได้รู้สึกไม่สะดวกมากพอจะเปลี่ยนจากค่าเริ่มต้น ดังนั้นมากกว่า 90% เลยไม่ไปไกลถึงขั้นหาเบราว์เซอร์ทางเลือกแบบ Firefox
    • ในยุคแรก Firefox เป็นเบราว์เซอร์ที่ดีกว่าและได้ส่วนแบ่งตลาดจากฟีเจอร์ที่มีประโยชน์จริงซึ่งเบราว์เซอร์เดิมไม่มี แต่ Firefox ตอนนี้เป็นแค่ Chrome ลอกแบบที่ไม่มีจุดต่าง สำหรับผู้ใช้ทั่วไปที่ไม่รู้จักส่วนเสริมก็ไม่มีเหตุผลให้เลือก Firefox ถ้า Firefox มีฟีเจอร์ที่มีประโยชน์จริง ๆ อย่างตัวบล็อกโฆษณา/สิ่งรบกวนในตัว ก็อาจแย่งตลาดกลับมาได้ แต่ดูเหมือนไม่ได้ตั้งใจจะทำแบบนั้น
    • ไม่เข้าใจว่าจะใช้เบราว์เซอร์ที่สร้างโดยบริษัทโฆษณาโดยสมัครใจได้อย่างไร ผู้ใช้ Chrome ส่วนใหญ่อาจไม่รู้เรื่องนี้ แต่แม้แต่ในหมู่คนที่อ่านโพสต์แบบนี้ก็น่าจะมีหลายคนที่รู้ธรรมชาติของ Google และ Chrome แล้วยังใช้อยู่
    • สงสัยว่า Firefox ถูก Cloudflare จัดเป็นบอตอัตโนมัติแล้วถูกตัดออกจากส่วนแบ่งไปมากแค่ไหน
    • Firefox ส่งข้อมูล user agent ได้ไม่ครบถ้วนอย่างเหมาะสม (หรืออาจแม้แต่ในค่าเริ่มต้น) เลยเป็นไปได้ว่าตัวเลขส่วนแบ่งนี้จะออกมาต่ำกว่าความเป็นจริง
  • ข้อมูลอันดับ AI ที่อิงจาก DNS request น่าสนใจมาก เมื่อดูเป็นช่วง 4 สัปดาห์ Character.AI จะอยู่อันดับ 2 อย่างสม่ำเสมอในวันสุดสัปดาห์ ส่วน Claude จะอยู่อันดับ 3 และในวันทำงานทั้งคู่จะสลับอันดับกัน แต่กราฟการนับกลับแสดงการสลับอันดับในช่วงวันอาทิตย์ถึงวันจันทร์ จึงน่าจะเป็นผลจากความต่างระหว่างเขตเวลาสหรัฐฯ กับ UTC
  • ข้อมูลนี้มีมูลค่ามหาศาลทั้งต่อบริษัท AI และฝั่งผู้เผยแพร่ Cloudflare มองเห็นได้อย่างที่ไม่เคยมีมาก่อนว่าใคร crawl อะไร เมื่อไร และมากแค่ไหน คิดว่าอีกไม่นานสิ่งนี้อาจถูกออกเป็นสินค้าแบบพรีเมียมที่ต้องจ่ายเพิ่ม เช่น บริการยืนยันบอต หรือการวิเคราะห์การ crawl แบบละเอียด
    • นี่จะเป็นคันโยกสำคัญมากต่อการเติบโตของ Cloudflare และพวกเขาน่าจะวางแผนดึงรายได้จากผู้เล่นรายใหญ่อย่าง OpenAI ให้ได้มากที่สุด
  • หากค้นหาผ่าน Anthropic API แล้วส่งทราฟฟิกของผู้ใช้ไปยังเว็บไซต์ปลายทางด้วยลิงก์ตรง Cloudflare ก็จะจับคู่การค้นหานี้กับฝั่ง Anthropic ไม่ได้ ดังนั้นอัตราส่วนระหว่างการ crawl กับทราฟฟิกแนะนำอาจต่างจากความเป็นจริง
  • คิดว่าสถิติแบบนี้น่าจะไม่รวม crawler ที่เป็นอันตรายซึ่งใช้ residential proxy หรือวิธีอื่นเพื่อซ่อนตัวตน
  • หวังอย่างจริงใจว่าจะไม่มีใครยอมอ่อนข้อให้ Cloudflare ในเรื่องการยืนยัน WebBotAuth และความพยายามนี้จะล้มเหลว