6 คะแนน โดย GN⁺ 2025-07-02 | 5 ความคิดเห็น | แชร์ทาง WhatsApp
  • Cloudflare ประกาศบริการใหม่ที่เปิดให้เจ้าของคอนเทนต์สามารถ เรียกเก็บเงินเมื่อมีการเข้าถึง จาก AI crawler
  • ผู้สร้างคอนเทนต์มี 3 ทางเลือก: อนุญาตฟรี, บล็อกทั้งหมด, หรือ อนุญาตแบบมีค่าใช้จ่าย
  • การคิดค่าบริการทำงานบนมาตรฐานการตอบกลับ HTTP 402 Payment Required และ Cloudflare เป็นผู้ให้บริการ โครงสร้างพื้นฐานด้านการชำระเงินและการชำระบัญชี
  • crawler และเจ้าของคอนเทนต์สามารถสร้างความโปร่งใสและความปลอดภัยผ่าน การยืนยันตัวตนและการชำระเงินแบบโปรแกรม
  • บริการนี้เริ่มต้นในรูปแบบ private beta และในอนาคตมีแผนขยายไปสู่การใช้งานที่หลากหลายและรองรับ การคิดค่าบริการแบบไดนามิก

การเปลี่ยนแปลงของสภาพแวดล้อมการบริโภค AI

  • ที่ผ่านมา ผู้เผยแพร่ ผู้สร้างคอนเทนต์ และเจ้าของเว็บไซต์ จำนวนมากมีทางเลือกแบบ สองขั้ว สำหรับ AI crawler คืออนุญาตให้เข้าถึงทั้งหมดหรือบล็อกทั้งหมดเท่านั้น
  • Cloudflare ยึดหลัก เพิ่มอำนาจควบคุมให้เจ้าของคอนเทนต์ โดยมุ่งสร้างสภาพแวดล้อมที่สามารถบล็อก AI crawler ทั้งหมด อนุญาตฟรีทั้งหมด หรือเลือกอนุญาตเฉพาะ crawler ที่ต้องการได้
  • จากการหารือกับบริษัทสื่อ ผู้เผยแพร่ และแพลตฟอร์มโซเชียลรายใหญ่หลายร้อยแห่ง พบว่ามี ความต้องการเปิดให้ AI crawler เข้าถึงได้แต่ต้องการค่าตอบแทน สูงมาก
  • เดิมทีต้องเจรจากับ crawler เป็นรายรายก่อนจึงจะอนุญาตการเข้าถึงได้ แต่สำหรับเว็บไซต์ขนาดเล็กนั้นแทบเป็นไปไม่ได้จริงเพราะ ขาดทั้งขนาดและอำนาจต่อรอง

การนำโมเดล 'จ่ายตามการครอล (pay per crawl)' มาใช้

  • นอกเหนือจากทางเลือกสุดขั้วอย่าง ฟรีหรือบล็อก Cloudflare เสนอทางเลือกที่สามคือ การคิดเงินตามการเข้าถึง
  • วิธีนี้ช่วยให้เจ้าของคอนเทนต์สามารถ สร้างรายได้จากสินทรัพย์ดิจิทัล ได้ในระดับอินเทอร์เน็ต
  • ฐานเทคนิคสำคัญคือสถานะโค้ดที่แทบถูกลืมอย่าง HTTP 402 Payment Required โดยหาก crawler แสดงเจตนาชำระเงินจะได้รับคอนเทนต์ด้วย 200 OK แต่หากไม่ยินยอมจะได้รับการตอบกลับ 402 พร้อมแจ้งราคา
  • Cloudflare รับบทเป็น Merchant of Record ดูแลทั้งการประมวลผลการชำระเงินและโครงสร้างพื้นฐานทางเทคนิค

อำนาจการกำหนดและนโยบายราคาของผู้เผยแพร่

  • ผู้เผยแพร่สามารถตั้ง ราคาคงที่ สำหรับทั้งเว็บไซต์ได้
    • อนุญาต (ให้ใช้ฟรี)
    • คิดเงิน (ให้เมื่อชำระตามราคาที่ตั้งไว้)
    • บล็อก (ไม่อนุญาตให้เข้าถึงและแจ้งถึงความเป็นไปได้ของความสัมพันธ์ในอนาคต)
  • รองรับนโยบายที่ยืดหยุ่นสำหรับแต่ละ crawler เช่น ข้อยกเว้นการคิดเงิน การอนุญาตให้เข้าฟรี หรือการเจรจาเป็นรายกรณี
  • ทำงานร่วมกับ นโยบายความปลอดภัยของ Cloudflare (WAF, การจัดการบอต ฯลฯ) โดยจะใช้นโยบายไฟร์วอลล์เดิมก่อน แล้วจึงค่อยทำงานตามกฎ pay per crawl

โปรโตคอลการยืนยันตัวตนและการชำระเงิน: Web Bot Auth

  • ออกแบบมาเพื่อให้ เฉพาะ crawler ที่กำหนดเท่านั้นที่สามารถชำระเงินและรับสิทธิ์เข้าถึงได้ เพื่อป้องกันการปลอมแปลง ID ของ crawler (spoofing)
  • crawler ต้องสร้าง คู่กุญแจ Ed25519 ลงทะเบียนไดเรกทอรี public key ในรูปแบบ JWK และส่งข้อมูลให้ Cloudflare
  • ใช้ส่วนหัว HTTP message signature (Signature-Agent, Signature-Input, Signature) เพื่อพิสูจน์ตัวตนและเจตนาในการชำระเงิน

วิธีการเข้าถึงคอนเทนต์แบบมีค่าใช้จ่าย

  • รองรับ 2 โปรโตคอล
    • Reactive (ค้นพบก่อน): เมื่อ crawler ขอ URL ที่มีค่าใช้จ่าย จะได้รับการตอบกลับ 402 พร้อมเสนอราคา → หากยอมรับจะร้องขอใหม่โดยใส่ส่วนหัว 'crawler-exact-price'
    • Proactive (เจตนาก่อน): ในคำขอแรกจะส่งส่วนหัว 'crawler-max-price' เพื่อระบุเพดานราคาที่พร้อมจ่าย → หากไม่เกินเกณฑ์จะได้รับ 200 OK พร้อมรายละเอียดการคิดเงิน
  • การต่อรองราคาและการแสดงเจตนาชำระเงินรองรับในรูปแบบ programmable

การชำระบัญชีและการเงิน

  • ผู้ให้บริการ crawler และเจ้าของคอนเทนต์จำเป็นต้อง ลงทะเบียนข้อมูลการชำระเงิน ในบัญชี Cloudflare
  • ทุกคำขอชำระเงินที่ผ่านการยืนยันตัวตนและทุกการตอบกลับ 200 OK จะมีการ บันทึกเหตุการณ์การคิดเงิน จากนั้น Cloudflare จะรวบรวมข้อมูลไปเรียกเก็บเงินจาก crawler และชำระให้ผู้เผยแพร่

จุดเริ่มต้นของการเปลี่ยนผ่านสู่ยุคเอเจนต์

  • pay per crawl เป็นสัญลักษณ์ของ วิวัฒนาการของเทคโนโลยีควบคุมคอนเทนต์ออนไลน์
  • คาดว่าจะช่วยปกป้องผู้สร้างและเปิดทางสู่โมเดลธุรกิจใหม่ผ่านการกำหนดมูลค่า สินทรัพย์แบบ programmable
  • ในอนาคตมีการหารือถึงการขยายไปสู่ การคิดค่าบริการแบบไดนามิกตามประเภทคอนเทนต์/เส้นทาง การกำหนดอัตราตามปริมาณทราฟฟิก AI และการจัดการไลเซนส์ขนาดใหญ่
  • การนำ HTTP 402 มาใช้ ช่วยเตรียมพร้อมสำหรับอนาคตที่ AI/เอเจนต์จะต่อรองเงื่อนไขการเข้าถึงทรัพยากรดิจิทัลแบบโปรแกรมได้

วิธีเริ่มต้น

  • ฟีเจอร์ pay per crawl เปิดให้ใช้งานก่อนในรูปแบบ private beta
  • crawler และผู้สร้างคอนเทนต์ที่สนใจใช้งานสามารถติดต่อผ่าน ลิงก์สมัครแยกต่างหาก
  • Cloudflare ยังรองรับ การป้องกัน DDoS การเร่งการเชื่อมต่ออินเทอร์เน็ต การสร้างแอปพลิเคชันอินเทอร์เน็ต การบล็อกแฮ็กเกอร์ และการทำ Zero Trust

ข้อมูลและแนวโน้มที่เกี่ยวข้องเพิ่มเติม

  • มีการขยายทั้งความเคลื่อนไหวในการ บล็อกการครอลฟรี เช่น 'Content Independence Day' และ โซลูชันการจัดการบอต ของ Cloudflare
  • มีการเปิดเผยตัวเลขว่าในช่วงปี 2024~2025 ทราฟฟิกจาก AI crawler เพิ่มขึ้น 18% โดย GPTBot โต 305% และ Googlebot โต 96%
  • มีการเปิดตัวฟีเจอร์เสริมการยืนยัน crawler ด้วย message signature บน public key พร้อมกันด้วย

5 ความคิดเห็น

 
kimjoin2 2025-07-02

จะแยกได้อย่างไรว่าเป็นบอต AI หรือไม่

 
kimjoin2 2025-07-02

ไม่ว่าจะเป็น AI หรือไม่ก็ตาม ถ้าตั้งใจจะคลานข้อมูลจริง ๆ ก็จับไม่ได้อยู่ดี

 
howudoin 2025-07-02

Cloudflare ก็แค่จะหารายได้
สุดท้ายคนที่อยากทำเงินก็จะไปรวมกันอยู่ที่นั่นหมด
ปริมาณทราฟฟิกของ Cloudflare ก็จะยิ่งใหญ่ขึ้น
และข้อมูลก็จะเผชิญกับการเสื่อมถอยด้านคุณภาพ
ทั้ง Naver, Instagram และ YouTube ก็ล้วนแสดงแนวโน้มแบบเดียวกันเมื่อมีเรื่องเงินเข้ามาเกี่ยวข้อง

 
GN⁺ 2025-07-02
ความคิดเห็นจาก Hacker News
  • ฉันคิดว่านี่คือรูปแบบของไมโครเพย์เมนต์ที่เราเคยต้องการ Coinbase เพิ่งเปิดตัวไลบรารีที่ใช้คริปโตและรหัสสถานะ 402 ซึ่งก็คือ x402 ลิงก์ GitHub ของ x402

    • ฉันคิดว่าโมเดลธุรกิจเว็บควรเป็นแบบนี้แทนที่จะพึ่งคนกลางโฆษณา อุตสาหกรรม adtech เอาข้อมูลของเราไปหาประโยชน์อย่างต่อเนื่อง ทำลายสื่อ และยังทำร้ายประชาธิปไตยด้วย หวังว่าอีกหลายสิบปีข้างหน้าเราจะตระหนักได้ว่าโมเดลโฆษณาในปัจจุบันเป็นอันตรายแค่ไหน แล้วกำกับดูแลและลงโทษบริษัทที่เกี่ยวข้องเหมือนที่เคยทำกับ Big Tobacco แม้ BAT ของ Brave จะเป็นความพยายามที่ดี แต่ x402 ดูเหมือนจะเป็นทางออกที่ใช้ได้ทั่วไปมากกว่า เพียงแต่ภาพลักษณ์เชิงลบของคริปโตและอิทธิพลอันแข็งแกร่งของวงการโฆษณา ทำให้แนวทางนี้คงปักหลักได้ไม่ง่าย

    • ฉันไม่อยากใช้คริปโต ไม่อยากรับคอนเทนต์เป็นคริปโต และไม่อยากจ่ายค่าธรรมเนียมให้คนกลางด้วย การใช้คริปโตกับไมโครเพย์เมนต์ในทางปฏิบัติดูเหมือนเป็นแค่เครื่องมือไว้ดัน ecosystem คริปโตขึ้นมา อีกอย่างก็ยากมากที่จะให้ทุกคนตกลงกันว่าจะใช้เหรียญไหนจ่าย ถ้ากลายเป็นว่าแต่ละเว็บไซต์รับคนละเหรียญ หรือไม่ก็ต้องรับแค่ stablecoin เดียว ก็ยิ่งควบคุมยาก วิธีของ Cloudflare ดีกว่า เพราะฝั่งที่ทำเงินเป็นคนจ่าย ไม่ได้ไปเรียกเก็บเงินจากผู้ใช้ทั่วไป และก็ไม่ต้องใช้คริปโตด้วย

    • ฉันหวังว่าตัวเองจะคิดผิด แต่รู้สึกว่าเราอาจพลาดโอกาสของไมโครเพย์เมนต์ไปแล้ว ถ้าสมัยก่อนมีโครงสร้างแบบเติมเงินล่วงหน้าเหมือนมือถือปุ่มกด เช่น “เติมเงินอินเทอร์เน็ต 10,000 วอน” แล้วให้เว็บไซต์หักเป็นไมโครเพย์เมนต์ได้เอง ก็น่าจะลงหลักปักฐานได้จริง แต่ตอนนี้ถ้าจะทำระบบนี้และให้ทั้งตลาดเข้าร่วม มันต้องใช้ทั้งโครงสร้างพื้นฐานและฉันทามติมากเกินไป จนเหมือนเลยจังหวะนั้นมาแล้ว

    • เทคโนโลยีนี้ฟังดูน่าสนใจมาก ถ้าฉันเข้าใจถูก ก็สงสัยว่าทำไมโปรโตคอลถึงไม่ได้ออกแบบให้ตอบกลับได้ทันทีเมื่อส่งที่อยู่และยอดชำระเงินมา ถ้าให้ความพยายามครั้งต่อ ๆ ไปถูกบล็อกไว้จนกว่าจะส่ง checksum ของจำนวนเงินกับที่อยู่กระเป๋าเงินกลับมา แล้วให้บุคคลที่สามตรวจสอบ checksum นี้ ก็จะไม่จำเป็นที่แต่ละเซิร์ฟเวอร์ต้องเขียนตรรกะตรวจสอบเอง ถ้าจะสร้างเศรษฐกิจดิจิทัลให้ได้จริง ต้องมี 2 อย่าง: 1) คอนเทนต์ต้องถูกบริโภคได้เฉพาะผู้ร้องขอ และคัดลอก/บันทึกไม่ได้ 2) คอนเทนต์ต้องมีระบบชื่อเสียงหรือการจัดอันดับที่มนุษย์เป็นผู้ให้ ข้อแรกอาจแก้ได้ด้วย DRM หรือ homomorphic encryption ส่วนข้อสองอาจแก้ได้ด้วยหน่วยงานจัดอันดับที่ทำเป็น DAO ถ้าจะเข้าร่วม DAO ในฐานะผู้ประเมิน ก็ต้องแชร์ proof of track record บนบล็อกเชน และวางคริปโตราคาแพงเป็นหลักประกัน (= ใบอนุญาต) เพื่อเพิ่มความน่าเชื่อถือ แบบนี้จะเชื่อมคอนเทนต์กับผู้ประเมินได้คล้ายดัชนีของ BitTorrent และตัดโฆษณาคนกลางออกไปได้ ถ้าโครงสร้างนี้สำเร็จ คนที่มีความเชี่ยวชาญก็จะเข้ามาร่วมสร้างมูลค่าโดยไม่ต้องพึ่งคนกลาง และมนุษย์จะกลับมาเป็นศูนย์กลางของเศรษฐกิจคอนเทนต์ ถ้าแก้ปัญหาการจ่ายซ้ำให้คอนเทนต์เดียวกันได้ แต่ละคนก็จะได้รับผลตอบแทนอย่างต่อเนื่องและพัฒนาความเชี่ยวชาญออฟไลน์ของตัวเองได้ด้วย เช่นเวลาหาหนังสือหรือภาพยนตร์ดี ๆ เราก็มักอ้างอิงคะแนนจาก Amazon หรือ Goodreads แต่ปัจจุบันผู้ให้คะแนนเหล่านั้นไม่ได้มีส่วนได้ส่วนเสียมากนัก ถ้าคอนเทนต์ประเภทคะแนนเหล่านี้มีความน่าเชื่อถือระดับสถาบันประเมิน มูลค่าของผลงานแต่ละชิ้นก็อาจสูงขึ้นได้ ทุกคนจะมีแรงจูงใจให้รักษาชื่อเสียงของตัวเองไว้

    • แนวคิดนี้ไม่ใช่เรื่องใหม่เสียทีเดียว ฉันเองก็เคยทำโปรเจกต์ ln-paywall ที่ใช้รหัสสถานะ 402 ตั้งแต่ปี 2018

  • ฉันมองว่านี่เป็นแนวทางที่ผิดตั้งแต่ต้น Cloudflare แค่พูดว่า “คราวล์แบบเดิมได้ แต่ตอนนี้ต้องจ่ายแพงขึ้น” โดยไม่ได้สร้างมูลค่าที่สมเหตุสมผลให้เลย การคราวล์ไม่ใช่ความได้เปรียบทางการแข่งขันของบริษัท AI หรือเสิร์ชเอนจินใหม่ มันเป็นงานที่มีแต่ต้นทุนและทำให้เสียสมาธิ ต่างฝ่ายต่างควรร่วมมือกันใช้โครงสร้างพื้นฐานร่วมมากกว่า ทางที่เหมาะคือมี crawler ตัวเดียวเข้าเว็บทั้งหมด แล้วแต่ละบริษัทตั้งฟิลเตอร์ของตัวเองและร่วมรับผิดชอบตามสัดส่วนของ URL ที่ตรงเงื่อนไข แทนที่จะสร้างทราฟฟิกซ้ำหลายรอบ ถ้ามี crawler เดียวและบังคับใช้ robots.txt ทั้งในทางเทคนิคและทางสัญญา คอนเทนต์ที่ไม่ต้องการให้เก็บก็จะไม่ถูกส่งออกไป และใครจะเลี่ยงกติกาก็ต้องแบกภาระดูแล crawler เองซึ่งมีต้นทุนสูง ต่อให้เพิ่มระบบจ่ายเงินเข้าไป ก็ยังมีโอกาสสูงที่จะต้องจ่ายให้กับหน้าเว็บขยะจำนวนมหาศาลที่ไม่เคยเห็นมาก่อน จึงไม่ค่อยมีคุณค่า แนวทางนี้ทำให้ฝั่งบริษัท AI หรือเสิร์ชเอนจินก็คราวล์ได้ถูกและง่ายขึ้น ส่วนฝั่งเว็บไซต์ก็ลดภาระลงมากและบล็อกได้มีประสิทธิภาพขึ้น แต่ Cloudflare แค่บอกว่า “จ่ายมา” ซึ่งขาดจินตนาการและไม่น่าเชื่อถือเอาเลย

    • ฉันคิดว่าถ้าจะมองหา incentive structure ที่ถูกต้องตรงนี้ ต้องมองไปยังอีกฝั่งของตลาด ปัญหาของผู้ผลิตคอนเทนต์ไม่ใช่ว่ามีทราฟฟิกเข้ามาที่เว็บเยอะเกินไป แต่คือพวกเขาไม่ได้รับค่าตอบแทนที่เหมาะสมจากทราฟฟิกนั้น ถ้ามี 8 บริษัทเข้ามาเยี่ยมทุกหน้าของเว็บฉันวันละ 10 รอบ แต่ฉันได้รับค่าตอบแทนในระดับราคาตลาด ก็ไม่มีปัญหาอะไร ตอนนั้นทั้ง 8 บริษัทก็จะมีแรงจูงใจให้ร่วมมือกันทำ unified crawling เพราะต้นทุนจะไม่ถูกผลักออกไปให้คนอื่นรับแทน วิธีนี้กลับสมเหตุสมผลกว่าสำหรับทุกฝ่าย

    • จริง ๆ แล้ว Common Crawl ตั้งใจจะทำหน้าที่แบบนั้น แต่ก็น่า irony ที่ช่วงหลังกลับโหลดหนักจนแทบใช้งานไม่ได้ เพราะสตาร์ตอัป AI พากันสูบข้อมูลจากมันอย่างโลภมาก ปัญหาแบบนี้ทำให้มีช่องให้เกิดตลาดรับจ้างคราวล์เว็บขึ้นมา และในมุมบริษัท การเอาต์ซอร์ส crawler ก็ดูมีข้อดีหลายด้าน แน่นอนว่ายังไม่ชัดว่าความต้องการนี้ใหญ่พอจะเกิดเป็นตลาดธุรกิจจริงจังหรือไม่ แต่ที่ชัดเจนคือความต้องการเข้าถึงข้อมูลเว็บหรือความสามารถด้านการคราวล์อย่างจริงจังนั้นมีอยู่แน่

    • ฉันไม่เห็นด้วยกับความเห็นที่ว่าการคราวล์เว็บไม่ใช่ความได้เปรียบทางการแข่งขันของบริษัท AI เพราะความสามารถในการสะท้อนข้อมูลล่าสุดหรือแหล่งข้อมูลเฉพาะได้อย่างรวดเร็วนั้นเป็นความสามารถในการแข่งขันชัดเจน ปัญหาคือเวลาพวกเขาเอาคอนเทนต์ของเว็บไซต์ไป พวกเขาไม่จ่ายอะไรให้เว็บไซต์เลย และก็ไม่ได้ส่งทราฟฟิกกลับมา จึงทำลาย ecosystem ของเว็บ โดยเฉพาะในมุมของเว็บไซต์ บอท AI จะมาอ่านข้อมูลของฉันก็ได้ แต่คุณค่าที่กลับมาหาฉันคือศูนย์

    • ต่อให้ทราฟฟิกจากการคราวล์จ่ายเงินได้ในระดับหนึ่ง ก็เพียงพอจะครอบคลุมต้นทุนโครงสร้างพื้นฐานอยู่แล้ว ในอดีตก็แทบไม่ค่อยมีกรณีที่เว็บไซต์ล่มเพราะทราฟฟิกจำนวนมาก ช่วงหลังกลายเป็นว่า 1) เว็บไซต์จำนวนมากขึ้นเรื่อย ๆ บล็อกบอท สแครปเปอร์ ฯลฯ เองโดยตรง หรือ 2) เว็บที่ทำแบบนั้นไม่ได้ (เพราะควบคุมการเข้าถึงยากหรือไม่มีโมเดลหารายได้) ก็โดนถล่ม ถ้าในโครงสร้างแบบนี้มีการจ่ายเงินจริงให้เว็บไซต์ อย่างน้อยก็ช่วยชดเชยภาระจากบอททราฟฟิกที่มากเกินไปได้ และอาจได้มากกว่านั้นด้วย

    • ถึงอย่างนั้นฉันก็คิดว่าโครงสร้างต้นทุนแบบนี้น่าจะทำหน้าที่เป็นแรงจูงใจโดยตรงให้เกิดความร่วมมือได้

  • สุดท้ายแล้วนี่แหละที่ทำให้ Google ยังคงได้เปรียบใน AI คนส่วนใหญ่ต้องการให้ Googlebot เข้ามาคราวล์เว็บไซต์ของตัวเอง เพราะมันสร้างทราฟฟิกให้ และ Google ก็เอาดัชนีนั้นไปใช้ต่อในการฝึก AI ด้วย แม้จะมีลักษณะผูกขาด แต่ฉันมองว่าทั้งสองฝ่ายได้ประโยชน์ แต่ถ้าเป็นบริษัทอย่าง OpenAI, Anthropic หรือ Meta ที่เข้ามาคราวล์โดยไม่ให้ผลตอบแทนอะไรเลย ฉันคิดว่าแทบไม่มีใครอยากให้เว็บตัวเองถูกคราวล์ ดังนั้นนโยบายนี้ของ Cloudflare จึงมาถูกเวลา และถ้ามันสำเร็จ นี่ก็เป็นโอกาสมหาศาลสำหรับ Cloudflare ด้วย

    • อัตราการคลิกกำลังตกลงอย่างหนักเพราะ “AI Overview” ของ Google เมื่อก่อน Google คราวล์ 2 หน้า ก็ส่งทราฟฟิกกลับมา 1 คน เมื่อ 6 เดือนก่อนเป็น 6:1 และตอนนี้เป็น 18:1 สิ่งที่เปลี่ยนไปคือ AI Overviews ส่วน OpenAI ยิ่งหนักกว่า 6 เดือนก่อนอยู่ที่ 250:1 ตอนนี้เป็น 1,500:1 เพราะ AI ดูดทราฟฟิกจากลิงก์ต้นฉบับไปหมด (ข้อมูลอ้างอิงในทวิตเตอร์: https://twitter.com/ethanhays/status/1938651733976310151)

    • ฉันเป็นสตาร์ตอัป ดังนั้นจริง ๆ แล้วฉันอยากให้ AI มาคราวล์เว็บไซต์ของฉัน เวลาคนถาม ChatGPT ว่า “$CompanyName คืออะไร” ฉันอยากให้จุดแข็งและข้อความหลักของบริษัทเราได้รับการสะท้อนอย่างถูกต้อง คอนเทนต์ SEO แบบดั้งเดิมก็อาจถูกนำไปใช้เป็นข้อมูลฝึก AI ได้เช่นกัน ถ้าขอให้เครื่องมือ AI สรุปข้อดีข้อเสียของเว็บ มันก็มักอ้างอิงบทความแบบลิสต์อย่าง "top 10 tools for X" ที่บริษัทต่าง ๆ โพสต์ไว้บนบล็อกของตัวเองอยู่บ่อย ๆ องค์กรขนาดใหญ่ เช่น หน่วยงานท่องเที่ยว หรือองค์กรที่ต้องการเผยแพร่มุมมองของตนต่อโลกอย่างน่าเชื่อถือ ก็เช่นเดียวกัน

    • มีการพูดถึงว่า OpenAI, Anthropic และ Meta คราวล์คอนเทนต์ที่มนุษย์เขียนโดยไม่ให้ค่าตอบแทนใด ๆ แต่จริง ๆ แล้วหน่วยงานรัฐหรือบริษัทใหญ่บางแห่งกลับได้ประโยชน์จากการถูกคราวล์เสียอีก ตัวอย่างเช่น ถ้า AI ระดับโลกตอบคำถามว่า “จะไปดูจิงโจ้ได้อย่างไร” แล้วแนะนำสวนสัตว์ในนิวซีแลนด์แทนออสเตรเลีย (พร้อมสายการบินประจำชาติของนิวซีแลนด์และสัตว์ต่าง ๆ) นั่นก็เป็นปัญหา ข้อมูลที่ถูกต้องต้องถูกสะท้อนเข้าไปในโมเดล AI เพื่อให้สามารถมีอิทธิพลต่อผู้คนวงกว้างได้

    • Google มีโปรเจกต์อย่าง Google Books ด้วย ทำให้บริษัทตะวันตกอื่น ๆ หาแหล่งข้อมูลฝึกขนาดใหญ่ระดับนี้ได้ยากมาก ขณะที่บริษัทจีนไม่ค่อยใส่ใจเรื่องลิขสิทธิ์มากนัก ดังนั้นจุดนี้จึงเป็นความแตกต่างสำคัญ

    • ฉันไม่คิดว่า Google จะได้เปรียบใน AI เสมอไป ในมุมผู้บริโภค AI Overview ของ Google ผิดบ่อยมาก ในเชิงเทคนิค Google อาจให้ API, คุณภาพ หรือฟีเจอร์ที่ยอดเยี่ยมได้ แต่ประสบการณ์ AI หลักที่ผู้ใช้ทั่วไปเห็นจริง ๆ นั้นไม่ค่อยดีนัก

  • เทคโนโลยีนี้เท่มาก แต่ฉันไม่ชอบที่ crawler ทุกตัวต้องใช้ Cloudflare อย่างเดียว ฉันจำได้ว่าเคยมีนักพัฒนา Google Chrome เสนอ Web Monetization API อยู่เหมือนกัน ถ้าใช้โครงสร้างการชำระเงินแบบกระจายศูนย์ ก็จะไม่ต้องพึ่งบริษัทใดบริษัทหนึ่งโดยเฉพาะ

    • ฉันไม่ได้เชื่อใจ Cloudflare มากนัก ฉันพยายามมานานแล้วที่จะให้ RSS reader ของตัวเองเข้าไปอยู่ในรายชื่อ Verified Bots ของพวกเขา แต่ถึงตอนนี้ยังไม่รู้เลยว่าใบสมัครซัพพอร์ตมันไปลงเอยที่ไหน
  • เป็นทิศทางที่ดี แต่ยังมีจุดที่ขาดอยู่มาก โครงสร้างที่เหมาะที่สุดคือคิดราคาตามวัตถุประสงค์การใช้งาน เช่น ถ้าคราวล์เว็บไซต์เพื่อ “งานวิจัย” ก็ควรแทบฟรี แต่ถ้าเป็น “ฝึก AI เพื่อทำสินค้าเชิงพาณิชย์” ก็ควรแพงมาก ฉันเสียดายที่ต้องมาคิดอะไรแบบนี้ แต่ตอนนี้วิธีเดิมถูกห้ามในทางปฏิบัติจนแทบใช้ไม่ได้แล้ว การเปิดให้ใช้ฟรีทั้งหมดโดยไม่มีค่าตอบแทนจึงเป็นไปไม่ได้ในโลกความจริง จริง ๆ แล้วถ้ามีคนสร้างห้องสมุดโลกที่ให้ข้อมูลทุกอย่างฟรี และมีระบบชดเชย IP ที่สอดคล้องกัน มนุษยชาติทั้งหมดก็คงได้ประโยชน์มาก ทั้งที่ยุคนี้ข้อจำกัดทางเทคนิคส่วนใหญ่ถูกแก้ไปแล้ว แต่สิ่งที่ยังคงอยู่คือข้อจำกัดแบบ “คาร์เทลโดยพฤตินัย” ของปัจจุบัน ดังนั้นตอนนี้เลยเหมือนต้องบอกว่า “งั้นก็จ่ายมาแทน”

    • ถ้าเป็นแบบนี้ สุดท้ายคนที่หวังทำกำไรก็จะหาช่องโหว่สารพัดมาใช้ในทางที่ผิด หรือขายต่อข้อมูลโดยไม่ตรงตามเจตนา หรือแทรกซึมเข้าระบบได้บ่อยมาก เช่น ถ้าบอกว่า “ใช้ฟรีเพื่อการวิจัย” ก็อาจมีคนแค่อ้างว่า “ฉันมาวิจัยนะ!” ทั้งที่จริงแล้วเอาข้อมูลไปขายให้บริษัทในเครือตัวเองเพื่อหากำไร

    • แม้ “ห้องสมุดที่แชร์ข้อมูลทั้งหมดฟรี” แบบนี้จะดูเป็นไปได้ทางเทคนิค แต่โจทย์หลักคือความยั่งยืนทางเศรษฐกิจ ถ้าค่าเข้าถึงต่ำเกินไป ก็จะยิ่งเกิดการคัดลอกไม่สิ้นสุดหรือการใช้งานเกินขอบเขตจนระบบพัง กลับกัน การมีข้อจำกัดในระดับหนึ่งอาจสร้างแรงจูงใจที่ดีกว่าต่อความร่วมมือและการยกระดับคุณภาพ (คล้ายกลยุทธ์ r/K ในชีววิทยา) เมื่อมีข้อจำกัด มูลค่าต่อหน่วยก็สูงขึ้น ทำให้ข้อมูลและบริการคุณภาพสูงขยายตัวได้ สุดท้ายแล้วห้องสมุดสาธารณะออฟไลน์อาจเคยอยู่ใกล้จุดเหมาะสมนี้ที่สุด

  • ดูเหมือน HN จะประเมินประเด็นนี้ต่ำไป แต่นี่เป็นการเปลี่ยนแปลงที่ใหญ่มาก 20% ของทั้งเว็บอยู่บน Cloudflare ถ้าฟีเจอร์นี้เปิดให้ลูกค้าทุกคน แม้แต่เจ้าของบล็อกฟรี ก็จะกลายเป็นโครงสร้างที่น่าสนใจซึ่งเจ้าของบล็อกเองก็รับเงินได้

    • ในความเป็นจริง เจ้าของบล็อกน่าจะได้เงินในระดับเศษเสี้ยวของ 0.1 เซนต์ และฉันก็สงสัยว่า Cloudflare จะเอาส่วนแบ่งรายได้ไปเกือบหมด สุดท้ายระบบนี้อาจถูกใช้กับทุกคน และทำให้เกิดเครือข่ายปิดแบบ “Cloudflare-Net” ที่อ่านไม่ได้หากไม่ยืนยันบัตรเครดิต ตลาดอาจแตกเป็นหลายค่ายระหว่างโครงสร้างพื้นฐานคู่แข่งอย่าง Akamai, AWS ฯลฯ ต้นทุนการคราวล์ของโมเดล AI ก็จะสูงขึ้น และภาระนั้นสุดท้ายจะถูกผลักมาที่ผู้ใช้ปลายทาง (= พวกเราทุกคน) ขณะเดียวกันบริษัทเล็ก ๆ ก็จะสร้างสิ่งใหม่ได้ยากขึ้น ความพร้อมใช้งานโดยเฉลี่ยของข้อมูลสำหรับโมเดล AI ก็จะลดลง สุดท้ายแล้วนี่คือปัญหาที่เชื่อมโยงกับข้อถกเถียงเรื่อง net neutrality ด้วย เพราะ “เว็บที่เคยเปิดอย่างบริสุทธิ์” กำลังค่อย ๆ สูญเสียความเปิดกว้างเดิมไปภายใต้เงื่อนไขการจ่ายเงินหรือการคุมประตูโดยบริษัทต่าง ๆ มันไม่ได้เป็นข่าวดีต่อทั้งเว็บอย่างที่ฟังเผิน ๆ เลย
  • ฉันกังวลว่าอีกไม่นานเวลาใช้เบราว์เซอร์แต่ละครั้งเราจะถูกบังคับให้จ่ายเงินทีละนิด แล้วอินเทอร์เน็ตแบบเดิมจะหายไป

    • ตอนนี้ก็เสียเวลากับระบบตรวจจับบอทของ Cloudflare ไปมากพอแล้ว ฉันใช้ Chrome + uBlock และคงอีกไม่นานก็คงได้เห็นหน้าจอเรียกจ่ายเงินด้วย ถ้ามี CAPTCHA ขึ้น ฉันก็แค่เลิกใช้เว็บนั้นแล้วไปที่อื่น

    • ที่จริงมันอาจจะดีกว่าการต้องทนกับโฆษณาเป็นสิบ ๆ ตัวและ paywall มากมายก็ได้

  • ต้องคิดด้วยว่า AI crawler อาจถูกใช้เป็นเครื่องมือช่วยนำทางเว็บสำหรับผู้พิการ ระบบอัตโนมัติด้าน UI ตอนนี้ก็มีอุปสรรคจากขั้นตอนยืนยันตัวตนต่าง ๆ มากอยู่แล้ว

    • ผู้ดูแลเว็บไซต์สามารถอนุญาต crawler แบบนั้นได้ ปัญหาที่ผู้ไม่หวังดีปลอมตัวเป็นผู้ใช้งานโดยสุจริตเพื่อเข้าถึงข้อมูลนั้นมีอยู่แล้ว เช่น กรณีที่อยากอนุญาต Google web crawler แต่บล็อกการฝึก Gemini ดังนั้นจึงจำเป็นต้องมีวิธีแก้ปัญหาทางเทคนิคสำหรับเรื่องนี้

    • ฉันไม่ค่อยเข้าใจว่าการที่ผู้ใช้ทั่วไปใช้ crawler เพื่อ “ท่องเว็บ” หมายถึงอะไรแน่ AI browser ไม่ได้เท่ากับ crawler โดยตรง crawler คือเครื่องมือสำหรับเก็บเกี่ยวข้อมูลจากทั้งเว็บไซต์ในปริมาณมาก

    • มีมาตรฐานการเข้าถึงชื่อ ARIA อยู่แล้ว และเว็บไซต์หลัก ๆ ก็รองรับกันทั้งหมด สำหรับการเข้าถึง AI ไม่ควรจำเป็น และไม่ควรถูกใช้ด้วย

  • เมื่อก่อนฉันคิดว่าบริษัทที่ให้บริการค้นหาอินเทอร์เน็ตที่มีประโยชน์คือ “บริษัทที่ดี” และตอนนี้ Cloudflare ก็ดูเหมือนกำลังทำ “สิ่งที่ดี” อย่างการป้องกัน DDoS, CDN, การป้องกันจาก AI ฯลฯ แต่ก็มีโอกาสสูงที่วันหนึ่งเราจะเริ่มไม่ชอบบริษัทแบบนี้เช่นกัน

    • Cloudflare อาจยังไม่ใช่บริษัทที่ทุกคนเกลียด แต่ยิ่งอิทธิพลมากขึ้น ความระแวงก็ยิ่งมากขึ้น Bluesky เคยพูดว่า “the company is tomorrow's adversary(บริษัทที่เป็นพาร์ตเนอร์วันนี้ อาจเป็นศัตรูในวันพรุ่งนี้)” และ Cloudflare เองก็กำลังเติบโตเป็น “คู่ปรับ” ที่ทรงพลังมากขึ้นเรื่อย ๆ

    • เพื่อนในชีวิตจริงรอบตัวฉันเกลียด Cloudflare กันไปแล้ว

    • แม้จะบอกว่าทำ “สิ่งที่ดีให้กับอินเทอร์เน็ต” แต่ friction ด้านการยืนยันตัวตนและการตรวจสอบที่ Cloudflare สร้างขึ้น กลับทำให้ฉันหันไปใช้ LLM มากกว่า Stack Exchange

  • โดยรวมฉันเห็นด้วยกับไอเดียนี้ แต่บริษัทใหญ่จะหาทางอ้อมเพื่อเข้าถึงข้อมูลได้อยู่ดี (โดยเฉพาะ Google ที่ใช้ข้ออ้างว่าเป็นเสิร์ชเอนจินเพื่อคราวล์ฟรี) และถ้ามันสำเร็จจริง ต้นทุนก็มีแนวโน้มจะถูกผลักมาที่ผู้ใช้ปลายทางอย่างพวกเรา

    • ต่อให้ Google จะคราวล์ข้อมูลฟรีโดยอ้างว่าเพื่อการค้นหา แล้วถ้าในขั้นที่ 2 บังคับให้ Google จ่ายค่าธรรมเนียมเป็นรายหน้าล่ะ ฉันคิดว่าสามารถตั้งช่วงที่ crawler เข้าไม่ถึงแยกตามราคาในแต่ละบทความได้ เช่น ข่าวสำคัญตั้งราคาแพง และระบุราคาแยกตามไลเซนส์วัตถุประสงค์ต่าง ๆ อย่างข้อมูลทั่วไป การฝึก LLM หรือการวิจัยภายใน Cloudflare ถ้าทำหน้าที่เป็นฮับตัวกลางของหลายล้านเว็บไซต์ ก็เป็นโครงสร้างที่เป็นไปได้มากพอ

    • ผู้เผยแพร่จะบล็อก Googlebot กันมากขึ้น เพราะตอนนี้ Google แย่งรายได้ของผู้เผยแพร่ไปแล้วผ่านคำตอบค้นหาแบบ AI