- Cloudflare ประกาศบริการใหม่ที่เปิดให้เจ้าของคอนเทนต์สามารถ เรียกเก็บเงินเมื่อมีการเข้าถึง จาก AI crawler
- ผู้สร้างคอนเทนต์มี 3 ทางเลือก: อนุญาตฟรี, บล็อกทั้งหมด, หรือ อนุญาตแบบมีค่าใช้จ่าย
- การคิดค่าบริการทำงานบนมาตรฐานการตอบกลับ HTTP 402 Payment Required และ Cloudflare เป็นผู้ให้บริการ โครงสร้างพื้นฐานด้านการชำระเงินและการชำระบัญชี
- crawler และเจ้าของคอนเทนต์สามารถสร้างความโปร่งใสและความปลอดภัยผ่าน การยืนยันตัวตนและการชำระเงินแบบโปรแกรม
- บริการนี้เริ่มต้นในรูปแบบ private beta และในอนาคตมีแผนขยายไปสู่การใช้งานที่หลากหลายและรองรับ การคิดค่าบริการแบบไดนามิก
การเปลี่ยนแปลงของสภาพแวดล้อมการบริโภค AI
- ที่ผ่านมา ผู้เผยแพร่ ผู้สร้างคอนเทนต์ และเจ้าของเว็บไซต์ จำนวนมากมีทางเลือกแบบ สองขั้ว สำหรับ AI crawler คืออนุญาตให้เข้าถึงทั้งหมดหรือบล็อกทั้งหมดเท่านั้น
- Cloudflare ยึดหลัก เพิ่มอำนาจควบคุมให้เจ้าของคอนเทนต์ โดยมุ่งสร้างสภาพแวดล้อมที่สามารถบล็อก AI crawler ทั้งหมด อนุญาตฟรีทั้งหมด หรือเลือกอนุญาตเฉพาะ crawler ที่ต้องการได้
- จากการหารือกับบริษัทสื่อ ผู้เผยแพร่ และแพลตฟอร์มโซเชียลรายใหญ่หลายร้อยแห่ง พบว่ามี ความต้องการเปิดให้ AI crawler เข้าถึงได้แต่ต้องการค่าตอบแทน สูงมาก
- เดิมทีต้องเจรจากับ crawler เป็นรายรายก่อนจึงจะอนุญาตการเข้าถึงได้ แต่สำหรับเว็บไซต์ขนาดเล็กนั้นแทบเป็นไปไม่ได้จริงเพราะ ขาดทั้งขนาดและอำนาจต่อรอง
การนำโมเดล 'จ่ายตามการครอล (pay per crawl)' มาใช้
- นอกเหนือจากทางเลือกสุดขั้วอย่าง ฟรีหรือบล็อก Cloudflare เสนอทางเลือกที่สามคือ การคิดเงินตามการเข้าถึง
- วิธีนี้ช่วยให้เจ้าของคอนเทนต์สามารถ สร้างรายได้จากสินทรัพย์ดิจิทัล ได้ในระดับอินเทอร์เน็ต
- ฐานเทคนิคสำคัญคือสถานะโค้ดที่แทบถูกลืมอย่าง HTTP 402 Payment Required โดยหาก crawler แสดงเจตนาชำระเงินจะได้รับคอนเทนต์ด้วย 200 OK แต่หากไม่ยินยอมจะได้รับการตอบกลับ 402 พร้อมแจ้งราคา
- Cloudflare รับบทเป็น Merchant of Record ดูแลทั้งการประมวลผลการชำระเงินและโครงสร้างพื้นฐานทางเทคนิค
อำนาจการกำหนดและนโยบายราคาของผู้เผยแพร่
- ผู้เผยแพร่สามารถตั้ง ราคาคงที่ สำหรับทั้งเว็บไซต์ได้
- อนุญาต (ให้ใช้ฟรี)
- คิดเงิน (ให้เมื่อชำระตามราคาที่ตั้งไว้)
- บล็อก (ไม่อนุญาตให้เข้าถึงและแจ้งถึงความเป็นไปได้ของความสัมพันธ์ในอนาคต)
- รองรับนโยบายที่ยืดหยุ่นสำหรับแต่ละ crawler เช่น ข้อยกเว้นการคิดเงิน การอนุญาตให้เข้าฟรี หรือการเจรจาเป็นรายกรณี
- ทำงานร่วมกับ นโยบายความปลอดภัยของ Cloudflare (WAF, การจัดการบอต ฯลฯ) โดยจะใช้นโยบายไฟร์วอลล์เดิมก่อน แล้วจึงค่อยทำงานตามกฎ pay per crawl
โปรโตคอลการยืนยันตัวตนและการชำระเงิน: Web Bot Auth
- ออกแบบมาเพื่อให้ เฉพาะ crawler ที่กำหนดเท่านั้นที่สามารถชำระเงินและรับสิทธิ์เข้าถึงได้ เพื่อป้องกันการปลอมแปลง ID ของ crawler (spoofing)
- crawler ต้องสร้าง คู่กุญแจ Ed25519 ลงทะเบียนไดเรกทอรี public key ในรูปแบบ JWK และส่งข้อมูลให้ Cloudflare
- ใช้ส่วนหัว HTTP message signature (Signature-Agent, Signature-Input, Signature) เพื่อพิสูจน์ตัวตนและเจตนาในการชำระเงิน
วิธีการเข้าถึงคอนเทนต์แบบมีค่าใช้จ่าย
- รองรับ 2 โปรโตคอล
- Reactive (ค้นพบก่อน): เมื่อ crawler ขอ URL ที่มีค่าใช้จ่าย จะได้รับการตอบกลับ 402 พร้อมเสนอราคา → หากยอมรับจะร้องขอใหม่โดยใส่ส่วนหัว 'crawler-exact-price'
- Proactive (เจตนาก่อน): ในคำขอแรกจะส่งส่วนหัว 'crawler-max-price' เพื่อระบุเพดานราคาที่พร้อมจ่าย → หากไม่เกินเกณฑ์จะได้รับ 200 OK พร้อมรายละเอียดการคิดเงิน
- การต่อรองราคาและการแสดงเจตนาชำระเงินรองรับในรูปแบบ programmable
การชำระบัญชีและการเงิน
- ผู้ให้บริการ crawler และเจ้าของคอนเทนต์จำเป็นต้อง ลงทะเบียนข้อมูลการชำระเงิน ในบัญชี Cloudflare
- ทุกคำขอชำระเงินที่ผ่านการยืนยันตัวตนและทุกการตอบกลับ 200 OK จะมีการ บันทึกเหตุการณ์การคิดเงิน จากนั้น Cloudflare จะรวบรวมข้อมูลไปเรียกเก็บเงินจาก crawler และชำระให้ผู้เผยแพร่
จุดเริ่มต้นของการเปลี่ยนผ่านสู่ยุคเอเจนต์
- pay per crawl เป็นสัญลักษณ์ของ วิวัฒนาการของเทคโนโลยีควบคุมคอนเทนต์ออนไลน์
- คาดว่าจะช่วยปกป้องผู้สร้างและเปิดทางสู่โมเดลธุรกิจใหม่ผ่านการกำหนดมูลค่า สินทรัพย์แบบ programmable
- ในอนาคตมีการหารือถึงการขยายไปสู่ การคิดค่าบริการแบบไดนามิกตามประเภทคอนเทนต์/เส้นทาง การกำหนดอัตราตามปริมาณทราฟฟิก AI และการจัดการไลเซนส์ขนาดใหญ่
- การนำ HTTP 402 มาใช้ ช่วยเตรียมพร้อมสำหรับอนาคตที่ AI/เอเจนต์จะต่อรองเงื่อนไขการเข้าถึงทรัพยากรดิจิทัลแบบโปรแกรมได้
วิธีเริ่มต้น
- ฟีเจอร์ pay per crawl เปิดให้ใช้งานก่อนในรูปแบบ private beta
- crawler และผู้สร้างคอนเทนต์ที่สนใจใช้งานสามารถติดต่อผ่าน ลิงก์สมัครแยกต่างหาก
- Cloudflare ยังรองรับ การป้องกัน DDoS การเร่งการเชื่อมต่ออินเทอร์เน็ต การสร้างแอปพลิเคชันอินเทอร์เน็ต การบล็อกแฮ็กเกอร์ และการทำ Zero Trust
ข้อมูลและแนวโน้มที่เกี่ยวข้องเพิ่มเติม
- มีการขยายทั้งความเคลื่อนไหวในการ บล็อกการครอลฟรี เช่น 'Content Independence Day' และ โซลูชันการจัดการบอต ของ Cloudflare
- มีการเปิดเผยตัวเลขว่าในช่วงปี 2024~2025 ทราฟฟิกจาก AI crawler เพิ่มขึ้น 18% โดย GPTBot โต 305% และ Googlebot โต 96%
- มีการเปิดตัวฟีเจอร์เสริมการยืนยัน crawler ด้วย message signature บน public key พร้อมกันด้วย
5 ความคิดเห็น
แปล: https://rosettalens.com/s/ko/introducing-pay-per-crawl
จะแยกได้อย่างไรว่าเป็นบอต AI หรือไม่
ไม่ว่าจะเป็น AI หรือไม่ก็ตาม ถ้าตั้งใจจะคลานข้อมูลจริง ๆ ก็จับไม่ได้อยู่ดี
Cloudflare ก็แค่จะหารายได้
สุดท้ายคนที่อยากทำเงินก็จะไปรวมกันอยู่ที่นั่นหมด
ปริมาณทราฟฟิกของ Cloudflare ก็จะยิ่งใหญ่ขึ้น
และข้อมูลก็จะเผชิญกับการเสื่อมถอยด้านคุณภาพ
ทั้ง Naver, Instagram และ YouTube ก็ล้วนแสดงแนวโน้มแบบเดียวกันเมื่อมีเรื่องเงินเข้ามาเกี่ยวข้อง
ความคิดเห็นจาก Hacker News
ฉันคิดว่านี่คือรูปแบบของไมโครเพย์เมนต์ที่เราเคยต้องการ Coinbase เพิ่งเปิดตัวไลบรารีที่ใช้คริปโตและรหัสสถานะ 402 ซึ่งก็คือ x402 ลิงก์ GitHub ของ x402
ฉันคิดว่าโมเดลธุรกิจเว็บควรเป็นแบบนี้แทนที่จะพึ่งคนกลางโฆษณา อุตสาหกรรม adtech เอาข้อมูลของเราไปหาประโยชน์อย่างต่อเนื่อง ทำลายสื่อ และยังทำร้ายประชาธิปไตยด้วย หวังว่าอีกหลายสิบปีข้างหน้าเราจะตระหนักได้ว่าโมเดลโฆษณาในปัจจุบันเป็นอันตรายแค่ไหน แล้วกำกับดูแลและลงโทษบริษัทที่เกี่ยวข้องเหมือนที่เคยทำกับ Big Tobacco แม้ BAT ของ Brave จะเป็นความพยายามที่ดี แต่ x402 ดูเหมือนจะเป็นทางออกที่ใช้ได้ทั่วไปมากกว่า เพียงแต่ภาพลักษณ์เชิงลบของคริปโตและอิทธิพลอันแข็งแกร่งของวงการโฆษณา ทำให้แนวทางนี้คงปักหลักได้ไม่ง่าย
ฉันไม่อยากใช้คริปโต ไม่อยากรับคอนเทนต์เป็นคริปโต และไม่อยากจ่ายค่าธรรมเนียมให้คนกลางด้วย การใช้คริปโตกับไมโครเพย์เมนต์ในทางปฏิบัติดูเหมือนเป็นแค่เครื่องมือไว้ดัน ecosystem คริปโตขึ้นมา อีกอย่างก็ยากมากที่จะให้ทุกคนตกลงกันว่าจะใช้เหรียญไหนจ่าย ถ้ากลายเป็นว่าแต่ละเว็บไซต์รับคนละเหรียญ หรือไม่ก็ต้องรับแค่ stablecoin เดียว ก็ยิ่งควบคุมยาก วิธีของ Cloudflare ดีกว่า เพราะฝั่งที่ทำเงินเป็นคนจ่าย ไม่ได้ไปเรียกเก็บเงินจากผู้ใช้ทั่วไป และก็ไม่ต้องใช้คริปโตด้วย
ฉันหวังว่าตัวเองจะคิดผิด แต่รู้สึกว่าเราอาจพลาดโอกาสของไมโครเพย์เมนต์ไปแล้ว ถ้าสมัยก่อนมีโครงสร้างแบบเติมเงินล่วงหน้าเหมือนมือถือปุ่มกด เช่น “เติมเงินอินเทอร์เน็ต 10,000 วอน” แล้วให้เว็บไซต์หักเป็นไมโครเพย์เมนต์ได้เอง ก็น่าจะลงหลักปักฐานได้จริง แต่ตอนนี้ถ้าจะทำระบบนี้และให้ทั้งตลาดเข้าร่วม มันต้องใช้ทั้งโครงสร้างพื้นฐานและฉันทามติมากเกินไป จนเหมือนเลยจังหวะนั้นมาแล้ว
เทคโนโลยีนี้ฟังดูน่าสนใจมาก ถ้าฉันเข้าใจถูก ก็สงสัยว่าทำไมโปรโตคอลถึงไม่ได้ออกแบบให้ตอบกลับได้ทันทีเมื่อส่งที่อยู่และยอดชำระเงินมา ถ้าให้ความพยายามครั้งต่อ ๆ ไปถูกบล็อกไว้จนกว่าจะส่ง checksum ของจำนวนเงินกับที่อยู่กระเป๋าเงินกลับมา แล้วให้บุคคลที่สามตรวจสอบ checksum นี้ ก็จะไม่จำเป็นที่แต่ละเซิร์ฟเวอร์ต้องเขียนตรรกะตรวจสอบเอง ถ้าจะสร้างเศรษฐกิจดิจิทัลให้ได้จริง ต้องมี 2 อย่าง: 1) คอนเทนต์ต้องถูกบริโภคได้เฉพาะผู้ร้องขอ และคัดลอก/บันทึกไม่ได้ 2) คอนเทนต์ต้องมีระบบชื่อเสียงหรือการจัดอันดับที่มนุษย์เป็นผู้ให้ ข้อแรกอาจแก้ได้ด้วย DRM หรือ homomorphic encryption ส่วนข้อสองอาจแก้ได้ด้วยหน่วยงานจัดอันดับที่ทำเป็น DAO ถ้าจะเข้าร่วม DAO ในฐานะผู้ประเมิน ก็ต้องแชร์ proof of track record บนบล็อกเชน และวางคริปโตราคาแพงเป็นหลักประกัน (= ใบอนุญาต) เพื่อเพิ่มความน่าเชื่อถือ แบบนี้จะเชื่อมคอนเทนต์กับผู้ประเมินได้คล้ายดัชนีของ BitTorrent และตัดโฆษณาคนกลางออกไปได้ ถ้าโครงสร้างนี้สำเร็จ คนที่มีความเชี่ยวชาญก็จะเข้ามาร่วมสร้างมูลค่าโดยไม่ต้องพึ่งคนกลาง และมนุษย์จะกลับมาเป็นศูนย์กลางของเศรษฐกิจคอนเทนต์ ถ้าแก้ปัญหาการจ่ายซ้ำให้คอนเทนต์เดียวกันได้ แต่ละคนก็จะได้รับผลตอบแทนอย่างต่อเนื่องและพัฒนาความเชี่ยวชาญออฟไลน์ของตัวเองได้ด้วย เช่นเวลาหาหนังสือหรือภาพยนตร์ดี ๆ เราก็มักอ้างอิงคะแนนจาก Amazon หรือ Goodreads แต่ปัจจุบันผู้ให้คะแนนเหล่านั้นไม่ได้มีส่วนได้ส่วนเสียมากนัก ถ้าคอนเทนต์ประเภทคะแนนเหล่านี้มีความน่าเชื่อถือระดับสถาบันประเมิน มูลค่าของผลงานแต่ละชิ้นก็อาจสูงขึ้นได้ ทุกคนจะมีแรงจูงใจให้รักษาชื่อเสียงของตัวเองไว้
แนวคิดนี้ไม่ใช่เรื่องใหม่เสียทีเดียว ฉันเองก็เคยทำโปรเจกต์ ln-paywall ที่ใช้รหัสสถานะ 402 ตั้งแต่ปี 2018
ฉันมองว่านี่เป็นแนวทางที่ผิดตั้งแต่ต้น Cloudflare แค่พูดว่า “คราวล์แบบเดิมได้ แต่ตอนนี้ต้องจ่ายแพงขึ้น” โดยไม่ได้สร้างมูลค่าที่สมเหตุสมผลให้เลย การคราวล์ไม่ใช่ความได้เปรียบทางการแข่งขันของบริษัท AI หรือเสิร์ชเอนจินใหม่ มันเป็นงานที่มีแต่ต้นทุนและทำให้เสียสมาธิ ต่างฝ่ายต่างควรร่วมมือกันใช้โครงสร้างพื้นฐานร่วมมากกว่า ทางที่เหมาะคือมี crawler ตัวเดียวเข้าเว็บทั้งหมด แล้วแต่ละบริษัทตั้งฟิลเตอร์ของตัวเองและร่วมรับผิดชอบตามสัดส่วนของ URL ที่ตรงเงื่อนไข แทนที่จะสร้างทราฟฟิกซ้ำหลายรอบ ถ้ามี crawler เดียวและบังคับใช้ robots.txt ทั้งในทางเทคนิคและทางสัญญา คอนเทนต์ที่ไม่ต้องการให้เก็บก็จะไม่ถูกส่งออกไป และใครจะเลี่ยงกติกาก็ต้องแบกภาระดูแล crawler เองซึ่งมีต้นทุนสูง ต่อให้เพิ่มระบบจ่ายเงินเข้าไป ก็ยังมีโอกาสสูงที่จะต้องจ่ายให้กับหน้าเว็บขยะจำนวนมหาศาลที่ไม่เคยเห็นมาก่อน จึงไม่ค่อยมีคุณค่า แนวทางนี้ทำให้ฝั่งบริษัท AI หรือเสิร์ชเอนจินก็คราวล์ได้ถูกและง่ายขึ้น ส่วนฝั่งเว็บไซต์ก็ลดภาระลงมากและบล็อกได้มีประสิทธิภาพขึ้น แต่ Cloudflare แค่บอกว่า “จ่ายมา” ซึ่งขาดจินตนาการและไม่น่าเชื่อถือเอาเลย
ฉันคิดว่าถ้าจะมองหา incentive structure ที่ถูกต้องตรงนี้ ต้องมองไปยังอีกฝั่งของตลาด ปัญหาของผู้ผลิตคอนเทนต์ไม่ใช่ว่ามีทราฟฟิกเข้ามาที่เว็บเยอะเกินไป แต่คือพวกเขาไม่ได้รับค่าตอบแทนที่เหมาะสมจากทราฟฟิกนั้น ถ้ามี 8 บริษัทเข้ามาเยี่ยมทุกหน้าของเว็บฉันวันละ 10 รอบ แต่ฉันได้รับค่าตอบแทนในระดับราคาตลาด ก็ไม่มีปัญหาอะไร ตอนนั้นทั้ง 8 บริษัทก็จะมีแรงจูงใจให้ร่วมมือกันทำ unified crawling เพราะต้นทุนจะไม่ถูกผลักออกไปให้คนอื่นรับแทน วิธีนี้กลับสมเหตุสมผลกว่าสำหรับทุกฝ่าย
จริง ๆ แล้ว Common Crawl ตั้งใจจะทำหน้าที่แบบนั้น แต่ก็น่า irony ที่ช่วงหลังกลับโหลดหนักจนแทบใช้งานไม่ได้ เพราะสตาร์ตอัป AI พากันสูบข้อมูลจากมันอย่างโลภมาก ปัญหาแบบนี้ทำให้มีช่องให้เกิดตลาดรับจ้างคราวล์เว็บขึ้นมา และในมุมบริษัท การเอาต์ซอร์ส crawler ก็ดูมีข้อดีหลายด้าน แน่นอนว่ายังไม่ชัดว่าความต้องการนี้ใหญ่พอจะเกิดเป็นตลาดธุรกิจจริงจังหรือไม่ แต่ที่ชัดเจนคือความต้องการเข้าถึงข้อมูลเว็บหรือความสามารถด้านการคราวล์อย่างจริงจังนั้นมีอยู่แน่
ฉันไม่เห็นด้วยกับความเห็นที่ว่าการคราวล์เว็บไม่ใช่ความได้เปรียบทางการแข่งขันของบริษัท AI เพราะความสามารถในการสะท้อนข้อมูลล่าสุดหรือแหล่งข้อมูลเฉพาะได้อย่างรวดเร็วนั้นเป็นความสามารถในการแข่งขันชัดเจน ปัญหาคือเวลาพวกเขาเอาคอนเทนต์ของเว็บไซต์ไป พวกเขาไม่จ่ายอะไรให้เว็บไซต์เลย และก็ไม่ได้ส่งทราฟฟิกกลับมา จึงทำลาย ecosystem ของเว็บ โดยเฉพาะในมุมของเว็บไซต์ บอท AI จะมาอ่านข้อมูลของฉันก็ได้ แต่คุณค่าที่กลับมาหาฉันคือศูนย์
ต่อให้ทราฟฟิกจากการคราวล์จ่ายเงินได้ในระดับหนึ่ง ก็เพียงพอจะครอบคลุมต้นทุนโครงสร้างพื้นฐานอยู่แล้ว ในอดีตก็แทบไม่ค่อยมีกรณีที่เว็บไซต์ล่มเพราะทราฟฟิกจำนวนมาก ช่วงหลังกลายเป็นว่า 1) เว็บไซต์จำนวนมากขึ้นเรื่อย ๆ บล็อกบอท สแครปเปอร์ ฯลฯ เองโดยตรง หรือ 2) เว็บที่ทำแบบนั้นไม่ได้ (เพราะควบคุมการเข้าถึงยากหรือไม่มีโมเดลหารายได้) ก็โดนถล่ม ถ้าในโครงสร้างแบบนี้มีการจ่ายเงินจริงให้เว็บไซต์ อย่างน้อยก็ช่วยชดเชยภาระจากบอททราฟฟิกที่มากเกินไปได้ และอาจได้มากกว่านั้นด้วย
ถึงอย่างนั้นฉันก็คิดว่าโครงสร้างต้นทุนแบบนี้น่าจะทำหน้าที่เป็นแรงจูงใจโดยตรงให้เกิดความร่วมมือได้
สุดท้ายแล้วนี่แหละที่ทำให้ Google ยังคงได้เปรียบใน AI คนส่วนใหญ่ต้องการให้ Googlebot เข้ามาคราวล์เว็บไซต์ของตัวเอง เพราะมันสร้างทราฟฟิกให้ และ Google ก็เอาดัชนีนั้นไปใช้ต่อในการฝึก AI ด้วย แม้จะมีลักษณะผูกขาด แต่ฉันมองว่าทั้งสองฝ่ายได้ประโยชน์ แต่ถ้าเป็นบริษัทอย่าง OpenAI, Anthropic หรือ Meta ที่เข้ามาคราวล์โดยไม่ให้ผลตอบแทนอะไรเลย ฉันคิดว่าแทบไม่มีใครอยากให้เว็บตัวเองถูกคราวล์ ดังนั้นนโยบายนี้ของ Cloudflare จึงมาถูกเวลา และถ้ามันสำเร็จ นี่ก็เป็นโอกาสมหาศาลสำหรับ Cloudflare ด้วย
อัตราการคลิกกำลังตกลงอย่างหนักเพราะ “AI Overview” ของ Google เมื่อก่อน Google คราวล์ 2 หน้า ก็ส่งทราฟฟิกกลับมา 1 คน เมื่อ 6 เดือนก่อนเป็น 6:1 และตอนนี้เป็น 18:1 สิ่งที่เปลี่ยนไปคือ AI Overviews ส่วน OpenAI ยิ่งหนักกว่า 6 เดือนก่อนอยู่ที่ 250:1 ตอนนี้เป็น 1,500:1 เพราะ AI ดูดทราฟฟิกจากลิงก์ต้นฉบับไปหมด (ข้อมูลอ้างอิงในทวิตเตอร์: https://twitter.com/ethanhays/status/1938651733976310151)
ฉันเป็นสตาร์ตอัป ดังนั้นจริง ๆ แล้วฉันอยากให้ AI มาคราวล์เว็บไซต์ของฉัน เวลาคนถาม ChatGPT ว่า “$CompanyName คืออะไร” ฉันอยากให้จุดแข็งและข้อความหลักของบริษัทเราได้รับการสะท้อนอย่างถูกต้อง คอนเทนต์ SEO แบบดั้งเดิมก็อาจถูกนำไปใช้เป็นข้อมูลฝึก AI ได้เช่นกัน ถ้าขอให้เครื่องมือ AI สรุปข้อดีข้อเสียของเว็บ มันก็มักอ้างอิงบทความแบบลิสต์อย่าง "top 10 tools for X" ที่บริษัทต่าง ๆ โพสต์ไว้บนบล็อกของตัวเองอยู่บ่อย ๆ องค์กรขนาดใหญ่ เช่น หน่วยงานท่องเที่ยว หรือองค์กรที่ต้องการเผยแพร่มุมมองของตนต่อโลกอย่างน่าเชื่อถือ ก็เช่นเดียวกัน
มีการพูดถึงว่า OpenAI, Anthropic และ Meta คราวล์คอนเทนต์ที่มนุษย์เขียนโดยไม่ให้ค่าตอบแทนใด ๆ แต่จริง ๆ แล้วหน่วยงานรัฐหรือบริษัทใหญ่บางแห่งกลับได้ประโยชน์จากการถูกคราวล์เสียอีก ตัวอย่างเช่น ถ้า AI ระดับโลกตอบคำถามว่า “จะไปดูจิงโจ้ได้อย่างไร” แล้วแนะนำสวนสัตว์ในนิวซีแลนด์แทนออสเตรเลีย (พร้อมสายการบินประจำชาติของนิวซีแลนด์และสัตว์ต่าง ๆ) นั่นก็เป็นปัญหา ข้อมูลที่ถูกต้องต้องถูกสะท้อนเข้าไปในโมเดล AI เพื่อให้สามารถมีอิทธิพลต่อผู้คนวงกว้างได้
Google มีโปรเจกต์อย่าง Google Books ด้วย ทำให้บริษัทตะวันตกอื่น ๆ หาแหล่งข้อมูลฝึกขนาดใหญ่ระดับนี้ได้ยากมาก ขณะที่บริษัทจีนไม่ค่อยใส่ใจเรื่องลิขสิทธิ์มากนัก ดังนั้นจุดนี้จึงเป็นความแตกต่างสำคัญ
ฉันไม่คิดว่า Google จะได้เปรียบใน AI เสมอไป ในมุมผู้บริโภค AI Overview ของ Google ผิดบ่อยมาก ในเชิงเทคนิค Google อาจให้ API, คุณภาพ หรือฟีเจอร์ที่ยอดเยี่ยมได้ แต่ประสบการณ์ AI หลักที่ผู้ใช้ทั่วไปเห็นจริง ๆ นั้นไม่ค่อยดีนัก
เทคโนโลยีนี้เท่มาก แต่ฉันไม่ชอบที่ crawler ทุกตัวต้องใช้ Cloudflare อย่างเดียว ฉันจำได้ว่าเคยมีนักพัฒนา Google Chrome เสนอ Web Monetization API อยู่เหมือนกัน ถ้าใช้โครงสร้างการชำระเงินแบบกระจายศูนย์ ก็จะไม่ต้องพึ่งบริษัทใดบริษัทหนึ่งโดยเฉพาะ
เป็นทิศทางที่ดี แต่ยังมีจุดที่ขาดอยู่มาก โครงสร้างที่เหมาะที่สุดคือคิดราคาตามวัตถุประสงค์การใช้งาน เช่น ถ้าคราวล์เว็บไซต์เพื่อ “งานวิจัย” ก็ควรแทบฟรี แต่ถ้าเป็น “ฝึก AI เพื่อทำสินค้าเชิงพาณิชย์” ก็ควรแพงมาก ฉันเสียดายที่ต้องมาคิดอะไรแบบนี้ แต่ตอนนี้วิธีเดิมถูกห้ามในทางปฏิบัติจนแทบใช้ไม่ได้แล้ว การเปิดให้ใช้ฟรีทั้งหมดโดยไม่มีค่าตอบแทนจึงเป็นไปไม่ได้ในโลกความจริง จริง ๆ แล้วถ้ามีคนสร้างห้องสมุดโลกที่ให้ข้อมูลทุกอย่างฟรี และมีระบบชดเชย IP ที่สอดคล้องกัน มนุษยชาติทั้งหมดก็คงได้ประโยชน์มาก ทั้งที่ยุคนี้ข้อจำกัดทางเทคนิคส่วนใหญ่ถูกแก้ไปแล้ว แต่สิ่งที่ยังคงอยู่คือข้อจำกัดแบบ “คาร์เทลโดยพฤตินัย” ของปัจจุบัน ดังนั้นตอนนี้เลยเหมือนต้องบอกว่า “งั้นก็จ่ายมาแทน”
ถ้าเป็นแบบนี้ สุดท้ายคนที่หวังทำกำไรก็จะหาช่องโหว่สารพัดมาใช้ในทางที่ผิด หรือขายต่อข้อมูลโดยไม่ตรงตามเจตนา หรือแทรกซึมเข้าระบบได้บ่อยมาก เช่น ถ้าบอกว่า “ใช้ฟรีเพื่อการวิจัย” ก็อาจมีคนแค่อ้างว่า “ฉันมาวิจัยนะ!” ทั้งที่จริงแล้วเอาข้อมูลไปขายให้บริษัทในเครือตัวเองเพื่อหากำไร
แม้ “ห้องสมุดที่แชร์ข้อมูลทั้งหมดฟรี” แบบนี้จะดูเป็นไปได้ทางเทคนิค แต่โจทย์หลักคือความยั่งยืนทางเศรษฐกิจ ถ้าค่าเข้าถึงต่ำเกินไป ก็จะยิ่งเกิดการคัดลอกไม่สิ้นสุดหรือการใช้งานเกินขอบเขตจนระบบพัง กลับกัน การมีข้อจำกัดในระดับหนึ่งอาจสร้างแรงจูงใจที่ดีกว่าต่อความร่วมมือและการยกระดับคุณภาพ (คล้ายกลยุทธ์ r/K ในชีววิทยา) เมื่อมีข้อจำกัด มูลค่าต่อหน่วยก็สูงขึ้น ทำให้ข้อมูลและบริการคุณภาพสูงขยายตัวได้ สุดท้ายแล้วห้องสมุดสาธารณะออฟไลน์อาจเคยอยู่ใกล้จุดเหมาะสมนี้ที่สุด
ดูเหมือน HN จะประเมินประเด็นนี้ต่ำไป แต่นี่เป็นการเปลี่ยนแปลงที่ใหญ่มาก 20% ของทั้งเว็บอยู่บน Cloudflare ถ้าฟีเจอร์นี้เปิดให้ลูกค้าทุกคน แม้แต่เจ้าของบล็อกฟรี ก็จะกลายเป็นโครงสร้างที่น่าสนใจซึ่งเจ้าของบล็อกเองก็รับเงินได้
ฉันกังวลว่าอีกไม่นานเวลาใช้เบราว์เซอร์แต่ละครั้งเราจะถูกบังคับให้จ่ายเงินทีละนิด แล้วอินเทอร์เน็ตแบบเดิมจะหายไป
ตอนนี้ก็เสียเวลากับระบบตรวจจับบอทของ Cloudflare ไปมากพอแล้ว ฉันใช้ Chrome + uBlock และคงอีกไม่นานก็คงได้เห็นหน้าจอเรียกจ่ายเงินด้วย ถ้ามี CAPTCHA ขึ้น ฉันก็แค่เลิกใช้เว็บนั้นแล้วไปที่อื่น
ที่จริงมันอาจจะดีกว่าการต้องทนกับโฆษณาเป็นสิบ ๆ ตัวและ paywall มากมายก็ได้
ต้องคิดด้วยว่า AI crawler อาจถูกใช้เป็นเครื่องมือช่วยนำทางเว็บสำหรับผู้พิการ ระบบอัตโนมัติด้าน UI ตอนนี้ก็มีอุปสรรคจากขั้นตอนยืนยันตัวตนต่าง ๆ มากอยู่แล้ว
ผู้ดูแลเว็บไซต์สามารถอนุญาต crawler แบบนั้นได้ ปัญหาที่ผู้ไม่หวังดีปลอมตัวเป็นผู้ใช้งานโดยสุจริตเพื่อเข้าถึงข้อมูลนั้นมีอยู่แล้ว เช่น กรณีที่อยากอนุญาต Google web crawler แต่บล็อกการฝึก Gemini ดังนั้นจึงจำเป็นต้องมีวิธีแก้ปัญหาทางเทคนิคสำหรับเรื่องนี้
ฉันไม่ค่อยเข้าใจว่าการที่ผู้ใช้ทั่วไปใช้ crawler เพื่อ “ท่องเว็บ” หมายถึงอะไรแน่ AI browser ไม่ได้เท่ากับ crawler โดยตรง crawler คือเครื่องมือสำหรับเก็บเกี่ยวข้อมูลจากทั้งเว็บไซต์ในปริมาณมาก
มีมาตรฐานการเข้าถึงชื่อ ARIA อยู่แล้ว และเว็บไซต์หลัก ๆ ก็รองรับกันทั้งหมด สำหรับการเข้าถึง AI ไม่ควรจำเป็น และไม่ควรถูกใช้ด้วย
เมื่อก่อนฉันคิดว่าบริษัทที่ให้บริการค้นหาอินเทอร์เน็ตที่มีประโยชน์คือ “บริษัทที่ดี” และตอนนี้ Cloudflare ก็ดูเหมือนกำลังทำ “สิ่งที่ดี” อย่างการป้องกัน DDoS, CDN, การป้องกันจาก AI ฯลฯ แต่ก็มีโอกาสสูงที่วันหนึ่งเราจะเริ่มไม่ชอบบริษัทแบบนี้เช่นกัน
Cloudflare อาจยังไม่ใช่บริษัทที่ทุกคนเกลียด แต่ยิ่งอิทธิพลมากขึ้น ความระแวงก็ยิ่งมากขึ้น Bluesky เคยพูดว่า “the company is tomorrow's adversary(บริษัทที่เป็นพาร์ตเนอร์วันนี้ อาจเป็นศัตรูในวันพรุ่งนี้)” และ Cloudflare เองก็กำลังเติบโตเป็น “คู่ปรับ” ที่ทรงพลังมากขึ้นเรื่อย ๆ
เพื่อนในชีวิตจริงรอบตัวฉันเกลียด Cloudflare กันไปแล้ว
แม้จะบอกว่าทำ “สิ่งที่ดีให้กับอินเทอร์เน็ต” แต่ friction ด้านการยืนยันตัวตนและการตรวจสอบที่ Cloudflare สร้างขึ้น กลับทำให้ฉันหันไปใช้ LLM มากกว่า Stack Exchange
โดยรวมฉันเห็นด้วยกับไอเดียนี้ แต่บริษัทใหญ่จะหาทางอ้อมเพื่อเข้าถึงข้อมูลได้อยู่ดี (โดยเฉพาะ Google ที่ใช้ข้ออ้างว่าเป็นเสิร์ชเอนจินเพื่อคราวล์ฟรี) และถ้ามันสำเร็จจริง ต้นทุนก็มีแนวโน้มจะถูกผลักมาที่ผู้ใช้ปลายทางอย่างพวกเรา
ต่อให้ Google จะคราวล์ข้อมูลฟรีโดยอ้างว่าเพื่อการค้นหา แล้วถ้าในขั้นที่ 2 บังคับให้ Google จ่ายค่าธรรมเนียมเป็นรายหน้าล่ะ ฉันคิดว่าสามารถตั้งช่วงที่ crawler เข้าไม่ถึงแยกตามราคาในแต่ละบทความได้ เช่น ข่าวสำคัญตั้งราคาแพง และระบุราคาแยกตามไลเซนส์วัตถุประสงค์ต่าง ๆ อย่างข้อมูลทั่วไป การฝึก LLM หรือการวิจัยภายใน Cloudflare ถ้าทำหน้าที่เป็นฮับตัวกลางของหลายล้านเว็บไซต์ ก็เป็นโครงสร้างที่เป็นไปได้มากพอ
ผู้เผยแพร่จะบล็อก Googlebot กันมากขึ้น เพราะตอนนี้ Google แย่งรายได้ของผู้เผยแพร่ไปแล้วผ่านคำตอบค้นหาแบบ AI