7 คะแนน โดย GN⁺ 2024-09-24 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • Cloudflare ประกาศแผนเปิดตัวมาร์เก็ตเพลสในปีหน้า ที่ให้เจ้าของเว็บไซต์สามารถขายสิทธิ์การเข้าถึงเพื่อสแครปคอนเทนต์บนเว็บไซต์ให้กับผู้ให้บริการโมเดล AI ได้
  • มาร์เก็ตเพลสนี้เป็นขั้นตอนสุดท้ายของแผนใหญ่ของ Matthew Prince ซีอีโอของ Cloudflare เพื่อให้ผู้เผยแพร่ควบคุมได้ดียิ่งขึ้นว่าเมื่อใดและอย่างไรที่บอต AI จะเข้ามาสแครปเว็บไซต์
  • ในก้าวแรก Cloudflare เปิดตัว AI Audit เครื่องมือ observability ฟรี
    • เจ้าของเว็บไซต์จะได้รับแดชบอร์ดที่แสดงการวิเคราะห์ว่าโมเดล AI เข้ามาสแครปเว็บไซต์บ่อยแค่ไหน
    • ผ่าน AI Audit เจ้าของเว็บไซต์สามารถบล็อกบอต AI หรืออนุญาตเว็บสแครปเปอร์บางรายได้
    • เดโมของ AI Audit ช่วยให้เจ้าของเว็บไซต์ตรวจสอบได้ว่าสแครปเปอร์แต่ละตัวมาจากที่ใด และมีหน้าต่างเสริมให้ดูได้ว่าผู้ให้บริการโมเดล AI อย่าง OpenAI, Meta และ Amazon เข้ามาเยี่ยมชมเว็บไซต์บ่อยเพียงใด
  • การแก้ปัญหาของอุตสาหกรรม AI
    • ผู้ให้บริการโมเดล AI กำลังสแครปเว็บไซต์ขนาดเล็กนับพันแห่งเพื่อนำข้อมูลไปใช้ขับเคลื่อน LLM
    • เว็บไซต์ส่วนใหญ่ไม่ได้รับค่าตอบแทนใด ๆ เลย และสิ่งนี้อาจทำลายโมเดลธุรกิจของหลายเว็บไซต์ได้
    • Cloudflare เปิดตัวปุ่มที่ให้เจ้าของเว็บไซต์บล็อกบอต AI ได้
  • สะท้อนความต้องการของลูกค้า
    • ลูกค้าของ Cloudflare ต้องการเครื่องมือที่ช่วยเลือกได้ว่าโมเดล AI ใดสามารถเข้าถึงเว็บไซต์ของตนได้
    • เครื่องมือใหม่ของ Cloudflare ทำให้บล็อก AI crawler บางรายได้ ขณะเดียวกันก็อนุญาตบางรายได้เช่นกัน
  • เป้าหมายของมาร์เก็ตเพลส
    • มาร์เก็ตเพลสของ Cloudflare จะช่วยให้ผู้เผยแพร่รายเล็กสามารถทำข้อตกลงกับผู้ให้บริการโมเดล AI ได้
    • เว็บไซต์สามารถกำหนดค่าธรรมเนียมการสแครป หรือขอเครดิตจากแล็บ AI ได้
  • ผลกระทบต่อระบบนิเวศ AI
    • สถานการณ์ปัจจุบันที่บริษัท AI บางแห่งไม่ได้จ่ายค่าใช้จ่ายใด ๆ สำหรับคอนเทนต์นั้นไม่ยั่งยืน
    • ซีอีโอของ Cloudflare มองว่ามาร์เก็ตเพลสนี้จะเป็นผลดีต่อระบบนิเวศ AI ในท้ายที่สุด

สรุปโดย GN⁺

  • Cloudflare ประกาศแผนเปิดตัวมาร์เก็ตเพลสที่ให้เจ้าของเว็บไซต์ขายสิทธิ์การเข้าถึงเพื่อสแครปคอนเทนต์บนเว็บไซต์ให้กับผู้ให้บริการโมเดล AI ได้
  • ด้วยเครื่องมือ AI Audit เจ้าของเว็บไซต์สามารถวิเคราะห์ได้ว่าโมเดล AI เข้ามาสแครปเว็บไซต์บ่อยแค่ไหน
  • มาร์เก็ตเพลสนี้จะช่วยให้ผู้เผยแพร่รายเล็กทำข้อตกลงกับผู้ให้บริการโมเดล AI และได้รับค่าตอบแทนจากคอนเทนต์ของตน
  • สิ่งนี้อาจช่วยเพิ่มความยั่งยืนให้กับระบบนิเวศ AI ได้

2 ความคิดเห็น

 
yangeok 2024-10-01

แนวคิดก็ดีนะ

 
GN⁺ 2024-09-24
ความคิดเห็นจาก Hacker News
  • Common Crawl ถูกรวมอยู่ในรายชื่อ "Providers" ร่วมกับ OpenAI และ Antropic

    • Common Crawl ถูกใช้งานในหลากหลายวัตถุประสงค์นอกเหนือจากการฝึก AI
    • เป็นแหล่งเนื้อหาหลักของ Wayback Machine
    • เป้าหมายของโครงการ Common Crawl คือให้ Common Crawl เก็บรวบรวมข้อมูลและจัดให้อยู่ในรูปแบบมาตรฐาน แทนที่หลายบริษัทจะต้องไปรัน crawler แยกกันเอง
    • หาก CloudFlare จำกัดการเข้าถึงเนื้อหา อาจส่งผลกระทบอย่างมาก
    • อาจมาถึงโลกที่เว็บไซต์ส่วนใหญ่ใช้ผลิตภัณฑ์ด้านความปลอดภัยเพื่อจำกัดการเข้าถึง
  • OpenFoodFacts, OpenStreetMap และ Wikipedia ถูกโจมตีแบบ DDoS

    • บอทยังคงสแครปทุกอย่าง แม้ว่าจะเปิดให้ดาวน์โหลดข้อมูลได้ฟรีก็ตาม
    • สิ่งนี้ก่อให้เกิดทราฟฟิกที่ไม่จำเป็นและทำให้ต้นทุนเพิ่มขึ้น
    • นี่ไม่ใช่ปัญหาลิขสิทธิ์ แต่เป็นปัญหาจากความไม่มีประสิทธิภาพของบอตและความไม่ใส่ใจของผู้ดูแลระบบ
    • จำเป็นต้องมีทางแก้
  • การป้องกันการ crawl อาจเป็นงานที่ไร้ความหมาย

    • ฟีเจอร์นี้อาจยิ่งทำให้ผู้เล่นรายใหญ่ที่ได้ crawl ข้อมูลไปแล้วจำนวนมากแข็งแกร่งขึ้น
    • การตรวจจับผิดพลาดและ CAPTCHA ที่มากเกินไปอาจส่งผลกระทบต่อผู้ใช้
  • Cloudflare ให้บริการป้องกันการใช้งานในทางที่ผิดด้วยแนวทางใหม่

    • Cloudflare ร่วมมือกับผู้ที่ใช้งานในทางที่ผิดเพื่อสร้าง "Marketplace"
    • หากไม่ใช้บริการของ Cloudflare การใช้งานในทางที่ผิดก็จะดำเนินต่อไป
    • สิ่งนี้อาจคล้ายกับการเรียกเก็บค่าคุ้มครอง
  • คำถามต่ออนาคตของเวิลด์ไวด์เว็บ

    • มันเคยดูเหมือนจะคงอยู่ตลอดไป แต่สักวันหนึ่งก็อาจหายไปเหมือน IRC
    • ยุคทองอาจผ่านพ้นไปแล้ว และ "AI" อาจเป็นจุดเริ่มต้นของจุดจบ
  • ดูรายละเอียดเพิ่มเติมได้จากบล็อกของ Cloudflare

    • เดโมของ AI Audit ทำให้เจ้าของเว็บไซต์สามารถเห็นได้ว่าโมเดล AI สแครปเว็บไซต์อย่างไร
    • สามารถดูได้ว่า scraper จาก OpenAI, Meta, Amazon และรายอื่น ๆ เข้ามาเยี่ยมชมเว็บไซต์กี่ครั้ง
  • ตัวอย่างของ Bingeclock ที่ใช้ AI Audit

    • มีการเปลี่ยนแปลงที่น่าสนใจในช่วง 48 ชั่วโมงหลังการประกาศของ Cloudflare
    • โปรแกรมการชำระเงินน่าสนใจ แต่เว็บไซต์อาจไม่มีประสิทธิภาพเนื่องจากทราฟฟิกลดลง
    • scraper ฝั่ง AI มีแนวโน้มจะจ่ายเงินเพียงขั้นต่ำเท่านั้น
  • ขั้นต่อไป: ใช้ generative AI สร้างเนื้อหา แล้วรับเงินเมื่อ Cloudflare สแกนมัน

  • การสแครปไซต์เดิมซ้ำ ๆ เป็นความสิ้นเปลืองอย่างมาก

    • หาก Cloudflare สามารถจัดการการเปลี่ยนแปลงและการอัปเดตได้ ก็จะช่วยประหยัดทรัพยากรได้มาก
    • เว็บไซต์แจ้งการเปลี่ยนแปลงให้ Cloudflare โดยตรง และ Cloudflare ส่งต่อให้ AI
    • AI ซื้อการเปลี่ยนแปลงนั้น Cloudflare จ่ายเงินให้เว็บไซต์และเก็บส่วนต่างไว้