Google กลายเป็นเสิร์ชเอนจินเพียงรายเดียวที่ใช้งานกับ Reddit ได้ เพราะข้อตกลงด้าน AI

(404media.co)

8 คะแนน โดย GN⁺ 2024-07-25 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ตอนนี้ Google เป็นเสิร์ชเอนจินเพียงรายเดียวที่สามารถแสดงผลลัพธ์จาก Reddit ได้
Reddit เพิ่งอัปเดตไฟล์ robots.txt เพื่อบล็อกการครอลโดยเสิร์ชเอนจินทั้งหมด ยกเว้น Google
เสิร์ชเอนจินทางเลือกที่ไม่พึ่งพาดัชนีของ Google เช่น Bing, DuckDuckGo, Mojeek และ Qwant จะไม่สามารถเห็นผลการค้นหา Reddit ในช่วง 1 สัปดาห์ล่าสุดได้
- DuckDuckGo แสดงลิงก์ 7 รายการเมื่อค้นหา Reddit แต่ไม่ได้ให้ข้อมูลว่าลิงก์พาไปที่ใดหรือเพราะเหตุใดจึงแสดงลิงก์เหล่านั้น
- Kagi สามารถค้นหา Reddit ได้ เพราะซื้อการเข้าถึงดัชนีค้นหาบางส่วนจาก Google
เหตุการณ์นี้เกิดขึ้นในช่วงที่การผูกขาดตลาดค้นหาของ Google กำลังบั่นทอนความสามารถในการแข่งขันของบริษัทอื่น
แม้ Reddit และ Google จะไม่ตอบคำขอให้ความเห็นจากสื่อ แต่ดูเหมือนว่าการกีดกันเสิร์ชเอนจินอื่นเกิดจากสัญญามูลค่าหลายล้านดอลลาร์ที่ให้สิทธิ์ Google ในการสแครปข้อมูล Reddit เพื่อนำไปฝึกผลิตภัณฑ์ AI

ปฏิกิริยาของ CEO ของ Mojeek

Colin Hayhurst ซีอีโอของ Mojeek กล่าวว่าเมื่อต้นเดือนมิถุนายน Mojeek พบว่าถูกบล็อกไม่ให้ครอล Reddit และได้ติดต่อทางอีเมล แต่ไม่ได้รับการตอบกลับ
Hayhurst กล่าวว่า "บางครั้งการถูกบล็อกอาจเกิดจากความไม่รู้หรือความผิดพลาด แต่ถ้าติดต่อไปก็มักแก้ไขได้ ทว่านี่เป็นครั้งแรกอย่างไม่เคยเกิดขึ้นมาก่อนที่เราไม่ได้รับคำตอบจากใครเลย"
นอกจากจะบล็อกครอเลอร์แล้ว Reddit ยังบล็อกครอเลอร์ของ Mojeek อย่างจริงจังอีกด้วย

แนวโน้มการเพิ่มขึ้นของการบล็อกการสแครปข้อมูลโดยบริษัท AI

เว็บไซต์จำนวนมากกำลังอัปเดตไฟล์ robots.txt เพื่อบล็อกบอตที่บริษัท AI ใช้สแครปข้อมูลสำหรับการฝึกโมเดล และความพยายามเช่นนี้กำลังเพิ่มขึ้นอย่างมาก
Google เพิ่งเปิดตัวครอเลอร์ 2 ตัว ได้แก่ Googlebot สำหรับปรับปรุงผลการค้นหา และ Google-Extended สำหรับพัฒนาแอป Gemini
ไฟล์ robots.txt เป็นเพียงแนวทางเท่านั้น และครอเลอร์สามารถเพิกเฉยต่อมันได้

เบื้องหลังการตัดสินใจของ Reddit

Reddit ไม่พอใจกับบริษัท AI ที่สแครปเว็บไซต์เพื่อนำไปฝึกโมเดลภาษาขนาดใหญ่ และได้ดำเนินมาตรการอย่างเปิดเผยและจริงจังเพื่อหยุดยั้งเรื่องนี้
เมื่อปีที่แล้ว Reddit เริ่มเก็บเงินสำหรับการเข้าถึง API ทำให้แอปของบุคคลที่สามจำนวนมากมีต้นทุนสูงเกินกว่าจะดำเนินต่อได้และต้องยุติบริการ
เมื่อต้นปีนี้ Reddit ทำข้อตกลงมูลค่า 60 ล้านดอลลาร์กับ Google เพื่อให้ Google สามารถไลเซนส์คอนเทนต์จาก Reddit ไปใช้ฝึกผลิตภัณฑ์ AI ได้

การเปลี่ยนแปลงไฟล์ Robots.txt ของ Reddit

เดิมทีไฟล์นี้มีรูปแบบซับซ้อนและแฝงมุกตลก แต่ล่าสุดได้เปลี่ยนเป็นรูปแบบเรียบง่ายและเข้มงวด
ตอนนี้มีเพียงคำสั่ง User-agent: *, Disallow: / ซึ่งหมายความว่าไม่มีบอตใดควรสแครปส่วนใดของเว็บไซต์เลย
Reddit ระบุจุดยืนว่า "เราเชื่อในอินเทอร์เน็ตแบบเปิด แต่จะไม่ยอมให้มีการใช้คอนเทนต์สาธารณะในทางที่ผิด"

จุดยืนของ Reddit

ช่วงหลังมีกรณีเพิ่มขึ้นที่ผู้เล่นเชิงพาณิชย์สแครป Reddit แล้วอ้างว่าตนไม่ถูกผูกมัดด้วยข้อกำหนดการใช้งานหรือคอนเทนต์โพลิซี
การหลบอยู่หลัง robots.txt แล้วอ้างว่าสามารถนำคอนเทนต์ของ Reddit ไปใช้เพื่อวัตถุประสงค์ใดก็ได้นั้นเป็นปัญหาที่ร้ายแรงยิ่งกว่า
Reddit จะพยายามอย่างเต็มที่ในการค้นหาและบล็อกผู้ไม่หวังดีล่วงหน้า แต่ยังต้องทำมากกว่านี้เพื่อปกป้องผลงานของผู้ใช้ Reddit
ต่อจากนี้ Reddit จะอัปเดตแนวทางใน robots.txt ให้ชัดเจนที่สุดเท่าที่ทำได้ หากคุณเข้าถึง Reddit ด้วยเอเจนต์อัตโนมัติ คุณต้องปฏิบัติตามข้อกำหนดและนโยบาย รวมถึงสื่อสารกับ Reddit

การเข้าถึงข้อมูล Reddit เพื่อวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์ยังคงทำได้

Reddit ระบุว่า "ผู้กระทำการโดยสุจริต เช่น นักวิจัยหรือ Internet Archive จะยังคงสามารถเข้าถึงคอนเทนต์ Reddit เพื่อวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์ได้"
Reddit ระบุว่าจะคัดเลือกหน่วยงานที่เชื่อถือได้บางรายให้เข้าถึงข้อมูล Reddit ในวงกว้าง
ตามคู่มือการเข้าถึงข้อมูล Reddit นั้น "การค้นหา" หรือ "โฆษณาบนเว็บไซต์" ถือเป็น "การใช้งานเชิงพาณิชย์" และไม่สามารถใช้ข้อมูล Reddit ได้หากไม่ได้รับอนุญาตหรือชำระค่าธรรมเนียม

นัยสำคัญของความจริงที่ว่ามีเพียง Google ที่รองรับการค้นหา Reddit

ท่ามกลางความเกี่ยวข้องของผลค้นหา Google ที่ลดลงเรื่อย ๆ วิธีหนึ่งที่ยังช่วยให้ได้ผลลัพธ์ดีคือการเติมคำว่า "Reddit" ต่อท้ายคำค้น
นั่นเป็นเพราะตลอดเกือบ 20 ปีที่ผ่านมา ผู้ใช้จริงได้ทิ้งคำแนะนำและข้อเสนอแนะไว้บน Reddit
ตอนนี้มีเพียง Google ที่พาผู้ใช้ไปสู่ข้อมูลเหล่านี้ได้ และความจริงที่ว่านี่เป็นผลจากข้อตกลงมูลค่า 60 ล้านดอลลาร์ซึ่งเกี่ยวข้องกับข้อมูลสำหรับการฝึก AI ก็เป็นอีกตัวอย่างหนึ่งของผลลัพธ์ที่ไม่ได้ตั้งใจจากการสแครปอินเทอร์เน็ตทั้งหมดอย่างกว้างขวางเพื่อเสริมพลังให้เครื่องมือ generative AI

ความกังวลของ CEO ของ Mojeek

Mojeek ครอลเว็บอย่างเคารพมาเป็นเวลา 20 ปี และเป็นเสิร์ชเอนจินแบบดั้งเดิมที่ไม่ฝึก AI และไม่ติดตามผู้ใช้
ข้อตกลงระหว่าง Reddit กับ Google ทำให้การนำเสนอวิธีค้นหาเว็บแบบทางเลือกเป็นเรื่องยากขึ้น
นี่เป็นส่วนหนึ่งของแนวโน้มในวงกว้างที่ค่อย ๆ ทำลายและกัดกร่อนเว็บ
เหตุการณ์นี้ไม่ได้ช่วยเหลือบริษัทขนาดเล็กเลย

ความเห็นของ GN⁺

มาตรการของ Reddit มีเป้าหมายเพื่อปกป้องสิทธิของผู้สร้างคอนเทนต์และป้องกันการนำไปใช้ในเชิงพาณิชย์อย่างไม่เหมาะสม แต่ก็อาจนำไปสู่ผลลัพธ์ที่บั่นทอนการแข่งขันในตลาดเสิร์ชเอนจิน
โดยเฉพาะสถานการณ์ที่ Google ผูกขาดข้อมูล Reddit เพื่อฝึก AI ยิ่งทำให้เกิดความกังวลเรื่องการใช้อำนาจเหนือตลาดของ Google ในทางที่ไม่เหมาะสม
ในระยะยาว ดูเหมือนว่าจำเป็นเร่งด่วนที่จะต้องมีบรรทัดฐานและนโยบายที่เอื้อให้ผู้ให้บริการคอนเทนต์ เสิร์ชเอนจิน และบริษัท AI อยู่ร่วมกันได้
ขณะเดียวกัน สถานการณ์ที่การค้นหา Reddit กลายเป็นทางออกต่อปัญหาคุณภาพการค้นหาที่ถดถอยก็เป็นเรื่องน่าประหลาดใจในตัวเอง โดยพื้นฐานแล้ว เสิร์ชเอนจินยังต้องพยายามยกระดับทั้งความเกี่ยวข้องและความหลากหลายของผลลัพธ์
นอกจากนี้ยังน่าจับตาการเติบโตของเสิร์ชเอนจินหน้าใหม่อย่าง Kagi ที่ใช้ดัชนีค้นหาของ Google บางส่วน พร้อมกับพยายามสร้างแนวทางของตนเอง

1 ความคิดเห็น

GN⁺ 2024-07-25

ความเห็นจาก Hacker News

การเปลี่ยนแปลง robots.txt ของ Reddit อาจเข้าใจได้ในบริบทของ AI แต่เป็นการกีดกันการแข่งขันสำหรับเสิร์ชเอนจินอื่น
สิ่งนี้อาจกลายเป็นบรรทัดฐานที่อันตรายต่ออินเทอร์เน็ต
หลายเว็บไซต์อาจมีอำนาจในการเรียกเก็บเงินสำหรับการทำดัชนี
อาจมาถึงโลกที่คุณต้องใช้เสิร์ชเอนจินบางตัวเท่านั้น จึงจะได้คำตอบจากบางเว็บไซต์
ในมุมมองด้านประสิทธิภาพ การที่เว็บไซต์ให้เสิร์ชเอนจินเช่าข้อมูลน่าจะดีกว่า
ตามความเป็นจริง ตอนนี้มีเสิร์ชเอนจินอยู่แค่สองเจ้าเท่านั้น
นี่เป็นสถานการณ์ที่แย่มากสำหรับ Kagi แต่ก็อาจทำให้เว็บที่ไม่ใช่เชิงพาณิชย์ซึ่งเคยถูกทำเป็นงานอดิเรกได้รับการค้นพบอีกครั้ง
ภายใต้กฎหมายสหรัฐฯ การเปลี่ยน robots.txt หรือข้อกำหนดการใช้งานไม่มีผลผูกพันต่อเว็บสแครปเปอร์
- เพราะข้อมูลนั้นเข้าถึงได้แบบสาธารณะ
- แม้จะแสดงแบนเนอร์ให้ยอมรับข้อกำหนดเมื่อเข้าใช้เว็บไซต์ก็ไม่มีผลผูกพัน
- จะมีผลผูกพันก็ต่อเมื่อจำกัดการเข้าถึงข้อมูล และต้องสร้างบัญชีจึงจะเข้าถึงได้
Reddit เปลี่ยน robots.txt เมื่อหนึ่งเดือนก่อน
- ตลอด 19 ปีที่ผ่านมาใช้ robots.txt ที่เปิดกว้างมาก
- ดูเหมือนว่าจะเปลี่ยนเพราะการนำข้อมูลไปใช้ในทางที่ผิด
- มีความเป็นไปได้ว่าจะเปิดอีกครั้งหากเสิร์ชเอนจินยอมตกลงว่าจะไม่นำข้อมูลไปใช้ฝึกโมเดล
ปัญหาที่บอต AI เข้ามาสแครปเว็บไซต์เพื่อนำไปฝึก LLM กำลังรุนแรงขึ้น
- ตัวอย่าง: เว็บไซต์ thegreatestbooks.org ได้รับคำขอจากบอต/ระบบอัตโนมัติ 1.2 ล้านครั้งภายใน 24 ชั่วโมง
Reddit กลายเป็นเสิร์ชเอนจินเพียงแห่งเดียวที่ใช้งานได้บน Google
ไม่เข้าใจว่าการกระทำของ Reddit ไม่เข้าข่ายกีดกันการแข่งขันได้อย่างไร
- เพราะควรต้องให้บริการแก่คู่แข่งของ Google ภายใต้เงื่อนไขที่คล้ายกันด้วย

Google กลายเป็นเสิร์ชเอนจินเพียงรายเดียวที่ใช้งานกับ Reddit ได้ เพราะข้อตกลงด้าน AI

ปฏิกิริยาของ CEO ของ Mojeek

แนวโน้มการเพิ่มขึ้นของการบล็อกการสแครปข้อมูลโดยบริษัท AI

เบื้องหลังการตัดสินใจของ Reddit

การเปลี่ยนแปลงไฟล์ Robots.txt ของ Reddit

จุดยืนของ Reddit

การเข้าถึงข้อมูล Reddit เพื่อวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์ยังคงทำได้

นัยสำคัญของความจริงที่ว่ามีเพียง Google ที่รองรับการค้นหา Reddit

ความกังวลของ CEO ของ Mojeek

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News