- ตอนนี้ Google เป็นเสิร์ชเอนจินเพียงรายเดียวที่สามารถแสดงผลลัพธ์จาก Reddit ได้
- Reddit เพิ่งอัปเดตไฟล์
robots.txtเพื่อบล็อกการครอลโดยเสิร์ชเอนจินทั้งหมด ยกเว้น Google - เสิร์ชเอนจินทางเลือกที่ไม่พึ่งพาดัชนีของ Google เช่น Bing, DuckDuckGo, Mojeek และ Qwant จะไม่สามารถเห็นผลการค้นหา Reddit ในช่วง 1 สัปดาห์ล่าสุดได้
- DuckDuckGo แสดงลิงก์ 7 รายการเมื่อค้นหา Reddit แต่ไม่ได้ให้ข้อมูลว่าลิงก์พาไปที่ใดหรือเพราะเหตุใดจึงแสดงลิงก์เหล่านั้น
- Kagi สามารถค้นหา Reddit ได้ เพราะซื้อการเข้าถึงดัชนีค้นหาบางส่วนจาก Google
- เหตุการณ์นี้เกิดขึ้นในช่วงที่การผูกขาดตลาดค้นหาของ Google กำลังบั่นทอนความสามารถในการแข่งขันของบริษัทอื่น
- แม้ Reddit และ Google จะไม่ตอบคำขอให้ความเห็นจากสื่อ แต่ดูเหมือนว่าการกีดกันเสิร์ชเอนจินอื่นเกิดจากสัญญามูลค่าหลายล้านดอลลาร์ที่ให้สิทธิ์ Google ในการสแครปข้อมูล Reddit เพื่อนำไปฝึกผลิตภัณฑ์ AI
ปฏิกิริยาของ CEO ของ Mojeek
- Colin Hayhurst ซีอีโอของ Mojeek กล่าวว่าเมื่อต้นเดือนมิถุนายน Mojeek พบว่าถูกบล็อกไม่ให้ครอล Reddit และได้ติดต่อทางอีเมล แต่ไม่ได้รับการตอบกลับ
- Hayhurst กล่าวว่า "บางครั้งการถูกบล็อกอาจเกิดจากความไม่รู้หรือความผิดพลาด แต่ถ้าติดต่อไปก็มักแก้ไขได้ ทว่านี่เป็นครั้งแรกอย่างไม่เคยเกิดขึ้นมาก่อนที่เราไม่ได้รับคำตอบจากใครเลย"
- นอกจากจะบล็อกครอเลอร์แล้ว Reddit ยังบล็อกครอเลอร์ของ Mojeek อย่างจริงจังอีกด้วย
แนวโน้มการเพิ่มขึ้นของการบล็อกการสแครปข้อมูลโดยบริษัท AI
- เว็บไซต์จำนวนมากกำลังอัปเดตไฟล์
robots.txtเพื่อบล็อกบอตที่บริษัท AI ใช้สแครปข้อมูลสำหรับการฝึกโมเดล และความพยายามเช่นนี้กำลังเพิ่มขึ้นอย่างมาก - Google เพิ่งเปิดตัวครอเลอร์ 2 ตัว ได้แก่ Googlebot สำหรับปรับปรุงผลการค้นหา และ Google-Extended สำหรับพัฒนาแอป Gemini
- ไฟล์
robots.txtเป็นเพียงแนวทางเท่านั้น และครอเลอร์สามารถเพิกเฉยต่อมันได้
เบื้องหลังการตัดสินใจของ Reddit
- Reddit ไม่พอใจกับบริษัท AI ที่สแครปเว็บไซต์เพื่อนำไปฝึกโมเดลภาษาขนาดใหญ่ และได้ดำเนินมาตรการอย่างเปิดเผยและจริงจังเพื่อหยุดยั้งเรื่องนี้
- เมื่อปีที่แล้ว Reddit เริ่มเก็บเงินสำหรับการเข้าถึง API ทำให้แอปของบุคคลที่สามจำนวนมากมีต้นทุนสูงเกินกว่าจะดำเนินต่อได้และต้องยุติบริการ
- เมื่อต้นปีนี้ Reddit ทำข้อตกลงมูลค่า 60 ล้านดอลลาร์กับ Google เพื่อให้ Google สามารถไลเซนส์คอนเทนต์จาก Reddit ไปใช้ฝึกผลิตภัณฑ์ AI ได้
การเปลี่ยนแปลงไฟล์ Robots.txt ของ Reddit
- เดิมทีไฟล์นี้มีรูปแบบซับซ้อนและแฝงมุกตลก แต่ล่าสุดได้เปลี่ยนเป็นรูปแบบเรียบง่ายและเข้มงวด
- ตอนนี้มีเพียงคำสั่ง
User-agent: *, Disallow: /ซึ่งหมายความว่าไม่มีบอตใดควรสแครปส่วนใดของเว็บไซต์เลย - Reddit ระบุจุดยืนว่า "เราเชื่อในอินเทอร์เน็ตแบบเปิด แต่จะไม่ยอมให้มีการใช้คอนเทนต์สาธารณะในทางที่ผิด"
จุดยืนของ Reddit
- ช่วงหลังมีกรณีเพิ่มขึ้นที่ผู้เล่นเชิงพาณิชย์สแครป Reddit แล้วอ้างว่าตนไม่ถูกผูกมัดด้วยข้อกำหนดการใช้งานหรือคอนเทนต์โพลิซี
- การหลบอยู่หลัง
robots.txtแล้วอ้างว่าสามารถนำคอนเทนต์ของ Reddit ไปใช้เพื่อวัตถุประสงค์ใดก็ได้นั้นเป็นปัญหาที่ร้ายแรงยิ่งกว่า - Reddit จะพยายามอย่างเต็มที่ในการค้นหาและบล็อกผู้ไม่หวังดีล่วงหน้า แต่ยังต้องทำมากกว่านี้เพื่อปกป้องผลงานของผู้ใช้ Reddit
- ต่อจากนี้ Reddit จะอัปเดตแนวทางใน
robots.txtให้ชัดเจนที่สุดเท่าที่ทำได้ หากคุณเข้าถึง Reddit ด้วยเอเจนต์อัตโนมัติ คุณต้องปฏิบัติตามข้อกำหนดและนโยบาย รวมถึงสื่อสารกับ Reddit
การเข้าถึงข้อมูล Reddit เพื่อวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์ยังคงทำได้
- Reddit ระบุว่า "ผู้กระทำการโดยสุจริต เช่น นักวิจัยหรือ Internet Archive จะยังคงสามารถเข้าถึงคอนเทนต์ Reddit เพื่อวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์ได้"
- Reddit ระบุว่าจะคัดเลือกหน่วยงานที่เชื่อถือได้บางรายให้เข้าถึงข้อมูล Reddit ในวงกว้าง
- ตามคู่มือการเข้าถึงข้อมูล Reddit นั้น "การค้นหา" หรือ "โฆษณาบนเว็บไซต์" ถือเป็น "การใช้งานเชิงพาณิชย์" และไม่สามารถใช้ข้อมูล Reddit ได้หากไม่ได้รับอนุญาตหรือชำระค่าธรรมเนียม
นัยสำคัญของความจริงที่ว่ามีเพียง Google ที่รองรับการค้นหา Reddit
- ท่ามกลางความเกี่ยวข้องของผลค้นหา Google ที่ลดลงเรื่อย ๆ วิธีหนึ่งที่ยังช่วยให้ได้ผลลัพธ์ดีคือการเติมคำว่า "Reddit" ต่อท้ายคำค้น
- นั่นเป็นเพราะตลอดเกือบ 20 ปีที่ผ่านมา ผู้ใช้จริงได้ทิ้งคำแนะนำและข้อเสนอแนะไว้บน Reddit
- ตอนนี้มีเพียง Google ที่พาผู้ใช้ไปสู่ข้อมูลเหล่านี้ได้ และความจริงที่ว่านี่เป็นผลจากข้อตกลงมูลค่า 60 ล้านดอลลาร์ซึ่งเกี่ยวข้องกับข้อมูลสำหรับการฝึก AI ก็เป็นอีกตัวอย่างหนึ่งของผลลัพธ์ที่ไม่ได้ตั้งใจจากการสแครปอินเทอร์เน็ตทั้งหมดอย่างกว้างขวางเพื่อเสริมพลังให้เครื่องมือ generative AI
ความกังวลของ CEO ของ Mojeek
- Mojeek ครอลเว็บอย่างเคารพมาเป็นเวลา 20 ปี และเป็นเสิร์ชเอนจินแบบดั้งเดิมที่ไม่ฝึก AI และไม่ติดตามผู้ใช้
- ข้อตกลงระหว่าง Reddit กับ Google ทำให้การนำเสนอวิธีค้นหาเว็บแบบทางเลือกเป็นเรื่องยากขึ้น
- นี่เป็นส่วนหนึ่งของแนวโน้มในวงกว้างที่ค่อย ๆ ทำลายและกัดกร่อนเว็บ
- เหตุการณ์นี้ไม่ได้ช่วยเหลือบริษัทขนาดเล็กเลย
ความเห็นของ GN⁺
- มาตรการของ Reddit มีเป้าหมายเพื่อปกป้องสิทธิของผู้สร้างคอนเทนต์และป้องกันการนำไปใช้ในเชิงพาณิชย์อย่างไม่เหมาะสม แต่ก็อาจนำไปสู่ผลลัพธ์ที่บั่นทอนการแข่งขันในตลาดเสิร์ชเอนจิน
- โดยเฉพาะสถานการณ์ที่ Google ผูกขาดข้อมูล Reddit เพื่อฝึก AI ยิ่งทำให้เกิดความกังวลเรื่องการใช้อำนาจเหนือตลาดของ Google ในทางที่ไม่เหมาะสม
- ในระยะยาว ดูเหมือนว่าจำเป็นเร่งด่วนที่จะต้องมีบรรทัดฐานและนโยบายที่เอื้อให้ผู้ให้บริการคอนเทนต์ เสิร์ชเอนจิน และบริษัท AI อยู่ร่วมกันได้
- ขณะเดียวกัน สถานการณ์ที่การค้นหา Reddit กลายเป็นทางออกต่อปัญหาคุณภาพการค้นหาที่ถดถอยก็เป็นเรื่องน่าประหลาดใจในตัวเอง โดยพื้นฐานแล้ว เสิร์ชเอนจินยังต้องพยายามยกระดับทั้งความเกี่ยวข้องและความหลากหลายของผลลัพธ์
- นอกจากนี้ยังน่าจับตาการเติบโตของเสิร์ชเอนจินหน้าใหม่อย่าง Kagi ที่ใช้ดัชนีค้นหาของ Google บางส่วน พร้อมกับพยายามสร้างแนวทางของตนเอง
1 ความคิดเห็น
ความเห็นจาก Hacker News
robots.txtของ Reddit อาจเข้าใจได้ในบริบทของ AI แต่เป็นการกีดกันการแข่งขันสำหรับเสิร์ชเอนจินอื่นrobots.txtหรือข้อกำหนดการใช้งานไม่มีผลผูกพันต่อเว็บสแครปเปอร์robots.txtเมื่อหนึ่งเดือนก่อนrobots.txtที่เปิดกว้างมาก