8 คะแนน โดย GN⁺ 2024-07-25 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ตอนนี้ Google เป็นเสิร์ชเอนจินเพียงรายเดียวที่สามารถแสดงผลลัพธ์จาก Reddit ได้
  • Reddit เพิ่งอัปเดตไฟล์ robots.txt เพื่อบล็อกการครอลโดยเสิร์ชเอนจินทั้งหมด ยกเว้น Google
  • เสิร์ชเอนจินทางเลือกที่ไม่พึ่งพาดัชนีของ Google เช่น Bing, DuckDuckGo, Mojeek และ Qwant จะไม่สามารถเห็นผลการค้นหา Reddit ในช่วง 1 สัปดาห์ล่าสุดได้
    • DuckDuckGo แสดงลิงก์ 7 รายการเมื่อค้นหา Reddit แต่ไม่ได้ให้ข้อมูลว่าลิงก์พาไปที่ใดหรือเพราะเหตุใดจึงแสดงลิงก์เหล่านั้น
    • Kagi สามารถค้นหา Reddit ได้ เพราะซื้อการเข้าถึงดัชนีค้นหาบางส่วนจาก Google
  • เหตุการณ์นี้เกิดขึ้นในช่วงที่การผูกขาดตลาดค้นหาของ Google กำลังบั่นทอนความสามารถในการแข่งขันของบริษัทอื่น
  • แม้ Reddit และ Google จะไม่ตอบคำขอให้ความเห็นจากสื่อ แต่ดูเหมือนว่าการกีดกันเสิร์ชเอนจินอื่นเกิดจากสัญญามูลค่าหลายล้านดอลลาร์ที่ให้สิทธิ์ Google ในการสแครปข้อมูล Reddit เพื่อนำไปฝึกผลิตภัณฑ์ AI

ปฏิกิริยาของ CEO ของ Mojeek

  • Colin Hayhurst ซีอีโอของ Mojeek กล่าวว่าเมื่อต้นเดือนมิถุนายน Mojeek พบว่าถูกบล็อกไม่ให้ครอล Reddit และได้ติดต่อทางอีเมล แต่ไม่ได้รับการตอบกลับ
  • Hayhurst กล่าวว่า "บางครั้งการถูกบล็อกอาจเกิดจากความไม่รู้หรือความผิดพลาด แต่ถ้าติดต่อไปก็มักแก้ไขได้ ทว่านี่เป็นครั้งแรกอย่างไม่เคยเกิดขึ้นมาก่อนที่เราไม่ได้รับคำตอบจากใครเลย"
  • นอกจากจะบล็อกครอเลอร์แล้ว Reddit ยังบล็อกครอเลอร์ของ Mojeek อย่างจริงจังอีกด้วย

แนวโน้มการเพิ่มขึ้นของการบล็อกการสแครปข้อมูลโดยบริษัท AI

  • เว็บไซต์จำนวนมากกำลังอัปเดตไฟล์ robots.txt เพื่อบล็อกบอตที่บริษัท AI ใช้สแครปข้อมูลสำหรับการฝึกโมเดล และความพยายามเช่นนี้กำลังเพิ่มขึ้นอย่างมาก
  • Google เพิ่งเปิดตัวครอเลอร์ 2 ตัว ได้แก่ Googlebot สำหรับปรับปรุงผลการค้นหา และ Google-Extended สำหรับพัฒนาแอป Gemini
  • ไฟล์ robots.txt เป็นเพียงแนวทางเท่านั้น และครอเลอร์สามารถเพิกเฉยต่อมันได้

เบื้องหลังการตัดสินใจของ Reddit

  • Reddit ไม่พอใจกับบริษัท AI ที่สแครปเว็บไซต์เพื่อนำไปฝึกโมเดลภาษาขนาดใหญ่ และได้ดำเนินมาตรการอย่างเปิดเผยและจริงจังเพื่อหยุดยั้งเรื่องนี้
  • เมื่อปีที่แล้ว Reddit เริ่มเก็บเงินสำหรับการเข้าถึง API ทำให้แอปของบุคคลที่สามจำนวนมากมีต้นทุนสูงเกินกว่าจะดำเนินต่อได้และต้องยุติบริการ
  • เมื่อต้นปีนี้ Reddit ทำข้อตกลงมูลค่า 60 ล้านดอลลาร์กับ Google เพื่อให้ Google สามารถไลเซนส์คอนเทนต์จาก Reddit ไปใช้ฝึกผลิตภัณฑ์ AI ได้

การเปลี่ยนแปลงไฟล์ Robots.txt ของ Reddit

  • เดิมทีไฟล์นี้มีรูปแบบซับซ้อนและแฝงมุกตลก แต่ล่าสุดได้เปลี่ยนเป็นรูปแบบเรียบง่ายและเข้มงวด
  • ตอนนี้มีเพียงคำสั่ง User-agent: *, Disallow: / ซึ่งหมายความว่าไม่มีบอตใดควรสแครปส่วนใดของเว็บไซต์เลย
  • Reddit ระบุจุดยืนว่า "เราเชื่อในอินเทอร์เน็ตแบบเปิด แต่จะไม่ยอมให้มีการใช้คอนเทนต์สาธารณะในทางที่ผิด"

จุดยืนของ Reddit

  • ช่วงหลังมีกรณีเพิ่มขึ้นที่ผู้เล่นเชิงพาณิชย์สแครป Reddit แล้วอ้างว่าตนไม่ถูกผูกมัดด้วยข้อกำหนดการใช้งานหรือคอนเทนต์โพลิซี
  • การหลบอยู่หลัง robots.txt แล้วอ้างว่าสามารถนำคอนเทนต์ของ Reddit ไปใช้เพื่อวัตถุประสงค์ใดก็ได้นั้นเป็นปัญหาที่ร้ายแรงยิ่งกว่า
  • Reddit จะพยายามอย่างเต็มที่ในการค้นหาและบล็อกผู้ไม่หวังดีล่วงหน้า แต่ยังต้องทำมากกว่านี้เพื่อปกป้องผลงานของผู้ใช้ Reddit
  • ต่อจากนี้ Reddit จะอัปเดตแนวทางใน robots.txt ให้ชัดเจนที่สุดเท่าที่ทำได้ หากคุณเข้าถึง Reddit ด้วยเอเจนต์อัตโนมัติ คุณต้องปฏิบัติตามข้อกำหนดและนโยบาย รวมถึงสื่อสารกับ Reddit

การเข้าถึงข้อมูล Reddit เพื่อวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์ยังคงทำได้

  • Reddit ระบุว่า "ผู้กระทำการโดยสุจริต เช่น นักวิจัยหรือ Internet Archive จะยังคงสามารถเข้าถึงคอนเทนต์ Reddit เพื่อวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์ได้"
  • Reddit ระบุว่าจะคัดเลือกหน่วยงานที่เชื่อถือได้บางรายให้เข้าถึงข้อมูล Reddit ในวงกว้าง
  • ตามคู่มือการเข้าถึงข้อมูล Reddit นั้น "การค้นหา" หรือ "โฆษณาบนเว็บไซต์" ถือเป็น "การใช้งานเชิงพาณิชย์" และไม่สามารถใช้ข้อมูล Reddit ได้หากไม่ได้รับอนุญาตหรือชำระค่าธรรมเนียม

นัยสำคัญของความจริงที่ว่ามีเพียง Google ที่รองรับการค้นหา Reddit

  • ท่ามกลางความเกี่ยวข้องของผลค้นหา Google ที่ลดลงเรื่อย ๆ วิธีหนึ่งที่ยังช่วยให้ได้ผลลัพธ์ดีคือการเติมคำว่า "Reddit" ต่อท้ายคำค้น
  • นั่นเป็นเพราะตลอดเกือบ 20 ปีที่ผ่านมา ผู้ใช้จริงได้ทิ้งคำแนะนำและข้อเสนอแนะไว้บน Reddit
  • ตอนนี้มีเพียง Google ที่พาผู้ใช้ไปสู่ข้อมูลเหล่านี้ได้ และความจริงที่ว่านี่เป็นผลจากข้อตกลงมูลค่า 60 ล้านดอลลาร์ซึ่งเกี่ยวข้องกับข้อมูลสำหรับการฝึก AI ก็เป็นอีกตัวอย่างหนึ่งของผลลัพธ์ที่ไม่ได้ตั้งใจจากการสแครปอินเทอร์เน็ตทั้งหมดอย่างกว้างขวางเพื่อเสริมพลังให้เครื่องมือ generative AI

ความกังวลของ CEO ของ Mojeek

  • Mojeek ครอลเว็บอย่างเคารพมาเป็นเวลา 20 ปี และเป็นเสิร์ชเอนจินแบบดั้งเดิมที่ไม่ฝึก AI และไม่ติดตามผู้ใช้
  • ข้อตกลงระหว่าง Reddit กับ Google ทำให้การนำเสนอวิธีค้นหาเว็บแบบทางเลือกเป็นเรื่องยากขึ้น
  • นี่เป็นส่วนหนึ่งของแนวโน้มในวงกว้างที่ค่อย ๆ ทำลายและกัดกร่อนเว็บ
  • เหตุการณ์นี้ไม่ได้ช่วยเหลือบริษัทขนาดเล็กเลย

ความเห็นของ GN⁺

  • มาตรการของ Reddit มีเป้าหมายเพื่อปกป้องสิทธิของผู้สร้างคอนเทนต์และป้องกันการนำไปใช้ในเชิงพาณิชย์อย่างไม่เหมาะสม แต่ก็อาจนำไปสู่ผลลัพธ์ที่บั่นทอนการแข่งขันในตลาดเสิร์ชเอนจิน
  • โดยเฉพาะสถานการณ์ที่ Google ผูกขาดข้อมูล Reddit เพื่อฝึก AI ยิ่งทำให้เกิดความกังวลเรื่องการใช้อำนาจเหนือตลาดของ Google ในทางที่ไม่เหมาะสม
  • ในระยะยาว ดูเหมือนว่าจำเป็นเร่งด่วนที่จะต้องมีบรรทัดฐานและนโยบายที่เอื้อให้ผู้ให้บริการคอนเทนต์ เสิร์ชเอนจิน และบริษัท AI อยู่ร่วมกันได้
  • ขณะเดียวกัน สถานการณ์ที่การค้นหา Reddit กลายเป็นทางออกต่อปัญหาคุณภาพการค้นหาที่ถดถอยก็เป็นเรื่องน่าประหลาดใจในตัวเอง โดยพื้นฐานแล้ว เสิร์ชเอนจินยังต้องพยายามยกระดับทั้งความเกี่ยวข้องและความหลากหลายของผลลัพธ์
  • นอกจากนี้ยังน่าจับตาการเติบโตของเสิร์ชเอนจินหน้าใหม่อย่าง Kagi ที่ใช้ดัชนีค้นหาของ Google บางส่วน พร้อมกับพยายามสร้างแนวทางของตนเอง

1 ความคิดเห็น

 
GN⁺ 2024-07-25
ความเห็นจาก Hacker News
  • การเปลี่ยนแปลง robots.txt ของ Reddit อาจเข้าใจได้ในบริบทของ AI แต่เป็นการกีดกันการแข่งขันสำหรับเสิร์ชเอนจินอื่น
  • สิ่งนี้อาจกลายเป็นบรรทัดฐานที่อันตรายต่ออินเทอร์เน็ต
  • หลายเว็บไซต์อาจมีอำนาจในการเรียกเก็บเงินสำหรับการทำดัชนี
  • อาจมาถึงโลกที่คุณต้องใช้เสิร์ชเอนจินบางตัวเท่านั้น จึงจะได้คำตอบจากบางเว็บไซต์
  • ในมุมมองด้านประสิทธิภาพ การที่เว็บไซต์ให้เสิร์ชเอนจินเช่าข้อมูลน่าจะดีกว่า
  • ตามความเป็นจริง ตอนนี้มีเสิร์ชเอนจินอยู่แค่สองเจ้าเท่านั้น
  • นี่เป็นสถานการณ์ที่แย่มากสำหรับ Kagi แต่ก็อาจทำให้เว็บที่ไม่ใช่เชิงพาณิชย์ซึ่งเคยถูกทำเป็นงานอดิเรกได้รับการค้นพบอีกครั้ง
  • ภายใต้กฎหมายสหรัฐฯ การเปลี่ยน robots.txt หรือข้อกำหนดการใช้งานไม่มีผลผูกพันต่อเว็บสแครปเปอร์
    • เพราะข้อมูลนั้นเข้าถึงได้แบบสาธารณะ
    • แม้จะแสดงแบนเนอร์ให้ยอมรับข้อกำหนดเมื่อเข้าใช้เว็บไซต์ก็ไม่มีผลผูกพัน
    • จะมีผลผูกพันก็ต่อเมื่อจำกัดการเข้าถึงข้อมูล และต้องสร้างบัญชีจึงจะเข้าถึงได้
  • Reddit เปลี่ยน robots.txt เมื่อหนึ่งเดือนก่อน
    • ตลอด 19 ปีที่ผ่านมาใช้ robots.txt ที่เปิดกว้างมาก
    • ดูเหมือนว่าจะเปลี่ยนเพราะการนำข้อมูลไปใช้ในทางที่ผิด
    • มีความเป็นไปได้ว่าจะเปิดอีกครั้งหากเสิร์ชเอนจินยอมตกลงว่าจะไม่นำข้อมูลไปใช้ฝึกโมเดล
  • ปัญหาที่บอต AI เข้ามาสแครปเว็บไซต์เพื่อนำไปฝึก LLM กำลังรุนแรงขึ้น
    • ตัวอย่าง: เว็บไซต์ thegreatestbooks.org ได้รับคำขอจากบอต/ระบบอัตโนมัติ 1.2 ล้านครั้งภายใน 24 ชั่วโมง
  • Reddit กลายเป็นเสิร์ชเอนจินเพียงแห่งเดียวที่ใช้งานได้บน Google
  • ไม่เข้าใจว่าการกระทำของ Reddit ไม่เข้าข่ายกีดกันการแข่งขันได้อย่างไร
    • เพราะควรต้องให้บริการแก่คู่แข่งของ Google ภายใต้เงื่อนไขที่คล้ายกันด้วย