2 คะแนน โดย GN⁺ 2024-04-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ปัญหาการครอว์ลเว็บไซต์ของ OpenAI GPTBot

  • ผู้เขียนกำลังประสบปัญหาที่ GPTBot ของ OpenAI เข้ามายังเว็บไซต์ของตนเองที่ web.sp.am และครอว์ลหน้าเว็บมากเกินไป

    • มีการร้องขอประมาณ 3 ล้านหน้าในหนึ่งวัน และในจำนวนนั้น 1.8 ล้านครั้งเป็นการร้องขอ robots.txt
    • เว็บไซต์ของผู้เขียนมีลักษณะเป็น Content Farm โดยมีเว็บไซต์จำนวน 6.859 พันล้านแห่งที่แต่ละแห่งมีเพียง 1 หน้า
    • ทุกหน้าดูแทบจะเหมือนกันทั้งหมด และใช้ IP เดียวกัน รวมถึง wildcard SSL certificate เดียวกัน ทำให้ไม่น่าใช่สถานการณ์ที่ยากสำหรับครอว์เลอร์ในการทำความเข้าใจ
  • เมื่อ 1–2 เดือนก่อน ครอว์เลอร์ของ Amazon ก็เคยก่อปัญหาคล้ายกัน แต่สามารถติดต่อและให้หยุดการครอว์ลได้

  • ผู้เขียนกำลังถามว่ามีใครที่สามารถติดต่อ OpenAI ได้หรือไม่

  • ผู้เขียนพูดติดตลกว่า ดูเหมือนข้อมูลจากเว็บไซต์ของตนกำลังถูกนำไปใช้ฝึก GPT-5

ความเห็นของ GN⁺

  • การที่ครอว์เลอร์ตีความ robots.txt ได้ไม่ถูกต้องและส่งคำขอจำนวนมากเกินไป แม้จะไม่ใช่พฤติกรรมที่เป็นอันตรายโดยเจตนา แต่ในมุมของอีกฝ่ายถือเป็นปัญหาร้ายแรงที่อาจสร้างความเสียหายต่อบริการได้ OpenAI ก็น่าจะต้องปรับปรุงตรรกะของครอว์เลอร์โดยเร็ว
  • โดยเฉพาะในกรณีอย่าง Content Farm ที่มีการดูแลโดเมนจำนวนมหาศาล ควรพิจารณามาตรการอย่างการกรองตาม IP เพื่อหลีกเลี่ยงการครอว์ลแต่ละเว็บไซต์แยกกัน
  • ดูเหมือนว่าจำเป็นต้องมีทั้งกระบวนการและระบบสำหรับเฝ้าติดตามการทำงานของบอทครอว์ล และตรวจจับสัญญาณผิดปกติเพื่อรับมือได้อย่างรวดเร็ว
  • ควรสื่อสารอย่างใกล้ชิดกับผู้ดูแลเว็บไซต์เป้าหมายของการครอว์ลเพื่อลดความเสียหายให้มากที่สุด ไม่ควรมุ่งแต่การเก็บข้อมูลเพียงอย่างเดียว แต่มุมมองเรื่องการอยู่ร่วมกันอย่างยั่งยืนก็สำคัญเช่นกัน

1 ความคิดเห็น

 
GN⁺ 2024-04-12
ความเห็นบน Hacker News
  • GPT-2/3/J ได้เห็นผู้ใช้ในซับเรดดิต r/counting โพสต์ตัวเลขเพิ่มขึ้นไปเรื่อย ๆ จนถึงอนันต์ จึงมองว่าชื่อผู้ใช้แบบ SolidGoldMagikarp เป็นสตริงที่พบได้ทั่วไปบนอินเทอร์เน็ต และปฏิบัติต่อมันเป็นโทเค็นระดับบนสุดระหว่างการทำโทเค็นไนซ์

  • คลังคำของ GPT-3 ถูกจำกัดไว้ที่โทเค็นที่ไม่ซ้ำกัน 50,257 รายการ มีการคาดเดาว่าแม้จะไม่ใช่ความสัมพันธ์เชิงเส้น แต่ก็น่าจะมีผลที่วัดได้ ระหว่างต้นทุนพลังงานที่เพิ่มขึ้นจากงานอดิเรกเฉพาะกลุ่มของผู้ใช้ซับเรดดิตนี้ กับการจัดสรรสล็อตให้ซับสตริงที่พบบ่อยจริงในข้อความเพื่อลดจำนวนโทเค็นอินพุตโดยเฉลี่ย

  • คงจะตลกดีถ้าคำโปรยของเว็บไซต์อย่าง "IECC ChurnWare 0.3" กลายเป็นโทเค็นของ GPT-5

  • เจ้าของเว็บไซต์เขียน robots.txt ไม่ถูกต้อง จนไปคอมเมนต์ส่วนที่อนุญาตให้ครอลได้จริงออก

  • มีการตั้งคำถามถึงเป้าหมายของคอนเทนต์ฟาร์มแห่งนี้ มันดูไร้ความหมาย แต่ก็มีข้อสงสัยว่าน่าจะมีแรงจูงใจทางเศรษฐกิจแบบประหลาดอยู่บ้าง แม้จะมีลิงก์ affiliate แต่ก็ยังสงสัยว่าจะทำรายได้ได้มากแค่ไหน

  • บางคนหวังว่าฟาร์มเซิร์ฟเวอร์ของ OpenAI จะมีแมงมุมจริง ๆ อยู่ และให้มันคลานไปยังแร็กอื่น

  • ในความปลอดภัยเครือข่าย สิ่งนี้เรียกว่า tarpit ใช้เพื่อถ่วงเวลาการโจมตี การสแกน หรือระบบอัตโนมัติ ทำให้ผู้โจมตีเสียเวลาและพลังงาน และช่วยซื้อเวลาให้ฝ่ายป้องกัน

  • หาก OpenAI ทำตาม robots.txt เช่นกัน ก็จะมีปัญหาเรื่องการบล็อกบอตและการเก็บข้อมูล โดยในบรรดาเว็บไซต์ 100,000 อันดับแรก มี 11% ที่บล็อกครอว์เลอร์แล้ว ซึ่งมากกว่าคู่แข่งรายอื่น

  • ดูเหมือนว่าเจ้าของเว็บไซต์จะไม่ได้ใส่ใจกับการค้นหาหลายล้านหน้าเท่าไรนัก ดังนั้นก็คงดีกว่าถ้าปล่อยให้ OpenAI ทำตามที่อยากทำ

  • ท้ายที่สุดแล้ว OpenAI และบริษัทอื่น ๆ ก็น่าจะลงเอยด้วยการฝึกโมเดลจากคอนเทนต์ที่สร้างโดย AI เป็นส่วนใหญ่ ซึ่งมักไม่แม่นยำอยู่บ้าง และสิ่งนี้อาจนำไปสู่คุณภาพของคำตอบจาก AI ที่ลดลง ตอนนี้คอนเทนต์ส่วนใหญ่ยังเขียนโดยมนุษย์ แต่ในอีก 5 ปีข้างหน้าอาจไม่ใช่แล้ว นี่เป็นหนึ่งในปัญหาที่อุตสาหกรรม AI ต้องรีบแก้

  • จุดประสงค์ของเว็บไซต์ประเภทนี้ก็คือการทำให้สไปเดอร์เสียเวลาและทรัพยากรอยู่แล้ว แล้วทำไมถึงไม่อยากทำแบบนั้นกับ OpenAI ด้วยล่ะ?

  • ฮันนีพอตลักษณะนี้ดูเป็นวิธีที่น่าสนใจในการทำให้การฝึก LLM ปนเปื้อน