ใครก็ตามที่มีช่องทางติดต่อภายใน OpenAI โปรดช่วยขอให้แก้ปัญหาแมงมุมเว็บที
(mailman.nanog.org)ปัญหาการครอว์ลเว็บไซต์ของ OpenAI GPTBot
-
ผู้เขียนกำลังประสบปัญหาที่ GPTBot ของ OpenAI เข้ามายังเว็บไซต์ของตนเองที่ web.sp.am และครอว์ลหน้าเว็บมากเกินไป
- มีการร้องขอประมาณ 3 ล้านหน้าในหนึ่งวัน และในจำนวนนั้น 1.8 ล้านครั้งเป็นการร้องขอ
robots.txt - เว็บไซต์ของผู้เขียนมีลักษณะเป็น Content Farm โดยมีเว็บไซต์จำนวน 6.859 พันล้านแห่งที่แต่ละแห่งมีเพียง 1 หน้า
- ทุกหน้าดูแทบจะเหมือนกันทั้งหมด และใช้ IP เดียวกัน รวมถึง wildcard SSL certificate เดียวกัน ทำให้ไม่น่าใช่สถานการณ์ที่ยากสำหรับครอว์เลอร์ในการทำความเข้าใจ
- มีการร้องขอประมาณ 3 ล้านหน้าในหนึ่งวัน และในจำนวนนั้น 1.8 ล้านครั้งเป็นการร้องขอ
-
เมื่อ 1–2 เดือนก่อน ครอว์เลอร์ของ Amazon ก็เคยก่อปัญหาคล้ายกัน แต่สามารถติดต่อและให้หยุดการครอว์ลได้
-
ผู้เขียนกำลังถามว่ามีใครที่สามารถติดต่อ OpenAI ได้หรือไม่
-
ผู้เขียนพูดติดตลกว่า ดูเหมือนข้อมูลจากเว็บไซต์ของตนกำลังถูกนำไปใช้ฝึก GPT-5
ความเห็นของ GN⁺
- การที่ครอว์เลอร์ตีความ
robots.txtได้ไม่ถูกต้องและส่งคำขอจำนวนมากเกินไป แม้จะไม่ใช่พฤติกรรมที่เป็นอันตรายโดยเจตนา แต่ในมุมของอีกฝ่ายถือเป็นปัญหาร้ายแรงที่อาจสร้างความเสียหายต่อบริการได้ OpenAI ก็น่าจะต้องปรับปรุงตรรกะของครอว์เลอร์โดยเร็ว - โดยเฉพาะในกรณีอย่าง Content Farm ที่มีการดูแลโดเมนจำนวนมหาศาล ควรพิจารณามาตรการอย่างการกรองตาม IP เพื่อหลีกเลี่ยงการครอว์ลแต่ละเว็บไซต์แยกกัน
- ดูเหมือนว่าจำเป็นต้องมีทั้งกระบวนการและระบบสำหรับเฝ้าติดตามการทำงานของบอทครอว์ล และตรวจจับสัญญาณผิดปกติเพื่อรับมือได้อย่างรวดเร็ว
- ควรสื่อสารอย่างใกล้ชิดกับผู้ดูแลเว็บไซต์เป้าหมายของการครอว์ลเพื่อลดความเสียหายให้มากที่สุด ไม่ควรมุ่งแต่การเก็บข้อมูลเพียงอย่างเดียว แต่มุมมองเรื่องการอยู่ร่วมกันอย่างยั่งยืนก็สำคัญเช่นกัน
1 ความคิดเห็น
ความเห็นบน Hacker News
GPT-2/3/J ได้เห็นผู้ใช้ในซับเรดดิต r/counting โพสต์ตัวเลขเพิ่มขึ้นไปเรื่อย ๆ จนถึงอนันต์ จึงมองว่าชื่อผู้ใช้แบบ SolidGoldMagikarp เป็นสตริงที่พบได้ทั่วไปบนอินเทอร์เน็ต และปฏิบัติต่อมันเป็นโทเค็นระดับบนสุดระหว่างการทำโทเค็นไนซ์
คลังคำของ GPT-3 ถูกจำกัดไว้ที่โทเค็นที่ไม่ซ้ำกัน 50,257 รายการ มีการคาดเดาว่าแม้จะไม่ใช่ความสัมพันธ์เชิงเส้น แต่ก็น่าจะมีผลที่วัดได้ ระหว่างต้นทุนพลังงานที่เพิ่มขึ้นจากงานอดิเรกเฉพาะกลุ่มของผู้ใช้ซับเรดดิตนี้ กับการจัดสรรสล็อตให้ซับสตริงที่พบบ่อยจริงในข้อความเพื่อลดจำนวนโทเค็นอินพุตโดยเฉลี่ย
คงจะตลกดีถ้าคำโปรยของเว็บไซต์อย่าง "IECC ChurnWare 0.3" กลายเป็นโทเค็นของ GPT-5
เจ้าของเว็บไซต์เขียน robots.txt ไม่ถูกต้อง จนไปคอมเมนต์ส่วนที่อนุญาตให้ครอลได้จริงออก
มีการตั้งคำถามถึงเป้าหมายของคอนเทนต์ฟาร์มแห่งนี้ มันดูไร้ความหมาย แต่ก็มีข้อสงสัยว่าน่าจะมีแรงจูงใจทางเศรษฐกิจแบบประหลาดอยู่บ้าง แม้จะมีลิงก์ affiliate แต่ก็ยังสงสัยว่าจะทำรายได้ได้มากแค่ไหน
บางคนหวังว่าฟาร์มเซิร์ฟเวอร์ของ OpenAI จะมีแมงมุมจริง ๆ อยู่ และให้มันคลานไปยังแร็กอื่น
ในความปลอดภัยเครือข่าย สิ่งนี้เรียกว่า tarpit ใช้เพื่อถ่วงเวลาการโจมตี การสแกน หรือระบบอัตโนมัติ ทำให้ผู้โจมตีเสียเวลาและพลังงาน และช่วยซื้อเวลาให้ฝ่ายป้องกัน
หาก OpenAI ทำตาม robots.txt เช่นกัน ก็จะมีปัญหาเรื่องการบล็อกบอตและการเก็บข้อมูล โดยในบรรดาเว็บไซต์ 100,000 อันดับแรก มี 11% ที่บล็อกครอว์เลอร์แล้ว ซึ่งมากกว่าคู่แข่งรายอื่น
ดูเหมือนว่าเจ้าของเว็บไซต์จะไม่ได้ใส่ใจกับการค้นหาหลายล้านหน้าเท่าไรนัก ดังนั้นก็คงดีกว่าถ้าปล่อยให้ OpenAI ทำตามที่อยากทำ
ท้ายที่สุดแล้ว OpenAI และบริษัทอื่น ๆ ก็น่าจะลงเอยด้วยการฝึกโมเดลจากคอนเทนต์ที่สร้างโดย AI เป็นส่วนใหญ่ ซึ่งมักไม่แม่นยำอยู่บ้าง และสิ่งนี้อาจนำไปสู่คุณภาพของคำตอบจาก AI ที่ลดลง ตอนนี้คอนเทนต์ส่วนใหญ่ยังเขียนโดยมนุษย์ แต่ในอีก 5 ปีข้างหน้าอาจไม่ใช่แล้ว นี่เป็นหนึ่งในปัญหาที่อุตสาหกรรม AI ต้องรีบแก้
จุดประสงค์ของเว็บไซต์ประเภทนี้ก็คือการทำให้สไปเดอร์เสียเวลาและทรัพยากรอยู่แล้ว แล้วทำไมถึงไม่อยากทำแบบนั้นกับ OpenAI ด้วยล่ะ?
ฮันนีพอตลักษณะนี้ดูเป็นวิธีที่น่าสนใจในการทำให้การฝึก LLM ปนเปื้อน