ใครก็ตามที่มีช่องทางติดต่อภายใน OpenAI โปรดช่วยขอให้แก้ปัญหาแมงมุมเว็บที

(mailman.nanog.org)

2 คะแนน โดย GN⁺ 2024-04-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ปัญหาการครอว์ลเว็บไซต์ของ OpenAI GPTBot

ผู้เขียนกำลังประสบปัญหาที่ GPTBot ของ OpenAI เข้ามายังเว็บไซต์ของตนเองที่ web.sp.am และครอว์ลหน้าเว็บมากเกินไป
- มีการร้องขอประมาณ 3 ล้านหน้าในหนึ่งวัน และในจำนวนนั้น 1.8 ล้านครั้งเป็นการร้องขอ robots.txt
- เว็บไซต์ของผู้เขียนมีลักษณะเป็น Content Farm โดยมีเว็บไซต์จำนวน 6.859 พันล้านแห่งที่แต่ละแห่งมีเพียง 1 หน้า
- ทุกหน้าดูแทบจะเหมือนกันทั้งหมด และใช้ IP เดียวกัน รวมถึง wildcard SSL certificate เดียวกัน ทำให้ไม่น่าใช่สถานการณ์ที่ยากสำหรับครอว์เลอร์ในการทำความเข้าใจ
เมื่อ 1–2 เดือนก่อน ครอว์เลอร์ของ Amazon ก็เคยก่อปัญหาคล้ายกัน แต่สามารถติดต่อและให้หยุดการครอว์ลได้
ผู้เขียนกำลังถามว่ามีใครที่สามารถติดต่อ OpenAI ได้หรือไม่
ผู้เขียนพูดติดตลกว่า ดูเหมือนข้อมูลจากเว็บไซต์ของตนกำลังถูกนำไปใช้ฝึก GPT-5

ความเห็นของ GN⁺

การที่ครอว์เลอร์ตีความ robots.txt ได้ไม่ถูกต้องและส่งคำขอจำนวนมากเกินไป แม้จะไม่ใช่พฤติกรรมที่เป็นอันตรายโดยเจตนา แต่ในมุมของอีกฝ่ายถือเป็นปัญหาร้ายแรงที่อาจสร้างความเสียหายต่อบริการได้ OpenAI ก็น่าจะต้องปรับปรุงตรรกะของครอว์เลอร์โดยเร็ว
โดยเฉพาะในกรณีอย่าง Content Farm ที่มีการดูแลโดเมนจำนวนมหาศาล ควรพิจารณามาตรการอย่างการกรองตาม IP เพื่อหลีกเลี่ยงการครอว์ลแต่ละเว็บไซต์แยกกัน
ดูเหมือนว่าจำเป็นต้องมีทั้งกระบวนการและระบบสำหรับเฝ้าติดตามการทำงานของบอทครอว์ล และตรวจจับสัญญาณผิดปกติเพื่อรับมือได้อย่างรวดเร็ว
ควรสื่อสารอย่างใกล้ชิดกับผู้ดูแลเว็บไซต์เป้าหมายของการครอว์ลเพื่อลดความเสียหายให้มากที่สุด ไม่ควรมุ่งแต่การเก็บข้อมูลเพียงอย่างเดียว แต่มุมมองเรื่องการอยู่ร่วมกันอย่างยั่งยืนก็สำคัญเช่นกัน

1 ความคิดเห็น

GN⁺ 2024-04-12

ความคิดเห็นจาก Hacker News

ทำให้นึกถึงตอนที่ GPT-2/3/J เคยเจอ https://reddit.com/r/counting เป็นที่ที่ผู้ใช้ Reddit นับเลขไปเรื่อย ๆ ทีละตัวแบบไม่มีที่สิ้นสุด และเหมือนว่าชื่อผู้ใช้อย่าง SolidGoldMagikarp จะปรากฏเป็นสตริงที่พบบ่อยมากบนอินเทอร์เน็ต จนในกระบวนการทำโทเคนถูกมองเหมือนเป็น โทเคนอิสระ
https://www.alignmentforum.org/posts/8viQEp8KBg2QSW4Yc/solid...
https://www.lesswrong.com/posts/LAxAmooK4uDfWmbep/anomalous-...
คำศัพท์ไม่ได้มีไม่จำกัด และเท่าที่ทราบ คำศัพท์ของ GPT-3 ก็มีเพียง 50,257 โทเคนเท่านั้น เลยสงสัยเหมือนกันว่าต้นทุนไฟฟ้าที่เพิ่มขึ้นจากงานอดิเรกเฉพาะกลุ่มบน Reddit นี้ กับความแตกต่างหากเอาพื้นที่นั้นไปจัดสรรให้สตริงย่อยที่พบบ่อยกว่าในข้อความจริงเพื่อลดจำนวนโทเคนอินพุตโดยเฉลี่ย จะวัดออกมาได้หรือไม่
ถ้า IECC ChurnWare 0.3 ซึ่งเป็นคำโปรยของเว็บ OP กลายเป็นโทเคนของ GPT-5 ก็คงขำดี
- สงสัยว่าสาเหตุของ hallucination อยู่ที่ คอนเทนต์ต้นฉบับ มากแค่ไหน มากกว่าจะเป็นแก่นแท้ของโมเดลภาษาขนาดใหญ่เอง เพราะในฟอรัมอินเทอร์เน็ต ต่อให้มีคนถามคำถามที่ผมไม่รู้คำตอบ ผมก็คงไม่อุตส่าห์เขียนว่า “ไม่รู้ครับ” อยู่ดี
  จริง ๆ แล้วในพื้นที่ที่ไม่ใช่การสนทนาแบบหนึ่งต่อหนึ่ง คำตอบว่า “ไม่รู้” โดยทั่วไปก็ไม่ได้มีประโยชน์นัก เพราะถ้าไม่รู้ในกลุ่ม การเงียบก็สื่อความจริงข้อนั้นอยู่แล้ว
- ระหว่างการทำโทเคน ชื่อผู้ใช้กลายเป็นโทเคนก็จริง แต่ก่อนจะฝึกโมเดลจริง ข้อความแบบนั้นถูกเอาออกจากชุดข้อมูลฝึกไปแล้ว ทำให้โมเดลไม่ได้ฝึกกับข้อความที่มีโทเคนนั้นอยู่ จึงเกิด โทเคนกลิตช์ ที่ไม่ได้เชื่อมโยงกับความหมายใด ๆ
- ใน Computerphile ก็มีการพูดคุยเกี่ยวกับ โทเคนกลิตช์ ด้วย
  https://www.youtube.com/watch?v=WO2X3oZEJOA
- ทุกวันนี้ ขนาดคำศัพท์ ที่พบบ่อยที่สุดคือ 32k
ผมสงสัยมากกว่าว่าคอนเทนต์ฟาร์มนั่นมีไว้ทำอะไร ดูไร้ความหมาย แต่เหมือนน่าจะมี แรงจูงใจทางเศรษฐกิจ แปลก ๆ อยู่ มีลิงก์แอฟฟิลิเอตอยู่ก็จริง แต่จะทำเงินได้สักแค่ไหนกัน
- นี่คือ ฮันนีพอต ผู้เขียนคือ https://en.wikipedia.org/wiki/John_R._Levine เขาดูแลฟาร์มเล็ก ๆ นี้ไว้เพื่อให้เมื่อมีงานสแครปแบบใหม่และขนาดใหญ่เริ่มขึ้น มันจะต้องชนฟาร์มนี้และทิ้งร่องรอยไว้ในล็อก
  เขาเป็นบุคคลสายต่อต้านสแปมที่มีชื่อเสียงและทำกิจกรรมหลายอย่างมาตั้งแต่หลายสิบปีก่อน การปล่อยลิงก์หน้าแลนดิ้งเพจไว้ในข้อความ NANOG อย่างเป็นธรรมชาติก็เป็นวิธีให้บอตงับเหยื่อ
- ชื่อ John Levine แห่ง iecc.com ทำให้นึกถึง Invincible Electric Calculator Company ในยุคเว็บ 1.0 เขาเป็นผู้ดูแลนิวส์กรุ๊ป comp.compilers บน Usenet และเป็นคนเขียนคอมไพเลอร์ C ตัวแรกสำหรับ IBM PC RT
  https://compilers.iecc.com/
- ดูเหมือนจะใกล้เคียงกับ ฮันนีพอต สำหรับบอตมากกว่า เป้าหมายค่อนข้างคล้ายกัน
- Linkers & Loaders เป็นหนังสือที่เขาเขียนจริง ส่วนเล่มอื่น ๆ ไม่ได้ตรวจสอบ
  ที่หน้า https://www.iecc.com/linker/ เมื่อก่อนเคยเผยแพร่ร่างหนังสือหลายรูปแบบ แต่ตอนที่มีคนเอาไปลงที่ https://news.ycombinator.com/item?id=18424233 ผมรวบไฟล์ไว้สำหรับอ่านออฟไลน์ หลังจากนั้นข้อความก็เปลี่ยนเป็น “ไม่ให้บริการอีกต่อไปเนื่องจากการละเมิดลิขสิทธิ์เรื้อรัง”
  ผมส่งอีเมลไปถามว่าโอเคไหม แต่ได้รับคำตอบที่ไม่เป็นมิตรว่าไฟล์ที่ผมทำเป็นการละเมิดลิขสิทธิ์ จึงเอาลิงก์ลง และทางนั้นก็เปลี่ยนข้อความ เขาเป็นผู้เขียนหนังสือ ไม่ใช่ผม ดังนั้นเขาย่อมทำได้ แต่อย่างน้อยผมก็เสนอให้เขียนไว้บนหน้าว่าอย่าทำแบบนั้น ทว่าพวกเขาเลือกวิธีที่รุนแรงกว่า
- ก็แค่ทำขึ้นมาเล่น ๆ และตอนนี้มันก็ทำหน้าที่ของมันได้ดีมาก ไม่ใช่ทุกอย่างจะต้องมีเป้าหมายทางเศรษฐกิจ มีตัวติดตาม 100 ตัว มีโฆษณา หรือมีบริษัทสนับสนุนเสมอไป
ผมคงไม่ใช่คนเดียวใช่ไหมที่หวังว่าเรื่องนี้จะเป็นเรื่อง แมงมุม จริง ๆ บุกฟาร์มเซิร์ฟเวอร์ของ OpenAI แล้วคลานเข้าไปในแร็กของคนอื่น ๆ รู้แหละว่าเป็นไปไม่ได้ แต่ก็แอบคาดหวัง
- หวังว่าจะเป็นเรื่องคีย์เวิร์ดก้อนใหญ่ ๆ ที่สร้าง ภาพแมงมุม ออกมา
ตั้งค่า robots.txt ไว้ไม่ถูกต้อง จริง ๆ แล้วส่วนที่บล็อกถูกคอมเมนต์ออกไว้
Disallow: / สำหรับ Amazonbot และ GPTBot ถูกคอมเมนต์ออกทั้งคู่ และตอนนี้สิ่งที่มีผลจริงมีแค่การบล็อก /archive สำหรับ User-agent: * เท่านั้น
- เนื้อหาเปลี่ยนไประหว่างตอนนั้นกับตอนนี้
ถ้า OpenAI เคารพ robots.txt ก็แปลว่ามีทั้งปัญหาเรื่องการบล็อกบอตและ การเก็บรวบรวมข้อมูล: https://x.com/AznWeng/status/1777688628308681000
ในบรรดาเว็บไซต์ 100,000 อันดับแรก มี 11% ที่บล็อกครอว์เลอร์ของ OpenAI ไปแล้ว ซึ่งมากกว่าคู่แข่งอย่าง Google, FB, Anthropic และ Perplexity รวมกันทั้งหมด
- นี่เป็นปัญหาไม่ใช่แค่สำหรับการฝึกโมเดล แต่สำหรับผู้ใช้ปลายทางด้วย ผมเคยถามหรือขอให้สรุปบทความยาว ๆ หลายครั้ง แล้วมันบอกว่าอ่านเองไม่ได้ สุดท้ายต้องคัดลอกข้อความไปวางในหน้าต่างแชตเอง
  เมื่อคิดว่า robots.txt ไม่มีผลผูกพัน และในบริบทอื่น ๆ ก็ดูเหมือนพวกเขาแทบไม่ลังเลที่จะดูดข้อมูลสาธารณะ การปล่อยให้เรื่องนี้กลายเป็นอุปสรรคต่อ ประสบการณ์ผู้ใช้ จึงค่อนข้างน่าแปลกใจ
ผมว่าอาจปล่อยให้เขาทำไปก็ได้ ถ้าต้องการอินเทอร์เน็ต นี่แหละคือ อินเทอร์เน็ตของจริง ดูเหมือนเขาไม่ได้ใส่ใจมากนักที่มันดึงหน้าเว็บไปเป็นล้าน ๆ หน้า ก็ปล่อยให้ทำไป
- มันมี ผลกระทบต่อประสิทธิภาพ ต่อผู้ใช้ปกติคนอื่น ๆ ในเว็บฟาร์มนั้น
- สแครปเปอร์บางตัวเคารพ robots.txt แต่ OpenAI ไม่ใช่แบบนั้น SP แค่กำลังบอกเรื่องนี้ให้โลกรู้เท่านั้น
- แม้แต่ CTO ก็ยังบอกว่าไม่รู้ว่าข้อมูลมาจากไหน
- นั่นแหละคือประเด็น เขากำลังบ่นว่า OpenAI ไม่เคารพ robots.txt
ในโลกความปลอดภัยเครือข่าย เราเรียกสิ่งนี้ว่า ทาร์พิต สามารถใช้ถ่วงเวลาโจมตี การสแกน และระบบอัตโนมัติอื่น ๆ ได้ด้วยการส่งข้อมูลช้ามาก ๆ หรือทำให้เกิดการเรียกซ้ำไม่รู้จบ
ผลคือทำให้ผู้โจมตีเสียเวลาและพลังงาน และอาจช่วยซื้อเวลาให้ฝ่ายเราสร้างการป้องกันให้แข็งแรงขึ้น
- ดูจากเนื้อหาอีเมลแล้ว ให้ความรู้สึกว่าเป็นแค่ ฮันนีพอต มากกว่า ไม่เห็นมีการหน่วงเวลาตอนส่งคืนคอนเทนต์
  ทาร์พิตต่างออกไป เพราะถูกออกแบบมาเพื่อทำให้การสแกนหรือการสแครปช้าลง และจงใจทำให้ทรัพยากรของอีกฝ่ายสูญเปล่า มีหลายเทคนิค แต่ส่วนใหญ่จะจำกัดการตอบกลับหรือความเร็วในการตอบกลับแบบทวีคูณ
เมื่อปี 2011 ก็เคยมีเรื่องคล้ายกัน ตอนที่โปรเจกต์ picolisp เปิดตัว ‘ticker’ แบบ Markov chain ที่สร้างหน้าเว็บขึ้นทันที
https://picolisp.com/wiki/?ticker
ถือเป็นฮันนีพอตรูปแบบหนึ่งที่ค่อนข้างดี
สุดท้าย บริษัทอย่าง OpenAI และบริษัทคล้าย ๆ กันแทบทั้งหมดจะลงเอยด้วยการฝึกโมเดลจาก คอนเทนต์ที่ AI สร้าง และจากมุมมอง Q&A คอนเทนต์แบบนั้นมักจะผิดไปเล็ก ๆ น้อย ๆ ค่อนข้างบ่อย ทำให้คุณภาพคำตอบของ AI ที่ฝึกจากสิ่งนั้นแย่ลงอย่างรวดเร็วด้วย
ตอนนี้คอนเทนต์ส่วนใหญ่บนอินเทอร์เน็ตยังเขียนโดยมนุษย์ แต่ในอีก 5 ปีอาจไม่ใช่แล้ว ผมมองว่านี่เป็นหนึ่งในปัญหาใหญ่ที่วงการ AI ต้องรีบแก้ อย่างที่คำโบราณว่าไว้ ใส่ขยะเข้าไป ก็ได้ขยะออกมา
- จุดจบของการฝึกจากข้อความบนเว็บคือ อูโรโบรอส มาโดยตลอด เพราะแรงจูงใจของเทคโนโลยีโฆษณาผลักให้ผลิตคอนเทนต์คุณภาพต่ำจำนวนมากเพื่อรายได้เล็กน้อย
  ความย้อนแย้งของสถานการณ์ทั้งหมดนี้ช่างโหดร้าย
- คอนเทนต์แบบ ป่าดิบดั้งเดิม ให้ไปขูดมาอาจไม่เหลืออีกแล้ว แต่คอนเทนต์ที่มนุษย์ต้องการจะยังคงเป็นสิ่งที่ได้รับความนิยม โปรโมต คัดสรร และแก้ไขมากที่สุด แม้การฝึกจากคอนเทนต์ออร์แกนิกจะเป็นไปไม่ได้แล้ว ก็ยังเป็นไปได้ที่จะได้คอนเทนต์ดี ๆ
- เป็นปัญหาที่แก้ไปแล้ว ลองดูว่า Microsoft ฝึก Phi อย่างไร พวกเขาใช้โมเดลเดิมสร้างข้อมูลสังเคราะห์แบบอิงตำราเรียน จึงสร้างชุดข้อมูลใหม่ที่ยึดตาม “ข้อเท็จจริง” และมีคุณภาพสูงกว่า Common Crawl ได้มาก
  ดูเหมือนจะเป็นปัญหาแบบ บูตสแตรปปิง มากกว่าอูโรโบรอส
- ต่อไปมันจะเป็นมัลติโมดัล และจะฝึกกับฟีดจากเครือข่ายเซนเซอร์แบบกระจาย รวมถึงใช้เพื่ออนุมานด้วย ทั้งวิทยุ แสง เสียง มาตรวัดความเร่ง การสั่นสะเทือน สิ่งที่อยู่ในโทรศัพท์มือถือ และเซนเซอร์อื่น ๆ อีกมากมาย
  ผมคิดว่ายุคของทรานส์ฟอร์เมอร์ที่จัดการแค่ข้อความได้ผ่านไปแล้ว
- ไม่เข้าใจว่าทำไมถึงคิดว่า OpenAI กับพวกพ้องจะลงเอยด้วยการฝึกจากคอนเทนต์ที่ AI สร้างแทบทั้งหมด ความเป็นไปได้ที่บนอินเทอร์เน็ตจะมีคอนเทนต์ที่ AI สร้างมากกว่าคอนเทนต์จริงนั้นสูง และอาจเป็นแบบนั้นไปแล้วก็ได้ แต่ไม่มีเหตุผลให้คิดว่าบริษัท AI จะไม่สังเกตเห็นเรื่องนี้และไม่ปรับ วิธีฝึก
ผมว่า OpenAI อ่าน robots.txt อยู่ แต่ก็ยังทำดัชนีอยู่ดี เพียงแต่น่าจะทำเครื่องหมายไว้ว่าเป็นคอนเทนต์ที่ไม่ควรถูกทำดัชนี
- แล้วคอนเทนต์พวกนั้นน่าจะถูกให้ น้ำหนักสองเท่า ตอนฝึกด้วย

ใครก็ตามที่มีช่องทางติดต่อภายใน OpenAI โปรดช่วยขอให้แก้ปัญหาแมงมุมเว็บที

ปัญหาการครอว์ลเว็บไซต์ของ OpenAI GPTBot

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News