GPTBot - เว็บครอว์เลอร์ของ OpenAI

(platform.openai.com)

12 คะแนน โดย GN⁺ 2023-08-08 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

บทความแนะนำ GPTBot ซึ่งเป็นเว็บครอว์เลอร์ที่พัฒนาโดย OpenAI
สามารถระบุได้ด้วยโทเค็น user-agent ชื่อ "GPTBot" และสตริง user-agent แบบเต็ม
เว็บเพจที่ GPTBot ครอว์ลอาจถูกนำไปใช้เพื่อปรับปรุงโมเดล AI ในอนาคต
ครอว์เลอร์จะกรองแหล่งข้อมูลที่ต้องเข้าถึงผ่านเพย์วอลล์, แหล่งที่ทราบว่ามีการเก็บรวบรวมข้อมูลส่วนบุคคลที่ใช้ระบุตัวตนได้ (PII) และข้อความที่ละเมิดนโยบายของ OpenAI
การอนุญาตให้ GPTBot เข้าถึงเว็บไซต์อาจช่วยพัฒนาความแม่นยำ ความสามารถทั่วไป และความปลอดภัยของโมเดล AI
สามารถเพิ่ม GPTBot ใน robots.txt ของเว็บไซต์เพื่อป้องกันการเข้าถึงเว็บไซต์ และยังสามารถอนุญาตให้ GPTBot เข้าถึงไดเรกทอรีเฉพาะของเว็บไซต์ได้
ช่วง IP egress ที่ครอว์เลอร์ใช้งานมีระบุแยกไว้บนเว็บไซต์ของ OpenAI

3 ความคิดเห็น

ragingwind 2023-08-08

คงจะมีการทดลองกันเยอะมากจริง ๆ เลยนะ

xguru 2023-08-08

ผู้ดูแลเว็บไซต์ที่ต้องมีเพย์วอลล์อาจจะยอมเปิดให้บอตเข้าถึง เพื่อให้เนื้อหาของตัวเองถูกรวมเข้าไปในโมเดล ChatGPT กันไหมนะ?
ตอนนี้แม้แต่เว็บที่ต้องจ่ายเงินเพื่อเข้าถึง บางครั้งก็ยังเปิดให้ Googlebot เข้ามาแคชได้อยู่เหมือนกัน
แน่นอนว่าก็มีบอตที่อาศัยช่องทางนี้เพื่อครอว์ลย้อนกลับเหมือนกันแหละ ฮ่า

GN⁺ 2023-08-08

ความเห็นจาก Hacker News

กำลังมีการถกเถียงถึงผลกระทบที่อาจเกิดขึ้นจากเว็บครอว์เลอร์ของ OpenAI อย่าง GPTBot ต่อเว็บไซต์ต่างๆ
ผู้ใช้บางส่วนเสนอให้ทดลองส่งคืนคอนเทนต์ที่แตกต่างออกไปให้ GPTBot เพื่อดูว่าจะส่งผลต่อการฝึกโมเดล AI อย่างไร
มีความกังวลว่า GPTBot เพิกเฉยต่อ response header "429 Too Many Requests" ซึ่งอาจก่อปัญหากับโปรเจ็กต์ขนาดเล็กที่มี API พร้อมข้อจำกัดอัตราการเรียกใช้งาน
ผู้ใช้ตั้งคำถามถึงประโยชน์ของการอนุญาตให้ GPTBot เข้าถึงเว็บไซต์ของตน เพราะคอนเทนต์ของพวกเขาอาจถูกนำไปใช้เพื่อพัฒนาโมเดล AI โดยไม่ได้สร้างผลประโยชน์หรือให้เครดิตโดยตรงแก่ผู้สร้างเนื้อหาต้นฉบับ
มีความกังวลเรื่องความเป็นไปได้ของการลอกเลียนผลงาน เนื่องจาก GPTBot อาจนำคอนเทนต์ไปเรียบเรียงใหม่โดยไม่อ้างอิงแหล่งที่มา ทำให้ยากต่อการพิสูจน์ต้นตอที่แท้จริงของข้อมูล
ผู้ใช้บางส่วนกำลังพิจารณาบล็อก GPTBot ด้วยเหตุผลเหล่านี้ แต่ก็สงสัยว่านั่นอาจทำให้บอตที่ไม่เคารพข้อจำกัดลักษณะนี้ได้เปรียบทางการแข่งขันหรือไม่
การสนทนายังกล่าวถึงประเด็นที่กว้างกว่านั้นเรื่องการละเมิดลิขสิทธิ์จากการทำเว็บครอว์ลิง โดยผู้ใช้บางส่วนโต้แย้งว่าโมเดลแมชชีนเลิร์นนิงที่ไม่อ้างอิงแหล่งที่มาควรถูกมองว่าเป็นสิ่งที่เป็นปฏิปักษ์และอาจเข้าข่ายละเมิดลิขสิทธิ์

GPTBot - เว็บครอว์เลอร์ของ OpenAI

บทความที่เกี่ยวข้อง

3 ความคิดเห็น

ความเห็นจาก Hacker News