- บทความแนะนำ GPTBot ซึ่งเป็นเว็บครอว์เลอร์ที่พัฒนาโดย OpenAI
- สามารถระบุได้ด้วยโทเค็น user-agent ชื่อ "GPTBot" และสตริง user-agent แบบเต็ม
- เว็บเพจที่ GPTBot ครอว์ลอาจถูกนำไปใช้เพื่อปรับปรุงโมเดล AI ในอนาคต
- ครอว์เลอร์จะกรองแหล่งข้อมูลที่ต้องเข้าถึงผ่านเพย์วอลล์, แหล่งที่ทราบว่ามีการเก็บรวบรวมข้อมูลส่วนบุคคลที่ใช้ระบุตัวตนได้ (PII) และข้อความที่ละเมิดนโยบายของ OpenAI
- การอนุญาตให้ GPTBot เข้าถึงเว็บไซต์อาจช่วยพัฒนาความแม่นยำ ความสามารถทั่วไป และความปลอดภัยของโมเดล AI
- สามารถเพิ่ม GPTBot ใน
robots.txt ของเว็บไซต์เพื่อป้องกันการเข้าถึงเว็บไซต์ และยังสามารถอนุญาตให้ GPTBot เข้าถึงไดเรกทอรีเฉพาะของเว็บไซต์ได้
- ช่วง IP egress ที่ครอว์เลอร์ใช้งานมีระบุแยกไว้บนเว็บไซต์ของ OpenAI
3 ความคิดเห็น
คงจะมีการทดลองกันเยอะมากจริง ๆ เลยนะ
ผู้ดูแลเว็บไซต์ที่ต้องมีเพย์วอลล์อาจจะยอมเปิดให้บอตเข้าถึง เพื่อให้เนื้อหาของตัวเองถูกรวมเข้าไปในโมเดล ChatGPT กันไหมนะ?
ตอนนี้แม้แต่เว็บที่ต้องจ่ายเงินเพื่อเข้าถึง บางครั้งก็ยังเปิดให้ Googlebot เข้ามาแคชได้อยู่เหมือนกัน
แน่นอนว่าก็มีบอตที่อาศัยช่องทางนี้เพื่อครอว์ลย้อนกลับเหมือนกันแหละ ฮ่า
ความเห็นจาก Hacker News