- ผู้เขียนได้เขียนบทความเมื่อวานเกี่ยวกับการบล็อกบอต AI บนเซิร์ฟเวอร์ และวันนี้ก็ทำแบบเดียวกันให้กับ MacStories
- หลังตั้งค่าเสร็จ Federico ยังสามารถอ้างอิงโพสต์หนึ่งของ MacStories จากเว็บไซต์ Perplexity ได้
- ผู้เขียนได้ใช้การเปลี่ยนแปลงต่อไปนี้กับเว็บไซต์ของตน:
- 30 มีนาคม: เริ่มบล็อกบอตอย่าง
PerplexityBotในrobots.txt - 14 มิถุนายน: เพิ่มการบล็อกฝั่งเซิร์ฟเวอร์ใน nginx โดยทุกรายการที่ตรงเงื่อนไขจะได้รับการตอบกลับเป็น
403 Forbidden
- 30 มีนาคม: เริ่มบล็อกบอตอย่าง
- ผู้เขียนตั้งสมมติฐานว่าบริษัท AI ทุกแห่งเพิกเฉยต่อ
robots.txtและคาดว่าคำขอต่าง ๆ ที่เข้ามาตั้งแต่เดือนมีนาคมน่าจะไม่ได้ผลอยู่แล้ว - ผู้เขียนเผยแพร่บทความเกี่ยวกับการบล็อกบอต AI หลังจากใช้มาตรการบล็อกไปแล้ว ดังนั้นหากมีการส่ง User Agent มาตามปกติ Perplexity ก็ไม่ควรเข้าถึงเว็บไซต์นั้นได้
- แต่เมื่อถาม Perplexity เกี่ยวกับโพสต์ดังกล่าว กลับได้รับสรุปที่สมบูรณ์พร้อมรายละเอียดที่ไม่น่าจะรู้ได้จากการเดาเพียงอย่างเดียว
- ผู้เขียนคิดว่าอาจตั้งค่าผิด เพราะทดสอบเพียงการปลอม User Agent ของ Chrome
- แต่เมื่อทดสอบโค้ดโดยใช้
PerplexityBotซึ่งเป็น User Agent ที่ Perplexity อ้างว่าใช้กับคำขอ ก็ได้รับการตอบกลับเป็น403ตามคาด แสดงว่าการตั้งค่า nginx ไม่มีปัญหา - เมื่อผู้เขียนถาม Perplexity AI ว่าเข้าถึงเว็บไซต์ได้อย่างไรทั้งที่มี
robots.txtอยู่แล้ว Perplexity AI ตอบว่าไม่มีความสามารถในการครอลหรือเข้าถึงเนื้อหาที่ถูกบล็อกด้วยrobots.txtและการเข้าถึงหรือสรุปเนื้อหาที่ถูกจำกัดถือว่าไม่เหมาะสมในเชิงจริยธรรม - แต่ Lewis ยืนยันว่า Perplexity ใช้สตริง User Agent ต่อไปนี้ซึ่งไม่มี
PerplexityBotรวมอยู่ด้วย:Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3 - ผู้เขียนเองก็เปิด access log แล้วถาม Perplexity เช่นกัน และยืนยันได้เหมือนกับ Lewis ว่าไม่มี User Agent แบบกำหนดเองอยู่ในคำขอ
- Perplexity ใช้เบราว์เซอร์แบบ headless เพื่อสแครปเนื้อหา โดยเพิกเฉยต่อ
robots.txtและไม่ส่งสตริง User Agent ที่ถูกต้องด้วย - ดูเหมือนว่าเบราว์เซอร์แบบ headless เหล่านี้จะไม่ได้อยู่ในช่วง IP ของ Perplexity ทำให้ไม่สามารถบล็อกตามช่วง IP ได้เช่นกัน
- ผู้เขียนไม่ต้องการให้โพสต์ของตนถูกบริษัท AI เก็บไปรวบรวมฟรี ๆ แต่อีกต่อไปก็แทบไม่มีมาตรการอะไรให้ทำแล้ว
- ผู้เขียนได้เข้าร่วม Discord ของ Perplexity แนะนำตัวในช่องแนะนำตัว และส่งบั๊กในช่องบั๊ก
- ขั้นต่อไปกำลังพิจารณาการยื่นคำขอตาม GDPR แต่อยู่ระหว่างชั่งใจ
ความเห็นจาก GN⁺
- ความสำคัญของการบล็อกบอต AI: จำเป็นต้องมีวิธีบล็อกที่เหมาะสมเพื่อป้องกันไม่ให้บอต AI ใช้เนื้อหาของเว็บไซต์โดยไม่ได้รับอนุญาต
- การตรวจสอบ User Agent: หากบอต AI ไม่ใช้ User Agent ที่ถูกต้อง การตรวจสอบและบล็อกจึงเป็นสิ่งสำคัญ
- ข้อจำกัดของไฟล์
robots.txt: บอต AI จำนวนมากอาจเพิกเฉยต่อไฟล์robots.txtดังนั้นจึงจำเป็นต้องมีวิธีบล็อกเพิ่มเติมฝั่งเซิร์ฟเวอร์ - การคุ้มครองความเป็นส่วนตัว: ควรพิจารณาวิธีป้องกันการเข้าถึงโดยไม่ได้รับอนุญาตของบอต AI ผ่านข้อกำหนดอย่าง GDPR
- ทางเลือกอื่น: การใช้โซลูชันบล็อกบอต AI หรือเครื่องมือความปลอดภัยอื่น ๆ เพื่อปกป้องเว็บไซต์ก็เป็นแนวทางที่ดีเช่นกัน
1 ความคิดเห็น
ความเห็นจาก Hacker News