Perplexity AI กำลังโกหกเกี่ยวกับ User Agent ของตัวเอง

(rknight.me)

1 คะแนน โดย GN⁺ 2024-06-16 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ผู้เขียนได้เขียนบทความเมื่อวานเกี่ยวกับการบล็อกบอต AI บนเซิร์ฟเวอร์ และวันนี้ก็ทำแบบเดียวกันให้กับ MacStories
หลังตั้งค่าเสร็จ Federico ยังสามารถอ้างอิงโพสต์หนึ่งของ MacStories จากเว็บไซต์ Perplexity ได้
ผู้เขียนได้ใช้การเปลี่ยนแปลงต่อไปนี้กับเว็บไซต์ของตน:
- 30 มีนาคม: เริ่มบล็อกบอตอย่าง PerplexityBot ใน robots.txt
- 14 มิถุนายน: เพิ่มการบล็อกฝั่งเซิร์ฟเวอร์ใน nginx โดยทุกรายการที่ตรงเงื่อนไขจะได้รับการตอบกลับเป็น 403 Forbidden
ผู้เขียนตั้งสมมติฐานว่าบริษัท AI ทุกแห่งเพิกเฉยต่อ robots.txt และคาดว่าคำขอต่าง ๆ ที่เข้ามาตั้งแต่เดือนมีนาคมน่าจะไม่ได้ผลอยู่แล้ว
ผู้เขียนเผยแพร่บทความเกี่ยวกับการบล็อกบอต AI หลังจากใช้มาตรการบล็อกไปแล้ว ดังนั้นหากมีการส่ง User Agent มาตามปกติ Perplexity ก็ไม่ควรเข้าถึงเว็บไซต์นั้นได้
แต่เมื่อถาม Perplexity เกี่ยวกับโพสต์ดังกล่าว กลับได้รับสรุปที่สมบูรณ์พร้อมรายละเอียดที่ไม่น่าจะรู้ได้จากการเดาเพียงอย่างเดียว
ผู้เขียนคิดว่าอาจตั้งค่าผิด เพราะทดสอบเพียงการปลอม User Agent ของ Chrome
แต่เมื่อทดสอบโค้ดโดยใช้ PerplexityBot ซึ่งเป็น User Agent ที่ Perplexity อ้างว่าใช้กับคำขอ ก็ได้รับการตอบกลับเป็น 403 ตามคาด แสดงว่าการตั้งค่า nginx ไม่มีปัญหา
เมื่อผู้เขียนถาม Perplexity AI ว่าเข้าถึงเว็บไซต์ได้อย่างไรทั้งที่มี robots.txt อยู่แล้ว Perplexity AI ตอบว่าไม่มีความสามารถในการครอลหรือเข้าถึงเนื้อหาที่ถูกบล็อกด้วย robots.txt และการเข้าถึงหรือสรุปเนื้อหาที่ถูกจำกัดถือว่าไม่เหมาะสมในเชิงจริยธรรม
แต่ Lewis ยืนยันว่า Perplexity ใช้สตริง User Agent ต่อไปนี้ซึ่งไม่มี PerplexityBot รวมอยู่ด้วย:
```
Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3  
```
ผู้เขียนเองก็เปิด access log แล้วถาม Perplexity เช่นกัน และยืนยันได้เหมือนกับ Lewis ว่าไม่มี User Agent แบบกำหนดเองอยู่ในคำขอ
Perplexity ใช้เบราว์เซอร์แบบ headless เพื่อสแครปเนื้อหา โดยเพิกเฉยต่อ robots.txt และไม่ส่งสตริง User Agent ที่ถูกต้องด้วย
ดูเหมือนว่าเบราว์เซอร์แบบ headless เหล่านี้จะไม่ได้อยู่ในช่วง IP ของ Perplexity ทำให้ไม่สามารถบล็อกตามช่วง IP ได้เช่นกัน
ผู้เขียนไม่ต้องการให้โพสต์ของตนถูกบริษัท AI เก็บไปรวบรวมฟรี ๆ แต่อีกต่อไปก็แทบไม่มีมาตรการอะไรให้ทำแล้ว
ผู้เขียนได้เข้าร่วม Discord ของ Perplexity แนะนำตัวในช่องแนะนำตัว และส่งบั๊กในช่องบั๊ก
ขั้นต่อไปกำลังพิจารณาการยื่นคำขอตาม GDPR แต่อยู่ระหว่างชั่งใจ

ความเห็นจาก GN⁺

ความสำคัญของการบล็อกบอต AI: จำเป็นต้องมีวิธีบล็อกที่เหมาะสมเพื่อป้องกันไม่ให้บอต AI ใช้เนื้อหาของเว็บไซต์โดยไม่ได้รับอนุญาต
การตรวจสอบ User Agent: หากบอต AI ไม่ใช้ User Agent ที่ถูกต้อง การตรวจสอบและบล็อกจึงเป็นสิ่งสำคัญ
ข้อจำกัดของไฟล์ robots.txt: บอต AI จำนวนมากอาจเพิกเฉยต่อไฟล์ robots.txt ดังนั้นจึงจำเป็นต้องมีวิธีบล็อกเพิ่มเติมฝั่งเซิร์ฟเวอร์
การคุ้มครองความเป็นส่วนตัว: ควรพิจารณาวิธีป้องกันการเข้าถึงโดยไม่ได้รับอนุญาตของบอต AI ผ่านข้อกำหนดอย่าง GDPR
ทางเลือกอื่น: การใช้โซลูชันบล็อกบอต AI หรือเครื่องมือความปลอดภัยอื่น ๆ เพื่อปกป้องเว็บไซต์ก็เป็นแนวทางที่ดีเช่นกัน

1 ความคิดเห็น

GN⁺ 2024-06-16

ความเห็นจาก Hacker News

ควรต้องสามารถป้องกันไม่ให้ LLM นำข้อมูลของฉันไปฝึกได้ และ Perplexity ก็ควรทำให้การบล็อกเรื่องนี้ทำได้ง่าย
การห้ามไม่ให้ Perplexity นำข้อมูลจากเว็บไซต์ของฉันไปแสดงให้ผู้ใช้ผ่านการค้นหาเว็บแบบเรียลไทม์ เป็นการก้าวเข้าไปสู่พื้นที่ที่อันตราย
ตัวบล็อกโฆษณา โหมดผู้อ่าน โปรแกรมอ่านหน้าจอ ฯลฯ ก็ทำงานในลักษณะเดียวกับ Perplexity และการห้ามสิ่งนี้อาจกระทบกับเครื่องมือจำนวนมาก
ฉันไม่ต้องการให้เจ้าของเว็บไซต์ใช้ DRM เพื่อบังคับให้เว็บไซต์แสดงผลได้เฉพาะในบางรูปแบบเท่านั้น
ดูเหมือนว่าจะมีความเข้าใจผิดเกี่ยวกับช่วงเวลาที่ user agent ของ Perplexity ถูกนำมาใช้
เจ้าของเว็บไซต์ไม่สามารถตัดสินใจแทนผู้ใช้ได้ว่าจะใช้เบราว์เซอร์อะไร และ Perplexity ก็ไม่ใช่ข้อยกเว้น
การที่ Perplexity เก็บรวบรวมข้อมูลจำนวนมากโดยไม่ใช้ user agent เป็นปัญหา และควรหยุดทำเช่นนั้น
ควรแยกให้ออกระหว่างการที่บริษัท AI สแครปเว็บไซต์ไปฝึกโมเดล กับการดึงหน้าเว็บตามที่ผู้ใช้ร้องขอ
มีการให้ลิงก์บทความที่พูดถึงปัญหาเรื่อง Perplexity นำคอนเทนต์ของผู้อื่นไปใช้
ครอว์เลอร์ของ Perplexity ควรเคารพ robots.txt แต่ user agent ไม่ใช่ครอว์เลอร์ จึงไม่จำเป็นต้องปฏิบัติตาม
ต่อให้บริษัท AI จะสแครปเว็บไซต์ของฉันก็ไม่เป็นไร ฉันจะปล่อยให้พวกเขาเอาข้อมูลที่ผิดพลาดไปเอง
ใครก็ตามที่เคยทำเว็บสแครปมาก่อนจะรู้ว่าทำไมถึงต้องโกหกเรื่อง user agent
CEO ของ Perplexity เคยวิจารณ์ Google และ OpenAI แต่กลับพบว่าบริษัทของตนเองก็ไม่ทำตาม robots.txt และซ่อน user agent เช่นกัน
สามารถใช้ prompt injection แบบมองไม่เห็นเพื่อป้องกันไม่ให้บริษัท AI เอาคอนเทนต์ของฉันไปใช้ฟรี
การที่ Perplexity ไม่ปฏิบัติตามมาตรฐานเว็บแบบสมัครใจ อาจไม่อาจเรียกว่าเป็นการโกหกได้

Perplexity AI กำลังโกหกเกี่ยวกับ User Agent ของตัวเอง

ความเห็นจาก GN⁺

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News