1 คะแนน โดย GN⁺ 2024-06-16 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ผู้เขียนได้เขียนบทความเมื่อวานเกี่ยวกับการบล็อกบอต AI บนเซิร์ฟเวอร์ และวันนี้ก็ทำแบบเดียวกันให้กับ MacStories
  • หลังตั้งค่าเสร็จ Federico ยังสามารถอ้างอิงโพสต์หนึ่งของ MacStories จากเว็บไซต์ Perplexity ได้
  • ผู้เขียนได้ใช้การเปลี่ยนแปลงต่อไปนี้กับเว็บไซต์ของตน:
    • 30 มีนาคม: เริ่มบล็อกบอตอย่าง PerplexityBot ใน robots.txt
    • 14 มิถุนายน: เพิ่มการบล็อกฝั่งเซิร์ฟเวอร์ใน nginx โดยทุกรายการที่ตรงเงื่อนไขจะได้รับการตอบกลับเป็น 403 Forbidden
  • ผู้เขียนตั้งสมมติฐานว่าบริษัท AI ทุกแห่งเพิกเฉยต่อ robots.txt และคาดว่าคำขอต่าง ๆ ที่เข้ามาตั้งแต่เดือนมีนาคมน่าจะไม่ได้ผลอยู่แล้ว
  • ผู้เขียนเผยแพร่บทความเกี่ยวกับการบล็อกบอต AI หลังจากใช้มาตรการบล็อกไปแล้ว ดังนั้นหากมีการส่ง User Agent มาตามปกติ Perplexity ก็ไม่ควรเข้าถึงเว็บไซต์นั้นได้
  • แต่เมื่อถาม Perplexity เกี่ยวกับโพสต์ดังกล่าว กลับได้รับสรุปที่สมบูรณ์พร้อมรายละเอียดที่ไม่น่าจะรู้ได้จากการเดาเพียงอย่างเดียว
  • ผู้เขียนคิดว่าอาจตั้งค่าผิด เพราะทดสอบเพียงการปลอม User Agent ของ Chrome
  • แต่เมื่อทดสอบโค้ดโดยใช้ PerplexityBot ซึ่งเป็น User Agent ที่ Perplexity อ้างว่าใช้กับคำขอ ก็ได้รับการตอบกลับเป็น 403 ตามคาด แสดงว่าการตั้งค่า nginx ไม่มีปัญหา
  • เมื่อผู้เขียนถาม Perplexity AI ว่าเข้าถึงเว็บไซต์ได้อย่างไรทั้งที่มี robots.txt อยู่แล้ว Perplexity AI ตอบว่าไม่มีความสามารถในการครอลหรือเข้าถึงเนื้อหาที่ถูกบล็อกด้วย robots.txt และการเข้าถึงหรือสรุปเนื้อหาที่ถูกจำกัดถือว่าไม่เหมาะสมในเชิงจริยธรรม
  • แต่ Lewis ยืนยันว่า Perplexity ใช้สตริง User Agent ต่อไปนี้ซึ่งไม่มี PerplexityBot รวมอยู่ด้วย:
    Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3  
    
  • ผู้เขียนเองก็เปิด access log แล้วถาม Perplexity เช่นกัน และยืนยันได้เหมือนกับ Lewis ว่าไม่มี User Agent แบบกำหนดเองอยู่ในคำขอ
  • Perplexity ใช้เบราว์เซอร์แบบ headless เพื่อสแครปเนื้อหา โดยเพิกเฉยต่อ robots.txt และไม่ส่งสตริง User Agent ที่ถูกต้องด้วย
  • ดูเหมือนว่าเบราว์เซอร์แบบ headless เหล่านี้จะไม่ได้อยู่ในช่วง IP ของ Perplexity ทำให้ไม่สามารถบล็อกตามช่วง IP ได้เช่นกัน
  • ผู้เขียนไม่ต้องการให้โพสต์ของตนถูกบริษัท AI เก็บไปรวบรวมฟรี ๆ แต่อีกต่อไปก็แทบไม่มีมาตรการอะไรให้ทำแล้ว
  • ผู้เขียนได้เข้าร่วม Discord ของ Perplexity แนะนำตัวในช่องแนะนำตัว และส่งบั๊กในช่องบั๊ก
  • ขั้นต่อไปกำลังพิจารณาการยื่นคำขอตาม GDPR แต่อยู่ระหว่างชั่งใจ

ความเห็นจาก GN⁺

  • ความสำคัญของการบล็อกบอต AI: จำเป็นต้องมีวิธีบล็อกที่เหมาะสมเพื่อป้องกันไม่ให้บอต AI ใช้เนื้อหาของเว็บไซต์โดยไม่ได้รับอนุญาต
  • การตรวจสอบ User Agent: หากบอต AI ไม่ใช้ User Agent ที่ถูกต้อง การตรวจสอบและบล็อกจึงเป็นสิ่งสำคัญ
  • ข้อจำกัดของไฟล์ robots.txt: บอต AI จำนวนมากอาจเพิกเฉยต่อไฟล์ robots.txt ดังนั้นจึงจำเป็นต้องมีวิธีบล็อกเพิ่มเติมฝั่งเซิร์ฟเวอร์
  • การคุ้มครองความเป็นส่วนตัว: ควรพิจารณาวิธีป้องกันการเข้าถึงโดยไม่ได้รับอนุญาตของบอต AI ผ่านข้อกำหนดอย่าง GDPR
  • ทางเลือกอื่น: การใช้โซลูชันบล็อกบอต AI หรือเครื่องมือความปลอดภัยอื่น ๆ เพื่อปกป้องเว็บไซต์ก็เป็นแนวทางที่ดีเช่นกัน

1 ความคิดเห็น

 
GN⁺ 2024-06-16
ความเห็นจาก Hacker News
  • ควรต้องสามารถป้องกันไม่ให้ LLM นำข้อมูลของฉันไปฝึกได้ และ Perplexity ก็ควรทำให้การบล็อกเรื่องนี้ทำได้ง่าย
  • การห้ามไม่ให้ Perplexity นำข้อมูลจากเว็บไซต์ของฉันไปแสดงให้ผู้ใช้ผ่านการค้นหาเว็บแบบเรียลไทม์ เป็นการก้าวเข้าไปสู่พื้นที่ที่อันตราย
  • ตัวบล็อกโฆษณา โหมดผู้อ่าน โปรแกรมอ่านหน้าจอ ฯลฯ ก็ทำงานในลักษณะเดียวกับ Perplexity และการห้ามสิ่งนี้อาจกระทบกับเครื่องมือจำนวนมาก
  • ฉันไม่ต้องการให้เจ้าของเว็บไซต์ใช้ DRM เพื่อบังคับให้เว็บไซต์แสดงผลได้เฉพาะในบางรูปแบบเท่านั้น
  • ดูเหมือนว่าจะมีความเข้าใจผิดเกี่ยวกับช่วงเวลาที่ user agent ของ Perplexity ถูกนำมาใช้
  • เจ้าของเว็บไซต์ไม่สามารถตัดสินใจแทนผู้ใช้ได้ว่าจะใช้เบราว์เซอร์อะไร และ Perplexity ก็ไม่ใช่ข้อยกเว้น
  • การที่ Perplexity เก็บรวบรวมข้อมูลจำนวนมากโดยไม่ใช้ user agent เป็นปัญหา และควรหยุดทำเช่นนั้น
  • ควรแยกให้ออกระหว่างการที่บริษัท AI สแครปเว็บไซต์ไปฝึกโมเดล กับการดึงหน้าเว็บตามที่ผู้ใช้ร้องขอ
  • มีการให้ลิงก์บทความที่พูดถึงปัญหาเรื่อง Perplexity นำคอนเทนต์ของผู้อื่นไปใช้
  • ครอว์เลอร์ของ Perplexity ควรเคารพ robots.txt แต่ user agent ไม่ใช่ครอว์เลอร์ จึงไม่จำเป็นต้องปฏิบัติตาม
  • ต่อให้บริษัท AI จะสแครปเว็บไซต์ของฉันก็ไม่เป็นไร ฉันจะปล่อยให้พวกเขาเอาข้อมูลที่ผิดพลาดไปเอง
  • ใครก็ตามที่เคยทำเว็บสแครปมาก่อนจะรู้ว่าทำไมถึงต้องโกหกเรื่อง user agent
  • CEO ของ Perplexity เคยวิจารณ์ Google และ OpenAI แต่กลับพบว่าบริษัทของตนเองก็ไม่ทำตาม robots.txt และซ่อน user agent เช่นกัน
  • สามารถใช้ prompt injection แบบมองไม่เห็นเพื่อป้องกันไม่ให้บริษัท AI เอาคอนเทนต์ของฉันไปใช้ฟรี
  • การที่ Perplexity ไม่ปฏิบัติตามมาตรฐานเว็บแบบสมัครใจ อาจไม่อาจเรียกว่าเป็นการโกหกได้