• Perplexity ใช้เว็บครอว์เลอร์ที่ซ่อนตัวตนเพื่อเลี่ยงข้อแนะนำการห้ามการครอว์ล
  • มีการจับพฤติกรรมเช่นการละเลยไฟล์ robots.txt และการเปลี่ยน IP กับ User Agent อย่างต่อเนื่อง
  • ในการทดลองด้วยโดเมนใหม่ พบว่าแม้มีการตั้งค่าห้าม Perplexity ก็ยังเข้าถึงเนื้อหาเว็บไซต์ได้
  • Cloudflare ปรับกฎการจัดการเพื่อป้องกัน พฤติกรรมเช่นนี้ โดยตัด Perplexity ออกจากบ็อตที่ได้รับการรับรองอย่างเป็นทางการ
  • แตกต่างจากผู้ให้บริการบ็อตที่มีเจตนาดีอย่าง OpenAI พฤติกรรมแบบซ่อนตัวของ Perplexity ก็ถูกชี้ว่าเป็นปัญหา

ภาพรวมการใช้ครอว์เลอร์แบบลับของ Perplexity

  • Perplexity เป็นเครื่องมือสร้างคำตอบด้วย AI และเริ่มครอว์ลเว็บไซต์ด้วย User Agent ที่ประกาศอย่างเป็นทางการ
  • อย่างไรก็ตาม หากเผชิญการปิดกั้นด้านเครือข่าย จะเปลี่ยน User Agent เพื่อซ่อนตัวตน และพยายามเข้าถึงผ่าน ASN (หมายเลขระบบอิสระ) ต่าง ๆ
  • ในกระบวนการนี้พบความพยายามจำนวนมากที่ข้ามหรือไม่ร้องขอไฟล์ robots.txt เลยก่อนเข้าถึง

หลักการความไว้วางใจระหว่างเว็บไซต์และครอว์เลอร์ และพฤติกรรมที่เป็นปัญหา

  • อินเทอร์เน็ตได้พัฒนาไปอย่างมากในหลายทศวรรษบนฐานของ ความไว้วางใจ และหลักการของครอว์เลอร์คือควรมีความโปร่งใส มีจุดมุ่งหมายชัดเจน และมีมาตรฐานพฤติกรรมที่ชัดเจน
  • ครอว์เลอร์ควรเคารพคำแนะนำของเจ้าของเว็บไซต์และลำดับความสำคัญ แต่พฤติกรรมที่สังเกตพบในครั้งนี้ของ Perplexity ขัดกับหลักการเหล่านี้
  • ด้วยเหตุนี้ Cloudflare จึงเอา Perplexity ออกจากรายชื่อบ็อตที่ผ่านการยืนยันอย่างเป็นทางการและนำกฎการจัดการเพิ่มเข้ามาเพื่อค้นหาและบล็อกครอว์เลอร์แบบสเตลธ์

กรณีศึกษาและการตรวจจับ

  • Cloudflare สร้าง โดเมนใหม่ เพื่อทดลองพฤติกรรมการครอว์ลของ Perplexity
    • ตั้งค่า robots.txt ห้ามการเข้าถึงอัตโนมัติทั้งหมด และเพิ่มกฎ WAF
    • แม้บล็อก User Agent และ IP ทางการของ Perplexity แล้ว ก็ยังพบการรวบรวมเนื้อหาเว็บไซต์ด้วยการซ่อนตัว
  • Perplexity พยายามเข้าถึงเนื้อหาในทั้ง User Agent ทางการและแบบสเตลธ์ โดยแบบหลังเลียนแบบเบราว์เซอร์จริง (Chrome)
ชนิด ตัวอย่าง User Agent จำนวนคำขอต่อวัน
ทางการ Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) 20,000,000~25,000,000
สเตลธ์ Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 3,000,000~6,000,000
  • ใช้ IP และ ASN หลายรายการที่ไม่อยู่ในช่วง IP ทางการ และสลับ IP อย่างต่อเนื่องเพื่อพยายามเลี่ยงนโยบายบล็อก
  • กิจกรรมเหล่านี้ถูกระบุจากหลายหมื่นโดเมนและหลายล้านคำขอ และ Cloudflare ใช้แมชชีนเลิร์นนิ่งและสัญญาณเครือข่ายเพื่อวางลายนิ้วมือของครอว์เลอร์นี้

ตัวอย่างการหลบเลี่ยงด้วยครอว์เลอร์สเตลธ์และข้อจำกัด

  • เมื่อครอว์เลอร์สเตลธ์ถูกปิดกั้น Perplexity มักพยายามให้คำตอบโดยใช้แหล่งข้อมูลภายนอกเช่นเว็บไซต์อื่น ๆ
  • อย่างไรก็ตาม การใช้วิธีนี้ทำให้ความละเอียดของเนื้อหาที่ได้ลดลงอย่างเห็นได้ชัด

เกณฑ์ของผู้ให้บริการบ็อตที่มีเจตนาดีและกรณีตัวอย่างของ OpenAI

  • บ็อตที่ดีควรมีความโปร่งใส การระบุตัวตนที่ชัดเจน การประกาศวัตถุประสงค์การทำงาน การใช้บ็อตแยกสำหรับกิจกรรมแต่ละประเภท และการเคารพกฎของเว็บมาสเตอร์ (เช่น robots.txt)
  • OpenAI ให้ข้อมูล IP ทางการ User Agent และวัตถุประสงค์การทำงานของครอว์เลอร์อย่างโปร่งใส และปฏิบัติตาม robots.txt อย่างเข้มงวด
  • ในการทดลองจริง ChatGPT crawler จะหยุดความพยายามครอว์ลเพิ่มเติมเมื่อพบการตั้งค่า disallow หรือการปิดกั้นเครือข่าย
  • OpenAI ยังนำระบบยืนยันมาตรฐานเช่น Web Bot Auth มาใช้อย่างแข็งขัน

วิธีป้องกันและมาตรการตอบโต้

  • ครอว์ลทั้งหมดที่เกิดจาก User Agent ที่ Perplexity ไม่ได้แจ้งอย่างเป็นทางการจะถูกตรวจจับและบล็อกโดยระบบจัดการบ็อตของ Cloudflare
  • ลูกค้าที่เปิดใช้กฎการบล็อกบ็อตหรือกฎชาเลนเจอร์เดิมของ Cloudflare อยู่แล้วจึงเป็นกลุ่มที่ได้รับการป้องกันอยู่แล้ว
  • กฎผู้ดูแลระบบสำหรับบล็อกครอว์เลอร์สเตลธ์จะแพร่ให้ลูกค้าทุกคน รวมถึงลูกค้าฟรีด้วย
  • หลังจากประกาศ Content Independence Day มีเว็บไซต์มากกว่า 2.5 ล้านแห่งที่ใช้นโยบายห้าม AI Crawl
  • พร้อมกับความพยายามหลบเลี่ยงที่พัฒนาขึ้นอย่างต่อเนื่องของผู้ปฏิบัติงานครอว์เลอร์ Cloudflare ก็กำลังพัฒนาระบบและเทคโนโลยีการตอบโต้แบบต่อเนื่อง

ความพยายามทางนโยบายและแนวโน้มอนาคต

  • Cloudflare กำลังมีส่วนร่วมอย่างแข็งขันกับผู้เชี่ยวชาญด้านเทคนิคและนโยบายทั่วโลก รวมถึง IETF ในการหารูปแบบมาตรฐานการขยาย robots.txt
  • และเดินหน้าสู่การวางหลักเกณฑ์ครอว์เลอร์ที่ได้รับความไว้วางใจ โดยเน้นความโปร่งใสและการปฏิบัติตามข้อกฎหมายท่ามกลางสภาพแวดล้อม AI และครอว์เลอร์ที่เปลี่ยนแปลงอย่างรวดเร็ว

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น