- Perplexity ใช้เว็บครอว์เลอร์ที่ซ่อนตัวตนเพื่อเลี่ยงข้อแนะนำการห้ามการครอว์ล
- มีการจับพฤติกรรมเช่นการละเลยไฟล์ robots.txt และการเปลี่ยน IP กับ User Agent อย่างต่อเนื่อง
- ในการทดลองด้วยโดเมนใหม่ พบว่าแม้มีการตั้งค่าห้าม Perplexity ก็ยังเข้าถึงเนื้อหาเว็บไซต์ได้
- Cloudflare ปรับกฎการจัดการเพื่อป้องกัน พฤติกรรมเช่นนี้ โดยตัด Perplexity ออกจากบ็อตที่ได้รับการรับรองอย่างเป็นทางการ
- แตกต่างจากผู้ให้บริการบ็อตที่มีเจตนาดีอย่าง OpenAI พฤติกรรมแบบซ่อนตัวของ Perplexity ก็ถูกชี้ว่าเป็นปัญหา
ภาพรวมการใช้ครอว์เลอร์แบบลับของ Perplexity
- Perplexity เป็นเครื่องมือสร้างคำตอบด้วย AI และเริ่มครอว์ลเว็บไซต์ด้วย User Agent ที่ประกาศอย่างเป็นทางการ
- อย่างไรก็ตาม หากเผชิญการปิดกั้นด้านเครือข่าย จะเปลี่ยน User Agent เพื่อซ่อนตัวตน และพยายามเข้าถึงผ่าน ASN (หมายเลขระบบอิสระ) ต่าง ๆ
- ในกระบวนการนี้พบความพยายามจำนวนมากที่ข้ามหรือไม่ร้องขอไฟล์ robots.txt เลยก่อนเข้าถึง
หลักการความไว้วางใจระหว่างเว็บไซต์และครอว์เลอร์ และพฤติกรรมที่เป็นปัญหา
- อินเทอร์เน็ตได้พัฒนาไปอย่างมากในหลายทศวรรษบนฐานของ ความไว้วางใจ และหลักการของครอว์เลอร์คือควรมีความโปร่งใส มีจุดมุ่งหมายชัดเจน และมีมาตรฐานพฤติกรรมที่ชัดเจน
- ครอว์เลอร์ควรเคารพคำแนะนำของเจ้าของเว็บไซต์และลำดับความสำคัญ แต่พฤติกรรมที่สังเกตพบในครั้งนี้ของ Perplexity ขัดกับหลักการเหล่านี้
- ด้วยเหตุนี้ Cloudflare จึงเอา Perplexity ออกจากรายชื่อบ็อตที่ผ่านการยืนยันอย่างเป็นทางการและนำกฎการจัดการเพิ่มเข้ามาเพื่อค้นหาและบล็อกครอว์เลอร์แบบสเตลธ์
กรณีศึกษาและการตรวจจับ
- Cloudflare สร้าง โดเมนใหม่ เพื่อทดลองพฤติกรรมการครอว์ลของ Perplexity
- ตั้งค่า robots.txt ห้ามการเข้าถึงอัตโนมัติทั้งหมด และเพิ่มกฎ WAF
- แม้บล็อก User Agent และ IP ทางการของ Perplexity แล้ว ก็ยังพบการรวบรวมเนื้อหาเว็บไซต์ด้วยการซ่อนตัว
- Perplexity พยายามเข้าถึงเนื้อหาในทั้ง User Agent ทางการและแบบสเตลธ์ โดยแบบหลังเลียนแบบเบราว์เซอร์จริง (Chrome)
| ชนิด |
ตัวอย่าง User Agent |
จำนวนคำขอต่อวัน |
| ทางการ |
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) |
20,000,000~25,000,000 |
| สเตลธ์ |
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 |
3,000,000~6,000,000 |
- ใช้ IP และ ASN หลายรายการที่ไม่อยู่ในช่วง IP ทางการ และสลับ IP อย่างต่อเนื่องเพื่อพยายามเลี่ยงนโยบายบล็อก
- กิจกรรมเหล่านี้ถูกระบุจากหลายหมื่นโดเมนและหลายล้านคำขอ และ Cloudflare ใช้แมชชีนเลิร์นนิ่งและสัญญาณเครือข่ายเพื่อวางลายนิ้วมือของครอว์เลอร์นี้
ตัวอย่างการหลบเลี่ยงด้วยครอว์เลอร์สเตลธ์และข้อจำกัด
- เมื่อครอว์เลอร์สเตลธ์ถูกปิดกั้น Perplexity มักพยายามให้คำตอบโดยใช้แหล่งข้อมูลภายนอกเช่นเว็บไซต์อื่น ๆ
- อย่างไรก็ตาม การใช้วิธีนี้ทำให้ความละเอียดของเนื้อหาที่ได้ลดลงอย่างเห็นได้ชัด
เกณฑ์ของผู้ให้บริการบ็อตที่มีเจตนาดีและกรณีตัวอย่างของ OpenAI
- บ็อตที่ดีควรมีความโปร่งใส การระบุตัวตนที่ชัดเจน การประกาศวัตถุประสงค์การทำงาน การใช้บ็อตแยกสำหรับกิจกรรมแต่ละประเภท และการเคารพกฎของเว็บมาสเตอร์ (เช่น robots.txt)
- OpenAI ให้ข้อมูล IP ทางการ User Agent และวัตถุประสงค์การทำงานของครอว์เลอร์อย่างโปร่งใส และปฏิบัติตาม robots.txt อย่างเข้มงวด
- ในการทดลองจริง ChatGPT crawler จะหยุดความพยายามครอว์ลเพิ่มเติมเมื่อพบการตั้งค่า disallow หรือการปิดกั้นเครือข่าย
- OpenAI ยังนำระบบยืนยันมาตรฐานเช่น Web Bot Auth มาใช้อย่างแข็งขัน
วิธีป้องกันและมาตรการตอบโต้
- ครอว์ลทั้งหมดที่เกิดจาก User Agent ที่ Perplexity ไม่ได้แจ้งอย่างเป็นทางการจะถูกตรวจจับและบล็อกโดยระบบจัดการบ็อตของ Cloudflare
- ลูกค้าที่เปิดใช้กฎการบล็อกบ็อตหรือกฎชาเลนเจอร์เดิมของ Cloudflare อยู่แล้วจึงเป็นกลุ่มที่ได้รับการป้องกันอยู่แล้ว
- กฎผู้ดูแลระบบสำหรับบล็อกครอว์เลอร์สเตลธ์จะแพร่ให้ลูกค้าทุกคน รวมถึงลูกค้าฟรีด้วย
- หลังจากประกาศ Content Independence Day มีเว็บไซต์มากกว่า 2.5 ล้านแห่งที่ใช้นโยบายห้าม AI Crawl
- พร้อมกับความพยายามหลบเลี่ยงที่พัฒนาขึ้นอย่างต่อเนื่องของผู้ปฏิบัติงานครอว์เลอร์ Cloudflare ก็กำลังพัฒนาระบบและเทคโนโลยีการตอบโต้แบบต่อเนื่อง
ความพยายามทางนโยบายและแนวโน้มอนาคต
- Cloudflare กำลังมีส่วนร่วมอย่างแข็งขันกับผู้เชี่ยวชาญด้านเทคนิคและนโยบายทั่วโลก รวมถึง IETF ในการหารูปแบบมาตรฐานการขยาย robots.txt
- และเดินหน้าสู่การวางหลักเกณฑ์ครอว์เลอร์ที่ได้รับความไว้วางใจ โดยเน้นความโปร่งใสและการปฏิบัติตามข้อกฎหมายท่ามกลางสภาพแวดล้อม AI และครอว์เลอร์ที่เปลี่ยนแปลงอย่างรวดเร็ว
ยังไม่มีความคิดเห็น