Perplexity ใช้เว็บครอว์เลอร์ที่ไม่ประกาศตัวเพื่อเลี่ยงคำสั่งห้ามครอว์ล

(blog.cloudflare.com)

4 คะแนน โดย GN⁺ 2025-08-05 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Perplexity ใช้เว็บครอว์เลอร์ที่ซ่อนตัวตนเพื่อเลี่ยงข้อแนะนำการห้ามการครอว์ล
มีการจับพฤติกรรมเช่นการละเลยไฟล์ robots.txt และการเปลี่ยน IP กับ User Agent อย่างต่อเนื่อง
ในการทดลองด้วยโดเมนใหม่ พบว่าแม้มีการตั้งค่าห้าม Perplexity ก็ยังเข้าถึงเนื้อหาเว็บไซต์ได้
Cloudflare ปรับกฎการจัดการเพื่อป้องกัน พฤติกรรมเช่นนี้ โดยตัด Perplexity ออกจากบ็อตที่ได้รับการรับรองอย่างเป็นทางการ
แตกต่างจากผู้ให้บริการบ็อตที่มีเจตนาดีอย่าง OpenAI พฤติกรรมแบบซ่อนตัวของ Perplexity ก็ถูกชี้ว่าเป็นปัญหา

ภาพรวมการใช้ครอว์เลอร์แบบลับของ Perplexity

Perplexity เป็นเครื่องมือสร้างคำตอบด้วย AI และเริ่มครอว์ลเว็บไซต์ด้วย User Agent ที่ประกาศอย่างเป็นทางการ
อย่างไรก็ตาม หากเผชิญการปิดกั้นด้านเครือข่าย จะเปลี่ยน User Agent เพื่อซ่อนตัวตน และพยายามเข้าถึงผ่าน ASN (หมายเลขระบบอิสระ) ต่าง ๆ
ในกระบวนการนี้พบความพยายามจำนวนมากที่ข้ามหรือไม่ร้องขอไฟล์ robots.txt เลยก่อนเข้าถึง

หลักการความไว้วางใจระหว่างเว็บไซต์และครอว์เลอร์ และพฤติกรรมที่เป็นปัญหา

อินเทอร์เน็ตได้พัฒนาไปอย่างมากในหลายทศวรรษบนฐานของ ความไว้วางใจ และหลักการของครอว์เลอร์คือควรมีความโปร่งใส มีจุดมุ่งหมายชัดเจน และมีมาตรฐานพฤติกรรมที่ชัดเจน
ครอว์เลอร์ควรเคารพคำแนะนำของเจ้าของเว็บไซต์และลำดับความสำคัญ แต่พฤติกรรมที่สังเกตพบในครั้งนี้ของ Perplexity ขัดกับหลักการเหล่านี้
ด้วยเหตุนี้ Cloudflare จึงเอา Perplexity ออกจากรายชื่อบ็อตที่ผ่านการยืนยันอย่างเป็นทางการและนำกฎการจัดการเพิ่มเข้ามาเพื่อค้นหาและบล็อกครอว์เลอร์แบบสเตลธ์

กรณีศึกษาและการตรวจจับ

Cloudflare สร้าง โดเมนใหม่ เพื่อทดลองพฤติกรรมการครอว์ลของ Perplexity
- ตั้งค่า robots.txt ห้ามการเข้าถึงอัตโนมัติทั้งหมด และเพิ่มกฎ WAF
- แม้บล็อก User Agent และ IP ทางการของ Perplexity แล้ว ก็ยังพบการรวบรวมเนื้อหาเว็บไซต์ด้วยการซ่อนตัว
Perplexity พยายามเข้าถึงเนื้อหาในทั้ง User Agent ทางการและแบบสเตลธ์ โดยแบบหลังเลียนแบบเบราว์เซอร์จริง (Chrome)

ชนิด	ตัวอย่าง User Agent	จำนวนคำขอต่อวัน
ทางการ	Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user)	20,000,000~25,000,000
สเตลธ์	Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36	3,000,000~6,000,000

ใช้ IP และ ASN หลายรายการที่ไม่อยู่ในช่วง IP ทางการ และสลับ IP อย่างต่อเนื่องเพื่อพยายามเลี่ยงนโยบายบล็อก
กิจกรรมเหล่านี้ถูกระบุจากหลายหมื่นโดเมนและหลายล้านคำขอ และ Cloudflare ใช้แมชชีนเลิร์นนิ่งและสัญญาณเครือข่ายเพื่อวางลายนิ้วมือของครอว์เลอร์นี้

ตัวอย่างการหลบเลี่ยงด้วยครอว์เลอร์สเตลธ์และข้อจำกัด

เมื่อครอว์เลอร์สเตลธ์ถูกปิดกั้น Perplexity มักพยายามให้คำตอบโดยใช้แหล่งข้อมูลภายนอกเช่นเว็บไซต์อื่น ๆ
อย่างไรก็ตาม การใช้วิธีนี้ทำให้ความละเอียดของเนื้อหาที่ได้ลดลงอย่างเห็นได้ชัด

เกณฑ์ของผู้ให้บริการบ็อตที่มีเจตนาดีและกรณีตัวอย่างของ OpenAI

บ็อตที่ดีควรมีความโปร่งใส การระบุตัวตนที่ชัดเจน การประกาศวัตถุประสงค์การทำงาน การใช้บ็อตแยกสำหรับกิจกรรมแต่ละประเภท และการเคารพกฎของเว็บมาสเตอร์ (เช่น robots.txt)
OpenAI ให้ข้อมูล IP ทางการ User Agent และวัตถุประสงค์การทำงานของครอว์เลอร์อย่างโปร่งใส และปฏิบัติตาม robots.txt อย่างเข้มงวด
ในการทดลองจริง ChatGPT crawler จะหยุดความพยายามครอว์ลเพิ่มเติมเมื่อพบการตั้งค่า disallow หรือการปิดกั้นเครือข่าย
OpenAI ยังนำระบบยืนยันมาตรฐานเช่น Web Bot Auth มาใช้อย่างแข็งขัน

วิธีป้องกันและมาตรการตอบโต้

ครอว์ลทั้งหมดที่เกิดจาก User Agent ที่ Perplexity ไม่ได้แจ้งอย่างเป็นทางการจะถูกตรวจจับและบล็อกโดยระบบจัดการบ็อตของ Cloudflare
ลูกค้าที่เปิดใช้กฎการบล็อกบ็อตหรือกฎชาเลนเจอร์เดิมของ Cloudflare อยู่แล้วจึงเป็นกลุ่มที่ได้รับการป้องกันอยู่แล้ว
กฎผู้ดูแลระบบสำหรับบล็อกครอว์เลอร์สเตลธ์จะแพร่ให้ลูกค้าทุกคน รวมถึงลูกค้าฟรีด้วย
หลังจากประกาศ Content Independence Day มีเว็บไซต์มากกว่า 2.5 ล้านแห่งที่ใช้นโยบายห้าม AI Crawl
พร้อมกับความพยายามหลบเลี่ยงที่พัฒนาขึ้นอย่างต่อเนื่องของผู้ปฏิบัติงานครอว์เลอร์ Cloudflare ก็กำลังพัฒนาระบบและเทคโนโลยีการตอบโต้แบบต่อเนื่อง

ความพยายามทางนโยบายและแนวโน้มอนาคต

Cloudflare กำลังมีส่วนร่วมอย่างแข็งขันกับผู้เชี่ยวชาญด้านเทคนิคและนโยบายทั่วโลก รวมถึง IETF ในการหารูปแบบมาตรฐานการขยาย robots.txt
และเดินหน้าสู่การวางหลักเกณฑ์ครอว์เลอร์ที่ได้รับความไว้วางใจ โดยเน้นความโปร่งใสและการปฏิบัติตามข้อกฎหมายท่ามกลางสภาพแวดล้อม AI และครอว์เลอร์ที่เปลี่ยนแปลงอย่างรวดเร็ว

2 ความคิดเห็น

kaydash 2025-08-07

เชียร์ Perplexity

GN⁺ 2025-08-05

ความคิดเห็นจาก Hacker News

ผมคิดว่าปัญหานี้แก้ไขได้ยากจริงๆ
1. ผมคิดว่าทุกคนเห็นพ้องกันว่าเมื่อฉันเข้าเว็บไซต์ในฐานะผู้ใช้รายหนึ่ง ฉันย่อมมีสิทธิ์ดูเนื้อหานั้น
2. การที่ฉันติดตั้งซอฟต์แวร์บนเครื่องตนเอง เช่น ติดตั้งตัวปิดกั้นโฆษณาเพื่อเปลี่ยนหน้าเว็บก่อนที่เนื้อหาจะขึ้น เป็นสิทธิ์ของฉันเอง และผมคิดว่าการซ่อนข้อมูลนี้จากเว็บไซต์ก็ถูกต้อง ผู้ใช้ส่วนใหญ่เห็นด้วย แต่บางไซต์กลับรบกวนให้เปลี่ยนซอฟต์แวร์ที่ติดตั้งอยู่
3. แต่ถ้าก้าวไปอีกขั้น เมื่อเนื้อหาถูกโอบล้อมด้วยโฆษณา JavaScript และป๊อปอัปจนใช้งานยาก ทำให้ฉันต้องอาศัย LLM สรุปเนื้อหาแทนเอง แล้วทำไมการที่ฉันเข้าถึงเว็บผ่าน Firefox จึงควรได้รับการปฏิบัติทางกฎหมายต่างจากการที่ LLM เข้าแทนฉัน
ร้านค้าบางแห่งไม่ค่อยชอบบริการแบบ Instacart หรือ Postmates
ไม่ว่าคุณจะไปช้อปเองหรือสแกนของทุกชิ้นด้วยมือถือเพื่อเช็คราคา สิ่งนั้นไม่ได้สำคัญ
แต่การให้บริการบุคคลที่สามส่งพนักงานไปสำรวจสต็อกเอง หรือไปรับสินค้าแทนหลังจากสั่งออนไลน์นั้นไม่อนุญาต
เหตุผลมีหลายอย่าง เช่น ไม่อยากเสียการควบคุมคุณภาพสินค้า (อาหารหรือเครื่องดื่มเย็นลง, ราคาเพิ่ม, การแทนสินค้าไม่ถูกต้อง), ต้องการให้พนักงานให้บริการโดยตรงเพื่อสร้างความสัมพันธ์กับลูกค้า, หรือเพียงปฏิเสธการจัดส่งผ่านบุคคลที่สามโดยตรง
ผมคิดว่าการปฏิเสธให้บริษัทที่ไม่เกี่ยวข้องเปิดกิจการในร้านออฟไลน์ของผมเป็นการตัดสินใจที่สมเหตุสมผล
ผมมองว่านี่เป็นตรรกะที่ใช้ได้กับบริการดิจิทัลเช่นกัน
เรื่องนี้เป็นเรื่องขนาด
ขั้นต่อไปที่คุณพูดถึงคงเป็น
วันที่ผู้คนรันบอทวิจัยส่วนตัวเพื่อหาคำตอบจากเว็บไซต์จำนวนมาก และขอหน้าเว็บได้เร็วกว่าโปรแกรมหรือมนุษย์ทั่วไปมาก
ต้องคิดกันว่ายอมรับได้ถึงจุดไหน
การครอว์ลส่วนบุคคลโอเคหรือไม่? หรือถ้าบอทฉลาดขึ้น คาดเดาล่วงหน้าว่าผู้ใช้จะถามอะไรและครอว์ลด้วยข้อมูลล่าสุดตลอดเวลา?
หรือเมื่อขยายขนาดมากขึ้นเป็นการครอว์ลจำนวนมากเพื่อผู้ใช้หลายราย จุดไหนคือปัญหาจริงๆ?
ผมคิดว่าควรแยกคำว่า “crawler” กับ “fetcher” เพื่อแยกความแตกต่างระหว่างการสแครปปิ้งจำนวนมากกับ AI agent ที่มุ่งเป้าเจาะจงผู้ใช้
ช่วงหลังผมมีส่วนร่วมพัฒนาเครื่องมือ ตรวจจับ AI agent (ดู: https://stytch.com/blog/introducing-is-agent/) และเห็นว่าการที่ผู้ดูแลเว็บไซต์สามารถระบุ AI agent และชี้ทางเข้าแบบจำกัดได้เป็นคุณค่าจริง
ในทางกลับกัน crawler อาจปลอมตัวเป็น crawler ที่มีชื่อเสียงเทียม แล้วมองข้าม robots.txt และทำสิ่งไม่ดีได้
มาตรฐานแก้ปัญหาปัจจุบันคือการ reverse DNS lookup ของ IP ซึ่งผู้ดูแลเว็บไซต์ก็รู้สึกว่ามันยุ่งยากอยู่แล้ว
ผมคิดว่าการปิดกั้นการเข้าถึงรูปแบบแปลกทั้งหมดน่าจะมีประสิทธิภาพกว่า
ผมเห็นด้วยว่าระบบโฆษณามีปัญหามาก
แต่ผมไม่อยากเห็นอนาคตเว็บที่แยกผู้สร้างเนื้อหาออกจากผู้ใช้โดยบริษัท AI
ตัวอย่างเช่น หากมีคนหนึ่งทำพาดหัวข่าว/จดหมายข่าวแบบมีค่า โดยเปิดให้ดูบางส่วนฟรีเพื่อดึงผู้มาเยือนที่สนใจ แล้วแปลงบางส่วนให้เป็นผู้จ่ายเงิน
ผู้สร้างชนิดนี้คาดหวังให้เกิดทั้งการอ่านเนื้อหาและการอัปเซลล์ (การชวนสมัคร) ไปด้วยกัน
หาก AI crawler ข้ามขั้นตอนนี้และกินเพียงเนื้อหาสำคัญไปเฉพาะส่วน AI ชนะ ก็ไม่มีเหตุผลที่เนื้อหานั้นต้องถูกเปิดฟรีบนเว็บ
และท้ายที่สุด AI crawler จะทำให้ทุกคนเสียประโยชน์
ยังมีหน้าเว็บจำนวนมากที่ไม่แย่งแยะไปด้วยโฆษณา
เครื่องมือค้นหาเดิมมีข้อตกลงโดยนัยว่า “เราให้คุณครอว์ลหน้าเว็บได้ แต่แลกกับการนำ traffic กลับมาที่เรา”
AI crawler สำหรับโมเดลที่ไม่เปิดเผยทำลายข้อตกลงนี้
มันสร้างโมเดลจากข้อมูล เพิ่มฟังก์ชัน QA(คำถาม-ตอบ) และบริษัทผู้ให้บริการ LLM ก็ทำกำไรหลายพันล้านจากความรู้ที่ได้จากหน้าเว็บผ่าน crawler แต่เว็บแทบไม่ได้อะไรกลับมา
แม้เพียงดึงมาเพื่อสนองคำขอผู้ใช้แล้ว ก็ดูเหมือนว่าผู้ให้บริการ LLM จะไปคว้ากำไรส่วนใหญ่ไว้เอง และผู้แต่งเนื้อหาจริงแทบไม่เห็น traffic เข้ามาเลย
หาก Perplexity ยืนยันว่าการดึงหน้าจาก robots.txt และการบล็อกเพื่อตอบคำขอผู้ใช้เป็นเรื่องที่ยอมรับได้ ผมไม่คิดว่าความเป็นไปได้ที่ข้อมูลเหล่านั้นจะถูกใช้ฝึกต่อในอนาคตจะน้อย
ผมรู้สึกว่าการเปลี่ยนแปลงที่เกิดขึ้นเร็วมากนี้น่าสนใจ
โลกเว็บอาจเปลี่ยนจากแบบ “ทั่วโลก” ไปสู่กลุ่มที่เล็กลงหรือเน้นเฉพาะชุมชน (ไม่ใช่เฉพาะเชิงภูมิศาสตร์)
การเลี้ยงชุมชนของตนเองและเชิญชวนให้เข้าสู่พื้นที่ที่เป็นส่วนตัวมากขึ้นน่าจะสำคัญยิ่งขึ้น
เว็บเปิดสไตล์เดิมคงเป็นพื้นที่ของเครื่องจักรมากขึ้น
เราเคยมอง “บับเบิล” ว่าไม่ดี แต่แท้จริงแล้วบับเบิลเป็นเรื่องธรรมชาติ หากไม่แยกตัวคนเดียวก็ย่อมมีความหมายอยู่
เมื่อเว็บถูกท่วมด้วยเครื่องและเนื้อหาจากเครื่อง พวกเราก็จะได้กลับไปเรียนรู้การเชื่อมต่อกันอีกครั้ง
เรื่องผลการทดสอบที่ถาม Perplexity AI จนมันสรุปข้อมูลโดเมนที่ถูกบล็อกได้อย่างละเอียด
ผมรู้สึกว่านี่เป็นบทความแนวโฆษณาที่สรุปประเด็นโจมตี Perplexity ไม่ชัดเจน
ไม่ชัดเจนว่า Perplexity ได้ลงมือครอว์ลแบบระบบทั้งหมดเองหรือแค่ดึงข้อมูลครั้งเดียวตามคำขอผู้ใช้
คนส่วนใหญ่จะแยกสองสถานการณ์นี้ และมองว่าสถานการณ์หลังยอมรับได้มากกว่ามาก
- ดูเหมือนการโฆษณาแบบ Perplexity มาก
  คราวนี้ก็เห็น Cloudflare ถูกวางเป็นฝ่าย “ดี” กับ Perplexity ฝ่าย “ไม่ดี” แต่ Cloudflare เองก็กำลังตลาดหนักเรื่อง “ช่วยเว็บ” อยู่
  หลักฐานไม่ลึก และสองบริษัทก็ถูกมองเป็น “ศึกยักษ์” จนบางที Perplexity อาจได้ประโยชน์ด้าน PR มากกว่า
- การนำหน้าเว็บกลับมาให้ผู้ใช้แทนกันได้ตามหลักการอาจยอมรับได้ แต่เมื่อดูว่า AI บริษัทเหล่านี้ผ่านการละเลยกฎลิขสิทธิ์มาระยะหนึ่ง ผมเชื่อว่าไม่ควรมองข้ามความเป็นไปได้ที่หน้าที่ดึงมาอาจถูกเก็บไว้สำหรับการฝึกในอนาคตหรือครอว์ลเพิ่มเติม
ในสเปก HTTP ก็สะท้อนการแบ่งแยกนี้ทางอ้อมเช่นกัน
อย่าง “user agent” (ผู้แทนผู้ใช้) มีการกำหนดแนวคิดและชื่อตรงนี้ไว้ชัดเจน
หาก AI แคชผลลัพธ์ทั้งหมดหรือนำไปเป็นคลังที่ให้คนจำนวนมากใช้งาน สุดท้ายก็แทบไม่ต่างจากสแครปเปอร์
แค่มีข้อมูลแคชก็พอสำหรับการฝึกได้แล้ว
คือการดึงเนื้อหาสำคัญผ่านคนกลางและได้สัญญาณค่าเนื้อหาด้วยกลับมาอีกด้วย
ตามคำตอบที่ Perplexity ส่งให้กับ TechCrunch
พวกเขาบอกว่าบล็อกของ Cloudflare เป็นเพียง “การขายงาน” อย่างเดียว
บอกต่อว่า screenshot ในบล็อกแสดงว่า “ไม่มีการเข้าถึงเนื้อหาใดๆ เลย”
และเพิ่มว่าบอทที่ชี้ในบล็อกนั้นไม่ใช่ของพวกเขา
เอง Perplexity ก็มีการปิดกั้น crawler
```
$ curl -sI https://www.perplexity.ai | head -1
HTTP/2 403
```
แม้ปลอมเป็น browser user agent ก็ยังถูกปิดเหมือนเดิม
ดูเหมือนว่าใช้วิธีตรวจจับ crawler แบบค่อนข้างละเอียด
- มีคนถามคำถามนี้ที่ CEO แล้ว https://x.com/AravSrinivas/status/1819610286036488625
- สิ่งที่น่าขำคือ Perplexity เองก็ใช้ Cloudflare
สุดท้ายแล้ว “stealth crawler” ก็จะชนะเสมอ
ด้วยเครื่องมือ browser automation อย่าง W3C WebDriver2, Chrome DevTools Protocol การสร้าง scraper ทำให้แทบตรวจไม่พบได้เลย
อาจเพิ่ม captcha ได้ แต่ผู้พัฒนาสามารถวาง workflow human-in-the-loop ให้เจ้าหน้าที่คอลเซ็นเตอร์เข้ามาจัดการด้วยคนในชั่วโมงทำงานได้
ในการทดสอบเกมเมื่อ 15 ปีก่อน เคยมีการใช้สแครปปิ้งแบบ raster (ภาพหน้าจอ) แล้ว และสิ่งนี้น่าจะทำให้ “ตำรวจอินเทอร์เน็ต” ในยุคนี้ยุ่งยากมาก
- ผมคิดว่าเหตุผลที่ stealth crawler ไม่มีทางชนะได้คือ ในที่สุดการเข้าถึงไซต์ที่มีคุณค่าทุกแห่งจะต้องพึ่งการรับรองตัวตนระยะไกลเป็นข้อบังคับ
ผมเห็นว่าควรมีระบบ micro-payment ในอินเทอร์เน็ต
หาก crawler จ่ายอย่างน้อย 1 เซนต์ต่อหน้า ผมก็พร้อมต้อนรับการครอว์ลตลอด 24 ชั่วโมง
ถ้าผมจ่าย 1 เซนต์ต่อหน้าเพื่อดูเนื้อหาเอง ก็ไม่ต้องทนกับ clickbait หรือกฎโฆษณาแปลกๆ
การเข้าถึงฟรีไม่จำเป็นต้องถูกปิดไปหมด (ถึงแม้ในความเป็นจริงจะถูกปิด แต่ก็มีความหมายบางอย่าง)
อย่างเช่น จินตนาการว่า Reddit ตั้งค่าค่านายหน้าสูงแต่คืนเงินเมื่อเนื้อหาดี เพื่อยกระดับคุณภาพ
ระบบแบบ “ฝาก-ถอนได้-ปรับโทษ” ก็ทำได้: วางเงินประกันตอนสมัคร หากโดนแบนจะถูกริบ หากทำกิจกรรมปกติจะคืน การจัดการจะง่ายขึ้นและคุณภาพเนื้อหาดีกว่า
ความคิดแบบนี้จึงจำเป็น เพราะอินเทอร์เน็ตกำลังเต็มไปด้วยขยะมากขึ้นเรื่อยๆ
อีไอเดียอีกอย่างคือ จ่าย 1 เซนต์ต่อหนึ่งครั้งค้นหาใน Google และให้เงินคืนหากผลไม่ตรงใจ
AI ของ Google ประเมินความพึงพอใจให้ และหากค้นหาไม่พึงพอใจแล้ว จะแสดงเฉพาะผลตามความนิยมที่เต็มไปด้วยโฆษณา
นั่นคือการที่ผู้ใช้ย้ายการจ่ายงบให้ search engine อื่น
เมื่อมีผู้ใดครอว์ลเว็บไซต์สุ่มสี่สุ่มห้าโดยกระทบความเชื่อถือของเครือข่ายสาธารณะ การที่องค์กรมีอำนาจอย่าง Cloudflare พูดวิพากษ์ ‘การสแครปหลอกลวง’ แบบชัดๆ สู่สาธารณะเป็นเรื่องบวก
เองการโต้เถียงเช่นนี้จุดประกายการสนทนาได้
สุดท้ายผู้เล่นรายใหญ่ควรกลับไปสู่ยุคที่เครื่องมือค้นหาอย่างน้อยยังยึดถือกฎเหมือนเดิม
- ตอนนี้คือ “ยุคที่ไร้ความเขิน” จึงคิดว่าการทำให้ใครอับอายไม่เวิร์กแล้ว
search engine ที่เราสร้างเองก็สามารถทำฟีเจอร์ระดับ Perplexity ได้บางส่วน
เทียบกับเพื่อนร่วมงาน มันได้รับความนิยมเกือบ 50/50 กับ Perplexity
เอนจินสามารถดาวน์โหลดหน้าเว็บเพื่อวัตถุประสงค์การวิจัยได้
แต่ถ้าพบ captcha หรือถูกบล็อกก็เลิกเลยทันที
ในขณะที่บริษัทยักษ์ใหญ่ไอทีจำนวนมากกลับคิดว่าด้วยทุน venture capital หลายพันล้านทำอะไรก็ได้ และผมโกรธกับท่าทีแบบนั้น
มีคำกล่าวอ้างว่า “มีเว็บไซต์มากกว่า 2.5 ล้านแห่งเลือกปิดการใช้งานทั้งหมดเพื่อการฝึก AI ด้วยฟีเจอร์ของ Cloudflare ที่จัดการ robots.txt หรือกฎปิด AI crawler”
แต่ความจริงคือ CEO ของ Cloudflare ตั้งค่านี้เป็นค่าเริ่มต้นให้ลูกค้าทุกคน
หากบริษัทใดต้องการคำแนะนำ AI หรือให้ความสำคัญกับ traffic ควรปิดตัวเลือกนี้เพื่อหลีกเลี่ยงความเสียหายทางการเงิน
- คำว่า “ตั้งค่าปริยาย” นี้คือการโกหก
  ผมเช็กไซต์ของ Cloudflare เอง พบว่าถ้าไม่ตั้งค่าใดๆ ฟีเจอร์นี้ก็ไม่ได้เปิดให้โดยอัตโนมัติ
  ถ้าไม่มี robots.txt จะมีข้อความเพียงว่า “พิจารณาเปิดใช้งาน Cloudflare managed robots.txt”
  หากมีไฟล์เดิมอยู่ ก็ยังคงไฟล์เดิม และข้อความแจ้ง AI traffic ก็ยังปิดอยู่
- โดยเฉพาะข้ออ้างว่า “ถ้าต้องการรับ AI recommendations ให้ปิดฟีเจอร์นี้”
  เนื้อหาเชิงการตลาด, SEO ที่ถูก gamify และการระดมโฆษณารุนแรง กำลังทำให้คุณภาพการค้นหา Google แย่ลงมาก
  ในขณะเดียวกัน LLM(โมเดลภาษาใหญ่) ยังไม่เห็นการ gamification ลักษณะนี้ชัดเจน
  วันหนึ่ง LLM ก็อาจเสื่อมเหมือนเครื่องมือค้นหาที่เสียคุณภาพได้เหมือนกัน แต่ผมหวังว่า OpenAI หรือ Anthropic จะตระหนักว่าคุณภาพการค้นหาที่ตกต่ำอาจเป็นสาเหตุหนึ่งที่ทำให้ Google สูญเสีย traffic
- คำกล่าวอ้างเรื่อง “ตั้งค่าปริยาย” เป็นเรื่องเท็จโดยสิ้นเชิง
  จริงๆ แล้วหากไม่กำหนดค่าก็ไม่สมัครใช้ฟังก์ชันนี้อัตโนมัติ
  และไม่ใช่แค่ตอนนี้ที่คำกล่าวนี้ผิด ในความจริงแล้วมันก็ไม่ตรงจากตอนต้นมาเสมอ

Perplexity ใช้เว็บครอว์เลอร์ที่ไม่ประกาศตัวเพื่อเลี่ยงคำสั่งห้ามครอว์ล

ภาพรวมการใช้ครอว์เลอร์แบบลับของ Perplexity

หลักการความไว้วางใจระหว่างเว็บไซต์และครอว์เลอร์ และพฤติกรรมที่เป็นปัญหา

กรณีศึกษาและการตรวจจับ

ตัวอย่างการหลบเลี่ยงด้วยครอว์เลอร์สเตลธ์และข้อจำกัด

เกณฑ์ของผู้ให้บริการบ็อตที่มีเจตนาดีและกรณีตัวอย่างของ OpenAI

วิธีป้องกันและมาตรการตอบโต้

ความพยายามทางนโยบายและแนวโน้มอนาคต

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นจาก Hacker News