11 คะแนน โดย GN⁺ 2026-03-11 | 5 ความคิดเห็น | แชร์ทาง WhatsApp
  • Cloudflare เปิดให้ใช้งาน เอนด์พอยต์ /crawl ใหม่ของ Browser Rendering ในสถานะโอเพนเบตา โดยสามารถครอว์ลทั้งเว็บไซต์ได้ด้วยการเรียก API เพียงครั้งเดียว
  • เมื่อส่ง URL เริ่มต้นเข้าไป ระบบจะนำทางผ่านหน้าเว็บโดยอัตโนมัติ ทำการ เรนเดอร์ด้วยเฮดเลสเบราว์เซอร์ และส่งผลลัพธ์กลับในรูปแบบ HTML, Markdown, JSON
  • มีฟีเจอร์ ควบคุมขอบเขตการครอว์ล หลากหลาย เช่น เอาต์พุต JSON แบบมีโครงสร้างที่อาศัย Workers AI, ความลึกในการครอว์ล, การจำกัดจำนวนหน้า, แพตเทิร์นไวลด์การ์ด รวมถึงการครอว์ลแบบเพิ่มเฉพาะส่วนและโหมดสแตติก
  • ปฏิบัติตาม กฎ robots.txt และรองรับ crawl-delay เพื่อป้องกันทราฟฟิกที่ผิดปกติ
  • สามารถนำไปใช้กับการฝึกโมเดล, การสร้าง RAG pipeline, การวิจัยและมอนิเตอร์คอนเทนต์ทั้งเว็บไซต์

ภาพรวมของเอนด์พอยต์ /crawl

  • เอนด์พอยต์ /crawl ที่เพิ่งเพิ่มเข้ามาใหม่ในบริการ Browser Rendering ของ Cloudflare มอบความสามารถในการสำรวจทั้งเว็บไซต์และรวบรวมคอนเทนต์ด้วยการเรียก API เพียงครั้งเดียว
    • ผู้ใช้เพียงส่ง URL เริ่มต้น ระบบจะตามลิงก์โดยอัตโนมัติ เรนเดอร์หน้าเว็บ และส่งผลลัพธ์กลับมา
    • สามารถเลือกผลลัพธ์ที่ส่งกลับได้ในรูปแบบ HTML, Markdown, หรือ JSON แบบมีโครงสร้าง
  • ฟีเจอร์นี้เปิดให้ใช้งานในสถานะ โอเพนเบตา (open beta) และใช้งานได้ทั้งใน แพลน Workers แบบ Free และ Paid
  • งานครอว์ลจะทำงานแบบ อะซิงโครนัส (asynchronous)
    • เมื่อส่ง URL เข้าไปจะได้รับ job ID และสามารถกลับมาตรวจผลลัพธ์ได้เมื่อการประมวลผลเสร็จสิ้น
    • หน้าต่าง ๆ จะถูกประมวลผลตามลำดับ และสามารถตรวจดูผลลัพธ์ที่เสร็จแล้วได้เป็นขั้น ๆ

ฟีเจอร์หลัก

  • รองรับหลายรูปแบบเอาต์พุต
    • ส่งผลลัพธ์กลับได้หลายรูปแบบ เช่น HTML, Markdown, JSON
    • รูปแบบ JSON จะให้ข้อมูลแบบมีโครงสร้างผ่าน Workers AI
  • การควบคุมขอบเขตการครอว์ล (crawl scope controls)
    • สามารถตั้งค่า ความลึกในการครอว์ล (depth), การจำกัดจำนวนหน้า, และ การรวม/ยกเว้นแพตเทิร์น URL ได้
  • การค้นพบหน้าอัตโนมัติ (automatic page discovery)
    • ค้นหา URL อัตโนมัติโดยอิงจาก sitemap, ลิงก์ภายในหน้า, หรือทั้งสองอย่าง
  • การครอว์ลแบบเพิ่มเฉพาะส่วน (incremental crawling)
    • ใช้พารามิเตอร์ modifiedSince และ maxAge เพื่อข้ามหน้าที่ไม่มีการเปลี่ยนแปลง ช่วยลดเวลาและค่าใช้จ่าย
  • โหมดสแตติก (static mode)
    • เมื่อกำหนด render: false จะไม่เปิดเบราว์เซอร์ และ ดึงเฉพาะ HTML แบบสแตติก ทำให้ครอว์ลเว็บไซต์สแตติกได้รวดเร็ว
  • บอตที่ทำงานอย่างเหมาะสม (well-behaved bot)
    • ปฏิบัติตามข้อกำหนดใน robots.txt และรับรู้การตั้งค่า crawl-delay

การใช้งานและเอกสารอ้างอิง

  • เอนด์พอยต์นี้มีประโยชน์สำหรับ การรวบรวมข้อมูลเพื่อฝึกโมเดล, การสร้าง RAG pipeline, และ การวิจัยหรือมอนิเตอร์คอนเทนต์ของเว็บไซต์
  • ผู้ใช้สามารถดูการตั้งค่าได้จาก เอกสาร crawl endpoint
  • หากต้องการตั้งค่าให้เว็บไซต์ของตนเป็นเป้าหมายการครอว์ล ควรตรวจสอบ แนวทางปฏิบัติที่ดีสำหรับ robots.txt และ sitemap

แพลนที่รองรับ

  • ใช้งานได้ทั้งใน แพลน Workers แบบ Free และ Paid

5 ความคิดเห็น

 
hmmhmmhm 2026-03-11

ลองใช้แบบคร่าว ๆ แล้ว แต่ดูเหมือนว่าจะฝ่าการบล็อกบอทไม่ได้ครับ ตอนนี้สำหรับผมก็น่าจะยังใช้ apify หรือ zyte เป็นหลักต่อไปอยู่ดี.. 555

 
xguru 2026-03-11

อันนี้ทะลุฟีเจอร์บล็อกบอตของ Cloudflare ได้ด้วยไหม?
เหมือนทั้งขายหอกทั้งขายโล่เลยเหรอ??
รู้สึกแปลก ๆ นะ ฮ่าๆ

 
eoeoe 2026-03-12

เหมือนเริ่มเป็น Everyone's Marble กันแล้วนะ 555
แบบว่าเป็นความสามารถพิเศษอะไรสักอย่างที่ทำให้การ์ดอะไรสักอย่างป้องกันการลบล้างความสามารถอะไรสักอย่าง....

 
cnaa97 2026-03-11

5555 ดูแล้วก็ขำดีนะ

 
GN⁺ 2026-03-11
ความคิดเห็นบน Hacker News
  • จากประสบการณ์ของฉัน บนหน้าเว็บที่ถูกป้องกันด้วย Cloudflare สิ่งนี้ ใช้ไม่ได้ผล
    น่าเสียดายที่มันเหมือนสร้างปัญหาขึ้นมาเองแล้วค่อยกลับมาขายทางแก้

    • ถ้าผ่าน bot protection ของ Azure ได้ก็น่าจะพอใช้ได้อยู่
  • น่าแปลกที่ Cloudflare ไม่โฮสต์ เวอร์ชันที่สแครปล่วงหน้าไว้แล้ว ของเว็บไซต์ที่ใช้พร็อกซีของตัวเอง
    เช่น อาจเปิดให้ในรูปแบบอย่าง https://www.example.com/cdn-cgi/cached-contents.json ก็ได้ เพราะยังไงก็มีคอนเทนต์อยู่ในแคชแล้ว เลยคิดว่าไม่น่าจำเป็นต้องผ่านบริการหรือ API สำหรับสแครปอีก
    แน่นอนว่าคงมีเหตุผลที่ไม่ทำแบบนั้น แต่ก็ยังน่าแปลกที่มันไม่ได้เป็นตัวเลือกพื้นฐาน

    • การเปิด cache dump แบบนี้ต่อสาธารณะ จะทำลายสมมติฐานเรื่องความเป็นส่วนตัวและลิขสิทธิ์ของต้นฉบับไปหมด
      จะใส่ access control ก็ได้ แต่สุดท้ายมันก็เท่ากับสร้าง CDN API ที่ซับซ้อน ขึ้นมาใหม่โดยไม่มีใครต้องการ แถมยังมีปัญหาทางกฎหมายตามมา
      ระหว่าง “JSON ที่ใช้งานสะดวก” กับ “ส่งมอบทั้งเว็บไซต์ให้ AI scraper” มันต่างกันแค่นิดเดียว
    • การแปลงเป็น JSON ใช้ CPU และถ้าจะเก็บผลลัพธ์ไว้ก็ทำให้พื้นที่แคช เพิ่มเป็นสองเท่า
      ถ้าแปลงเฉพาะตอนมีคำขอ ก็ยังลดคำขอไปยังต้นทางได้พร้อมรักษาประสิทธิภาพของแคชไว้
      ตอนที่ฉันทำงานกับ CDN เราใช้ ‘second hit caching’ เพื่อเพิ่มอัตรา cache hit — คือจะเก็บลงแคชก็ต่อเมื่อมีคำขอครั้งที่สองเข้ามาเท่านั้น
    • แม้จะไม่เหมือนกันทั้งหมด แต่ Cloudflare ก็มีฟีเจอร์คล้ายกันอยู่แล้ว
      ถ้าเปิด Markdown for Agents ระบบ AI ที่ขอ text/markdown จะได้รับ HTML ที่ถูก แปลงเป็น Markdown แบบเรียลไทม์
    • ที่จริงแล้ว ภายในระบบเองก็อาจให้บริการ คอนเทนต์สาธารณะผ่านแคช ในลักษณะนี้อยู่แล้วก็ได้
    • แต่แนวทางนี้ใช้ได้กับเว็บแบบง่าย ๆ เท่านั้น ส่วน เว็บซับซ้อนอย่าง SPA ก็ยังต้องพึ่งบริการสแครปที่ต้องเรนเดอร์ผ่านเบราว์เซอร์อยู่ดี
  • การที่ Cloudflare ขายทั้ง ระบบป้องกันการสแครป และบริการสแครปไปพร้อมกัน มันให้ความรู้สึกเหมือน มาเฟีย
    เป็นสิ่งที่ทำได้เพราะมีอิทธิพลครอบคลุมอินเทอร์เน็ตในวงกว้าง

    • ไม่จริง เอกสารทางการ อธิบายไว้แล้ว
    • DNS ฟรีเป็นแค่ส่วนหนึ่งของทั้งหมด อำนาจที่แท้จริงอยู่ที่ บริการแคช การเราต์ และการป้องกัน DDoS
      DNS มีไว้เพื่อเก็บข้อมูลและสร้าง ‘ภาพลักษณ์ที่ดี’
    • ไม่ได้ขายแค่การป้องกันการสแครป แต่ขาย การป้องกัน DDoS สำหรับเว็บ
    • ดูเหมือน Cloudflare กำลังพยายามเป็น ตัวกลางระหว่างผู้เผยแพร่กับบริษัท AI
      คือให้ผู้เผยแพร่อยู่หลัง Cloudflare แล้วถ้าบริษัท AI ต้องการข้อมูล ก็ต้องเข้าถึงแบบมีค่าใช้จ่ายผ่าน Cloudflare
      ลูกค้าหลักไม่ใช่ผู้ใช้ทั่วไป แต่เป็นบริษัท AI
    • endpoint /crawl เคารพ robots.txt
      กล่าวคือ URL ที่ห้ามครอลจะถูกแสดงในผลตอบกลับเป็น "status": "disallowed"
  • การเปิด crawl endpoint แบบมีโครงสร้างให้ใช้ รู้สึกเหมือนเป็นวิวัฒนาการตามธรรมชาติของ robots.txt หรือ sitemap
    ถ้ามีเว็บไซต์มากขึ้นที่ให้ จุดเข้าใช้งานสำหรับเครื่องอ่าน แบบนี้ การทำดัชนีก็น่าจะมีประสิทธิภาพขึ้นมาก
    ตอนนี้ crawler ยังเสียทรัพยากรไปกับการสำรวจโครงสร้างเดิมซ้ำ ๆ อยู่มาก

    • ถ้ายังยึด REST ต่อไป การสูญเปล่าจากการทำดัชนีก็น่าจะลดลงมาก
      ฉันชอบแนวทางที่ออกแบบ API โดยยึดมนุษย์เป็นศูนย์กลาง แล้วให้ผู้ให้บริการ LLM ไปปรับแต่งต่อบนสิ่งนั้นมากกว่า
    • ที่จริง semantic HTML ก็ทำหน้าที่นั้นอยู่แล้ว
      HTML และ DOM มีโครงสร้างโดยพื้นฐานเพื่อ ให้เครื่องอ่านได้
      ไม่จำเป็นต้องประดิษฐ์ของใหม่ แค่ใช้เทคโนโลยีที่มีอยู่ให้ถูกต้องก็พอ
    • คนที่ได้ประโยชน์จากการครอลแบบไร้ประสิทธิภาพมีแค่ ผู้ให้บริการโซลูชัน anti-bot เท่านั้น
    • แต่โครงสร้างแบบนี้อาจทำให้ supply chain attack แย่ลงได้
      เช่น เอาหน้าปกติให้คนเห็น แต่ส่งอีกหน้าหนึ่งให้บอตแทน
    • สุดท้ายแล้ว การแสดงคอนเทนต์คนละแบบให้ crawler กับคน ก็สร้างปัญหาเชิงพื้นฐานอยู่ดี
  • น่าเสียดายที่มันไม่รองรับฟอร์แมต WARC ทั้งที่น่าจะใช้สำหรับ การเก็บถาวรเว็บ ได้ดี
    มันน่าจะมีประโยชน์กับนักข่าวหรือนักวิจัย

  • เซิร์ฟเวอร์ต้นทางยังสามารถ ตรวจจับและบล็อกคำขอ Browser Rendering ของ Cloudflare ได้อยู่
    แยกได้ด้วยเฮดเดอร์ CF-Worker และกรองได้ในกฎ WAF หรือมิดเดิลแวร์
    อย่างไรก็ตาม คำขอเหล่านี้มาจาก Cloudflare ASN 13335 และมี bot score ต่ำ จึงใช้การป้องกันแบบดูคะแนนอย่างเดียวไม่ได้ผล
    สุดท้ายแล้ว การจำกัดอัตราในระดับแอปพลิเคชันและการวิเคราะห์พฤติกรรม มีประสิทธิภาพมากกว่า
    มันมีความขัดแย้งเชิงโครงสร้างอยู่ แต่ก็คล้ายกับกรณีที่เสิร์ชเอนจินมีเครื่องมือสำหรับเว็บมาสเตอร์

    • พวกเขาทำตาม robots.txt ดังนั้นนั่นคือวิธีที่ง่ายที่สุด
  • ฉันสงสัยว่า crawler ตัวนี้ทำงานก่อนหรือหลัง logic บล็อกบอต

  • ฉันเคยคิดว่าน่าจะดีถ้าสามารถให้บริการ เวอร์ชันที่ครอลได้ดี ของเว็บไซต์ฉันเอง
    ถ้าให้ฟีเจอร์แบบนั้นกับผู้ดูแลเว็บไซต์ crawler ก็น่าจะแค่จ่ายค่าแบนด์วิดท์แล้วเข้าถึงได้
    อาจทำเป็นให้รันงานครอลกับเว็บไซต์ของฉันโดยตรง แล้วนำไปเสิร์ฟผ่านซับโดเมน static. ก็ได้

    • แต่ฉันยังไม่ค่อยเข้าใจว่าจะเอาไปใช้ทำอะไร
      ถ้าเว็บเป็นแบบสแตติก ก็แค่เรนเดอร์เป็น HTML แล้วโฮสต์ไว้ก็พอ ส่วนถ้าเป็นแบบไดนามิก ก็สงสัยว่าสแนปช็อตจะมีความหมายแค่ไหน
      การเพิ่มแคชน่าจะเป็นแนวทางที่ดีกว่า
  • ช่วงนี้ Cloudflare ดูเหมือนจะ กวาดเอาฟีเจอร์เจ๋ง ๆ ไปหมด
    เลยสงสัยว่า AWS กำลังทำอะไรอยู่

  • ฟีเจอร์นี้น่าประทับใจมากจริง ๆ
    Cloudflare กำลัง ขยับตัวล่วงหน้าไปในทิศทางของอนาคต