• จากการที่ทราฟฟิกจาก AI crawler และเอเจนต์เพิ่มขึ้น โครงสร้างเว็บจึงกำลังเปลี่ยนไปสู่รูปแบบที่ไม่ใช่แค่คนอ่าน แต่เป็น เครื่องที่นำเนื้อหาไปใช้ได้โดยตรง
  • เมื่อแปลง HTML เป็น markdown จะช่วย ลดการใช้โทเค็นได้ราว 80% ทำให้ต้นทุนและประสิทธิภาพการประมวลผลดีขึ้น
  • รองรับ การแปลง HTML→Markdown แบบเรียลไทม์ บนระดับเครือข่าย โดยอิงจากเฮดเดอร์ Accept: text/markdown
  • มีเฮดเดอร์ x-markdown-tokens, Content-Signal เพื่อส่งมอบ ค่าประมาณจำนวนโทเค็นและนโยบายการใช้งาน AI ไปพร้อมกัน
  • สามารถติดตามรูปแบบการใช้เนื้อหาของบอต AI ได้ใน Radar และ เปิดให้ใช้ฟรีแบบเบต้าในแพลน Pro ขึ้นไป

เบื้องหลัง: โครงสร้างทราฟฟิกเว็บที่กำลังเปลี่ยนไปสู่เอเจนต์ AI

  • วิธีค้นพบคอนเทนต์ออนไลน์กำลังเปลี่ยนอย่างรวดเร็ว จากเดิมที่ยึดศูนย์กลางอยู่ที่เสิร์ชเอนจินแบบดั้งเดิม ไปสู่ โครงสร้างที่มี AI crawler และเอเจนต์เป็นศูนย์กลาง
    • ในอดีต SEO เป็นตัวกำหนดทราฟฟิก แต่ตอนนี้ระบบ AI ที่ต้องการข้อมูลเชิงโครงสร้างได้กลายมาเป็นผู้บริโภคหลัก
  • องค์กรจำเป็นต้องคำนึงถึงไม่ใช่แค่ผู้เข้าชมที่เป็นมนุษย์ แต่รวมถึง เอเจนต์ในฐานะ first-class citizen ด้วย
  • เว็บแบบเดิมถูกออกแบบบนโครงสร้าง HTML เพื่อมนุษย์ ทำให้มีองค์ประกอบที่ไม่จำเป็นมากเกินไปสำหรับการประมวลผลโดย AI

ทำไมต้องเป็น Markdown

  • HTML มีโครงสร้างที่ สิ้นเปลืองโทเค็น เพราะมี <div>, <script>, องค์ประกอบนำทาง และส่วนอื่น ๆ ที่ไม่เกี่ยวกับความหมายเชิง semantic
    • ตัวอย่าง: ## About Us ใช้ประมาณ 3 โทเค็น ขณะที่ HTML แบบเดียวกัน <h2 class="section-title"...> ใช้ 12~15 โทเค็น
  • จากบทความบล็อกนี้ HTML 16,180 โทเค็น → Markdown 3,150 โทเค็น หรือประหยัดโทเค็นได้ประมาณ 80%
  • Markdown ให้โครงสร้างที่ชัดเจน จึงช่วย เพิ่มประสิทธิภาพการประมวลผลของ AI และคุณภาพของผลลัพธ์
  • ปัจจุบันไปป์ไลน์ AI ส่วนใหญ่มีขั้นตอนแปลง HTML→Markdown อยู่แล้ว แต่ก็มีข้อเสียคือ
    • ต้นทุนการประมวลผลเพิ่มขึ้น
    • ความซับซ้อนของกระบวนการสูงขึ้น
    • อาจไม่ตรงกับเจตนาของผู้เขียน

Markdown for Agents: การแปลงอัตโนมัติในระดับเครือข่าย

  • รองรับ การแปลง HTML→Markdown แบบเรียลไทม์ บนเครือข่าย Cloudflare
    • ทำงานบนโซนที่เปิดใช้งาน โดยอิงตาม content negotiation
  • เมื่อไคลเอนต์ส่งคำขอพร้อมเฮดเดอร์ Accept: text/markdown
    • ระบบจะดึง HTML ต้นฉบับจาก origin มาก่อน
    • จากนั้นแปลงเป็น Markdown บนเครือข่ายแล้วส่งกลับ
  • ตัวอย่างการตอบกลับ
    • content-type: text/markdown
    • vary: accept
    • มีเฮดเดอร์ x-markdown-tokens: 725
  • x-markdown-tokens ใช้ส่งมอบ ค่าประมาณจำนวนโทเค็นของเอกสาร Markdown
    • สามารถนำไปใช้คำนวณ context window
    • ใช้กำหนดกลยุทธ์การ chunk ได้

การเชื่อมโยงกับนโยบาย Content Signals

  • ผสานรวมกับ Content Signals เฟรมเวิร์ก
  • โดยค่าเริ่มต้น การตอบกลับแบบ Markdown จะมี
    • เฮดเดอร์ Content-Signal: ai-train=yes, search=yes, ai-input=yes
  • สามารถระบุได้อย่างชัดเจนว่าอนุญาตให้ใช้กับการฝึก AI การค้นหา และการป้อนข้อมูลให้เอเจนต์หรือไม่
  • ในอนาคตมีแผนเพิ่มตัวเลือกนโยบายแบบกำหนดเอง

กรณีใช้งาน: Cloudflare Blog และ Developer Docs

  • เปิดใช้งานฟีเจอร์นี้กับ Developer Documentation และ Blog แล้ว
  • เมื่อส่งคำขอ curl -H "Accept: text/markdown" จะได้รับผลลัพธ์เป็น Markdown
  • ส่วนต้นของการตอบกลับมีเมทาดาทาแบบ YAML
    • title
    • description
    • image และข้อมูลเชิงโครงสร้างอื่น ๆ

วิธีแปลงเอกสารนอก Cloudflare

  • Workers AI AI.toMarkdown()
    • รองรับการแปลงและสรุปเอกสารหลายรูปแบบรวมถึง HTML
  • Browser Rendering /markdown REST API
    • รองรับการแปลงเป็น Markdown หลังเรนเดอร์ด้วยเบราว์เซอร์จริง
    • จัดการหน้าเว็บแบบไดนามิกได้

การติดตามการใช้ Markdown: Cloudflare Radar

  • ใน Radar AI Insights มีการเพิ่มมิติ content_type
    • ทำให้ตรวจสอบการกระจายของ MIME type ของเนื้อหาที่ส่งกลับให้บอต AI และ crawler ได้
  • สามารถกรองคำขอ Markdown ตามเอเจนต์แต่ละตัวได้
    • เช่น: OAI-Searchbot(GPTBot)
  • เข้าถึงข้อมูลได้ผ่าน Public API และ Data Explorer

วิธีเริ่มต้นใช้งานและขอบเขตการให้บริการ

  • Cloudflare Dashboard → เลือก Zone → เปิดใช้งานฟีเจอร์จาก Quick Actions
  • สำหรับลูกค้าแพลน Pro, Business, Enterprise และลูกค้า SSL for SaaS
  • ขณะนี้อยู่ในช่วงเบต้าและเปิดให้ใช้ฟรี
  • สามารถดูรายละเอียดเพิ่มเติมได้ใน Developer Docs

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น