แพลตฟอร์ม AI ของ Cloudflare: ชั้นการอนุมานสำหรับเอเจนต์
(blog.cloudflare.com)- สร้าง ชั้นการอนุมานแบบรวมศูนย์ เพื่อลด ความซับซ้อนของแอปพลิเคชันแบบเอเจนต์ โดยรวมโมเดลและผู้ให้บริการที่หลากหลายเข้าไว้ด้วยกัน
- ผ่าน AI Gateway และ Workers AI สามารถเรียกใช้โมเดลมากกว่า 70 รายการและผู้ให้บริการมากกว่า 12 รายผ่าน API เดียว พร้อมบริหารค่าใช้จ่ายและการใช้งานจากศูนย์กลาง
- รองรับการรันโมเดลแบบคอนเทนเนอร์ด้วย เทคโนโลยี Cog ของ Replicate เพื่อให้สามารถนำ โมเดลแบบกำหนดเอง มาปรับใช้ได้โดยตรง
- ใช้โครงสร้างพื้นฐานใน 330 เมืองทั่วโลกเพื่อลด latency ให้ต่ำที่สุด และรับประกันการอนุมานที่เสถียรด้วย การทำ routing อัตโนมัติ เมื่อเกิดปัญหาขัดข้อง
- ทีม Replicate ได้เข้าร่วมกับ Cloudflare เพื่อผสานการโฮสต์และการ deploy โมเดลแบบครบวงจร และกำลังขยายไปสู่ แพลตฟอร์มเดียวสำหรับการพัฒนาเอเจนต์
ภาพรวมของ Cloudflare AI Platform
- เนื่องจาก โมเดล AI เปลี่ยนแปลงอย่างรวดเร็ว และมีความแตกต่างกันระหว่างผู้ให้บริการ ความซับซ้อนของ แอปพลิเคชันแบบเอเจนต์ ที่ใช้งานหลายโมเดลร่วมกันจึงเพิ่มขึ้น
- ตัวอย่างเช่น เอเจนต์ฝ่ายบริการลูกค้าอาจใช้โมเดลที่เร็วสำหรับจัดหมวดหมู่ข้อความ โมเดลขนาดใหญ่สำหรับวางแผน และโมเดลน้ำหนักเบาสำหรับการลงมือทำงาน
- จึงจำเป็นต้องบริหาร ต้นทุน·ความน่าเชื่อถือ·latency แบบรวมศูนย์ โดยไม่ผูกติดกับผู้ให้บริการรายเดียว
- Cloudflare ได้สร้าง ชั้นการอนุมานแบบรวมศูนย์ บนพื้นฐานของ AI Gateway และ Workers AI ที่สามารถเรียกทุกโมเดลผ่าน API เดียว
- ล่าสุดได้เพิ่มการปรับปรุงแดชบอร์ด การตั้งค่าเกตเวย์เริ่มต้นอัตโนมัติ การ retry อัตโนมัติเมื่อ upstream ขัดข้อง และการควบคุม logging แบบละเอียด
แค็ตตาล็อกเดียว ปลายทางรวมศูนย์เดียว
- ผ่าน binding AI.run() สามารถเรียกใช้โมเดลของบุคคลที่สาม เช่น OpenAI และ Anthropic ได้โดยตรงจาก Cloudflare Workers
- หากเปลี่ยนจากโมเดลที่โฮสต์บน Cloudflare ไปเป็นโมเดลของบุคคลที่สาม ก็แก้โค้ดเพียงบรรทัดเดียว
- มีแผนรองรับ REST API เร็ว ๆ นี้ เพื่อให้เข้าถึงแค็ตตาล็อกโมเดลทั้งหมดได้จากทุกสภาพแวดล้อม
- ใช้งานได้กับ โมเดลมากกว่า 70 รายการ และ ผู้ให้บริการมากกว่า 12 ราย ผ่าน API เดียวและการคิดค่าบริการหน่วยเดียว
- ผู้ให้บริการหลัก: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- รองรับการสร้าง แอปพลิเคชันแบบมัลติโมดัล รวมทั้งโมเดลภาพ วิดีโอ และเสียง
- การเรียกใช้โมเดลทั้งหมดถูกรวมผ่าน API เดียว ทำให้ บริหารการใช้งาน AI และค่าใช้จ่ายจากศูนย์กลาง ได้
- โดยเฉลี่ย องค์กรต่าง ๆ เรียกใช้โมเดล 3.5 รายการจากผู้ให้บริการหลายราย แต่ AI Gateway สามารถติดตามทั้งหมดได้จากแดชบอร์ดเดียว
- สามารถแนบ metadata แบบกำหนดเอง ในแต่ละคำขอ เพื่อวิเคราะห์ต้นทุนแยกตามลูกค้าหรือเวิร์กโฟลว์ได้
นำโมเดลของคุณเองมาปรับใช้โดยตรง (Bring Your Own Model)
- แม้ AI Gateway จะรวมโมเดลจากทุกผู้ให้บริการไว้แล้ว แต่ก็อยู่ระหว่างเตรียมรองรับการปรับใช้ โมเดลที่ fine-tune ด้วยข้อมูลของผู้ใช้ โดยตรง
- ปัจจุบันลูกค้าองค์กรสามารถรันโมเดลแบบกำหนดเองบนอินสแตนซ์เฉพาะได้ และมีแผนขยายไปยังผู้ใช้ทั่วไป
- Cloudflare ใช้ เทคโนโลยี Cog ของ Replicate เพื่อทำโมเดลแมชชีนเลิร์นนิงให้อยู่ในรูปคอนเทนเนอร์
- กำหนด dependency ในไฟล์
cog.yamlและเขียนโค้ดอนุมานในไฟล์predict.pyแล้วระบบจะจัดแพ็กเกจให้อัตโนมัติ - Cog ช่วย abstract การตั้งค่าที่ซับซ้อน เช่น CUDA, เวอร์ชัน Python และการโหลด weights
- กำหนด dependency ในไฟล์
- หลังสร้างอิมเมจคอนเทนเนอร์ด้วยคำสั่ง
cog buildแล้วอัปโหลดไปยัง Workers AI, Cloudflare จะดำเนินการ deploy และให้บริการต่อ- ในอนาคตมีแผนเพิ่ม คำสั่ง wrangler, cold start แบบรวดเร็วบนพื้นฐาน GPU snapshot และ API สำหรับลูกค้า
- ขณะนี้กำลังทดสอบกับลูกค้าภายในและภายนอกบางราย และมีแผนขยายให้ทุกคนสามารถใช้โมเดลของตนเองบน Workers AI ได้
ปรับความเร็วให้ถึงโทเค็นแรก
- ชุดผสาน AI Gateway + Workers AI มีข้อได้เปรียบอย่างยิ่งสำหรับ เอเจนต์แบบ live ที่ต้องการการตอบสนองแบบเรียลไทม์
- แม้เวลาการอนุมานทั้งหมดจะอยู่ที่ 3 วินาที แต่หากโทเค็นแรกมาถึงเร็วขึ้น 50ms ก็ช่วยให้ผู้ใช้รู้สึกว่าเร็วขึ้นได้
- Cloudflare ลด network latency ระหว่างผู้ใช้กับปลายทางการอนุมานให้ต่ำที่สุด ผ่าน ดาต้าเซ็นเตอร์ใน 330 เมืองทั่วโลก
- Workers AI โฮสต์ โมเดลโอเพนซอร์ซที่เหมาะกับเอเจนต์ เช่น Kimi K2.5 และโมเดลเสียงแบบเรียลไทม์
- เมื่อเรียกผ่าน AI Gateway โค้ดและการอนุมานจะทำงานอยู่บนเครือข่ายเดียวกัน จึงได้ latency ต่ำที่สุด
ความน่าเชื่อถือด้วยการสลับระบบอัตโนมัติเมื่อเกิดปัญหา
- เวิร์กโฟลว์ของเอเจนต์มีการพึ่งพากันสูงระหว่างแต่ละขั้นตอน ทำให้ ความเสถียรของการอนุมาน เป็นหัวใจสำคัญ
- AI Gateway จะทำ routing ไปยังผู้ให้บริการรายอื่นโดยอัตโนมัติ หากโมเดลเดียวกันมีอยู่ในหลายผู้ให้บริการและรายหนึ่งเกิดปัญหาขัดข้อง
- นักพัฒนาไม่จำเป็นต้องเขียน logic สำหรับจัดการความขัดข้องแยกต่างหาก
- สำหรับเอเจนต์ที่ทำงานระยะยาวซึ่งใช้ Agents SDK การอนุมานแบบสตรีมมิงสามารถ กู้คืนได้แม้การเชื่อมต่อหลุด
- AI Gateway จะบัฟเฟอร์คำตอบแบบสตรีมมิงแยกไว้ ทำให้เมื่อเกิดการหยุดชะงักและเชื่อมต่อใหม่ สามารถนำคำตอบเดิมกลับมาใช้ต่อได้
- สามารถกู้คืนโทเค็นเดิมได้ โดยไม่ถูกคิดค่าบริการซ้ำ และเมื่อใช้ร่วมกับฟีเจอร์ checkpoint ของ SDK ผู้ใช้จะไม่รู้สึกถึงการหยุดชะงัก
การผสานรวม Replicate
- ทีม Replicate ได้เข้าร่วมกับทีม Cloudflare AI Platform และกำลังเดินหน้าสู่การผสานรวมอย่างสมบูรณ์
- ย้ายโมเดลทั้งหมดของ Replicate ไปยัง AI Gateway และ re-platform โมเดลที่โฮสต์อยู่ให้ทำงานบนโครงสร้างพื้นฐานของ Cloudflare
- ผู้ใช้จะสามารถเรียกใช้โมเดล Replicate เดิมผ่าน AI Gateway หรือโฮสต์โมเดลที่ deploy บน Replicate ไว้บน Workers AI ได้
เริ่มต้นใช้งาน
- นักพัฒนาสามารถเริ่มต้นได้จาก เอกสาร AI Gateway หรือ เอกสาร Workers AI
- สามารถสร้างเอเจนต์บน Cloudflare ได้ผ่าน Agents SDK
บทบาทของ Cloudflare
- Cloudflare เป็น connectivity cloud ที่ช่วยปกป้องเครือข่ายองค์กร สร้างแอปพลิเคชันขนาดใหญ่ เร่งประสิทธิภาพเว็บ และรองรับ การป้องกัน DDoS กับ ความปลอดภัยแบบ Zero Trust
- ใช้อินเทอร์เน็ตได้เร็วและปลอดภัยยิ่งขึ้นผ่านแอปฟรี 1.1.1.1
- พันธกิจของ Cloudflare คือ การสร้างอินเทอร์เน็ตที่ดีกว่าเดิม และสามารถดูข้อมูลเพิ่มเติมรวมถึงตำแหน่งงานได้จากเว็บไซต์ทางการ
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
สุดท้ายแล้วนี่ดูเหมือนเป็น openrouter ที่เอา Cloudflare Argo networking มาประกบ
น่าจะสร้างอะไรที่น่าสนใจกว่านี้ได้โดยอาศัยการเข้าซื้อ Replicate
ตอนนี้ application-specific RL กำลังดีขึ้นเรื่อย ๆ แต่ยังขาดวิธี นำไปดีพลอยแบบ scalable
ที่อย่าง Fireworks ก็พูดว่าจะดีพลอย LORA แบบขยายขนาดได้ แต่ในทางปฏิบัติกลับไม่ค่อยเวิร์ก
เพราะงั้นตอนนี้ผมเลยโฮสต์โหลดพื้นฐานของแอปตัวเองบน 3090 หลายใบที่อยู่ในโรงรถเอง ฟังดูตลก แต่ช่วยประหยัดได้เดือนละ 1,000 ดอลลาร์
อันนี้ดูมีประโยชน์พอสมควร Cloudflare กำลังรวบรวมเครื่องมือดี ๆ ได้เก่ง
โดยเฉพาะ D2 ซึ่งแทบจะเป็น sqlite-as-a-service เจ้าเดียวจริง ๆ แถมเสถียรและโควต้าฟรีก็ให้มาเยอะ
เพราะถ้าจะ bind DB ใหม่ ต้อง deploy Worker ใหม่ด้วย จนแทบเป็นไปไม่ได้
query ค้างอยู่ที่ชั้นเครือข่ายภายในเป็นหลายวินาที บางทีก็เป็นสิบวินาที
query บางตัวก็ไม่ขึ้นใน แดชบอร์ด observability ด้วย เลยไม่รู้ว่ามีปัญหาถ้าไม่ได้ใส่ระบบตรวจจับ timeout เอง
มันยังไม่รองรับ transaction และในเธรด issue PM ก็ระบุว่าไม่มีแผนจะทำ
ถ้าจะการันตีความสอดคล้องของข้อมูลก็ต้องใช้ Durable Object ซึ่งก็มีต้นทุนและ trade-off อีกแบบ
ไอเดียนั้นดี แต่ ยังไว้ใจใช้ใน production ได้ยาก, ถ้าเป็นโปรเจกต์งานอดิเรกก็โอเค
ตอนนี้ทำได้แค่เขียนโค้ดคัสตอมใน Worker เอง
จะบอกว่าทำ OpenRouter แต่กลับรองรับแค่ runtime binding ของตัวเองก็ดูเข้าใจยาก
รายการโมเดล Workers AI กับ
แคตตาล็อกโมเดล AI มีรายการโมเดลไม่เหมือนกัน
ในเนมสเปซ “workers-ai/*” มีโมเดลน้อยกว่ามาก ไม่แน่ใจว่าตั้งใจหรือเปล่า
“workers-ai/@cf/nvidia/nemotron-3-120b-a12b”
ไม่มีอยู่ในเอนด์พอยต์ /models ของ gateway.ai.cloudflare.com แต่กลับมีเป็น hosted model
ผมใช้ openrouter บน Cloudflare Workers ได้ดีมาก
ความสามารถด้าน cascading และ waterfalling ตอนโมเดลออฟไลน์ก็ดีกว่ามากด้วย
ดูเหมือนว่าใน V1 ยังทำแบบนั้นไม่ได้
ผมชอบ openrouter ทุกอย่างจนแทบจะเป็นแฟนคลับแล้ว
ปัญหาของ ชั้น inference กำลังถูกแก้ได้เร็วมาก
อย่างที่ยากถัดไปคือ ชั้น governance คือเรื่องที่เอเจนต์ทำอะไรได้บ้างและจะพิสูจน์ได้อย่างไร
อยากรู้ว่า Cloudflare กำลังคิดเรื่องนี้อยู่เหมือนกันไหม
ผมนึกภาพโครงสร้างที่แต่ละเอเจนต์ส่ง RBAC credential เพื่อรับสิทธิ์
ดีใจที่เห็นการเข้าซื้อ Replicate เริ่มออกดอกออกผล เสียที
ในหน้าโมเดล ไม่เห็นข้อมูลราคา
เลยสงสัยว่ามันแพงกว่าจ่ายให้ผู้ให้บริการโดยตรงแค่ไหน
Cloudflare ขายที่ต้นทุนเลยหรือเปล่า?
อีกอย่าง zero data retention ก็ไม่ได้เป็นค่าเริ่มต้น และบางผู้ให้บริการก็ไม่รองรับเลย
ถ้าสามารถคืนค่า completions ได้ทั้งสไตล์ OpenAI และ Anthropic ก็คงดี
ตอนนี้คิดราคาเท่ากับค่าบริการของผู้ให้บริการ และมีค่าดำเนินการเพิ่มเล็กน้อยผ่าน unified billing credits
ส่วน completions แบบ OpenAI/Anthropic ก็จะรองรับเร็ว ๆ นี้เช่นกัน
ลิงก์อธิบาย unified billing
สุดท้ายแล้วนี่ก็ดูเหมือนเป็น บริการคล้าย openrouter
เป็นการประกาศที่ใหญ่พอสมควร ดูแข่งขันได้เต็มที่ในฐานะ ทางเลือกแทน AWS Bedrock
มีโอกาสด้วยซ้ำว่า uptime จะดีกว่า Anthropic หรือ AWS