2 คะแนน โดย GN⁺ 13 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • สร้าง ชั้นการอนุมานแบบรวมศูนย์ เพื่อลด ความซับซ้อนของแอปพลิเคชันแบบเอเจนต์ โดยรวมโมเดลและผู้ให้บริการที่หลากหลายเข้าไว้ด้วยกัน
  • ผ่าน AI Gateway และ Workers AI สามารถเรียกใช้โมเดลมากกว่า 70 รายการและผู้ให้บริการมากกว่า 12 รายผ่าน API เดียว พร้อมบริหารค่าใช้จ่ายและการใช้งานจากศูนย์กลาง
  • รองรับการรันโมเดลแบบคอนเทนเนอร์ด้วย เทคโนโลยี Cog ของ Replicate เพื่อให้สามารถนำ โมเดลแบบกำหนดเอง มาปรับใช้ได้โดยตรง
  • ใช้โครงสร้างพื้นฐานใน 330 เมืองทั่วโลกเพื่อลด latency ให้ต่ำที่สุด และรับประกันการอนุมานที่เสถียรด้วย การทำ routing อัตโนมัติ เมื่อเกิดปัญหาขัดข้อง
  • ทีม Replicate ได้เข้าร่วมกับ Cloudflare เพื่อผสานการโฮสต์และการ deploy โมเดลแบบครบวงจร และกำลังขยายไปสู่ แพลตฟอร์มเดียวสำหรับการพัฒนาเอเจนต์

ภาพรวมของ Cloudflare AI Platform

  • เนื่องจาก โมเดล AI เปลี่ยนแปลงอย่างรวดเร็ว และมีความแตกต่างกันระหว่างผู้ให้บริการ ความซับซ้อนของ แอปพลิเคชันแบบเอเจนต์ ที่ใช้งานหลายโมเดลร่วมกันจึงเพิ่มขึ้น
    • ตัวอย่างเช่น เอเจนต์ฝ่ายบริการลูกค้าอาจใช้โมเดลที่เร็วสำหรับจัดหมวดหมู่ข้อความ โมเดลขนาดใหญ่สำหรับวางแผน และโมเดลน้ำหนักเบาสำหรับการลงมือทำงาน
    • จึงจำเป็นต้องบริหาร ต้นทุน·ความน่าเชื่อถือ·latency แบบรวมศูนย์ โดยไม่ผูกติดกับผู้ให้บริการรายเดียว
  • Cloudflare ได้สร้าง ชั้นการอนุมานแบบรวมศูนย์ บนพื้นฐานของ AI Gateway และ Workers AI ที่สามารถเรียกทุกโมเดลผ่าน API เดียว
    • ล่าสุดได้เพิ่มการปรับปรุงแดชบอร์ด การตั้งค่าเกตเวย์เริ่มต้นอัตโนมัติ การ retry อัตโนมัติเมื่อ upstream ขัดข้อง และการควบคุม logging แบบละเอียด

แค็ตตาล็อกเดียว ปลายทางรวมศูนย์เดียว

  • ผ่าน binding AI.run() สามารถเรียกใช้โมเดลของบุคคลที่สาม เช่น OpenAI และ Anthropic ได้โดยตรงจาก Cloudflare Workers
    • หากเปลี่ยนจากโมเดลที่โฮสต์บน Cloudflare ไปเป็นโมเดลของบุคคลที่สาม ก็แก้โค้ดเพียงบรรทัดเดียว
    • มีแผนรองรับ REST API เร็ว ๆ นี้ เพื่อให้เข้าถึงแค็ตตาล็อกโมเดลทั้งหมดได้จากทุกสภาพแวดล้อม
  • ใช้งานได้กับ โมเดลมากกว่า 70 รายการ และ ผู้ให้บริการมากกว่า 12 ราย ผ่าน API เดียวและการคิดค่าบริการหน่วยเดียว
    • ผู้ให้บริการหลัก: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
    • รองรับการสร้าง แอปพลิเคชันแบบมัลติโมดัล รวมทั้งโมเดลภาพ วิดีโอ และเสียง
  • การเรียกใช้โมเดลทั้งหมดถูกรวมผ่าน API เดียว ทำให้ บริหารการใช้งาน AI และค่าใช้จ่ายจากศูนย์กลาง ได้
    • โดยเฉลี่ย องค์กรต่าง ๆ เรียกใช้โมเดล 3.5 รายการจากผู้ให้บริการหลายราย แต่ AI Gateway สามารถติดตามทั้งหมดได้จากแดชบอร์ดเดียว
    • สามารถแนบ metadata แบบกำหนดเอง ในแต่ละคำขอ เพื่อวิเคราะห์ต้นทุนแยกตามลูกค้าหรือเวิร์กโฟลว์ได้

นำโมเดลของคุณเองมาปรับใช้โดยตรง (Bring Your Own Model)

  • แม้ AI Gateway จะรวมโมเดลจากทุกผู้ให้บริการไว้แล้ว แต่ก็อยู่ระหว่างเตรียมรองรับการปรับใช้ โมเดลที่ fine-tune ด้วยข้อมูลของผู้ใช้ โดยตรง
    • ปัจจุบันลูกค้าองค์กรสามารถรันโมเดลแบบกำหนดเองบนอินสแตนซ์เฉพาะได้ และมีแผนขยายไปยังผู้ใช้ทั่วไป
  • Cloudflare ใช้ เทคโนโลยี Cog ของ Replicate เพื่อทำโมเดลแมชชีนเลิร์นนิงให้อยู่ในรูปคอนเทนเนอร์
    • กำหนด dependency ในไฟล์ cog.yaml และเขียนโค้ดอนุมานในไฟล์ predict.py แล้วระบบจะจัดแพ็กเกจให้อัตโนมัติ
    • Cog ช่วย abstract การตั้งค่าที่ซับซ้อน เช่น CUDA, เวอร์ชัน Python และการโหลด weights
  • หลังสร้างอิมเมจคอนเทนเนอร์ด้วยคำสั่ง cog build แล้วอัปโหลดไปยัง Workers AI, Cloudflare จะดำเนินการ deploy และให้บริการต่อ
    • ในอนาคตมีแผนเพิ่ม คำสั่ง wrangler, cold start แบบรวดเร็วบนพื้นฐาน GPU snapshot และ API สำหรับลูกค้า
    • ขณะนี้กำลังทดสอบกับลูกค้าภายในและภายนอกบางราย และมีแผนขยายให้ทุกคนสามารถใช้โมเดลของตนเองบน Workers AI ได้

ปรับความเร็วให้ถึงโทเค็นแรก

  • ชุดผสาน AI Gateway + Workers AI มีข้อได้เปรียบอย่างยิ่งสำหรับ เอเจนต์แบบ live ที่ต้องการการตอบสนองแบบเรียลไทม์
    • แม้เวลาการอนุมานทั้งหมดจะอยู่ที่ 3 วินาที แต่หากโทเค็นแรกมาถึงเร็วขึ้น 50ms ก็ช่วยให้ผู้ใช้รู้สึกว่าเร็วขึ้นได้
  • Cloudflare ลด network latency ระหว่างผู้ใช้กับปลายทางการอนุมานให้ต่ำที่สุด ผ่าน ดาต้าเซ็นเตอร์ใน 330 เมืองทั่วโลก
  • Workers AI โฮสต์ โมเดลโอเพนซอร์ซที่เหมาะกับเอเจนต์ เช่น Kimi K2.5 และโมเดลเสียงแบบเรียลไทม์
    • เมื่อเรียกผ่าน AI Gateway โค้ดและการอนุมานจะทำงานอยู่บนเครือข่ายเดียวกัน จึงได้ latency ต่ำที่สุด

ความน่าเชื่อถือด้วยการสลับระบบอัตโนมัติเมื่อเกิดปัญหา

  • เวิร์กโฟลว์ของเอเจนต์มีการพึ่งพากันสูงระหว่างแต่ละขั้นตอน ทำให้ ความเสถียรของการอนุมาน เป็นหัวใจสำคัญ
    • AI Gateway จะทำ routing ไปยังผู้ให้บริการรายอื่นโดยอัตโนมัติ หากโมเดลเดียวกันมีอยู่ในหลายผู้ให้บริการและรายหนึ่งเกิดปัญหาขัดข้อง
    • นักพัฒนาไม่จำเป็นต้องเขียน logic สำหรับจัดการความขัดข้องแยกต่างหาก
  • สำหรับเอเจนต์ที่ทำงานระยะยาวซึ่งใช้ Agents SDK การอนุมานแบบสตรีมมิงสามารถ กู้คืนได้แม้การเชื่อมต่อหลุด
    • AI Gateway จะบัฟเฟอร์คำตอบแบบสตรีมมิงแยกไว้ ทำให้เมื่อเกิดการหยุดชะงักและเชื่อมต่อใหม่ สามารถนำคำตอบเดิมกลับมาใช้ต่อได้
    • สามารถกู้คืนโทเค็นเดิมได้ โดยไม่ถูกคิดค่าบริการซ้ำ และเมื่อใช้ร่วมกับฟีเจอร์ checkpoint ของ SDK ผู้ใช้จะไม่รู้สึกถึงการหยุดชะงัก

การผสานรวม Replicate

  • ทีม Replicate ได้เข้าร่วมกับทีม Cloudflare AI Platform และกำลังเดินหน้าสู่การผสานรวมอย่างสมบูรณ์
    • ย้ายโมเดลทั้งหมดของ Replicate ไปยัง AI Gateway และ re-platform โมเดลที่โฮสต์อยู่ให้ทำงานบนโครงสร้างพื้นฐานของ Cloudflare
    • ผู้ใช้จะสามารถเรียกใช้โมเดล Replicate เดิมผ่าน AI Gateway หรือโฮสต์โมเดลที่ deploy บน Replicate ไว้บน Workers AI ได้

เริ่มต้นใช้งาน

บทบาทของ Cloudflare

  • Cloudflare เป็น connectivity cloud ที่ช่วยปกป้องเครือข่ายองค์กร สร้างแอปพลิเคชันขนาดใหญ่ เร่งประสิทธิภาพเว็บ และรองรับ การป้องกัน DDoS กับ ความปลอดภัยแบบ Zero Trust
  • ใช้อินเทอร์เน็ตได้เร็วและปลอดภัยยิ่งขึ้นผ่านแอปฟรี 1.1.1.1
  • พันธกิจของ Cloudflare คือ การสร้างอินเทอร์เน็ตที่ดีกว่าเดิม และสามารถดูข้อมูลเพิ่มเติมรวมถึงตำแหน่งงานได้จากเว็บไซต์ทางการ

1 ความคิดเห็น

 
GN⁺ 13 일 전
ความคิดเห็นจาก Hacker News
  • สุดท้ายแล้วนี่ดูเหมือนเป็น openrouter ที่เอา Cloudflare Argo networking มาประกบ
    น่าจะสร้างอะไรที่น่าสนใจกว่านี้ได้โดยอาศัยการเข้าซื้อ Replicate
    ตอนนี้ application-specific RL กำลังดีขึ้นเรื่อย ๆ แต่ยังขาดวิธี นำไปดีพลอยแบบ scalable
    ที่อย่าง Fireworks ก็พูดว่าจะดีพลอย LORA แบบขยายขนาดได้ แต่ในทางปฏิบัติกลับไม่ค่อยเวิร์ก
    เพราะงั้นตอนนี้ผมเลยโฮสต์โหลดพื้นฐานของแอปตัวเองบน 3090 หลายใบที่อยู่ในโรงรถเอง ฟังดูตลก แต่ช่วยประหยัดได้เดือนละ 1,000 ดอลลาร์

    • อยากรู้ว่าคุณรันโมเดลอะไรอยู่บ้าง และถ้าจะสเกลขึ้นต้องใช้ 3090 กี่ใบ
  • อันนี้ดูมีประโยชน์พอสมควร Cloudflare กำลังรวบรวมเครื่องมือดี ๆ ได้เก่ง
    โดยเฉพาะ D2 ซึ่งแทบจะเป็น sqlite-as-a-service เจ้าเดียวจริง ๆ แถมเสถียรและโควต้าฟรีก็ให้มาเยอะ

    • ในเอกสารกับการตลาดชอบเน้นการใช้งานแบบ “DB แยกตามผู้ใช้, แยกตาม tenant” แต่เอาเข้าจริง ใช้ร่วมกับ Workers ได้ยาก
      เพราะถ้าจะ bind DB ใหม่ ต้อง deploy Worker ใหม่ด้วย จนแทบเป็นไปไม่ได้
    • จากประสบการณ์ของเรา ความเสถียรของ D1 ไม่ค่อยดี
      query ค้างอยู่ที่ชั้นเครือข่ายภายในเป็นหลายวินาที บางทีก็เป็นสิบวินาที
      query บางตัวก็ไม่ขึ้นใน แดชบอร์ด observability ด้วย เลยไม่รู้ว่ามีปัญหาถ้าไม่ได้ใส่ระบบตรวจจับ timeout เอง
      มันยังไม่รองรับ transaction และในเธรด issue PM ก็ระบุว่าไม่มีแผนจะทำ
      ถ้าจะการันตีความสอดคล้องของข้อมูลก็ต้องใช้ Durable Object ซึ่งก็มีต้นทุนและ trade-off อีกแบบ
      ไอเดียนั้นดี แต่ ยังไว้ใจใช้ใน production ได้ยาก, ถ้าเป็นโปรเจกต์งานอดิเรกก็โอเค
    • อยากให้ Cloudflare มีระบบ แบ็กอัป D1-R2 มาให้เป็นค่ามาตรฐาน
      ตอนนี้ทำได้แค่เขียนโค้ดคัสตอมใน Worker เอง
    • ข้อจำกัด 10GB ของ D1 เล็กเกินไป นอกจากโปรเจกต์ระดับของเล่นแล้วก็ดูใช้งานลำบาก
    • เขาบอกว่า REST API จะออกเร็ว ๆ นี้ แต่โครงสร้างก็ดูเหมือนออกแบบมาเพื่อ ล็อกอินกับ Cloudflare
      จะบอกว่าทำ OpenRouter แต่กลับรองรับแค่ runtime binding ของตัวเองก็ดูเข้าใจยาก
  • รายการโมเดล Workers AI กับ
    แคตตาล็อกโมเดล AI มีรายการโมเดลไม่เหมือนกัน
    ในเนมสเปซ “workers-ai/*” มีโมเดลน้อยกว่ามาก ไม่แน่ใจว่าตั้งใจหรือเปล่า

    • ยกตัวอย่างเช่น “workers-ai/@cf/google/gemma-4-26b-a4b-it” หรือ
      “workers-ai/@cf/nvidia/nemotron-3-120b-a12b”
      ไม่มีอยู่ในเอนด์พอยต์ /models ของ gateway.ai.cloudflare.com แต่กลับมีเป็น hosted model
  • ผมใช้ openrouter บน Cloudflare Workers ได้ดีมาก
    ความสามารถด้าน cascading และ waterfalling ตอนโมเดลออฟไลน์ก็ดีกว่ามากด้วย
    ดูเหมือนว่าใน V1 ยังทำแบบนั้นไม่ได้
    ผมชอบ openrouter ทุกอย่างจนแทบจะเป็นแฟนคลับแล้ว

  • ปัญหาของ ชั้น inference กำลังถูกแก้ได้เร็วมาก
    อย่างที่ยากถัดไปคือ ชั้น governance คือเรื่องที่เอเจนต์ทำอะไรได้บ้างและจะพิสูจน์ได้อย่างไร
    อยากรู้ว่า Cloudflare กำลังคิดเรื่องนี้อยู่เหมือนกันไหม

    • ถ้ามี ระบบยืนยันตัวตนอัตโนมัติบนพื้นฐาน zero-trust ก็น่าจะดี
      ผมนึกภาพโครงสร้างที่แต่ละเอเจนต์ส่ง RBAC credential เพื่อรับสิทธิ์
  • ดีใจที่เห็นการเข้าซื้อ Replicate เริ่มออกดอกออกผล เสียที

  • ในหน้าโมเดล ไม่เห็นข้อมูลราคา
    เลยสงสัยว่ามันแพงกว่าจ่ายให้ผู้ให้บริการโดยตรงแค่ไหน
    Cloudflare ขายที่ต้นทุนเลยหรือเปล่า?
    อีกอย่าง zero data retention ก็ไม่ได้เป็นค่าเริ่มต้น และบางผู้ให้บริการก็ไม่รองรับเลย
    ถ้าสามารถคืนค่า completions ได้ทั้งสไตล์ OpenAI และ Anthropic ก็คงดี

    • ผมเป็นวิศวกรของ Cloudflare เราจะเพิ่ม ข้อมูลราคาในเอกสารและแดชบอร์ด เร็ว ๆ นี้
      ตอนนี้คิดราคาเท่ากับค่าบริการของผู้ให้บริการ และมีค่าดำเนินการเพิ่มเล็กน้อยผ่าน unified billing credits
      ส่วน completions แบบ OpenAI/Anthropic ก็จะรองรับเร็ว ๆ นี้เช่นกัน
      ลิงก์อธิบาย unified billing
    • ราคาของ Workers AI ดูได้ที่นี่
  • สุดท้ายแล้วนี่ก็ดูเหมือนเป็น บริการคล้าย openrouter

    • ใช่ แค่ ตัวเลือกโมเดลยังแคบกว่า ยกเว้นกรณีที่เอาโมเดลมาเอง
    • และเป็นรูปแบบที่เพิ่ม Argo networking เข้าไป
  • เป็นการประกาศที่ใหญ่พอสมควร ดูแข่งขันได้เต็มที่ในฐานะ ทางเลือกแทน AWS Bedrock
    มีโอกาสด้วยซ้ำว่า uptime จะดีกว่า Anthropic หรือ AWS