• ระบบ Aegaeon Pooling ที่ Alibaba Cloud พัฒนาขึ้นช่วยเพิ่ม ประสิทธิภาพการใช้งาน GPU ถึง 9 เท่า และลดจำนวน GPU ของ NVIDIA ที่จำเป็นสำหรับบริการ LLM เดิมลง 82%
  • ระบบนี้ไม่ผูก GPU ให้คงที่กับแต่ละโมเดล แต่ เสมือนจริงระดับโทเค็นและจัดตารางแบบไดนามิกจากพูลร่วม เพื่อให้ หลายโมเดลสามารถใช้ GPU ตัวเดียวกันพร้อมกัน
  • ในการทดสอบในระบบจริงที่มี LLM หลากหลายขนาดรวมถึง 72B พารามิเตอร์ จำนวน GPU ลดลงจาก 1,192 ชุด → 213 ชุด
  • แม้ในสภาพแวดล้อมที่ การจัดหา NVIDIA H20 GPU มีจำกัด ก็ยังคงรักษาความเสถียรได้ และบันทึกการปรับปรุง goodput 1.5~9 เท่า เมื่อเทียบกับ ServerlessLLM·MuxServe
  • งานวิจัยถูกเผยแพร่ผ่านการนำเสนอที่ SOSP 2025 ที่โซล และคาดว่าจะดึงดูดความสนใจอย่างมากจากผู้ให้บริการคลาวด์ทั่วโลกที่เผชิญการขาดแคลนทรัพยากร GPU

ระบบ Aegaeon Pooling และภูมิหลัง

  • Alibaba Cloud รายงานผลการทดสอบแบบเบต้าใน Marketplace ของ Model Studio ของตนเองเป็นเวลาหลายเดือน ว่า Aegaeon Pooling ลดการใช้ NVIDIA GPU ลง 82%
  • ผลลัพธ์นี้ถูกนำเสนอผ่านงานวิจัยที่ผ่านการประเมินโดยผู้ทรงคุณวุฒิ ที่เผยแพร่ในการประชุม ACM Symposium on Operating Systems (SOSP) 2025 ที่จัดขึ้นที่โซล
  • เทคโนโลยีนี้มีจุดมุ่งหมายเพื่อให้ผู้ให้บริการคลาวด์สามารถใช้ประโยชน์จากทรัพยากรที่มีอยู่ให้เต็มที่ในสภาพแวดล้อมของจีนที่การจัดหา GPU สมัยใหม่เช่น NVIDIA H20 มีข้อจำกัด

Aegaeon: Scheduler สำหรับ inference ที่ยกระดับประสิทธิภาพการใช้ GPU สูงสุด

  • Aegaeon เป็นตัวจัดตารางที่เน้นการเพิ่มประสิทธิภาพในขั้นตอน inference ไม่ใช่การเพิ่มประสิทธิภาพการฝึกโมเดล
    • แนวทางเดิมจัดโครงสร้างแบบ 1 GPU ต่อ 1 โมเดลแบบคงที่ แต่ Aegaeon ถูกออกแบบให้ แบ่งเป็นระดับโทเค็นเพื่อให้หลายโมเดลใช้งานพร้อมกัน
    • ยกระดับ goodput (อัตราการประมวลผลที่มีประสิทธิผล) สูงสุดได้ถึง 9 เท่า และบรรลุอัตราการประมวลผลที่เสถียรแม้ต่อรูปแบบคำขอ LLM ที่ไม่สม่ำเสมอ

ผลการทดสอบและการลดการใช้

  • ทีมวิจัยด้านโครงสร้างพื้นฐานของ Peking University และ Alibaba (รวมถึง CTO Jingrun Zhou) ได้ตรวจสอบประสิทธิภาพผ่านการทดสอบเบต้าเป็นเวลาหลายเดือน
    • ระหว่างการทดสอบ จำนวน GPU ถูกลดจาก 1,192 เป็น 213 โดยยังคงปริมาณงาน inference ของ LLM ในระดับเดิมไว้
    • แม้ในสภาพแวดล้อม ให้บริการ LLM หลายตัวพร้อมกันรวมถึงโมเดลขนาดสูงสุด 72B พารามิเตอร์ ก็ยังคงทำงานได้มีประสิทธิภาพสูง
  • การทดสอบดำเนินบน H20 GPU ที่สามารถซื้อได้อย่างถูกกฎหมายในจีนหลังการควบคุมการส่งออกของสหรัฐ
    • ตามรายงานของ South China Morning Post H20 ปัจจุบันถูกใช้เป็น ตัวเร่งความเร็วทางเลือกหลักในตลาดจีน

องค์ประกอบทางเทคนิค: สองกลยุทธ์หลัก

  • 1. การจัดแพ็กหลายโมเดล (Multi-model packing): วางโมเดลหลายตัวบน GPU ตัวเดียวกันพร้อมกัน เพื่อลดการใช้ทรัพยากรว่างระหว่างคำขอ
  • 2. การขยายอัตโนมัติระดับโทเค็น (Token-level autoscaling): ปรับปริมาณการคำนวณแบบเรียลไทม์ตามจำนวนโทเค็นผลลัพธ์ที่กำลังสร้าง ไม่ได้ขึ้นอยู่กับคำขอทั้งหมด
    • วิธีนี้ตัดการจอง GPU ที่ไม่จำเป็น และยกระดับความคุ้มค่าค่าใช้จ่ายต่อหน่วยการประมวลผล
  • ผลการ benchmark แสดงการปรับปรุงประสิทธิภาพ 1.5~9 เท่า เมื่อเทียบกับ ServerlessLLM·MuxServe

การรวมเครือข่ายและสแตก

  • ในงานวิจัยนี้ไม่มีการระบุรายละเอียดเชิงลึกของ โครงสร้างเครือข่าย (อิง eRDMA) ที่ใช้
    • มีรายงานว่าปัจจุบัน Alibaba มี เครือข่าย eRDMA (Elastic RDMA) และ สแตก GPU ความหนาแน่นสูง ของตนเอง
    • ดังนั้นผลลัพธ์นี้อาจอาศัยสภาพแวดล้อมการบูรณาการโครงสร้างพื้นฐานภายในที่ปรับให้เหมาะสมอย่างสูง

ข้อสังเกต

  • ในตลาดจีนที่มีการจำกัดการจัดหา GPU ผลลัพธ์นี้ถูกมองว่าเป็นทางออกเชิงกลยุทธ์ในการดึงประสิทธิภาพสูงสุดจากชิปที่มีอยู่
  • แนวทางดังกล่าวมีแนวโน้มว่าจะเป็นโมเดลอ้างอิงสำหรับ AWS, Google Cloud และ Microsoft Azure ในการปรับปรุงประสิทธิภาพการ inference ในอนาคต
  • เกินขีดจำกัดของฮาร์ดแวร์ GPU เอง เทคโนโลยีการจัดตารางและการเสมือนจริงทางซอฟต์แวร์ กำลังกลายเป็นแกนใหม่ของความสามารถในการแข่งขันด้านโครงสร้างพื้นฐาน AI

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น