Alibaba Cloud ลดการใช้ NVIDIA GPU ลง 82% ด้วยระบบ Pooling ชื่อ Aegaeon

(tomshardware.com)

5 คะแนน โดย GN⁺ 2025-10-21 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ระบบ Aegaeon Pooling ที่ Alibaba Cloud พัฒนาขึ้นช่วยเพิ่ม ประสิทธิภาพการใช้งาน GPU ถึง 9 เท่า และลดจำนวน GPU ของ NVIDIA ที่จำเป็นสำหรับบริการ LLM เดิมลง 82%
ระบบนี้ไม่ผูก GPU ให้คงที่กับแต่ละโมเดล แต่ เสมือนจริงระดับโทเค็นและจัดตารางแบบไดนามิกจากพูลร่วม เพื่อให้ หลายโมเดลสามารถใช้ GPU ตัวเดียวกันพร้อมกัน
ในการทดสอบในระบบจริงที่มี LLM หลากหลายขนาดรวมถึง 72B พารามิเตอร์ จำนวน GPU ลดลงจาก 1,192 ชุด → 213 ชุด
แม้ในสภาพแวดล้อมที่ การจัดหา NVIDIA H20 GPU มีจำกัด ก็ยังคงรักษาความเสถียรได้ และบันทึกการปรับปรุง goodput 1.5~9 เท่า เมื่อเทียบกับ ServerlessLLM·MuxServe
งานวิจัยถูกเผยแพร่ผ่านการนำเสนอที่ SOSP 2025 ที่โซล และคาดว่าจะดึงดูดความสนใจอย่างมากจากผู้ให้บริการคลาวด์ทั่วโลกที่เผชิญการขาดแคลนทรัพยากร GPU

ระบบ Aegaeon Pooling และภูมิหลัง

Alibaba Cloud รายงานผลการทดสอบแบบเบต้าใน Marketplace ของ Model Studio ของตนเองเป็นเวลาหลายเดือน ว่า Aegaeon Pooling ลดการใช้ NVIDIA GPU ลง 82%
ผลลัพธ์นี้ถูกนำเสนอผ่านงานวิจัยที่ผ่านการประเมินโดยผู้ทรงคุณวุฒิ ที่เผยแพร่ในการประชุม ACM Symposium on Operating Systems (SOSP) 2025 ที่จัดขึ้นที่โซล
เทคโนโลยีนี้มีจุดมุ่งหมายเพื่อให้ผู้ให้บริการคลาวด์สามารถใช้ประโยชน์จากทรัพยากรที่มีอยู่ให้เต็มที่ในสภาพแวดล้อมของจีนที่การจัดหา GPU สมัยใหม่เช่น NVIDIA H20 มีข้อจำกัด

Aegaeon: Scheduler สำหรับ inference ที่ยกระดับประสิทธิภาพการใช้ GPU สูงสุด

Aegaeon เป็นตัวจัดตารางที่เน้นการเพิ่มประสิทธิภาพในขั้นตอน inference ไม่ใช่การเพิ่มประสิทธิภาพการฝึกโมเดล
- แนวทางเดิมจัดโครงสร้างแบบ 1 GPU ต่อ 1 โมเดลแบบคงที่ แต่ Aegaeon ถูกออกแบบให้ แบ่งเป็นระดับโทเค็นเพื่อให้หลายโมเดลใช้งานพร้อมกัน
- ยกระดับ goodput (อัตราการประมวลผลที่มีประสิทธิผล) สูงสุดได้ถึง 9 เท่า และบรรลุอัตราการประมวลผลที่เสถียรแม้ต่อรูปแบบคำขอ LLM ที่ไม่สม่ำเสมอ

ผลการทดสอบและการลดการใช้

ทีมวิจัยด้านโครงสร้างพื้นฐานของ Peking University และ Alibaba (รวมถึง CTO Jingrun Zhou) ได้ตรวจสอบประสิทธิภาพผ่านการทดสอบเบต้าเป็นเวลาหลายเดือน
- ระหว่างการทดสอบ จำนวน GPU ถูกลดจาก 1,192 เป็น 213 โดยยังคงปริมาณงาน inference ของ LLM ในระดับเดิมไว้
- แม้ในสภาพแวดล้อม ให้บริการ LLM หลายตัวพร้อมกันรวมถึงโมเดลขนาดสูงสุด 72B พารามิเตอร์ ก็ยังคงทำงานได้มีประสิทธิภาพสูง
การทดสอบดำเนินบน H20 GPU ที่สามารถซื้อได้อย่างถูกกฎหมายในจีนหลังการควบคุมการส่งออกของสหรัฐ
- ตามรายงานของ South China Morning Post H20 ปัจจุบันถูกใช้เป็น ตัวเร่งความเร็วทางเลือกหลักในตลาดจีน

องค์ประกอบทางเทคนิค: สองกลยุทธ์หลัก

1. การจัดแพ็กหลายโมเดล (Multi-model packing): วางโมเดลหลายตัวบน GPU ตัวเดียวกันพร้อมกัน เพื่อลดการใช้ทรัพยากรว่างระหว่างคำขอ
2. การขยายอัตโนมัติระดับโทเค็น (Token-level autoscaling): ปรับปริมาณการคำนวณแบบเรียลไทม์ตามจำนวนโทเค็นผลลัพธ์ที่กำลังสร้าง ไม่ได้ขึ้นอยู่กับคำขอทั้งหมด
- วิธีนี้ตัดการจอง GPU ที่ไม่จำเป็น และยกระดับความคุ้มค่าค่าใช้จ่ายต่อหน่วยการประมวลผล
ผลการ benchmark แสดงการปรับปรุงประสิทธิภาพ 1.5~9 เท่า เมื่อเทียบกับ ServerlessLLM·MuxServe

การรวมเครือข่ายและสแตก

ในงานวิจัยนี้ไม่มีการระบุรายละเอียดเชิงลึกของ โครงสร้างเครือข่าย (อิง eRDMA) ที่ใช้
- มีรายงานว่าปัจจุบัน Alibaba มี เครือข่าย eRDMA (Elastic RDMA) และ สแตก GPU ความหนาแน่นสูง ของตนเอง
- ดังนั้นผลลัพธ์นี้อาจอาศัยสภาพแวดล้อมการบูรณาการโครงสร้างพื้นฐานภายในที่ปรับให้เหมาะสมอย่างสูง

ข้อสังเกต

ในตลาดจีนที่มีการจำกัดการจัดหา GPU ผลลัพธ์นี้ถูกมองว่าเป็นทางออกเชิงกลยุทธ์ในการดึงประสิทธิภาพสูงสุดจากชิปที่มีอยู่
แนวทางดังกล่าวมีแนวโน้มว่าจะเป็นโมเดลอ้างอิงสำหรับ AWS, Google Cloud และ Microsoft Azure ในการปรับปรุงประสิทธิภาพการ inference ในอนาคต
เกินขีดจำกัดของฮาร์ดแวร์ GPU เอง เทคโนโลยีการจัดตารางและการเสมือนจริงทางซอฟต์แวร์ กำลังกลายเป็นแกนใหม่ของความสามารถในการแข่งขันด้านโครงสร้างพื้นฐาน AI

Alibaba Cloud ลดการใช้ NVIDIA GPU ลง 82% ด้วยระบบ Pooling ชื่อ Aegaeon

ระบบ Aegaeon Pooling และภูมิหลัง

Aegaeon: Scheduler สำหรับ inference ที่ยกระดับประสิทธิภาพการใช้ GPU สูงสุด

ผลการทดสอบและการลดการใช้

องค์ประกอบทางเทคนิค: สองกลยุทธ์หลัก

การรวมเครือข่ายและสแตก

ข้อสังเกต

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น