5 คะแนน โดย GN⁺ 2025-10-21 | 5 ความคิดเห็น | แชร์ทาง WhatsApp
  • ระบบ Aegaeon Pooling ที่ Alibaba Cloud พัฒนาขึ้นช่วยเพิ่ม ประสิทธิภาพการใช้งาน GPU ถึง 9 เท่า และลดจำนวน GPU ของ NVIDIA ที่จำเป็นสำหรับบริการ LLM เดิมลง 82%
  • ระบบนี้ไม่ผูก GPU ให้คงที่กับแต่ละโมเดล แต่ เสมือนจริงระดับโทเค็นและจัดตารางแบบไดนามิกจากพูลร่วม เพื่อให้ หลายโมเดลสามารถใช้ GPU ตัวเดียวกันพร้อมกัน
  • ในการทดสอบในระบบจริงที่มี LLM หลากหลายขนาดรวมถึง 72B พารามิเตอร์ จำนวน GPU ลดลงจาก 1,192 ชุด → 213 ชุด
  • แม้ในสภาพแวดล้อมที่ การจัดหา NVIDIA H20 GPU มีจำกัด ก็ยังคงรักษาความเสถียรได้ และบันทึกการปรับปรุง goodput 1.5~9 เท่า เมื่อเทียบกับ ServerlessLLM·MuxServe
  • งานวิจัยถูกเผยแพร่ผ่านการนำเสนอที่ SOSP 2025 ที่โซล และคาดว่าจะดึงดูดความสนใจอย่างมากจากผู้ให้บริการคลาวด์ทั่วโลกที่เผชิญการขาดแคลนทรัพยากร GPU

ระบบ Aegaeon Pooling และภูมิหลัง

  • Alibaba Cloud รายงานผลการทดสอบแบบเบต้าใน Marketplace ของ Model Studio ของตนเองเป็นเวลาหลายเดือน ว่า Aegaeon Pooling ลดการใช้ NVIDIA GPU ลง 82%
  • ผลลัพธ์นี้ถูกนำเสนอผ่านงานวิจัยที่ผ่านการประเมินโดยผู้ทรงคุณวุฒิ ที่เผยแพร่ในการประชุม ACM Symposium on Operating Systems (SOSP) 2025 ที่จัดขึ้นที่โซล
  • เทคโนโลยีนี้มีจุดมุ่งหมายเพื่อให้ผู้ให้บริการคลาวด์สามารถใช้ประโยชน์จากทรัพยากรที่มีอยู่ให้เต็มที่ในสภาพแวดล้อมของจีนที่การจัดหา GPU สมัยใหม่เช่น NVIDIA H20 มีข้อจำกัด

Aegaeon: Scheduler สำหรับ inference ที่ยกระดับประสิทธิภาพการใช้ GPU สูงสุด

  • Aegaeon เป็นตัวจัดตารางที่เน้นการเพิ่มประสิทธิภาพในขั้นตอน inference ไม่ใช่การเพิ่มประสิทธิภาพการฝึกโมเดล
    • แนวทางเดิมจัดโครงสร้างแบบ 1 GPU ต่อ 1 โมเดลแบบคงที่ แต่ Aegaeon ถูกออกแบบให้ แบ่งเป็นระดับโทเค็นเพื่อให้หลายโมเดลใช้งานพร้อมกัน
    • ยกระดับ goodput (อัตราการประมวลผลที่มีประสิทธิผล) สูงสุดได้ถึง 9 เท่า และบรรลุอัตราการประมวลผลที่เสถียรแม้ต่อรูปแบบคำขอ LLM ที่ไม่สม่ำเสมอ

ผลการทดสอบและการลดการใช้

  • ทีมวิจัยด้านโครงสร้างพื้นฐานของ Peking University และ Alibaba (รวมถึง CTO Jingrun Zhou) ได้ตรวจสอบประสิทธิภาพผ่านการทดสอบเบต้าเป็นเวลาหลายเดือน
    • ระหว่างการทดสอบ จำนวน GPU ถูกลดจาก 1,192 เป็น 213 โดยยังคงปริมาณงาน inference ของ LLM ในระดับเดิมไว้
    • แม้ในสภาพแวดล้อม ให้บริการ LLM หลายตัวพร้อมกันรวมถึงโมเดลขนาดสูงสุด 72B พารามิเตอร์ ก็ยังคงทำงานได้มีประสิทธิภาพสูง
  • การทดสอบดำเนินบน H20 GPU ที่สามารถซื้อได้อย่างถูกกฎหมายในจีนหลังการควบคุมการส่งออกของสหรัฐ
    • ตามรายงานของ South China Morning Post H20 ปัจจุบันถูกใช้เป็น ตัวเร่งความเร็วทางเลือกหลักในตลาดจีน

องค์ประกอบทางเทคนิค: สองกลยุทธ์หลัก

  • 1. การจัดแพ็กหลายโมเดล (Multi-model packing): วางโมเดลหลายตัวบน GPU ตัวเดียวกันพร้อมกัน เพื่อลดการใช้ทรัพยากรว่างระหว่างคำขอ
  • 2. การขยายอัตโนมัติระดับโทเค็น (Token-level autoscaling): ปรับปริมาณการคำนวณแบบเรียลไทม์ตามจำนวนโทเค็นผลลัพธ์ที่กำลังสร้าง ไม่ได้ขึ้นอยู่กับคำขอทั้งหมด
    • วิธีนี้ตัดการจอง GPU ที่ไม่จำเป็น และยกระดับความคุ้มค่าค่าใช้จ่ายต่อหน่วยการประมวลผล
  • ผลการ benchmark แสดงการปรับปรุงประสิทธิภาพ 1.5~9 เท่า เมื่อเทียบกับ ServerlessLLM·MuxServe

การรวมเครือข่ายและสแตก

  • ในงานวิจัยนี้ไม่มีการระบุรายละเอียดเชิงลึกของ โครงสร้างเครือข่าย (อิง eRDMA) ที่ใช้
    • มีรายงานว่าปัจจุบัน Alibaba มี เครือข่าย eRDMA (Elastic RDMA) และ สแตก GPU ความหนาแน่นสูง ของตนเอง
    • ดังนั้นผลลัพธ์นี้อาจอาศัยสภาพแวดล้อมการบูรณาการโครงสร้างพื้นฐานภายในที่ปรับให้เหมาะสมอย่างสูง

ข้อสังเกต

  • ในตลาดจีนที่มีการจำกัดการจัดหา GPU ผลลัพธ์นี้ถูกมองว่าเป็นทางออกเชิงกลยุทธ์ในการดึงประสิทธิภาพสูงสุดจากชิปที่มีอยู่
  • แนวทางดังกล่าวมีแนวโน้มว่าจะเป็นโมเดลอ้างอิงสำหรับ AWS, Google Cloud และ Microsoft Azure ในการปรับปรุงประสิทธิภาพการ inference ในอนาคต
  • เกินขีดจำกัดของฮาร์ดแวร์ GPU เอง เทคโนโลยีการจัดตารางและการเสมือนจริงทางซอฟต์แวร์ กำลังกลายเป็นแกนใหม่ของความสามารถในการแข่งขันด้านโครงสร้างพื้นฐาน AI

5 ความคิดเห็น

 
jjpark78 2025-10-21

เหมือนได้ยินเสียงหุ้นของ NVIDIA กำลังร่วงอยู่เนี่ย...

 
jeongsoop 2025-10-21

โดยปกติแล้วในกรณีแบบนี้ หากลดลงได้ถึง 80% ก็ไม่ได้หมายถึงการซื้อ GPU เพียง 1/5 เท่านั้น แต่เป็นการขยายไปสู่การประมวลผลข้อมูลได้มากขึ้นถึง 5 เท่า

 
shakespeares 2025-10-21

เป็นไปได้อย่างนั้นจริงหรือ? หรือเบื้องหลังยังมีอะไรที่ต้องระวังอีกหรือเปล่า?

 
GN⁺ 2025-10-21
ความคิดเห็นบน Hacker News
  • Alibaba Cloud รายงานว่าสามารถลดการใช้ GPU ของ Nvidia สำหรับการให้บริการโมเดลที่ไม่เป็นที่นิยมได้ถึง 82% ตามการศึกษาพบว่า ใน Alibaba Cloud Marketplace มีการจัดสรร GPU ถึง 17.7% เพื่อรองรับคำขอเพียง 1.35% ของทั้งหมด และเดิมต้องใช้ GPU 1,192 ตัว ตอนนี้ใช้เพียง 213 ตัวเพื่อจัดการคำขอปริมาณเดียวกัน
    • ผมไม่ค่อยเข้าใจว่ามันทำงานอย่างไรแน่ๆ ว่าโมเดลถูกวางไว้บน GPU ค้างไว้ระหว่างช่วงไม่ใช้งานแล้วรออยู่จริงหรือไม่ ผมคิดว่างานลักษณะนี้น่าจะถูกจัดสรรแบบไดนามิกกันโดยทั่วไป แน่นอนว่าข้อดีคือช่วยลดจำนวนครั้งที่ต้องโหลดโมเดลซ้ำได้ แต่ถ้าโมเดลและ GPU อยู่ในสถานะไร้การใช้งานเกินไม่กี่นาทีก็สามารถปล่อยทรัพยากรได้ ผมไม่ได้ทำงานด้าน AI และคุ้นเคยกับการขอจัดสรรโหนดผ่าน SLURM อยู่เป็นประจำ
    • ใน Figure 1(a) ของงานวิจัย ระบุว่า 17.7% เป็นอัตราส่วนเทียบกับ GPU ทั้งหมด 30,000 ตัว (เช่น GPU 5,310 ตัวรองรับคำขอเพียง 1.35%) ค่าลดลงนี้วัดในสภาพแวดล้อม Beta แบบปิดเล็กๆ ที่มีเพียง 47 โมเดล หากคำนวณหยาบๆ แบบนับจำนวนโมเดลสำหรับโมเดล 'cold' ทั้งหมด 733 ตัว จะต้องใช้ GPU 3,321 ตัว ซึ่งเทียบกับเดิมคือการลดลง 37.5% และเมื่อคูณกับคลัสเตอร์ 30,000 ตัวทั้งหมดก็เท่ากับการประหยัด 6.6%
    • ในอดีต วิศวกรซอฟต์แวร์และวิศวกรคอมพิวเตอร์มักต้องเผชิญปัญหาแบบตรงๆ แล้วออกแบบอัลกอริทึมและโซลูชันที่สร้างสรรค์ด้วยตนเอง แต่อาศัยมาตรการควบคุมอุตสาหกรรมเซมิคอนดักเตอร์ของสหรัฐฯ จึงทำให้วิศวกรจีนเดินหน้าไปสู่การคิดค้นและแก้ปัญหาเองได้แบบที่เคยเกิดที่ซิลิคอนแวลลีย์เมื่อก่อน
  • แก่นสำคัญคือ มีเพียงบางรุ่นเท่านั้น เช่น Alibaba Qwen กับ DeepSeek ที่มีคำขอสำหรับ inference สูง ขณะเดียวกันโมเดลส่วนใหญ่ใช้ไม่ถี่ จึงทำให้มีการใช้ GPU ถึง 17.7% ของทรัพยากรทั้งหมดเพื่อรองรับแค่คำขอ 1.35% เท่านั้น ซึ่งไม่คุ้มค่า
    • โมเดลอื่นๆ แบบนี้น่าจะมีขนาดเล็กกว่ามาก
  • ลิงก์ที่ดีกว่าคือบทความของ Tom's Hardware และสามารถอ่าน paper ได้จาก นี่
    • URL ข้างต้น (เดิมเป็นข่าว SCMP) ถูกเปลี่ยนเป็นลิงก์นี้แล้ว และแผนคือจะอัปเดตลิงก์ paper ไว้ที่ต้นกระทู้
  • ความพยายามของสหรัฐฯ ที่จะทำให้การพัฒนาด้านเทคโนโลยีของจีนช้าลงอาจสำเร็จในแง่ที่ป้องกันไม่ให้จีนเดินตามเส้นทางเดียวกันได้ แต่ในทางกลับกันอาจกลายเป็นตัวกระตุ้นให้จีนหาทางสร้างนวัตกรรมรูปแบบใหม่ หากบริษัทจีนปล่อยนวัตกรรมนี้เป็นโอเพ่นซอร์ส สุดท้ายอาจเกิดประสิทธิภาพและความก้าวหน้าสะสมที่สูงขึ้นมากขึ้น และระยะยาวเราอาจถึงกับขอบคุณ "civilizational gatekeeping" ของสหรัฐ
    • โดยเฉพาะในเชิงประวัติศาสตร์ การกีดกันเทคโนโลยีไม่เคยทำให้จีนไม่ทันทันที ในไม่กี่ปีจีนก็มักจะถึงระดับเทคโนโลยีเดียวกันหรือดีกว่าได้มากขึ้น และมุมมองแบบตะวันตกดูเหมือนมีความหยิ่งจองหองมากพอสมควร ในความจริง บริษัทตะวันตกจำนวนมากก็มีส่วนร่วมของนักวิทยาศาสตร์จีนในการพัฒนาและการผลิตมาก หากไม่มีพวกเขาอาจแทบไม่เหลืออะไร แม้แต่ในรายชื่อผู้วิจัย AI ก็มีคนเชื้อสายจีนค่อนข้างสูง
    • กระแสต่อต้านคนอพยพในสหรัฐอเมริกาน่าจะเป็นอุปสรรคใหญ่ที่สุดต่อการสร้างนวัตกรรมของสหรัฐฯ เพราะผู้มีพรสวรรค์ที่ขับเคลื่อนนวัตกรรมกำลังย้ายออกไปจริงๆ และสหรัฐฯ โดยไร้ข้อได้เปรียบในการดึงดูดคนเก่งทั่วโลกอาจเสียเปรียบด้านขนาดประชากรอย่างรุนแรง โลกกำลังมองหาผู้นำคนใหม่ และแม้จีนยังไม่ถึงจุดนั้น แต่มีแนวโน้มได้ภายในไม่กี่ปี อย่างไรก็ตามจุดอ่อนของจีนคือการขาดความทะเยอทะยานในเวทีโลก และชอบหันไปเน้นแค่ประเด็นภูมิภาค (ไต้หวัน–ทะเลจีนใต้)
    • ตอนนี้สหรัฐฯ คงไม่สามารถหยุดยั้งความก้าวหน้าของจีนได้อีกต่อไป ภายในจีนเองเองมีการห้ามนำเข้า AI chips แล้ว จึงทำให้มาตรการของสหรัฐฯ สูญเสียความได้เปรียบ ประกอบด้วยบทความนี้: CNBC
    • เรื่องนี้ทั้งหมดทำให้นึกถึงญี่ปุ่นหลังสงครามโลกครั้งที่สองที่สามารถสร้างเครื่องยนต์ประหยัดเชื้อเพลิงและรถยนต์น้ำหนักเบาได้ดีเยี่ยมด้วยทรัพยากรจำกัด ซึ่งเป็นข้อจำกัดที่สหรัฐฯ หรือบางส่วนของยุโรปไม่เผชิญ ทำให้ช่องว่างมันชัดเจนขึ้น และสุดท้ายรถยนต์อเมริกันก็ตกอยู่ในจุดด้อยเชิงแข่งขัน
    • ผมยังคงยอมรับว่ามันคือ "boomerang effect" แต่คิดว่ามาถึงตอนนี้แล้วคงสายไปแล้ว ปี 2024 ห้องแล็บตะวันตกยังอยู่ในจุดเหนือกว่า แต่ถึงปี 2025 จีนก็มี DeepSeek, Qwen, Kimi, GLM, ERNIE และโมเดล state-of-the-art อื่นๆ ออกมาเรื่อยๆ และตอนนี้มีห้องแล็บจีนที่ปล่อยโมเดลทันสมัยมากกว่าห้องแล็บตะวันตกอีกด้วย
  • ผมสนใจอ่านบล็อกวิศวกรรม/วิจัยของบริษัทเชื้อสายจีนอยู่มาก ตอนนี้จากที่เคยอ่านบล็อกทางการจากบริษัทตะวันตกอยู่บ่อยๆ จนถึงตอนนี้รู้สึกถึงจังหวะที่อยากใช้เคสสตัดดี้จากผู้เล่นนอก FAANG มาเป็นเกณฑ์อ้างอิงบ้าง
  • ดูเหมือนว่าพวกเขาทำแค่ทดลองกับโมเดลที่ค่อนข้างเล็ก แต่ข้อสงสัยคือระบบนี้จะขยายไปยังโมเดลขนาดใหญ่ได้จริงหรือไม่
    • พวกนั้นเป็น LLM ทั้งหมด ดังนั้นมันก็ไม่ได้เล็กอย่างเลวร้าย ตอนนี้สภาพแวดล้อมการใช้งานจริงนั้นมีการให้บริการ 28 โมเดลขนาด 1.8–7B (TP=1) และ 19 โมเดลขนาด 32–72B (TP=4) ในคลัสเตอร์ H20 จำนวน 213 ตัว ในหลายภูมิภาคพร้อมกัน
  • ระบบ GPU เสมือนนี้ดูเหมือนเป็น scheduler (ตัวจัดการงาน) แยกอีกชั้น จึงสงสัยว่าการย้ายข้อมูลอาจเพิ่ม latency ได้มากน้อยแค่ไหน
  • อยากรู้ว่าวิธีนี้สามารถนำไปใช้กับ workload อื่นๆ ได้หรือไม่
  • ฟังดูแล้วคือการหยุดพฤติกรรมที่ไม่จำเป็นอย่างสิ้นเชิง (การใช้ทรัพยากรที่ไร้ประสิทธิภาพ)
  • สถานที่ที่มีทรัพยากรมากอาจย้ายโมเดลที่ผ่านการ pretrain มาไว้บนฮาร์ดแวร์ใหม่เพื่อประหยัด 'Nvidia tax' (ค่าใช้จ่ายจากการผูกขาดของ Nvidia) ได้ แต่ผมคิดว่ากระบวนการวิจัยและการฝึกโมเดลเองยากที่จะแตกกางนอก ecosystem ของ Nvidia ที่สุกงอมแล้ว