- จากความต้องการที่พุ่งสูงแบบก้าวกระโดดของการเรียนรู้แบบเสริมกำลังและ การอนุมาน AI แบบเอเจนต์ บทบาทของ CPU ในดาต้าเซ็นเตอร์จึงกลับมาโดดเด่นอีกครั้ง และทำให้กระแสการลงทุนที่เคยเน้น GPU เป็นศูนย์กลางเริ่มเปลี่ยนไป
- Intel เผชิญกับ ความต้องการเซิร์ฟเวอร์ CPU ที่เพิ่มขึ้นอย่างไม่คาดคิด ในช่วงปลายปี 2025 และกำลังขยายการลงทุนในโรงงานผลิตชิปในปี 2026 พร้อมทั้งเปลี่ยนเวเฟอร์สำหรับพีซีไปใช้กับเซิร์ฟเวอร์
- AMD Venice นำ กระบวนการผลิต N2 ของ TSMC มาใช้ พร้อม CCD Zen6c 256 คอร์และเครือข่าย mesh โดยคาดว่าจะยิ่งทิ้งห่าง Intel ทั้งด้านประสิทธิภาพและประสิทธิภาพพลังงาน
- ฝั่ง CPU ARM ที่ไฮเปอร์สเกลเลอร์พัฒนาเอง จาก NVIDIA, AWS, Microsoft, Google, ARM และรายอื่น ๆ กำลังขยายตัวอย่างจริงจัง ทำให้โครงสร้างผูกขาดของ x86 ถูกสลายลงอย่างรวดเร็ว
- เมื่อรวมถึง Huawei Kunpeng 950 แล้ว ปี 2026 จะเป็นปีแห่งการแข่งขันที่ไม่เคยเกิดขึ้นมาก่อน ซึ่งผู้ผลิตทุกรายจะ เปิดตัว CPU รุ่นใหม่พร้อมกัน
การเปลี่ยนแปลงและวิวัฒนาการของบทบาท CPU ในดาต้าเซ็นเตอร์
-
ตั้งแต่ยุคพีซีถึงยุคดอทคอม
- ในทศวรรษ 1990 ประสิทธิภาพที่สูงขึ้นของโปรเซสเซอร์พีซีทำให้เกิดความต้องการใช้แทนเมนเฟรมและเวิร์กสเตชัน โดย Intel เข้าสู่ตลาดเซิร์ฟเวอร์ด้วย Pentium Pro (1995) และ แบรนด์ Xeon (1998)
- ในยุคอินเทอร์เน็ตช่วงทศวรรษ 2000 การขยายตัวของ Web 2.0 อีคอมเมิร์ซ และสมาร์ตโฟน ทำให้ CPU สำหรับดาต้าเซ็นเตอร์เติบโตเป็น ตลาดมูลค่าหลายพันล้านดอลลาร์
- หลังการแข่งขันด้าน GHz สิ้นสุดลง ก็เกิดนวัตกรรมด้านการออกแบบอย่าง CPU แบบมัลติคอร์ การรวม memory controller เข้ากับชิป (AMD) และการเชื่อมต่อ PCIe โดยตรง
- มีการนำ SMT (Simultaneous Multi-Threading) มาใช้ทั้งใน Intel และ AMD เพื่อเพิ่มประสิทธิภาพการประมวลผลแบบขนาน
-
ยุคของไฮเปอร์สเกลเลอร์จากเวอร์ชวลไลเซชันและคลาวด์คอมพิวติ้ง
- ช่วงปลายทศวรรษ 2000 การมาของคลาวด์สาธารณะอย่าง AWS ทำให้เกิดการเปลี่ยนจากโมเดล CapEx ไปสู่ OpEx และพัฒนาไปถึง serverless computing (เช่น AWS Lambda)
- ฮาร์ดแวร์เวอร์ชวลไลเซชันของ CPU กลายเป็นรากฐานสำคัญของคลาวด์ โดยไฮเปอร์ไวเซอร์ (เช่น VMware ESXi) สามารถรัน VM อิสระหลายตัวบน CPU เดียวได้
- ในปี 2018 ช่องโหว่ Spectre และ Meltdown ทำให้เกิดความจำเป็นในการปิดใช้งาน SMT ซึ่งทำให้ประสิทธิภาพลดลงได้สูงสุด 30%
- การโจมตีผ่านฟังก์ชันทำนายการแตกกิ่งทำให้ภัยคุกคามด้านความปลอดภัยของคลาวด์กลายเป็นเรื่องจริง
-
ยุคการบูรณาการ AI GPU และ CPU
- ในช่วง 5 ปีก่อนการเปิดตัว ChatGPT (พฤศจิกายน 2022) Intel จัดส่ง Xeon Scalable CPU มากกว่า 100 ล้านตัว
- การฝึกและการอนุมานโมเดล AI ดำเนินการได้มีประสิทธิภาพกว่าบนหน่วยเวกเตอร์ขนาดใหญ่ของ GPU และ Tensor Core ถึง 100~1000 เท่า
- เมื่อเทียบกับ GPU แล้ว CPU มีประสิทธิภาพด้านการคำนวณเมทริกซ์ต่ำมาก จึง ถูกลดบทบาทลงเป็นส่วนสนับสนุน และมีการจัดสรรพลังงานให้ GPU ก่อน
- การใช้งาน CPU แยกออกเป็นสองรูปแบบ:
- เฮดโหนด: ป้อนและจัดการข้อมูลให้ GPU ต้องการประสิทธิภาพต่อคอร์สูง แคชขนาดใหญ่ และหน่วยความจำแบนด์วิดท์สูง (NVIDIA Grace, Venice+MI455X, Graviton5+Trainium3 เป็นต้น)
- การรวมซ็อกเก็ตแบบคลาวด์เนทีฟ: เพื่อเพิ่มประสิทธิภาพพลังงานสูงสุด มีการแทนที่เซิร์ฟเวอร์รุ่นเก่าด้วย CPU รุ่นใหม่ในอัตรา มากกว่า 10:1 โดยเซิร์ฟเวอร์ Intel Cascade Lake หลายล้านเครื่องที่ซื้อในช่วง COVID กำลังทยอยปลดระวาง
-
ยุคของการเรียนรู้แบบเสริมกำลังและเอเจนต์
- ในดาต้าเซ็นเตอร์ "Fairwater" ของ Microsoft สำหรับ OpenAI อาคาร CPU และสตอเรจขนาด 48MW ทำหน้าที่สนับสนุนคลัสเตอร์ GPU ขนาด 295MW โดยมี CPU หลายหมื่นตัวถูกใช้เพื่อประมวลผลข้อมูลระดับเพตะไบต์
- ในสภาพแวดล้อม การเรียนรู้แบบเสริมกำลัง (RL) จำเป็นต้องใช้ CPU จำนวนมากสำหรับการคอมไพล์โค้ด การตรวจสอบ การตีความ และการใช้เครื่องมือ เพื่อรันการกระทำที่โมเดลสร้างขึ้นและคำนวณรางวัล
- ความเร็วในการพัฒนาประสิทธิภาพของ GPU แซงหน้า CPU อย่างมาก ทำให้ในอนาคต อัตราส่วนพลังงาน CPU ต่อ GPU ในยุค Rubin อาจขยายไปถึง 1:6 หรือมากกว่า
- โมเดล RAG และโมเดลแบบเอเจนต์ดำเนินการเรียก API ค้นหาอินเทอร์เน็ต และคิวรีฐานข้อมูลในวงกว้าง ส่งผลให้ความต้องการ CPU ทั่วไปเพิ่มขึ้นอย่างรวดเร็ว
- AWS และ Azure กำลังสร้างโครงสร้างพื้นฐานจำนวนมากโดยใช้ CPU Graviton และ Cobalt ของตนเองร่วมกับเซิร์ฟเวอร์ x86
- ห้องแล็บวิจัย Frontier AI กำลังเผชิญภาวะขาดแคลน CPU สำหรับการฝึก RL และต้อง แข่งขันโดยตรงกับผู้ให้บริการคลาวด์เพื่อแย่งชิงเซิร์ฟเวอร์ x86 ทั่วไป
- Intel กำลังพิจารณา ขึ้นราคา Xeon หลังสต็อกหมดอย่างไม่คาดคิด และกำลังจัดหาเครื่องมือการผลิตเพิ่มเติม
- AMD กำลังขยายศักยภาพด้านอุปทาน และคาดว่าตลาดรวมแบบ TAM ของเซิร์ฟเวอร์ CPU ในปี 2026 จะเติบโตในระดับ "เลขสองหลักที่แข็งแกร่ง"
ประวัติของอินเตอร์คอนเน็กต์ CPU แบบมัลติคอร์
-
การออกแบบครอสบาร์ยุคแรกและข้อจำกัด
- ในยุคดูอัลคอร์ยุคแรก (Intel Pentium D, AMD Athlon 64 X2, ปี 2005) ใช้การเชื่อมต่อแบบ FSB (Front Side Bus) หรือแบบ NoC บนได
- วิธีแบบครอสบาร์มีจำนวนการเชื่อมต่อเพิ่มขึ้นอย่างรวดเร็วเมื่อจำนวนคอร์เพิ่มขึ้น (2 คอร์ = 1, 4 คอร์ = 6, 6 คอร์ = 15, 8 คอร์ = 28) ทำให้ 4 คอร์เป็นขีดจำกัดในทางปฏิบัติ
- AMD Istanbul (2009) ขยายเป็นครอสบาร์ 6 ทาง, Magny-Cours (2010) เป็น 12 คอร์แบบดูอัลได, และ Interlagos ขยายเป็น 16 คอร์
-
สถาปัตยกรรมริงบัสของ Intel
- Intel เปิดตัวริงบัสใน Nehalem-EX (2010) โดยรวม 8 คอร์ไว้บนไดเดียว พร้อม IMC และลิงก์ QPI
- ใช้วงแหวนหมุนสวนทางกันสองชุดเพื่อลดเวลาแฝงและความแออัด แต่เวลาแฝงในการเข้าถึงระหว่างคอร์ ไม่สม่ำเสมอ (NUMA)
- Ivy Bridge-EX: จัดวางแบบ 3 คอลัมน์ 5 แถว และทำได้ 15 คอร์ด้วย "ริงเสมือน" 3 ชุด
- Haswell/Broadwell: ใช้ริงบัสอิสระคู่ รองรับ 18~24 คอร์ แต่เมื่อข้อมูลต้องผ่าน buffered switch ระหว่างริง จะเกิดเวลาแฝงมากกว่า 100ns
- สามารถแยกเป็น 2 NUMA node ได้ด้วยการตั้งค่า "Cluster on Die"
-
สถาปัตยกรรมเมชของ Intel
- ในปี 2016 มีการนำเมชอินเตอร์คอนเน็กต์มาใช้ใน Xeon Phi "Knights Landing" และขยายไปสู่ Skylake-X Xeon Scalable (28 คอร์) ในปี 2017
- ใช้การจัดวางแบบตาราง 2 มิติ โดยวางคอร์, L3 cache slice, PCIe I/O, IMC และตัวเร่งความเร็วไว้ที่แต่ละ mesh stop
- โหมด Sub-NUMA Clustering (SNC) แบ่งเมชออกเป็น 4 ควอดแรนต์เพื่อลดเวลาแฝงเฉลี่ย
- Skylake-X: เมช 6x6, ใช้ mesh clock 2.4GHz และให้เวลาแฝงเฉลี่ยใกล้เคียงกับ Broadwell แบบดูอัลริง
- Ice Lake: จากการเปลี่ยนไปใช้ 10nm ทำให้ขยายเป็นเมช 8x7 รองรับได้ถึง 40 คอร์ (ติดข้อจำกัดของเรติเคิล)
-
เมชแบบกระจายผ่าน EMIB
- Sapphire Rapids: บนโหนด Intel 7 ไดแบบโมโนลิธิกเดี่ยวไปได้เพียง 34 คอร์ และการเพิ่ม AMX engine ทำให้พื้นที่คอร์ใหญ่ขึ้น
- ใช้ EMIB advanced packaging เชื่อม 4 ไดเข้าด้วยกัน สร้างเมชขนาด 8x12 และไปได้ถึง 60 คอร์ (ซิลิคอนรวมราว 1600mm²)
- เวลาแฝงเฉลี่ยระหว่างคอร์แย่ลงจาก 47ns (Skylake) เป็น 59ns
- เพิ่ม L2 cache แบบ private ของแต่ละคอร์เป็น 2MB (L2 รวม > L3: 120MB เทียบกับ 112.5MB)
- โครงการล่าช้าหลายปีจนถึง stepping E5 เดิมทีวางแผนไว้ในปี 2021 แต่เปิดตัวต้นปี 2023
- Emerald Rapids (ปลายปี 2023): ลดจำนวนไดเหลือ 2 ได และเพิ่มเป็น 66 คอร์ (เปิดใช้งานสูงสุด 64 คอร์) พร้อมเพิ่ม L3 cache เป็น 320MB เกือบ 3 เท่า
-
การออกแบบแบบกระจายชนิดต่างสถาปัตย์ของ Xeon 6
- บนแพลตฟอร์ม Xeon 6 ในปี 2024 มีการ แยก I/O และ compute แบบต่างสถาปัตย์: ได I/O ใช้ Intel 7 ส่วนได compute ใช้ Intel 3
- สามารถผสมการจัดวาง P-core Granite Rapids และ E-core Sierra Forest ได้
- Granite Rapids-AP Xeon 6900P: ใช้ได compute 3 ได สร้าง เมช 10x19, มี 132 คอร์ (เปิดใช้งานได้สูงสุด 128 คอร์)
- Sierra Forest: จัด E-core 4 คอร์เป็นหนึ่งคลัสเตอร์ บนเมช 8x6 รวมเป็น 144 คอร์ แต่การนำไปใช้ยังจำกัด เพราะ hyperscaler ได้เลือกใช้ CPU ของ AMD และ ARM ที่พัฒนาเองไปแล้ว
- Sierra Forest-AP แบบดูอัลได 288 คอร์ (Xeon 6900E) ผลิตเพียงจำนวนน้อย
-
ข้อจำกัดของ Clearwater Forest
- Xeon 6+ Clearwater Forest-AP: ใช้ Foveros Direct hybrid bonding ของ Intel ซ้อนคอร์ได 18A บนเบสได Intel 3 ทำได้ 288 คอร์
- เป็นการออกแบบที่ซับซ้อน ประกอบด้วย compute die 24 คอร์จำนวน 12 ได
- มีปัญหาในการรวม Foveros Direct ทำให้ เลื่อนจาก H2 2025 เป็น H1 2026
- ต่อหนึ่งคลัสเตอร์ 4 คอร์ แบนด์วิดท์ในการเข้าถึง L3 และเมชบนเบสไดมีเพียง 35GB/s เท่านั้น
- แม้จะห่างกัน 2 ปี แต่เมื่อเทียบที่จำนวนคอร์เท่ากัน ประสิทธิภาพดีกว่า Sierra Forest เพียง 17%
- Intel แทบไม่กล่าวถึง Clearwater Forest ในการประกาศผลประกอบการ Q4 2025 และมีความเป็นไปได้ว่าจะใช้มันเป็น ยานพาหนะเพื่อเรียนรู้เรื่อง yield ของ Foveros Direct มากกว่าการผลิตปริมาณสูง
สถาปัตยกรรมอินเตอร์คอนเน็กต์ AMD Zen
-
EPYC Naples (2017)
- เป็นผลงานการกลับสู่ตลาดดาต้าเซ็นเตอร์ของ AMD โดยใช้ได "Zeppelin" 4 ตัวในรูปแบบ MCM เพื่อให้ได้ 32 คอร์
- แต่ละไดมี 2 CCX (4 คอร์ + L3 8MB เชื่อมด้วยครอสบาร์) และใช้ลิงก์ Infinity Fabric on Package (IFOP) ระหว่างได
- การไม่มี unified L3 cache และการมี NUMA domain จำนวนมาก (Intra-CCX, Inter-CCX, Die-to-die, Inter-Socket) ทำให้ ความแปรปรวนของเวลาแฝงสูง
- Intel เคยเยาะเย้ยว่าเป็น "การเอาไดเดสก์ท็อป 4 ตัวมาติดกาวรวมกัน" แต่จริง ๆ แล้วเป็นการออกแบบที่ใช้ทรัพยากรอย่างมีประสิทธิภาพโดยทีมขนาดเล็ก
-
วิวัฒนาการของรุ่นถัดจาก EPYC Rome (2019)
- Rome: วาง CCD 8 คอร์ 8 ตัวล้อมรอบได I/O ตรงกลาง โดย CCD ใช้ TSMC N7 และได I/O ใช้ GlobalFoundries 12nm
- การสื่อสารระหว่าง CCX ทั้งหมดใช้ ลิงก์ GMI ที่ต้องผ่านได I/O ทำให้ในเชิงหน้าที่เป็น NUMA node แบบ 4 คอร์จำนวน 16 ชุด
- Milan (2021): ขยายขนาด CCX เป็น 8 คอร์และนำริงบัสมาใช้ โดยยังใช้ได I/O ของ Rome ต่อ
- Genoa (2022): 12 CCD, Turin (2024): สูงสุด 16 CCD ให้ได้ 128 คอร์ (EPYC 9755) พร้อมอัปเกรดเป็น DDR5 และ PCIe5
- ข้อดีสำคัญของการออกแบบแบบชิปเล็ต: ใช้การ tape-out ของ CCD เดียวเพื่อ จัดไลน์อัปจำนวนคอร์ทั้งหมด ได้ ทำให้ได้เปรียบทั้งเรื่อง yield และความเร็วในการออกสู่ตลาดจากไดขนาดเล็ก
- ด้วยคอร์รุ่นย่อยแบบคอมแพกต์ Zen 4c/Zen 5c ทำให้มี Bergamo (Zen 4c) และ Turin-Dense (192 คอร์) บนแพลตฟอร์มเดียวกันได้ด้วย
สถาปัตยกรรม Intel Diamond Rapids
- มีโครงสร้างที่ได CBB (Core Building Block) 4 ตัวล้อมรอบได IMH (I/O and Memory Hub) 2 ตัว ซึ่งมีลักษณะภายนอกคล้ายกับการออกแบบของ AMD
- ภายในแต่ละ CBB มีโมดูลดูอัลคอร์ (DCM) 32 ชุด ผลิตด้วย Intel 18A-P และ hybrid bonding ลงบนเบสได Intel 3-PT
- 2 คอร์ใช้ L2 cache ร่วมกัน เป็นการออกแบบที่ชวนให้นึกถึง Dunnington รุ่นปี 2008
- รวมทั้งหมด 256 คอร์ แต่คาดว่า SKU กระแสหลักจะเปิดใช้งาน ได้สูงสุด 192 คอร์
- ได IMH: DDR5 16 แชนเนล, PCIe6 (รองรับ CXL3), ตัวเร่ง data path ของ Intel (QAT, DLB, IAA, DSA)
- เชื่อมระหว่างไดด้วย long-range trace บน package substrate แทน EMIB และแต่ละ CBB สามารถเข้าถึง IMH ทั้งสองฝั่งได้โดยตรง
- อย่างไรก็ตาม คาดว่าเวลาแฝงแบบข้าม CBB จะ แย่ลงอย่างมาก
-
ปัญหาการตัด SMT ออก
- หลัง Spectre/Meltdown Intel ได้ ตัด SMT ออกจาก P-core และเริ่มใช้ตั้งแต่ Lion Cove ฝั่งไคลเอนต์ในปี 2024
- ในดาต้าเซ็นเตอร์ ปริมาณงานรวมสูงสุดมีความสำคัญ จึงเป็น จุดอ่อนร้ายแรง ของ Diamond Rapids
- เมื่อเทียบกับ Granite Rapids ปัจจุบันที่ 128 คอร์/256 เธรด, Diamond Rapids ที่ 192 คอร์/192 เธรดคาดว่าจะให้ประสิทธิภาพเพิ่มขึ้นเพียงราว 40%
- แพลตฟอร์ม Diamond Rapids-SP แบบ 8 แชนเนล สำหรับตลาดกระแสหลักถูกยกเลิกทั้งหมด ทำให้ตลาดนี้จะไม่มีรุ่นใหม่ในเจเนอเรชันถัดไปอย่างน้อยจนถึงปี 2028
- ส่งผลให้พลาดตลาด CPU ประมวลผลทั่วไปที่จำเป็นต่อการใช้งานเครื่องมือ AI และการจัดเก็บคอนเท็กซ์
สถาปัตยกรรม AMD Venice
- AMD นำเทคโนโลยี advanced packaging มาใช้เป็นครั้งแรก โดยเชื่อมต่อ CCD กับ I/O die ผ่านลิงก์ระยะสั้นความเร็วสูง
- เนื่องจากมี shoreline เพิ่มเติมสำหรับลิงก์ CCD ทำให้ฮับ I/O กลาง ถูกแยกเป็น 2 die และเกิดโดเมน NUMA เพิ่มเติมระหว่างสองฝั่งของชิป
- ช่องหน่วยความจำ 16 ช่อง (เพิ่มจาก 12 ช่องของ Genoa), หน่วยความจำมัลติเพล็กซ์ MRDIMM-12800 ให้แบนด์วิดท์ 1.64TB/s (มากกว่า Turin 2.67 เท่า)
- นำ mesh network มาใช้ภายใน CCD: คอร์ Zen6c 32 คอร์จัดวางแบบกริด 4x8, ใช้กระบวนการผลิต N2 ของ TSMC
- รวมทั้งหมด 256 คอร์ ด้วย CCD 8 ตัว เพิ่มขึ้น 1/3 เมื่อเทียบกับ Turin-Dense 192 คอร์
- จัดสรร L3 cache 4MB ต่อคอร์ให้ Zen6c เต็มจำนวน (Zen5c ก่อนหน้านี้ได้เพียงครึ่งเดียว) ทำให้มีพื้นที่แคช 128MB ต่อ CCD
- SKU รุ่น "-F" แบบคอร์น้อย-ความถี่สูงสำหรับ AI head node: ใช้ 12-core Zen6 CCD สำหรับเดสก์ท็อป/มือถือ ให้ได้สูงสุด 96 คอร์
- มี IPD (Integrated Passive Device) ขนาดเล็ก 8 ตัวใกล้อินเทอร์เฟซ DDR5 ข้าง I/O die เพื่อทำให้การจ่ายไฟมีเสถียรภาพ
-
ประสิทธิภาพ Venice และชุดคำสั่งใหม่
- รุ่นท็อป 256 คอร์ให้ ประสิทธิภาพต่อวัตต์มากกว่า 1.7 เท่า ใน SPECrate®2017_int_base เมื่อเทียบกับ Turin 192 คอร์
- การปรับปรุง IPC (Instructions per Clock) อย่างมากของไมโครสถาปัตยกรรม Zen 6
- ชุดคำสั่งชนิดข้อมูล AI ใหม่: AVX512_FP16, AVX_VVNI_INT8, AVX512_BMM (การคูณเมทริกซ์แบบบิต)
- BMM: เก็บเมทริกซ์ไบนารี 16x16 ไว้ในรีจิสเตอร์ FPU และทำการสะสม BMM ด้วยการคำนวณ OR และ XOR
- มีประสิทธิภาพกับงานอย่างการจำลอง Verilog แต่คาดว่า การใช้งานจะจำกัด กับ LLM เพราะความแม่นยำไม่เพียงพอ
- ในสถานการณ์ที่ AMD Turin 96 คอร์มีสมรรถนะเทียบเท่า Intel Granite Rapids 128 คอร์ คาดว่าช่องว่าง ด้านประสิทธิภาพระหว่าง Venice กับ Diamond Rapids จะยิ่งกว้างขึ้น
- ขณะที่ Intel ยกเลิกโปรเซสเซอร์ 8 ช่องสัญญาณ AMD กลับเปิดตัวแพลตฟอร์ม Venice SP8 แบบ 8 ช่องสัญญาณ ใหม่ ซึ่งเป็นผู้สืบทอดของ EPYC 8004 Siena และรองรับ Zen 6c ได้สูงสุด 128 คอร์
- คาดว่า ส่วนแบ่งของ AMD ในตลาด enterprise ซึ่งเดิมเป็นจุดแข็งของ Intel จะเพิ่มขึ้น
NVIDIA Grace และ Vera
-
Grace CPU
- ออกแบบมาสำหรับ head node ของ GPU และหน่วยความจำ GPU แบบขยาย โดยใช้ NVLink-C2C (900GB/s แบบสองทิศทาง) ทำให้ GPU เข้าถึงหน่วยความจำของ CPU ได้ด้วยแบนด์วิดท์เต็ม
- ใช้หน่วยความจำ LPDDR5X ระดับมือถือ พร้อมบัสหน่วยความจำ 512 บิต ให้แบนด์วิดท์ 500GB/s และสูงสุด 480GB ต่อ CPU
- ใช้คอร์ ARM Neoverse V2 จำนวน 72 คอร์ (เปิดใช้งานจาก 76 คอร์), mesh 6x7, L3 cache 117MB
- mesh network มี แบนด์วิดท์แบบแบ่งสองทิศทาง 3.2TB/s เหมาะกับการไหลของข้อมูลโดยเฉพาะ
- มีคอขวดเชิงไมโครสถาปัตยกรรม: เมื่อ Branch Target Buffer เกิน 24 region ประสิทธิภาพจะลดลงอย่างมาก และเมื่อเกิน 32 region จะเกิด การล้างบัฟเฟอร์ 64MB ทั้งหมด
- ทำให้ประสิทธิภาพลดลง 50% ในโค้ด HPC ที่ไม่ได้ปรับจูน และ กระทบเวิร์กโหลด AI ของ GB200/GB300 ด้วย
-
Vera CPU (2026)
- สำหรับแพลตฟอร์ม Rubin โดยเพิ่ม แบนด์วิดท์ C2C เป็น 1.8TB/s หรือ 2 เท่า
- ใช้โมดูล SOCAMM ขนาด 128 บิต 8 ตัว ให้หน่วยความจำ 1.5TB และแบนด์วิดท์ 1.2TB/s
- มี 91 คอร์ (เปิดใช้งาน 88 คอร์) บน mesh 7x13, L3 cache 162MB
- แพ็กเกจ CoWoS-R: compute die ขนาด reticle 3nm จำนวน 1 ตัว + LPDDR5 memory die 4 ตัว + PCIe6/CXL3 IO die 1 ตัว (รวม 6 die)
- เลิกข้อจำกัดด้านคอขวดของคอร์ Neoverse และกลับมาใช้คอร์ Olympus ที่ออกแบบเอง
- 88 คอร์/176 เธรด (รองรับ SMT), ARMv9.2, FPU พอร์ต 128 บิต 6 ชุด (เพิ่มจาก 4 ชุดของ Neoverse V2)
- รองรับการคำนวณ ARM SVE2 FP8, มี L2 cache 2MB ต่อคอร์ (มากกว่า Grace 2 เท่า)
- โดยรวมแล้ว ประสิทธิภาพเพิ่มขึ้น 2 เท่า
AWS Graviton5
- AWS เป็น hyperscaler รายแรกที่นำ CPU ออกแบบเองไปใช้งานบนคลาวด์ได้สำเร็จ โดยเข้าซื้อ Annapurna Labs และใช้ ARM Neoverse CSS
- Graviton2: ใช้ส่วนลดครั้งใหญ่ในช่วงบูม COVID เพื่อเร่งการย้ายไป ARM, มีคอร์ Neoverse N1 จำนวน 64 คอร์
- Graviton3: ใช้ Neoverse V1 ทำให้ประสิทธิภาพ floating point ต่อคอร์เพิ่มเป็น 2 เท่า, ออกแบบแบบ EMIB chiplet, รองรับ DDR5 และ PCIe5 ก่อน AMD และ Intel 1 ปี
- Graviton4: ใช้คอร์ Neoverse V2 จำนวน 96 คอร์, หน่วยความจำ 12 ช่อง, PCIe5 96 เลน, รองรับ dual-socket
- Graviton5 (พรีวิวเดือนธันวาคม 2025): 192 คอร์ Neoverse V3, TSMC 3nm, ทรานซิสเตอร์ 172 พันล้านตัว
- L3 cache 192MB (เพิ่มขึ้นมากจาก 36MB ของ Graviton4), DDR5-8800 แบบ 12 ช่อง
- อัปเกรดเป็น PCIe6 แต่จำนวนเลนลดจาก 96 เหลือ 64 เลน (เพื่อเพิ่มประสิทธิภาพด้านต้นทุนของเลนที่ไม่ได้ใช้งาน)
- mesh 8x12, 2 คอร์ใช้ mesh stop ร่วมกัน, แบ่งเป็นหลาย compute die และใช้ กลยุทธ์แพ็กเกจแบบใหม่
- AWS ใช้ CPU Graviton หลายพันตัวภายในสำหรับ CI/CD และ EDA เพื่อ ออกแบบ Graviton, Trainium และ Nitro รุ่นถัดไป (dogfooding ภายใน)
- ตัวเร่ง Trainium3 ใช้ Graviton CPU เป็น head node (1 CPU : 4 XPU)
Microsoft Cobalt 200
- จะเปิดตัวปลายปี 2025 ในฐานะรุ่นต่อจาก Cobalt 100 (2023, 128 คอร์ Neoverse N2)
- ใช้ 132 คอร์ Neoverse V3, มี L2 cache 3MB ต่อคอร์, ใช้ compute die TSMC 3nm จำนวน 2 ตัว
- mesh 8x8 ต่อ die, พิมพ์มา 72 คอร์/เปิดใช้งาน 66 คอร์, L3 cache 192MB, DDR5 6 ช่อง, PCIe6 64 เลน
- ประสิทธิภาพเพิ่มขึ้น 50% เมื่อเทียบกับ Cobalt 100
- ใช้สำหรับบริการประมวลผล CPU ทั่วไปของ Azure โดยเฉพาะ และ ไม่ใช้เป็น AI head node (Microsoft Maia 200 เลือกใช้ Intel Granite Rapids)
Google Axion C4A, N4A
- ประกาศในปี 2024 และ GA ในปี 2025 เป็นการเข้าสู่ตลาด CPU ซิลิคอนสั่งทำของ GCP โดย Google
- Axion C4A: สูงสุด 72 คอร์ Neoverse V2, DDR5 8 ช่อง, PCIe5, die 5nm แบบ monolithic (พิมพ์มา 81 คอร์, mesh 9x9)
- คาดว่าเป็นการออกแบบ die 3nm ตัวใหม่ สำหรับอินสแตนซ์ bare metal 96 คอร์ที่พรีวิวช่วงปลายปี 2025
- Axion N4A: สำหรับ scale-out ที่คุ้มค่าต้นทุน ใช้ 64 คอร์ Neoverse N3, ออกแบบ full custom บน TSMC 3nm
- Google กำลังย้ายโครงสร้างพื้นฐานภายใน (เช่น Gmail, YouTube, Google Play) ไปสู่ ARM และ มีแผนจะใช้ Axion กับ head node ของคลัสเตอร์ TPU ในอนาคต
Ampere Computing และการเข้าซื้อโดย SoftBank
- เป็นผู้บุกเบิก ARM silicon แบบ merchant และจับมือกับ Oracle โดยท้าทายการผูกขาดของ x86 ด้วย Altra (80 คอร์) และ Altra Max (128 คอร์)
- ใช้คอร์ Neoverse N1, mesh interconnect ที่ออกแบบเอง (คลัสเตอร์ละ 4 คอร์), DDR4 8 ช่อง, PCIe4 128 เลน, die เดี่ยว TSMC 7nm
- AmpereOne: กระบวนการผลิต 5nm, 192 คอร์, แยก I/O chiplet (DDR5·PCIe), ใช้ดีไซน์ MCM ที่ไม่ต้องมี interposer
- ใช้คอร์ ARM แบบ custom (ปรับให้เหมาะกับความหนาแน่นของคอร์) + L2 cache 2MB (ช่วยลดปัญหา noisy neighbor)
- มีแผนแตกไลน์โดยนำ chiplet กลับมาใช้ซ้ำ เช่น AmpereOne-M แบบ 12 ช่อง และ AmpereOne-MX แบบ 3nm 256 คอร์
- ในปี 2025 SoftBank เข้าซื้อด้วยมูลค่า 6.5 พันล้านดอลลาร์ โดยมีเป้าหมายเพื่อจัดหาบุคลากรด้านการออกแบบ CPU สำหรับโครงการ Stargate
- สาเหตุที่ Ampere ล้มเหลว:
- รุ่น Altra เปิดตัวเร็วเกินไปในช่วงที่ซอฟต์แวร์ native บน ARM ยังไม่สุกงอม
- AmpereOne ล่าช้าหลายครั้งจนพร้อมใช้งานจริงในช่วงครึ่งหลังของปี 2024 ซึ่งเป็นเวลาที่ CPU ARM ของ hyperscaler เริ่มเดินหน้าเต็มตัวแล้ว และ AMD ก็มี 192 คอร์พร้อม ประสิทธิภาพต่อคอร์สูงกว่า 3~4 เท่า
- ยอดซื้อ CPU Ampere ของ Oracle ลดฮวบจาก 48 ล้านดอลลาร์ ใน FY2023 → 3 ล้านดอลลาร์ ใน FY2024 → 3.7 ล้านดอลลาร์ใน FY2025
ARM Phoenix
- ARM จะเข้าสู่ธุรกิจ ออกแบบและจำหน่าย CPU สำหรับดาต้าเซ็นเตอร์แบบครบวงจร ในปี 2026 โดยแข่งขันโดยตรงกับลูกค้าผู้รับไลเซนส์ Neoverse CSS เดิม
- จนถึงปัจจุบันมีการติดตั้ง คอร์ Neoverse มากกว่า 1 พันล้านคอร์ ใน CPU·DPU สำหรับดาต้าเซ็นเตอร์ และมีไลเซนส์ CSS 21 ฉบับให้กับ 12 บริษัท
- รายได้ค่าสิทธิ์จากดาต้าเซ็นเตอร์เติบโต มากกว่า 2 เท่าเมื่อเทียบกับปีก่อน และคาดว่าในอีกไม่กี่ปีข้างหน้า CSS จะคิดเป็นมากกว่า 50% ของรายได้ค่าสิทธิ์
- Phoenix: 128 คอร์ Neoverse V3, ARM CMN mesh, ชิป 2 ไดแบบ half-reticle บน TSMC 3nm
- DDR5 12 แชนเนล (8400MT/s), PCIe Gen 6 96 เลน, ตั้งค่า TDP ได้ 250~350W
- ลูกค้ารายแรกคือ Meta และ OpenAI (กิจการร่วมทุน Stargate/SoftBank) กับ Cloudflare ก็เป็นผู้สมัครลูกค้าเช่นกัน
- สามารถเชื่อมต่อ XPU กับหน่วยความจำที่ใช้ร่วมกันแบบ coherent ได้ผ่าน Accelerator Enablement Kit ที่อิง PCIe6
Huawei Kunpeng
-
Kunpeng 920 และ 920B
- รุ่นเริ่มต้น (Hi1610~Kunpeng 916): ARM Cortex A57→A72, TSMC 16nm
- Kunpeng 920 (2019): TaiShan V110 แบบคัสตอม 64 คอร์, คอมพิวต์ได TSMC 7nm 2 ได, แพ็กเกจ CoWoS-S (การใช้ CoWoS-S กับ CPU เป็นครั้งแรก)
- DDR4 8 แชนเนล, PCIe4 40 เลน, รวม dual 100GbE
- การคว่ำบาตรของสหรัฐทำให้การจัดหาจาก TSMC ถูกตัดขาด และ Kunpeng 930 รุ่นถัดไปไม่ได้เปิดตัว
- Kunpeng 920B (2024): คอร์ TaiShan V120 รองรับ SMT, 10 คลัสเตอร์แบบ 4 คอร์ต่อได (รวม 80 คอร์/160 เธรด)
- DDR5 8 แชนเนล, แยกวาง I/O die, ออกแบบใหม่บนกระบวนการ SMIC N+2 (หลังเว้นช่วงไป 5 ปี)
-
Kunpeng 950 (2026)
- LinxiCore รุ่นใหม่ 192 คอร์ (รองรับ SMT) และจะผลิตรุ่นเล็ก 96 คอร์ด้วย
- การจัดวางแร็ก TaiShan 950 SuperPoD: เซิร์ฟเวอร์แบบดูอัลซ็อกเก็ต 16 เครื่อง, DDR5 สูงสุด 48TB (คาดว่า 12 แชนเนล)
- ประสิทธิภาพฐานข้อมูล OLTP เพิ่มขึ้น 2.9 เท่า เทียบกับ Kunpeng 920B (อิง GaussDB Multi-Write)
- มีแผนนำไปใช้ในเซิร์ฟเวอร์ฐานข้อมูล Oracle Exadata และภาคการเงินของจีน
- คาดว่าผลิตด้วยกระบวนการ SMIC N+3
-
Kunpeng 960 (โรดแมปปี 2028)
- รุ่นประสิทธิภาพสูง: 96 คอร์/192 เธรด สำหรับ AI head node·ฐานข้อมูล, ประสิทธิภาพต่อคอร์เพิ่มขึ้น มากกว่า 50%
- รุ่นความหนาแน่นสูง: สำหรับ virtualization·cloud มากกว่า 256 คอร์
- คาดว่าจะ ครองส่วนแบ่งตลาดอย่างมีนัยสำคัญ ในตลาด CPU สำหรับไฮเปอร์สเกลเลอร์ของจีน
ยังไม่มีความคิดเห็น