การกลับมาของ CPU: แนวโน้มตลาด CPU สำหรับดาต้าเซ็นเตอร์ในปี 2026

(newsletter.semianalysis.com)

5 คะแนน โดย GN⁺ 2026-02-10 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

จากความต้องการที่พุ่งสูงแบบก้าวกระโดดของการเรียนรู้แบบเสริมกำลังและ การอนุมาน AI แบบเอเจนต์ บทบาทของ CPU ในดาต้าเซ็นเตอร์จึงกลับมาโดดเด่นอีกครั้ง และทำให้กระแสการลงทุนที่เคยเน้น GPU เป็นศูนย์กลางเริ่มเปลี่ยนไป
Intel เผชิญกับ ความต้องการเซิร์ฟเวอร์ CPU ที่เพิ่มขึ้นอย่างไม่คาดคิด ในช่วงปลายปี 2025 และกำลังขยายการลงทุนในโรงงานผลิตชิปในปี 2026 พร้อมทั้งเปลี่ยนเวเฟอร์สำหรับพีซีไปใช้กับเซิร์ฟเวอร์
AMD Venice นำ กระบวนการผลิต N2 ของ TSMC มาใช้ พร้อม CCD Zen6c 256 คอร์และเครือข่าย mesh โดยคาดว่าจะยิ่งทิ้งห่าง Intel ทั้งด้านประสิทธิภาพและประสิทธิภาพพลังงาน
ฝั่ง CPU ARM ที่ไฮเปอร์สเกลเลอร์พัฒนาเอง จาก NVIDIA, AWS, Microsoft, Google, ARM และรายอื่น ๆ กำลังขยายตัวอย่างจริงจัง ทำให้โครงสร้างผูกขาดของ x86 ถูกสลายลงอย่างรวดเร็ว
เมื่อรวมถึง Huawei Kunpeng 950 แล้ว ปี 2026 จะเป็นปีแห่งการแข่งขันที่ไม่เคยเกิดขึ้นมาก่อน ซึ่งผู้ผลิตทุกรายจะ เปิดตัว CPU รุ่นใหม่พร้อมกัน

การเปลี่ยนแปลงและวิวัฒนาการของบทบาท CPU ในดาต้าเซ็นเตอร์

ตั้งแต่ยุคพีซีถึงยุคดอทคอม
- ในทศวรรษ 1990 ประสิทธิภาพที่สูงขึ้นของโปรเซสเซอร์พีซีทำให้เกิดความต้องการใช้แทนเมนเฟรมและเวิร์กสเตชัน โดย Intel เข้าสู่ตลาดเซิร์ฟเวอร์ด้วย Pentium Pro (1995) และ แบรนด์ Xeon (1998)
- ในยุคอินเทอร์เน็ตช่วงทศวรรษ 2000 การขยายตัวของ Web 2.0 อีคอมเมิร์ซ และสมาร์ตโฟน ทำให้ CPU สำหรับดาต้าเซ็นเตอร์เติบโตเป็น ตลาดมูลค่าหลายพันล้านดอลลาร์
- หลังการแข่งขันด้าน GHz สิ้นสุดลง ก็เกิดนวัตกรรมด้านการออกแบบอย่าง CPU แบบมัลติคอร์ การรวม memory controller เข้ากับชิป (AMD) และการเชื่อมต่อ PCIe โดยตรง
- มีการนำ SMT (Simultaneous Multi-Threading) มาใช้ทั้งใน Intel และ AMD เพื่อเพิ่มประสิทธิภาพการประมวลผลแบบขนาน
ยุคของไฮเปอร์สเกลเลอร์จากเวอร์ชวลไลเซชันและคลาวด์คอมพิวติ้ง
- ช่วงปลายทศวรรษ 2000 การมาของคลาวด์สาธารณะอย่าง AWS ทำให้เกิดการเปลี่ยนจากโมเดล CapEx ไปสู่ OpEx และพัฒนาไปถึง serverless computing (เช่น AWS Lambda)
- ฮาร์ดแวร์เวอร์ชวลไลเซชันของ CPU กลายเป็นรากฐานสำคัญของคลาวด์ โดยไฮเปอร์ไวเซอร์ (เช่น VMware ESXi) สามารถรัน VM อิสระหลายตัวบน CPU เดียวได้
- ในปี 2018 ช่องโหว่ Spectre และ Meltdown ทำให้เกิดความจำเป็นในการปิดใช้งาน SMT ซึ่งทำให้ประสิทธิภาพลดลงได้สูงสุด 30%
  - การโจมตีผ่านฟังก์ชันทำนายการแตกกิ่งทำให้ภัยคุกคามด้านความปลอดภัยของคลาวด์กลายเป็นเรื่องจริง
ยุคการบูรณาการ AI GPU และ CPU
- ในช่วง 5 ปีก่อนการเปิดตัว ChatGPT (พฤศจิกายน 2022) Intel จัดส่ง Xeon Scalable CPU มากกว่า 100 ล้านตัว
- การฝึกและการอนุมานโมเดล AI ดำเนินการได้มีประสิทธิภาพกว่าบนหน่วยเวกเตอร์ขนาดใหญ่ของ GPU และ Tensor Core ถึง 100~1000 เท่า
- เมื่อเทียบกับ GPU แล้ว CPU มีประสิทธิภาพด้านการคำนวณเมทริกซ์ต่ำมาก จึง ถูกลดบทบาทลงเป็นส่วนสนับสนุน และมีการจัดสรรพลังงานให้ GPU ก่อน
- การใช้งาน CPU แยกออกเป็นสองรูปแบบ:
  - เฮดโหนด: ป้อนและจัดการข้อมูลให้ GPU ต้องการประสิทธิภาพต่อคอร์สูง แคชขนาดใหญ่ และหน่วยความจำแบนด์วิดท์สูง (NVIDIA Grace, Venice+MI455X, Graviton5+Trainium3 เป็นต้น)
  - การรวมซ็อกเก็ตแบบคลาวด์เนทีฟ: เพื่อเพิ่มประสิทธิภาพพลังงานสูงสุด มีการแทนที่เซิร์ฟเวอร์รุ่นเก่าด้วย CPU รุ่นใหม่ในอัตรา มากกว่า 10:1 โดยเซิร์ฟเวอร์ Intel Cascade Lake หลายล้านเครื่องที่ซื้อในช่วง COVID กำลังทยอยปลดระวาง
ยุคของการเรียนรู้แบบเสริมกำลังและเอเจนต์
- ในดาต้าเซ็นเตอร์ "Fairwater" ของ Microsoft สำหรับ OpenAI อาคาร CPU และสตอเรจขนาด 48MW ทำหน้าที่สนับสนุนคลัสเตอร์ GPU ขนาด 295MW โดยมี CPU หลายหมื่นตัวถูกใช้เพื่อประมวลผลข้อมูลระดับเพตะไบต์
- ในสภาพแวดล้อม การเรียนรู้แบบเสริมกำลัง (RL) จำเป็นต้องใช้ CPU จำนวนมากสำหรับการคอมไพล์โค้ด การตรวจสอบ การตีความ และการใช้เครื่องมือ เพื่อรันการกระทำที่โมเดลสร้างขึ้นและคำนวณรางวัล
  - ความเร็วในการพัฒนาประสิทธิภาพของ GPU แซงหน้า CPU อย่างมาก ทำให้ในอนาคต อัตราส่วนพลังงาน CPU ต่อ GPU ในยุค Rubin อาจขยายไปถึง 1:6 หรือมากกว่า
- โมเดล RAG และโมเดลแบบเอเจนต์ดำเนินการเรียก API ค้นหาอินเทอร์เน็ต และคิวรีฐานข้อมูลในวงกว้าง ส่งผลให้ความต้องการ CPU ทั่วไปเพิ่มขึ้นอย่างรวดเร็ว
- AWS และ Azure กำลังสร้างโครงสร้างพื้นฐานจำนวนมากโดยใช้ CPU Graviton และ Cobalt ของตนเองร่วมกับเซิร์ฟเวอร์ x86
- ห้องแล็บวิจัย Frontier AI กำลังเผชิญภาวะขาดแคลน CPU สำหรับการฝึก RL และต้อง แข่งขันโดยตรงกับผู้ให้บริการคลาวด์เพื่อแย่งชิงเซิร์ฟเวอร์ x86 ทั่วไป
- Intel กำลังพิจารณา ขึ้นราคา Xeon หลังสต็อกหมดอย่างไม่คาดคิด และกำลังจัดหาเครื่องมือการผลิตเพิ่มเติม
- AMD กำลังขยายศักยภาพด้านอุปทาน และคาดว่าตลาดรวมแบบ TAM ของเซิร์ฟเวอร์ CPU ในปี 2026 จะเติบโตในระดับ "เลขสองหลักที่แข็งแกร่ง"

ประวัติของอินเตอร์คอนเน็กต์ CPU แบบมัลติคอร์

การออกแบบครอสบาร์ยุคแรกและข้อจำกัด
- ในยุคดูอัลคอร์ยุคแรก (Intel Pentium D, AMD Athlon 64 X2, ปี 2005) ใช้การเชื่อมต่อแบบ FSB (Front Side Bus) หรือแบบ NoC บนได
- วิธีแบบครอสบาร์มีจำนวนการเชื่อมต่อเพิ่มขึ้นอย่างรวดเร็วเมื่อจำนวนคอร์เพิ่มขึ้น (2 คอร์ = 1, 4 คอร์ = 6, 6 คอร์ = 15, 8 คอร์ = 28) ทำให้ 4 คอร์เป็นขีดจำกัดในทางปฏิบัติ
- AMD Istanbul (2009) ขยายเป็นครอสบาร์ 6 ทาง, Magny-Cours (2010) เป็น 12 คอร์แบบดูอัลได, และ Interlagos ขยายเป็น 16 คอร์
สถาปัตยกรรมริงบัสของ Intel
- Intel เปิดตัวริงบัสใน Nehalem-EX (2010) โดยรวม 8 คอร์ไว้บนไดเดียว พร้อม IMC และลิงก์ QPI
- ใช้วงแหวนหมุนสวนทางกันสองชุดเพื่อลดเวลาแฝงและความแออัด แต่เวลาแฝงในการเข้าถึงระหว่างคอร์ ไม่สม่ำเสมอ (NUMA)
- Ivy Bridge-EX: จัดวางแบบ 3 คอลัมน์ 5 แถว และทำได้ 15 คอร์ด้วย "ริงเสมือน" 3 ชุด
- Haswell/Broadwell: ใช้ริงบัสอิสระคู่ รองรับ 18~24 คอร์ แต่เมื่อข้อมูลต้องผ่าน buffered switch ระหว่างริง จะเกิดเวลาแฝงมากกว่า 100ns
  - สามารถแยกเป็น 2 NUMA node ได้ด้วยการตั้งค่า "Cluster on Die"
สถาปัตยกรรมเมชของ Intel
- ในปี 2016 มีการนำเมชอินเตอร์คอนเน็กต์มาใช้ใน Xeon Phi "Knights Landing" และขยายไปสู่ Skylake-X Xeon Scalable (28 คอร์) ในปี 2017
- ใช้การจัดวางแบบตาราง 2 มิติ โดยวางคอร์, L3 cache slice, PCIe I/O, IMC และตัวเร่งความเร็วไว้ที่แต่ละ mesh stop
- โหมด Sub-NUMA Clustering (SNC) แบ่งเมชออกเป็น 4 ควอดแรนต์เพื่อลดเวลาแฝงเฉลี่ย
- Skylake-X: เมช 6x6, ใช้ mesh clock 2.4GHz และให้เวลาแฝงเฉลี่ยใกล้เคียงกับ Broadwell แบบดูอัลริง
- Ice Lake: จากการเปลี่ยนไปใช้ 10nm ทำให้ขยายเป็นเมช 8x7 รองรับได้ถึง 40 คอร์ (ติดข้อจำกัดของเรติเคิล)
เมชแบบกระจายผ่าน EMIB
- Sapphire Rapids: บนโหนด Intel 7 ไดแบบโมโนลิธิกเดี่ยวไปได้เพียง 34 คอร์ และการเพิ่ม AMX engine ทำให้พื้นที่คอร์ใหญ่ขึ้น
  - ใช้ EMIB advanced packaging เชื่อม 4 ไดเข้าด้วยกัน สร้างเมชขนาด 8x12 และไปได้ถึง 60 คอร์ (ซิลิคอนรวมราว 1600mm²)
  - เวลาแฝงเฉลี่ยระหว่างคอร์แย่ลงจาก 47ns (Skylake) เป็น 59ns
  - เพิ่ม L2 cache แบบ private ของแต่ละคอร์เป็น 2MB (L2 รวม > L3: 120MB เทียบกับ 112.5MB)
  - โครงการล่าช้าหลายปีจนถึง stepping E5 เดิมทีวางแผนไว้ในปี 2021 แต่เปิดตัวต้นปี 2023
- Emerald Rapids (ปลายปี 2023): ลดจำนวนไดเหลือ 2 ได และเพิ่มเป็น 66 คอร์ (เปิดใช้งานสูงสุด 64 คอร์) พร้อมเพิ่ม L3 cache เป็น 320MB เกือบ 3 เท่า
การออกแบบแบบกระจายชนิดต่างสถาปัตย์ของ Xeon 6
- บนแพลตฟอร์ม Xeon 6 ในปี 2024 มีการ แยก I/O และ compute แบบต่างสถาปัตย์: ได I/O ใช้ Intel 7 ส่วนได compute ใช้ Intel 3
- สามารถผสมการจัดวาง P-core Granite Rapids และ E-core Sierra Forest ได้
- Granite Rapids-AP Xeon 6900P: ใช้ได compute 3 ได สร้าง เมช 10x19, มี 132 คอร์ (เปิดใช้งานได้สูงสุด 128 คอร์)
- Sierra Forest: จัด E-core 4 คอร์เป็นหนึ่งคลัสเตอร์ บนเมช 8x6 รวมเป็น 144 คอร์ แต่การนำไปใช้ยังจำกัด เพราะ hyperscaler ได้เลือกใช้ CPU ของ AMD และ ARM ที่พัฒนาเองไปแล้ว
  - Sierra Forest-AP แบบดูอัลได 288 คอร์ (Xeon 6900E) ผลิตเพียงจำนวนน้อย
ข้อจำกัดของ Clearwater Forest
- Xeon 6+ Clearwater Forest-AP: ใช้ Foveros Direct hybrid bonding ของ Intel ซ้อนคอร์ได 18A บนเบสได Intel 3 ทำได้ 288 คอร์
- เป็นการออกแบบที่ซับซ้อน ประกอบด้วย compute die 24 คอร์จำนวน 12 ได
- มีปัญหาในการรวม Foveros Direct ทำให้ เลื่อนจาก H2 2025 เป็น H1 2026
- ต่อหนึ่งคลัสเตอร์ 4 คอร์ แบนด์วิดท์ในการเข้าถึง L3 และเมชบนเบสไดมีเพียง 35GB/s เท่านั้น
- แม้จะห่างกัน 2 ปี แต่เมื่อเทียบที่จำนวนคอร์เท่ากัน ประสิทธิภาพดีกว่า Sierra Forest เพียง 17%
- Intel แทบไม่กล่าวถึง Clearwater Forest ในการประกาศผลประกอบการ Q4 2025 และมีความเป็นไปได้ว่าจะใช้มันเป็น ยานพาหนะเพื่อเรียนรู้เรื่อง yield ของ Foveros Direct มากกว่าการผลิตปริมาณสูง

สถาปัตยกรรมอินเตอร์คอนเน็กต์ AMD Zen

EPYC Naples (2017)
- เป็นผลงานการกลับสู่ตลาดดาต้าเซ็นเตอร์ของ AMD โดยใช้ได "Zeppelin" 4 ตัวในรูปแบบ MCM เพื่อให้ได้ 32 คอร์
- แต่ละไดมี 2 CCX (4 คอร์ + L3 8MB เชื่อมด้วยครอสบาร์) และใช้ลิงก์ Infinity Fabric on Package (IFOP) ระหว่างได
- การไม่มี unified L3 cache และการมี NUMA domain จำนวนมาก (Intra-CCX, Inter-CCX, Die-to-die, Inter-Socket) ทำให้ ความแปรปรวนของเวลาแฝงสูง
- Intel เคยเยาะเย้ยว่าเป็น "การเอาไดเดสก์ท็อป 4 ตัวมาติดกาวรวมกัน" แต่จริง ๆ แล้วเป็นการออกแบบที่ใช้ทรัพยากรอย่างมีประสิทธิภาพโดยทีมขนาดเล็ก
วิวัฒนาการของรุ่นถัดจาก EPYC Rome (2019)
- Rome: วาง CCD 8 คอร์ 8 ตัวล้อมรอบได I/O ตรงกลาง โดย CCD ใช้ TSMC N7 และได I/O ใช้ GlobalFoundries 12nm
  - การสื่อสารระหว่าง CCX ทั้งหมดใช้ ลิงก์ GMI ที่ต้องผ่านได I/O ทำให้ในเชิงหน้าที่เป็น NUMA node แบบ 4 คอร์จำนวน 16 ชุด
- Milan (2021): ขยายขนาด CCX เป็น 8 คอร์และนำริงบัสมาใช้ โดยยังใช้ได I/O ของ Rome ต่อ
- Genoa (2022): 12 CCD, Turin (2024): สูงสุด 16 CCD ให้ได้ 128 คอร์ (EPYC 9755) พร้อมอัปเกรดเป็น DDR5 และ PCIe5
- ข้อดีสำคัญของการออกแบบแบบชิปเล็ต: ใช้การ tape-out ของ CCD เดียวเพื่อ จัดไลน์อัปจำนวนคอร์ทั้งหมด ได้ ทำให้ได้เปรียบทั้งเรื่อง yield และความเร็วในการออกสู่ตลาดจากไดขนาดเล็ก
- ด้วยคอร์รุ่นย่อยแบบคอมแพกต์ Zen 4c/Zen 5c ทำให้มี Bergamo (Zen 4c) และ Turin-Dense (192 คอร์) บนแพลตฟอร์มเดียวกันได้ด้วย

สถาปัตยกรรม Intel Diamond Rapids

มีโครงสร้างที่ได CBB (Core Building Block) 4 ตัวล้อมรอบได IMH (I/O and Memory Hub) 2 ตัว ซึ่งมีลักษณะภายนอกคล้ายกับการออกแบบของ AMD
ภายในแต่ละ CBB มีโมดูลดูอัลคอร์ (DCM) 32 ชุด ผลิตด้วย Intel 18A-P และ hybrid bonding ลงบนเบสได Intel 3-PT
- 2 คอร์ใช้ L2 cache ร่วมกัน เป็นการออกแบบที่ชวนให้นึกถึง Dunnington รุ่นปี 2008
รวมทั้งหมด 256 คอร์ แต่คาดว่า SKU กระแสหลักจะเปิดใช้งาน ได้สูงสุด 192 คอร์
ได IMH: DDR5 16 แชนเนล, PCIe6 (รองรับ CXL3), ตัวเร่ง data path ของ Intel (QAT, DLB, IAA, DSA)
เชื่อมระหว่างไดด้วย long-range trace บน package substrate แทน EMIB และแต่ละ CBB สามารถเข้าถึง IMH ทั้งสองฝั่งได้โดยตรง
- อย่างไรก็ตาม คาดว่าเวลาแฝงแบบข้าม CBB จะ แย่ลงอย่างมาก
ปัญหาการตัด SMT ออก
- หลัง Spectre/Meltdown Intel ได้ ตัด SMT ออกจาก P-core และเริ่มใช้ตั้งแต่ Lion Cove ฝั่งไคลเอนต์ในปี 2024
- ในดาต้าเซ็นเตอร์ ปริมาณงานรวมสูงสุดมีความสำคัญ จึงเป็น จุดอ่อนร้ายแรง ของ Diamond Rapids
- เมื่อเทียบกับ Granite Rapids ปัจจุบันที่ 128 คอร์/256 เธรด, Diamond Rapids ที่ 192 คอร์/192 เธรดคาดว่าจะให้ประสิทธิภาพเพิ่มขึ้นเพียงราว 40%
- แพลตฟอร์ม Diamond Rapids-SP แบบ 8 แชนเนล สำหรับตลาดกระแสหลักถูกยกเลิกทั้งหมด ทำให้ตลาดนี้จะไม่มีรุ่นใหม่ในเจเนอเรชันถัดไปอย่างน้อยจนถึงปี 2028
  - ส่งผลให้พลาดตลาด CPU ประมวลผลทั่วไปที่จำเป็นต่อการใช้งานเครื่องมือ AI และการจัดเก็บคอนเท็กซ์

สถาปัตยกรรม AMD Venice

AMD นำเทคโนโลยี advanced packaging มาใช้เป็นครั้งแรก โดยเชื่อมต่อ CCD กับ I/O die ผ่านลิงก์ระยะสั้นความเร็วสูง
เนื่องจากมี shoreline เพิ่มเติมสำหรับลิงก์ CCD ทำให้ฮับ I/O กลาง ถูกแยกเป็น 2 die และเกิดโดเมน NUMA เพิ่มเติมระหว่างสองฝั่งของชิป
ช่องหน่วยความจำ 16 ช่อง (เพิ่มจาก 12 ช่องของ Genoa), หน่วยความจำมัลติเพล็กซ์ MRDIMM-12800 ให้แบนด์วิดท์ 1.64TB/s (มากกว่า Turin 2.67 เท่า)
นำ mesh network มาใช้ภายใน CCD: คอร์ Zen6c 32 คอร์จัดวางแบบกริด 4x8, ใช้กระบวนการผลิต N2 ของ TSMC
รวมทั้งหมด 256 คอร์ ด้วย CCD 8 ตัว เพิ่มขึ้น 1/3 เมื่อเทียบกับ Turin-Dense 192 คอร์
จัดสรร L3 cache 4MB ต่อคอร์ให้ Zen6c เต็มจำนวน (Zen5c ก่อนหน้านี้ได้เพียงครึ่งเดียว) ทำให้มีพื้นที่แคช 128MB ต่อ CCD
SKU รุ่น "-F" แบบคอร์น้อย-ความถี่สูงสำหรับ AI head node: ใช้ 12-core Zen6 CCD สำหรับเดสก์ท็อป/มือถือ ให้ได้สูงสุด 96 คอร์
มี IPD (Integrated Passive Device) ขนาดเล็ก 8 ตัวใกล้อินเทอร์เฟซ DDR5 ข้าง I/O die เพื่อทำให้การจ่ายไฟมีเสถียรภาพ
ประสิทธิภาพ Venice และชุดคำสั่งใหม่
- รุ่นท็อป 256 คอร์ให้ ประสิทธิภาพต่อวัตต์มากกว่า 1.7 เท่า ใน SPECrate®2017_int_base เมื่อเทียบกับ Turin 192 คอร์
- การปรับปรุง IPC (Instructions per Clock) อย่างมากของไมโครสถาปัตยกรรม Zen 6
- ชุดคำสั่งชนิดข้อมูล AI ใหม่: AVX512_FP16, AVX_VVNI_INT8, AVX512_BMM (การคูณเมทริกซ์แบบบิต)
  - BMM: เก็บเมทริกซ์ไบนารี 16x16 ไว้ในรีจิสเตอร์ FPU และทำการสะสม BMM ด้วยการคำนวณ OR และ XOR
  - มีประสิทธิภาพกับงานอย่างการจำลอง Verilog แต่คาดว่า การใช้งานจะจำกัด กับ LLM เพราะความแม่นยำไม่เพียงพอ
- ในสถานการณ์ที่ AMD Turin 96 คอร์มีสมรรถนะเทียบเท่า Intel Granite Rapids 128 คอร์ คาดว่าช่องว่าง ด้านประสิทธิภาพระหว่าง Venice กับ Diamond Rapids จะยิ่งกว้างขึ้น
- ขณะที่ Intel ยกเลิกโปรเซสเซอร์ 8 ช่องสัญญาณ AMD กลับเปิดตัวแพลตฟอร์ม Venice SP8 แบบ 8 ช่องสัญญาณ ใหม่ ซึ่งเป็นผู้สืบทอดของ EPYC 8004 Siena และรองรับ Zen 6c ได้สูงสุด 128 คอร์
  - คาดว่า ส่วนแบ่งของ AMD ในตลาด enterprise ซึ่งเดิมเป็นจุดแข็งของ Intel จะเพิ่มขึ้น

NVIDIA Grace และ Vera

Grace CPU
- ออกแบบมาสำหรับ head node ของ GPU และหน่วยความจำ GPU แบบขยาย โดยใช้ NVLink-C2C (900GB/s แบบสองทิศทาง) ทำให้ GPU เข้าถึงหน่วยความจำของ CPU ได้ด้วยแบนด์วิดท์เต็ม
- ใช้หน่วยความจำ LPDDR5X ระดับมือถือ พร้อมบัสหน่วยความจำ 512 บิต ให้แบนด์วิดท์ 500GB/s และสูงสุด 480GB ต่อ CPU
- ใช้คอร์ ARM Neoverse V2 จำนวน 72 คอร์ (เปิดใช้งานจาก 76 คอร์), mesh 6x7, L3 cache 117MB
- mesh network มี แบนด์วิดท์แบบแบ่งสองทิศทาง 3.2TB/s เหมาะกับการไหลของข้อมูลโดยเฉพาะ
- มีคอขวดเชิงไมโครสถาปัตยกรรม: เมื่อ Branch Target Buffer เกิน 24 region ประสิทธิภาพจะลดลงอย่างมาก และเมื่อเกิน 32 region จะเกิด การล้างบัฟเฟอร์ 64MB ทั้งหมด
  - ทำให้ประสิทธิภาพลดลง 50% ในโค้ด HPC ที่ไม่ได้ปรับจูน และ กระทบเวิร์กโหลด AI ของ GB200/GB300 ด้วย
Vera CPU (2026)
- สำหรับแพลตฟอร์ม Rubin โดยเพิ่ม แบนด์วิดท์ C2C เป็น 1.8TB/s หรือ 2 เท่า
- ใช้โมดูล SOCAMM ขนาด 128 บิต 8 ตัว ให้หน่วยความจำ 1.5TB และแบนด์วิดท์ 1.2TB/s
- มี 91 คอร์ (เปิดใช้งาน 88 คอร์) บน mesh 7x13, L3 cache 162MB
- แพ็กเกจ CoWoS-R: compute die ขนาด reticle 3nm จำนวน 1 ตัว + LPDDR5 memory die 4 ตัว + PCIe6/CXL3 IO die 1 ตัว (รวม 6 die)
- เลิกข้อจำกัดด้านคอขวดของคอร์ Neoverse และกลับมาใช้คอร์ Olympus ที่ออกแบบเอง
  - 88 คอร์/176 เธรด (รองรับ SMT), ARMv9.2, FPU พอร์ต 128 บิต 6 ชุด (เพิ่มจาก 4 ชุดของ Neoverse V2)
  - รองรับการคำนวณ ARM SVE2 FP8, มี L2 cache 2MB ต่อคอร์ (มากกว่า Grace 2 เท่า)
  - โดยรวมแล้ว ประสิทธิภาพเพิ่มขึ้น 2 เท่า

AWS Graviton5

AWS เป็น hyperscaler รายแรกที่นำ CPU ออกแบบเองไปใช้งานบนคลาวด์ได้สำเร็จ โดยเข้าซื้อ Annapurna Labs และใช้ ARM Neoverse CSS
Graviton2: ใช้ส่วนลดครั้งใหญ่ในช่วงบูม COVID เพื่อเร่งการย้ายไป ARM, มีคอร์ Neoverse N1 จำนวน 64 คอร์
Graviton3: ใช้ Neoverse V1 ทำให้ประสิทธิภาพ floating point ต่อคอร์เพิ่มเป็น 2 เท่า, ออกแบบแบบ EMIB chiplet, รองรับ DDR5 และ PCIe5 ก่อน AMD และ Intel 1 ปี
Graviton4: ใช้คอร์ Neoverse V2 จำนวน 96 คอร์, หน่วยความจำ 12 ช่อง, PCIe5 96 เลน, รองรับ dual-socket
Graviton5 (พรีวิวเดือนธันวาคม 2025): 192 คอร์ Neoverse V3, TSMC 3nm, ทรานซิสเตอร์ 172 พันล้านตัว
- L3 cache 192MB (เพิ่มขึ้นมากจาก 36MB ของ Graviton4), DDR5-8800 แบบ 12 ช่อง
- อัปเกรดเป็น PCIe6 แต่จำนวนเลนลดจาก 96 เหลือ 64 เลน (เพื่อเพิ่มประสิทธิภาพด้านต้นทุนของเลนที่ไม่ได้ใช้งาน)
- mesh 8x12, 2 คอร์ใช้ mesh stop ร่วมกัน, แบ่งเป็นหลาย compute die และใช้ กลยุทธ์แพ็กเกจแบบใหม่
AWS ใช้ CPU Graviton หลายพันตัวภายในสำหรับ CI/CD และ EDA เพื่อ ออกแบบ Graviton, Trainium และ Nitro รุ่นถัดไป (dogfooding ภายใน)
ตัวเร่ง Trainium3 ใช้ Graviton CPU เป็น head node (1 CPU : 4 XPU)

Microsoft Cobalt 200

จะเปิดตัวปลายปี 2025 ในฐานะรุ่นต่อจาก Cobalt 100 (2023, 128 คอร์ Neoverse N2)
ใช้ 132 คอร์ Neoverse V3, มี L2 cache 3MB ต่อคอร์, ใช้ compute die TSMC 3nm จำนวน 2 ตัว
mesh 8x8 ต่อ die, พิมพ์มา 72 คอร์/เปิดใช้งาน 66 คอร์, L3 cache 192MB, DDR5 6 ช่อง, PCIe6 64 เลน
ประสิทธิภาพเพิ่มขึ้น 50% เมื่อเทียบกับ Cobalt 100
ใช้สำหรับบริการประมวลผล CPU ทั่วไปของ Azure โดยเฉพาะ และ ไม่ใช้เป็น AI head node (Microsoft Maia 200 เลือกใช้ Intel Granite Rapids)

Google Axion C4A, N4A

ประกาศในปี 2024 และ GA ในปี 2025 เป็นการเข้าสู่ตลาด CPU ซิลิคอนสั่งทำของ GCP โดย Google
Axion C4A: สูงสุด 72 คอร์ Neoverse V2, DDR5 8 ช่อง, PCIe5, die 5nm แบบ monolithic (พิมพ์มา 81 คอร์, mesh 9x9)
- คาดว่าเป็นการออกแบบ die 3nm ตัวใหม่ สำหรับอินสแตนซ์ bare metal 96 คอร์ที่พรีวิวช่วงปลายปี 2025
Axion N4A: สำหรับ scale-out ที่คุ้มค่าต้นทุน ใช้ 64 คอร์ Neoverse N3, ออกแบบ full custom บน TSMC 3nm
Google กำลังย้ายโครงสร้างพื้นฐานภายใน (เช่น Gmail, YouTube, Google Play) ไปสู่ ARM และ มีแผนจะใช้ Axion กับ head node ของคลัสเตอร์ TPU ในอนาคต

Ampere Computing และการเข้าซื้อโดย SoftBank

เป็นผู้บุกเบิก ARM silicon แบบ merchant และจับมือกับ Oracle โดยท้าทายการผูกขาดของ x86 ด้วย Altra (80 คอร์) และ Altra Max (128 คอร์)
- ใช้คอร์ Neoverse N1, mesh interconnect ที่ออกแบบเอง (คลัสเตอร์ละ 4 คอร์), DDR4 8 ช่อง, PCIe4 128 เลน, die เดี่ยว TSMC 7nm
AmpereOne: กระบวนการผลิต 5nm, 192 คอร์, แยก I/O chiplet (DDR5·PCIe), ใช้ดีไซน์ MCM ที่ไม่ต้องมี interposer
- ใช้คอร์ ARM แบบ custom (ปรับให้เหมาะกับความหนาแน่นของคอร์) + L2 cache 2MB (ช่วยลดปัญหา noisy neighbor)
- มีแผนแตกไลน์โดยนำ chiplet กลับมาใช้ซ้ำ เช่น AmpereOne-M แบบ 12 ช่อง และ AmpereOne-MX แบบ 3nm 256 คอร์
ในปี 2025 SoftBank เข้าซื้อด้วยมูลค่า 6.5 พันล้านดอลลาร์ โดยมีเป้าหมายเพื่อจัดหาบุคลากรด้านการออกแบบ CPU สำหรับโครงการ Stargate
สาเหตุที่ Ampere ล้มเหลว:
- รุ่น Altra เปิดตัวเร็วเกินไปในช่วงที่ซอฟต์แวร์ native บน ARM ยังไม่สุกงอม
- AmpereOne ล่าช้าหลายครั้งจนพร้อมใช้งานจริงในช่วงครึ่งหลังของปี 2024 ซึ่งเป็นเวลาที่ CPU ARM ของ hyperscaler เริ่มเดินหน้าเต็มตัวแล้ว และ AMD ก็มี 192 คอร์พร้อม ประสิทธิภาพต่อคอร์สูงกว่า 3~4 เท่า
- ยอดซื้อ CPU Ampere ของ Oracle ลดฮวบจาก 48 ล้านดอลลาร์ ใน FY2023 → 3 ล้านดอลลาร์ ใน FY2024 → 3.7 ล้านดอลลาร์ใน FY2025

ARM Phoenix

ARM จะเข้าสู่ธุรกิจ ออกแบบและจำหน่าย CPU สำหรับดาต้าเซ็นเตอร์แบบครบวงจร ในปี 2026 โดยแข่งขันโดยตรงกับลูกค้าผู้รับไลเซนส์ Neoverse CSS เดิม
จนถึงปัจจุบันมีการติดตั้ง คอร์ Neoverse มากกว่า 1 พันล้านคอร์ ใน CPU·DPU สำหรับดาต้าเซ็นเตอร์ และมีไลเซนส์ CSS 21 ฉบับให้กับ 12 บริษัท
รายได้ค่าสิทธิ์จากดาต้าเซ็นเตอร์เติบโต มากกว่า 2 เท่าเมื่อเทียบกับปีก่อน และคาดว่าในอีกไม่กี่ปีข้างหน้า CSS จะคิดเป็นมากกว่า 50% ของรายได้ค่าสิทธิ์
Phoenix: 128 คอร์ Neoverse V3, ARM CMN mesh, ชิป 2 ไดแบบ half-reticle บน TSMC 3nm
- DDR5 12 แชนเนล (8400MT/s), PCIe Gen 6 96 เลน, ตั้งค่า TDP ได้ 250~350W
- ลูกค้ารายแรกคือ Meta และ OpenAI (กิจการร่วมทุน Stargate/SoftBank) กับ Cloudflare ก็เป็นผู้สมัครลูกค้าเช่นกัน
- สามารถเชื่อมต่อ XPU กับหน่วยความจำที่ใช้ร่วมกันแบบ coherent ได้ผ่าน Accelerator Enablement Kit ที่อิง PCIe6

Huawei Kunpeng

Kunpeng 920 และ 920B
- รุ่นเริ่มต้น (Hi1610~Kunpeng 916): ARM Cortex A57→A72, TSMC 16nm
- Kunpeng 920 (2019): TaiShan V110 แบบคัสตอม 64 คอร์, คอมพิวต์ได TSMC 7nm 2 ได, แพ็กเกจ CoWoS-S (การใช้ CoWoS-S กับ CPU เป็นครั้งแรก)
  - DDR4 8 แชนเนล, PCIe4 40 เลน, รวม dual 100GbE
  - การคว่ำบาตรของสหรัฐทำให้การจัดหาจาก TSMC ถูกตัดขาด และ Kunpeng 930 รุ่นถัดไปไม่ได้เปิดตัว
- Kunpeng 920B (2024): คอร์ TaiShan V120 รองรับ SMT, 10 คลัสเตอร์แบบ 4 คอร์ต่อได (รวม 80 คอร์/160 เธรด)
  - DDR5 8 แชนเนล, แยกวาง I/O die, ออกแบบใหม่บนกระบวนการ SMIC N+2 (หลังเว้นช่วงไป 5 ปี)
Kunpeng 950 (2026)
- LinxiCore รุ่นใหม่ 192 คอร์ (รองรับ SMT) และจะผลิตรุ่นเล็ก 96 คอร์ด้วย
- การจัดวางแร็ก TaiShan 950 SuperPoD: เซิร์ฟเวอร์แบบดูอัลซ็อกเก็ต 16 เครื่อง, DDR5 สูงสุด 48TB (คาดว่า 12 แชนเนล)
- ประสิทธิภาพฐานข้อมูล OLTP เพิ่มขึ้น 2.9 เท่า เทียบกับ Kunpeng 920B (อิง GaussDB Multi-Write)
- มีแผนนำไปใช้ในเซิร์ฟเวอร์ฐานข้อมูล Oracle Exadata และภาคการเงินของจีน
- คาดว่าผลิตด้วยกระบวนการ SMIC N+3
Kunpeng 960 (โรดแมปปี 2028)
- รุ่นประสิทธิภาพสูง: 96 คอร์/192 เธรด สำหรับ AI head node·ฐานข้อมูล, ประสิทธิภาพต่อคอร์เพิ่มขึ้น มากกว่า 50%
- รุ่นความหนาแน่นสูง: สำหรับ virtualization·cloud มากกว่า 256 คอร์
- คาดว่าจะ ครองส่วนแบ่งตลาดอย่างมีนัยสำคัญ ในตลาด CPU สำหรับไฮเปอร์สเกลเลอร์ของจีน

การกลับมาของ CPU: แนวโน้มตลาด CPU สำหรับดาต้าเซ็นเตอร์ในปี 2026

การเปลี่ยนแปลงและวิวัฒนาการของบทบาท CPU ในดาต้าเซ็นเตอร์

ตั้งแต่ยุคพีซีถึงยุคดอทคอม

ยุคของไฮเปอร์สเกลเลอร์จากเวอร์ชวลไลเซชันและคลาวด์คอมพิวติ้ง

ยุคการบูรณาการ AI GPU และ CPU

ยุคของการเรียนรู้แบบเสริมกำลังและเอเจนต์

ประวัติของอินเตอร์คอนเน็กต์ CPU แบบมัลติคอร์

การออกแบบครอสบาร์ยุคแรกและข้อจำกัด

สถาปัตยกรรมริงบัสของ Intel

สถาปัตยกรรมเมชของ Intel

เมชแบบกระจายผ่าน EMIB

การออกแบบแบบกระจายชนิดต่างสถาปัตย์ของ Xeon 6

ข้อจำกัดของ Clearwater Forest

สถาปัตยกรรมอินเตอร์คอนเน็กต์ AMD Zen

EPYC Naples (2017)

วิวัฒนาการของรุ่นถัดจาก EPYC Rome (2019)

สถาปัตยกรรม Intel Diamond Rapids

ปัญหาการตัด SMT ออก

สถาปัตยกรรม AMD Venice

ประสิทธิภาพ Venice และชุดคำสั่งใหม่

NVIDIA Grace และ Vera

Grace CPU

Vera CPU (2026)

AWS Graviton5

Microsoft Cobalt 200

Google Axion C4A, N4A

Ampere Computing และการเข้าซื้อโดย SoftBank

ARM Phoenix

Huawei Kunpeng

Kunpeng 920 และ 920B

Kunpeng 950 (2026)

Kunpeng 960 (โรดแมปปี 2028)

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น