• จากความต้องการที่พุ่งสูงแบบก้าวกระโดดของการเรียนรู้แบบเสริมกำลังและ การอนุมาน AI แบบเอเจนต์ บทบาทของ CPU ในดาต้าเซ็นเตอร์จึงกลับมาโดดเด่นอีกครั้ง และทำให้กระแสการลงทุนที่เคยเน้น GPU เป็นศูนย์กลางเริ่มเปลี่ยนไป
  • Intel เผชิญกับ ความต้องการเซิร์ฟเวอร์ CPU ที่เพิ่มขึ้นอย่างไม่คาดคิด ในช่วงปลายปี 2025 และกำลังขยายการลงทุนในโรงงานผลิตชิปในปี 2026 พร้อมทั้งเปลี่ยนเวเฟอร์สำหรับพีซีไปใช้กับเซิร์ฟเวอร์
  • AMD Venice นำ กระบวนการผลิต N2 ของ TSMC มาใช้ พร้อม CCD Zen6c 256 คอร์และเครือข่าย mesh โดยคาดว่าจะยิ่งทิ้งห่าง Intel ทั้งด้านประสิทธิภาพและประสิทธิภาพพลังงาน
  • ฝั่ง CPU ARM ที่ไฮเปอร์สเกลเลอร์พัฒนาเอง จาก NVIDIA, AWS, Microsoft, Google, ARM และรายอื่น ๆ กำลังขยายตัวอย่างจริงจัง ทำให้โครงสร้างผูกขาดของ x86 ถูกสลายลงอย่างรวดเร็ว
  • เมื่อรวมถึง Huawei Kunpeng 950 แล้ว ปี 2026 จะเป็นปีแห่งการแข่งขันที่ไม่เคยเกิดขึ้นมาก่อน ซึ่งผู้ผลิตทุกรายจะ เปิดตัว CPU รุ่นใหม่พร้อมกัน

การเปลี่ยนแปลงและวิวัฒนาการของบทบาท CPU ในดาต้าเซ็นเตอร์

  • ตั้งแต่ยุคพีซีถึงยุคดอทคอม

    • ในทศวรรษ 1990 ประสิทธิภาพที่สูงขึ้นของโปรเซสเซอร์พีซีทำให้เกิดความต้องการใช้แทนเมนเฟรมและเวิร์กสเตชัน โดย Intel เข้าสู่ตลาดเซิร์ฟเวอร์ด้วย Pentium Pro (1995) และ แบรนด์ Xeon (1998)
    • ในยุคอินเทอร์เน็ตช่วงทศวรรษ 2000 การขยายตัวของ Web 2.0 อีคอมเมิร์ซ และสมาร์ตโฟน ทำให้ CPU สำหรับดาต้าเซ็นเตอร์เติบโตเป็น ตลาดมูลค่าหลายพันล้านดอลลาร์
    • หลังการแข่งขันด้าน GHz สิ้นสุดลง ก็เกิดนวัตกรรมด้านการออกแบบอย่าง CPU แบบมัลติคอร์ การรวม memory controller เข้ากับชิป (AMD) และการเชื่อมต่อ PCIe โดยตรง
    • มีการนำ SMT (Simultaneous Multi-Threading) มาใช้ทั้งใน Intel และ AMD เพื่อเพิ่มประสิทธิภาพการประมวลผลแบบขนาน
  • ยุคของไฮเปอร์สเกลเลอร์จากเวอร์ชวลไลเซชันและคลาวด์คอมพิวติ้ง

    • ช่วงปลายทศวรรษ 2000 การมาของคลาวด์สาธารณะอย่าง AWS ทำให้เกิดการเปลี่ยนจากโมเดล CapEx ไปสู่ OpEx และพัฒนาไปถึง serverless computing (เช่น AWS Lambda)
    • ฮาร์ดแวร์เวอร์ชวลไลเซชันของ CPU กลายเป็นรากฐานสำคัญของคลาวด์ โดยไฮเปอร์ไวเซอร์ (เช่น VMware ESXi) สามารถรัน VM อิสระหลายตัวบน CPU เดียวได้
    • ในปี 2018 ช่องโหว่ Spectre และ Meltdown ทำให้เกิดความจำเป็นในการปิดใช้งาน SMT ซึ่งทำให้ประสิทธิภาพลดลงได้สูงสุด 30%
      • การโจมตีผ่านฟังก์ชันทำนายการแตกกิ่งทำให้ภัยคุกคามด้านความปลอดภัยของคลาวด์กลายเป็นเรื่องจริง
  • ยุคการบูรณาการ AI GPU และ CPU

    • ในช่วง 5 ปีก่อนการเปิดตัว ChatGPT (พฤศจิกายน 2022) Intel จัดส่ง Xeon Scalable CPU มากกว่า 100 ล้านตัว
    • การฝึกและการอนุมานโมเดล AI ดำเนินการได้มีประสิทธิภาพกว่าบนหน่วยเวกเตอร์ขนาดใหญ่ของ GPU และ Tensor Core ถึง 100~1000 เท่า
    • เมื่อเทียบกับ GPU แล้ว CPU มีประสิทธิภาพด้านการคำนวณเมทริกซ์ต่ำมาก จึง ถูกลดบทบาทลงเป็นส่วนสนับสนุน และมีการจัดสรรพลังงานให้ GPU ก่อน
    • การใช้งาน CPU แยกออกเป็นสองรูปแบบ:
      • เฮดโหนด: ป้อนและจัดการข้อมูลให้ GPU ต้องการประสิทธิภาพต่อคอร์สูง แคชขนาดใหญ่ และหน่วยความจำแบนด์วิดท์สูง (NVIDIA Grace, Venice+MI455X, Graviton5+Trainium3 เป็นต้น)
      • การรวมซ็อกเก็ตแบบคลาวด์เนทีฟ: เพื่อเพิ่มประสิทธิภาพพลังงานสูงสุด มีการแทนที่เซิร์ฟเวอร์รุ่นเก่าด้วย CPU รุ่นใหม่ในอัตรา มากกว่า 10:1 โดยเซิร์ฟเวอร์ Intel Cascade Lake หลายล้านเครื่องที่ซื้อในช่วง COVID กำลังทยอยปลดระวาง
  • ยุคของการเรียนรู้แบบเสริมกำลังและเอเจนต์

    • ในดาต้าเซ็นเตอร์ "Fairwater" ของ Microsoft สำหรับ OpenAI อาคาร CPU และสตอเรจขนาด 48MW ทำหน้าที่สนับสนุนคลัสเตอร์ GPU ขนาด 295MW โดยมี CPU หลายหมื่นตัวถูกใช้เพื่อประมวลผลข้อมูลระดับเพตะไบต์
    • ในสภาพแวดล้อม การเรียนรู้แบบเสริมกำลัง (RL) จำเป็นต้องใช้ CPU จำนวนมากสำหรับการคอมไพล์โค้ด การตรวจสอบ การตีความ และการใช้เครื่องมือ เพื่อรันการกระทำที่โมเดลสร้างขึ้นและคำนวณรางวัล
      • ความเร็วในการพัฒนาประสิทธิภาพของ GPU แซงหน้า CPU อย่างมาก ทำให้ในอนาคต อัตราส่วนพลังงาน CPU ต่อ GPU ในยุค Rubin อาจขยายไปถึง 1:6 หรือมากกว่า
    • โมเดล RAG และโมเดลแบบเอเจนต์ดำเนินการเรียก API ค้นหาอินเทอร์เน็ต และคิวรีฐานข้อมูลในวงกว้าง ส่งผลให้ความต้องการ CPU ทั่วไปเพิ่มขึ้นอย่างรวดเร็ว
    • AWS และ Azure กำลังสร้างโครงสร้างพื้นฐานจำนวนมากโดยใช้ CPU Graviton และ Cobalt ของตนเองร่วมกับเซิร์ฟเวอร์ x86
    • ห้องแล็บวิจัย Frontier AI กำลังเผชิญภาวะขาดแคลน CPU สำหรับการฝึก RL และต้อง แข่งขันโดยตรงกับผู้ให้บริการคลาวด์เพื่อแย่งชิงเซิร์ฟเวอร์ x86 ทั่วไป
    • Intel กำลังพิจารณา ขึ้นราคา Xeon หลังสต็อกหมดอย่างไม่คาดคิด และกำลังจัดหาเครื่องมือการผลิตเพิ่มเติม
    • AMD กำลังขยายศักยภาพด้านอุปทาน และคาดว่าตลาดรวมแบบ TAM ของเซิร์ฟเวอร์ CPU ในปี 2026 จะเติบโตในระดับ "เลขสองหลักที่แข็งแกร่ง"

ประวัติของอินเตอร์คอนเน็กต์ CPU แบบมัลติคอร์

  • การออกแบบครอสบาร์ยุคแรกและข้อจำกัด

    • ในยุคดูอัลคอร์ยุคแรก (Intel Pentium D, AMD Athlon 64 X2, ปี 2005) ใช้การเชื่อมต่อแบบ FSB (Front Side Bus) หรือแบบ NoC บนได
    • วิธีแบบครอสบาร์มีจำนวนการเชื่อมต่อเพิ่มขึ้นอย่างรวดเร็วเมื่อจำนวนคอร์เพิ่มขึ้น (2 คอร์ = 1, 4 คอร์ = 6, 6 คอร์ = 15, 8 คอร์ = 28) ทำให้ 4 คอร์เป็นขีดจำกัดในทางปฏิบัติ
    • AMD Istanbul (2009) ขยายเป็นครอสบาร์ 6 ทาง, Magny-Cours (2010) เป็น 12 คอร์แบบดูอัลได, และ Interlagos ขยายเป็น 16 คอร์
  • สถาปัตยกรรมริงบัสของ Intel

    • Intel เปิดตัวริงบัสใน Nehalem-EX (2010) โดยรวม 8 คอร์ไว้บนไดเดียว พร้อม IMC และลิงก์ QPI
    • ใช้วงแหวนหมุนสวนทางกันสองชุดเพื่อลดเวลาแฝงและความแออัด แต่เวลาแฝงในการเข้าถึงระหว่างคอร์ ไม่สม่ำเสมอ (NUMA)
    • Ivy Bridge-EX: จัดวางแบบ 3 คอลัมน์ 5 แถว และทำได้ 15 คอร์ด้วย "ริงเสมือน" 3 ชุด
    • Haswell/Broadwell: ใช้ริงบัสอิสระคู่ รองรับ 18~24 คอร์ แต่เมื่อข้อมูลต้องผ่าน buffered switch ระหว่างริง จะเกิดเวลาแฝงมากกว่า 100ns
      • สามารถแยกเป็น 2 NUMA node ได้ด้วยการตั้งค่า "Cluster on Die"
  • สถาปัตยกรรมเมชของ Intel

    • ในปี 2016 มีการนำเมชอินเตอร์คอนเน็กต์มาใช้ใน Xeon Phi "Knights Landing" และขยายไปสู่ Skylake-X Xeon Scalable (28 คอร์) ในปี 2017
    • ใช้การจัดวางแบบตาราง 2 มิติ โดยวางคอร์, L3 cache slice, PCIe I/O, IMC และตัวเร่งความเร็วไว้ที่แต่ละ mesh stop
    • โหมด Sub-NUMA Clustering (SNC) แบ่งเมชออกเป็น 4 ควอดแรนต์เพื่อลดเวลาแฝงเฉลี่ย
    • Skylake-X: เมช 6x6, ใช้ mesh clock 2.4GHz และให้เวลาแฝงเฉลี่ยใกล้เคียงกับ Broadwell แบบดูอัลริง
    • Ice Lake: จากการเปลี่ยนไปใช้ 10nm ทำให้ขยายเป็นเมช 8x7 รองรับได้ถึง 40 คอร์ (ติดข้อจำกัดของเรติเคิล)
  • เมชแบบกระจายผ่าน EMIB

    • Sapphire Rapids: บนโหนด Intel 7 ไดแบบโมโนลิธิกเดี่ยวไปได้เพียง 34 คอร์ และการเพิ่ม AMX engine ทำให้พื้นที่คอร์ใหญ่ขึ้น
      • ใช้ EMIB advanced packaging เชื่อม 4 ไดเข้าด้วยกัน สร้างเมชขนาด 8x12 และไปได้ถึง 60 คอร์ (ซิลิคอนรวมราว 1600mm²)
      • เวลาแฝงเฉลี่ยระหว่างคอร์แย่ลงจาก 47ns (Skylake) เป็น 59ns
      • เพิ่ม L2 cache แบบ private ของแต่ละคอร์เป็น 2MB (L2 รวม > L3: 120MB เทียบกับ 112.5MB)
      • โครงการล่าช้าหลายปีจนถึง stepping E5 เดิมทีวางแผนไว้ในปี 2021 แต่เปิดตัวต้นปี 2023
    • Emerald Rapids (ปลายปี 2023): ลดจำนวนไดเหลือ 2 ได และเพิ่มเป็น 66 คอร์ (เปิดใช้งานสูงสุด 64 คอร์) พร้อมเพิ่ม L3 cache เป็น 320MB เกือบ 3 เท่า
  • การออกแบบแบบกระจายชนิดต่างสถาปัตย์ของ Xeon 6

    • บนแพลตฟอร์ม Xeon 6 ในปี 2024 มีการ แยก I/O และ compute แบบต่างสถาปัตย์: ได I/O ใช้ Intel 7 ส่วนได compute ใช้ Intel 3
    • สามารถผสมการจัดวาง P-core Granite Rapids และ E-core Sierra Forest ได้
    • Granite Rapids-AP Xeon 6900P: ใช้ได compute 3 ได สร้าง เมช 10x19, มี 132 คอร์ (เปิดใช้งานได้สูงสุด 128 คอร์)
    • Sierra Forest: จัด E-core 4 คอร์เป็นหนึ่งคลัสเตอร์ บนเมช 8x6 รวมเป็น 144 คอร์ แต่การนำไปใช้ยังจำกัด เพราะ hyperscaler ได้เลือกใช้ CPU ของ AMD และ ARM ที่พัฒนาเองไปแล้ว
      • Sierra Forest-AP แบบดูอัลได 288 คอร์ (Xeon 6900E) ผลิตเพียงจำนวนน้อย
  • ข้อจำกัดของ Clearwater Forest

    • Xeon 6+ Clearwater Forest-AP: ใช้ Foveros Direct hybrid bonding ของ Intel ซ้อนคอร์ได 18A บนเบสได Intel 3 ทำได้ 288 คอร์
    • เป็นการออกแบบที่ซับซ้อน ประกอบด้วย compute die 24 คอร์จำนวน 12 ได
    • มีปัญหาในการรวม Foveros Direct ทำให้ เลื่อนจาก H2 2025 เป็น H1 2026
    • ต่อหนึ่งคลัสเตอร์ 4 คอร์ แบนด์วิดท์ในการเข้าถึง L3 และเมชบนเบสไดมีเพียง 35GB/s เท่านั้น
    • แม้จะห่างกัน 2 ปี แต่เมื่อเทียบที่จำนวนคอร์เท่ากัน ประสิทธิภาพดีกว่า Sierra Forest เพียง 17%
    • Intel แทบไม่กล่าวถึง Clearwater Forest ในการประกาศผลประกอบการ Q4 2025 และมีความเป็นไปได้ว่าจะใช้มันเป็น ยานพาหนะเพื่อเรียนรู้เรื่อง yield ของ Foveros Direct มากกว่าการผลิตปริมาณสูง

สถาปัตยกรรมอินเตอร์คอนเน็กต์ AMD Zen

  • EPYC Naples (2017)

    • เป็นผลงานการกลับสู่ตลาดดาต้าเซ็นเตอร์ของ AMD โดยใช้ได "Zeppelin" 4 ตัวในรูปแบบ MCM เพื่อให้ได้ 32 คอร์
    • แต่ละไดมี 2 CCX (4 คอร์ + L3 8MB เชื่อมด้วยครอสบาร์) และใช้ลิงก์ Infinity Fabric on Package (IFOP) ระหว่างได
    • การไม่มี unified L3 cache และการมี NUMA domain จำนวนมาก (Intra-CCX, Inter-CCX, Die-to-die, Inter-Socket) ทำให้ ความแปรปรวนของเวลาแฝงสูง
    • Intel เคยเยาะเย้ยว่าเป็น "การเอาไดเดสก์ท็อป 4 ตัวมาติดกาวรวมกัน" แต่จริง ๆ แล้วเป็นการออกแบบที่ใช้ทรัพยากรอย่างมีประสิทธิภาพโดยทีมขนาดเล็ก
  • วิวัฒนาการของรุ่นถัดจาก EPYC Rome (2019)

    • Rome: วาง CCD 8 คอร์ 8 ตัวล้อมรอบได I/O ตรงกลาง โดย CCD ใช้ TSMC N7 และได I/O ใช้ GlobalFoundries 12nm
      • การสื่อสารระหว่าง CCX ทั้งหมดใช้ ลิงก์ GMI ที่ต้องผ่านได I/O ทำให้ในเชิงหน้าที่เป็น NUMA node แบบ 4 คอร์จำนวน 16 ชุด
    • Milan (2021): ขยายขนาด CCX เป็น 8 คอร์และนำริงบัสมาใช้ โดยยังใช้ได I/O ของ Rome ต่อ
    • Genoa (2022): 12 CCD, Turin (2024): สูงสุด 16 CCD ให้ได้ 128 คอร์ (EPYC 9755) พร้อมอัปเกรดเป็น DDR5 และ PCIe5
    • ข้อดีสำคัญของการออกแบบแบบชิปเล็ต: ใช้การ tape-out ของ CCD เดียวเพื่อ จัดไลน์อัปจำนวนคอร์ทั้งหมด ได้ ทำให้ได้เปรียบทั้งเรื่อง yield และความเร็วในการออกสู่ตลาดจากไดขนาดเล็ก
    • ด้วยคอร์รุ่นย่อยแบบคอมแพกต์ Zen 4c/Zen 5c ทำให้มี Bergamo (Zen 4c) และ Turin-Dense (192 คอร์) บนแพลตฟอร์มเดียวกันได้ด้วย

สถาปัตยกรรม Intel Diamond Rapids

  • มีโครงสร้างที่ได CBB (Core Building Block) 4 ตัวล้อมรอบได IMH (I/O and Memory Hub) 2 ตัว ซึ่งมีลักษณะภายนอกคล้ายกับการออกแบบของ AMD
  • ภายในแต่ละ CBB มีโมดูลดูอัลคอร์ (DCM) 32 ชุด ผลิตด้วย Intel 18A-P และ hybrid bonding ลงบนเบสได Intel 3-PT
    • 2 คอร์ใช้ L2 cache ร่วมกัน เป็นการออกแบบที่ชวนให้นึกถึง Dunnington รุ่นปี 2008
  • รวมทั้งหมด 256 คอร์ แต่คาดว่า SKU กระแสหลักจะเปิดใช้งาน ได้สูงสุด 192 คอร์
  • ได IMH: DDR5 16 แชนเนล, PCIe6 (รองรับ CXL3), ตัวเร่ง data path ของ Intel (QAT, DLB, IAA, DSA)
  • เชื่อมระหว่างไดด้วย long-range trace บน package substrate แทน EMIB และแต่ละ CBB สามารถเข้าถึง IMH ทั้งสองฝั่งได้โดยตรง
    • อย่างไรก็ตาม คาดว่าเวลาแฝงแบบข้าม CBB จะ แย่ลงอย่างมาก
  • ปัญหาการตัด SMT ออก

    • หลัง Spectre/Meltdown Intel ได้ ตัด SMT ออกจาก P-core และเริ่มใช้ตั้งแต่ Lion Cove ฝั่งไคลเอนต์ในปี 2024
    • ในดาต้าเซ็นเตอร์ ปริมาณงานรวมสูงสุดมีความสำคัญ จึงเป็น จุดอ่อนร้ายแรง ของ Diamond Rapids
    • เมื่อเทียบกับ Granite Rapids ปัจจุบันที่ 128 คอร์/256 เธรด, Diamond Rapids ที่ 192 คอร์/192 เธรดคาดว่าจะให้ประสิทธิภาพเพิ่มขึ้นเพียงราว 40%
    • แพลตฟอร์ม Diamond Rapids-SP แบบ 8 แชนเนล สำหรับตลาดกระแสหลักถูกยกเลิกทั้งหมด ทำให้ตลาดนี้จะไม่มีรุ่นใหม่ในเจเนอเรชันถัดไปอย่างน้อยจนถึงปี 2028
      • ส่งผลให้พลาดตลาด CPU ประมวลผลทั่วไปที่จำเป็นต่อการใช้งานเครื่องมือ AI และการจัดเก็บคอนเท็กซ์

สถาปัตยกรรม AMD Venice

  • AMD นำเทคโนโลยี advanced packaging มาใช้เป็นครั้งแรก โดยเชื่อมต่อ CCD กับ I/O die ผ่านลิงก์ระยะสั้นความเร็วสูง
  • เนื่องจากมี shoreline เพิ่มเติมสำหรับลิงก์ CCD ทำให้ฮับ I/O กลาง ถูกแยกเป็น 2 die และเกิดโดเมน NUMA เพิ่มเติมระหว่างสองฝั่งของชิป
  • ช่องหน่วยความจำ 16 ช่อง (เพิ่มจาก 12 ช่องของ Genoa), หน่วยความจำมัลติเพล็กซ์ MRDIMM-12800 ให้แบนด์วิดท์ 1.64TB/s (มากกว่า Turin 2.67 เท่า)
  • นำ mesh network มาใช้ภายใน CCD: คอร์ Zen6c 32 คอร์จัดวางแบบกริด 4x8, ใช้กระบวนการผลิต N2 ของ TSMC
  • รวมทั้งหมด 256 คอร์ ด้วย CCD 8 ตัว เพิ่มขึ้น 1/3 เมื่อเทียบกับ Turin-Dense 192 คอร์
  • จัดสรร L3 cache 4MB ต่อคอร์ให้ Zen6c เต็มจำนวน (Zen5c ก่อนหน้านี้ได้เพียงครึ่งเดียว) ทำให้มีพื้นที่แคช 128MB ต่อ CCD
  • SKU รุ่น "-F" แบบคอร์น้อย-ความถี่สูงสำหรับ AI head node: ใช้ 12-core Zen6 CCD สำหรับเดสก์ท็อป/มือถือ ให้ได้สูงสุด 96 คอร์
  • มี IPD (Integrated Passive Device) ขนาดเล็ก 8 ตัวใกล้อินเทอร์เฟซ DDR5 ข้าง I/O die เพื่อทำให้การจ่ายไฟมีเสถียรภาพ
  • ประสิทธิภาพ Venice และชุดคำสั่งใหม่

    • รุ่นท็อป 256 คอร์ให้ ประสิทธิภาพต่อวัตต์มากกว่า 1.7 เท่า ใน SPECrate®2017_int_base เมื่อเทียบกับ Turin 192 คอร์
    • การปรับปรุง IPC (Instructions per Clock) อย่างมากของไมโครสถาปัตยกรรม Zen 6
    • ชุดคำสั่งชนิดข้อมูล AI ใหม่: AVX512_FP16, AVX_VVNI_INT8, AVX512_BMM (การคูณเมทริกซ์แบบบิต)
      • BMM: เก็บเมทริกซ์ไบนารี 16x16 ไว้ในรีจิสเตอร์ FPU และทำการสะสม BMM ด้วยการคำนวณ OR และ XOR
      • มีประสิทธิภาพกับงานอย่างการจำลอง Verilog แต่คาดว่า การใช้งานจะจำกัด กับ LLM เพราะความแม่นยำไม่เพียงพอ
    • ในสถานการณ์ที่ AMD Turin 96 คอร์มีสมรรถนะเทียบเท่า Intel Granite Rapids 128 คอร์ คาดว่าช่องว่าง ด้านประสิทธิภาพระหว่าง Venice กับ Diamond Rapids จะยิ่งกว้างขึ้น
    • ขณะที่ Intel ยกเลิกโปรเซสเซอร์ 8 ช่องสัญญาณ AMD กลับเปิดตัวแพลตฟอร์ม Venice SP8 แบบ 8 ช่องสัญญาณ ใหม่ ซึ่งเป็นผู้สืบทอดของ EPYC 8004 Siena และรองรับ Zen 6c ได้สูงสุด 128 คอร์
      • คาดว่า ส่วนแบ่งของ AMD ในตลาด enterprise ซึ่งเดิมเป็นจุดแข็งของ Intel จะเพิ่มขึ้น

NVIDIA Grace และ Vera

  • Grace CPU

    • ออกแบบมาสำหรับ head node ของ GPU และหน่วยความจำ GPU แบบขยาย โดยใช้ NVLink-C2C (900GB/s แบบสองทิศทาง) ทำให้ GPU เข้าถึงหน่วยความจำของ CPU ได้ด้วยแบนด์วิดท์เต็ม
    • ใช้หน่วยความจำ LPDDR5X ระดับมือถือ พร้อมบัสหน่วยความจำ 512 บิต ให้แบนด์วิดท์ 500GB/s และสูงสุด 480GB ต่อ CPU
    • ใช้คอร์ ARM Neoverse V2 จำนวน 72 คอร์ (เปิดใช้งานจาก 76 คอร์), mesh 6x7, L3 cache 117MB
    • mesh network มี แบนด์วิดท์แบบแบ่งสองทิศทาง 3.2TB/s เหมาะกับการไหลของข้อมูลโดยเฉพาะ
    • มีคอขวดเชิงไมโครสถาปัตยกรรม: เมื่อ Branch Target Buffer เกิน 24 region ประสิทธิภาพจะลดลงอย่างมาก และเมื่อเกิน 32 region จะเกิด การล้างบัฟเฟอร์ 64MB ทั้งหมด
      • ทำให้ประสิทธิภาพลดลง 50% ในโค้ด HPC ที่ไม่ได้ปรับจูน และ กระทบเวิร์กโหลด AI ของ GB200/GB300 ด้วย
  • Vera CPU (2026)

    • สำหรับแพลตฟอร์ม Rubin โดยเพิ่ม แบนด์วิดท์ C2C เป็น 1.8TB/s หรือ 2 เท่า
    • ใช้โมดูล SOCAMM ขนาด 128 บิต 8 ตัว ให้หน่วยความจำ 1.5TB และแบนด์วิดท์ 1.2TB/s
    • มี 91 คอร์ (เปิดใช้งาน 88 คอร์) บน mesh 7x13, L3 cache 162MB
    • แพ็กเกจ CoWoS-R: compute die ขนาด reticle 3nm จำนวน 1 ตัว + LPDDR5 memory die 4 ตัว + PCIe6/CXL3 IO die 1 ตัว (รวม 6 die)
    • เลิกข้อจำกัดด้านคอขวดของคอร์ Neoverse และกลับมาใช้คอร์ Olympus ที่ออกแบบเอง
      • 88 คอร์/176 เธรด (รองรับ SMT), ARMv9.2, FPU พอร์ต 128 บิต 6 ชุด (เพิ่มจาก 4 ชุดของ Neoverse V2)
      • รองรับการคำนวณ ARM SVE2 FP8, มี L2 cache 2MB ต่อคอร์ (มากกว่า Grace 2 เท่า)
      • โดยรวมแล้ว ประสิทธิภาพเพิ่มขึ้น 2 เท่า

AWS Graviton5

  • AWS เป็น hyperscaler รายแรกที่นำ CPU ออกแบบเองไปใช้งานบนคลาวด์ได้สำเร็จ โดยเข้าซื้อ Annapurna Labs และใช้ ARM Neoverse CSS
  • Graviton2: ใช้ส่วนลดครั้งใหญ่ในช่วงบูม COVID เพื่อเร่งการย้ายไป ARM, มีคอร์ Neoverse N1 จำนวน 64 คอร์
  • Graviton3: ใช้ Neoverse V1 ทำให้ประสิทธิภาพ floating point ต่อคอร์เพิ่มเป็น 2 เท่า, ออกแบบแบบ EMIB chiplet, รองรับ DDR5 และ PCIe5 ก่อน AMD และ Intel 1 ปี
  • Graviton4: ใช้คอร์ Neoverse V2 จำนวน 96 คอร์, หน่วยความจำ 12 ช่อง, PCIe5 96 เลน, รองรับ dual-socket
  • Graviton5 (พรีวิวเดือนธันวาคม 2025): 192 คอร์ Neoverse V3, TSMC 3nm, ทรานซิสเตอร์ 172 พันล้านตัว
    • L3 cache 192MB (เพิ่มขึ้นมากจาก 36MB ของ Graviton4), DDR5-8800 แบบ 12 ช่อง
    • อัปเกรดเป็น PCIe6 แต่จำนวนเลนลดจาก 96 เหลือ 64 เลน (เพื่อเพิ่มประสิทธิภาพด้านต้นทุนของเลนที่ไม่ได้ใช้งาน)
    • mesh 8x12, 2 คอร์ใช้ mesh stop ร่วมกัน, แบ่งเป็นหลาย compute die และใช้ กลยุทธ์แพ็กเกจแบบใหม่
  • AWS ใช้ CPU Graviton หลายพันตัวภายในสำหรับ CI/CD และ EDA เพื่อ ออกแบบ Graviton, Trainium และ Nitro รุ่นถัดไป (dogfooding ภายใน)
  • ตัวเร่ง Trainium3 ใช้ Graviton CPU เป็น head node (1 CPU : 4 XPU)

Microsoft Cobalt 200

  • จะเปิดตัวปลายปี 2025 ในฐานะรุ่นต่อจาก Cobalt 100 (2023, 128 คอร์ Neoverse N2)
  • ใช้ 132 คอร์ Neoverse V3, มี L2 cache 3MB ต่อคอร์, ใช้ compute die TSMC 3nm จำนวน 2 ตัว
  • mesh 8x8 ต่อ die, พิมพ์มา 72 คอร์/เปิดใช้งาน 66 คอร์, L3 cache 192MB, DDR5 6 ช่อง, PCIe6 64 เลน
  • ประสิทธิภาพเพิ่มขึ้น 50% เมื่อเทียบกับ Cobalt 100
  • ใช้สำหรับบริการประมวลผล CPU ทั่วไปของ Azure โดยเฉพาะ และ ไม่ใช้เป็น AI head node (Microsoft Maia 200 เลือกใช้ Intel Granite Rapids)

Google Axion C4A, N4A

  • ประกาศในปี 2024 และ GA ในปี 2025 เป็นการเข้าสู่ตลาด CPU ซิลิคอนสั่งทำของ GCP โดย Google
  • Axion C4A: สูงสุด 72 คอร์ Neoverse V2, DDR5 8 ช่อง, PCIe5, die 5nm แบบ monolithic (พิมพ์มา 81 คอร์, mesh 9x9)
    • คาดว่าเป็นการออกแบบ die 3nm ตัวใหม่ สำหรับอินสแตนซ์ bare metal 96 คอร์ที่พรีวิวช่วงปลายปี 2025
  • Axion N4A: สำหรับ scale-out ที่คุ้มค่าต้นทุน ใช้ 64 คอร์ Neoverse N3, ออกแบบ full custom บน TSMC 3nm
  • Google กำลังย้ายโครงสร้างพื้นฐานภายใน (เช่น Gmail, YouTube, Google Play) ไปสู่ ARM และ มีแผนจะใช้ Axion กับ head node ของคลัสเตอร์ TPU ในอนาคต

Ampere Computing และการเข้าซื้อโดย SoftBank

  • เป็นผู้บุกเบิก ARM silicon แบบ merchant และจับมือกับ Oracle โดยท้าทายการผูกขาดของ x86 ด้วย Altra (80 คอร์) และ Altra Max (128 คอร์)
    • ใช้คอร์ Neoverse N1, mesh interconnect ที่ออกแบบเอง (คลัสเตอร์ละ 4 คอร์), DDR4 8 ช่อง, PCIe4 128 เลน, die เดี่ยว TSMC 7nm
  • AmpereOne: กระบวนการผลิต 5nm, 192 คอร์, แยก I/O chiplet (DDR5·PCIe), ใช้ดีไซน์ MCM ที่ไม่ต้องมี interposer
    • ใช้คอร์ ARM แบบ custom (ปรับให้เหมาะกับความหนาแน่นของคอร์) + L2 cache 2MB (ช่วยลดปัญหา noisy neighbor)
    • มีแผนแตกไลน์โดยนำ chiplet กลับมาใช้ซ้ำ เช่น AmpereOne-M แบบ 12 ช่อง และ AmpereOne-MX แบบ 3nm 256 คอร์
  • ในปี 2025 SoftBank เข้าซื้อด้วยมูลค่า 6.5 พันล้านดอลลาร์ โดยมีเป้าหมายเพื่อจัดหาบุคลากรด้านการออกแบบ CPU สำหรับโครงการ Stargate
  • สาเหตุที่ Ampere ล้มเหลว:
    • รุ่น Altra เปิดตัวเร็วเกินไปในช่วงที่ซอฟต์แวร์ native บน ARM ยังไม่สุกงอม
    • AmpereOne ล่าช้าหลายครั้งจนพร้อมใช้งานจริงในช่วงครึ่งหลังของปี 2024 ซึ่งเป็นเวลาที่ CPU ARM ของ hyperscaler เริ่มเดินหน้าเต็มตัวแล้ว และ AMD ก็มี 192 คอร์พร้อม ประสิทธิภาพต่อคอร์สูงกว่า 3~4 เท่า
    • ยอดซื้อ CPU Ampere ของ Oracle ลดฮวบจาก 48 ล้านดอลลาร์ ใน FY2023 → 3 ล้านดอลลาร์ ใน FY2024 → 3.7 ล้านดอลลาร์ใน FY2025

ARM Phoenix

  • ARM จะเข้าสู่ธุรกิจ ออกแบบและจำหน่าย CPU สำหรับดาต้าเซ็นเตอร์แบบครบวงจร ในปี 2026 โดยแข่งขันโดยตรงกับลูกค้าผู้รับไลเซนส์ Neoverse CSS เดิม
  • จนถึงปัจจุบันมีการติดตั้ง คอร์ Neoverse มากกว่า 1 พันล้านคอร์ ใน CPU·DPU สำหรับดาต้าเซ็นเตอร์ และมีไลเซนส์ CSS 21 ฉบับให้กับ 12 บริษัท
  • รายได้ค่าสิทธิ์จากดาต้าเซ็นเตอร์เติบโต มากกว่า 2 เท่าเมื่อเทียบกับปีก่อน และคาดว่าในอีกไม่กี่ปีข้างหน้า CSS จะคิดเป็นมากกว่า 50% ของรายได้ค่าสิทธิ์
  • Phoenix: 128 คอร์ Neoverse V3, ARM CMN mesh, ชิป 2 ไดแบบ half-reticle บน TSMC 3nm
    • DDR5 12 แชนเนล (8400MT/s), PCIe Gen 6 96 เลน, ตั้งค่า TDP ได้ 250~350W
    • ลูกค้ารายแรกคือ Meta และ OpenAI (กิจการร่วมทุน Stargate/SoftBank) กับ Cloudflare ก็เป็นผู้สมัครลูกค้าเช่นกัน
    • สามารถเชื่อมต่อ XPU กับหน่วยความจำที่ใช้ร่วมกันแบบ coherent ได้ผ่าน Accelerator Enablement Kit ที่อิง PCIe6

Huawei Kunpeng

  • Kunpeng 920 และ 920B

    • รุ่นเริ่มต้น (Hi1610~Kunpeng 916): ARM Cortex A57→A72, TSMC 16nm
    • Kunpeng 920 (2019): TaiShan V110 แบบคัสตอม 64 คอร์, คอมพิวต์ได TSMC 7nm 2 ได, แพ็กเกจ CoWoS-S (การใช้ CoWoS-S กับ CPU เป็นครั้งแรก)
      • DDR4 8 แชนเนล, PCIe4 40 เลน, รวม dual 100GbE
      • การคว่ำบาตรของสหรัฐทำให้การจัดหาจาก TSMC ถูกตัดขาด และ Kunpeng 930 รุ่นถัดไปไม่ได้เปิดตัว
    • Kunpeng 920B (2024): คอร์ TaiShan V120 รองรับ SMT, 10 คลัสเตอร์แบบ 4 คอร์ต่อได (รวม 80 คอร์/160 เธรด)
      • DDR5 8 แชนเนล, แยกวาง I/O die, ออกแบบใหม่บนกระบวนการ SMIC N+2 (หลังเว้นช่วงไป 5 ปี)
  • Kunpeng 950 (2026)

    • LinxiCore รุ่นใหม่ 192 คอร์ (รองรับ SMT) และจะผลิตรุ่นเล็ก 96 คอร์ด้วย
    • การจัดวางแร็ก TaiShan 950 SuperPoD: เซิร์ฟเวอร์แบบดูอัลซ็อกเก็ต 16 เครื่อง, DDR5 สูงสุด 48TB (คาดว่า 12 แชนเนล)
    • ประสิทธิภาพฐานข้อมูล OLTP เพิ่มขึ้น 2.9 เท่า เทียบกับ Kunpeng 920B (อิง GaussDB Multi-Write)
    • มีแผนนำไปใช้ในเซิร์ฟเวอร์ฐานข้อมูล Oracle Exadata และภาคการเงินของจีน
    • คาดว่าผลิตด้วยกระบวนการ SMIC N+3
  • Kunpeng 960 (โรดแมปปี 2028)

    • รุ่นประสิทธิภาพสูง: 96 คอร์/192 เธรด สำหรับ AI head node·ฐานข้อมูล, ประสิทธิภาพต่อคอร์เพิ่มขึ้น มากกว่า 50%
    • รุ่นความหนาแน่นสูง: สำหรับ virtualization·cloud มากกว่า 256 คอร์
    • คาดว่าจะ ครองส่วนแบ่งตลาดอย่างมีนัยสำคัญ ในตลาด CPU สำหรับไฮเปอร์สเกลเลอร์ของจีน

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น