- AMD Instinct MI355X GPU ให้ประสิทธิภาพการประมวลผล AI เพิ่มเป็นสองเท่า, มีหน่วยความจำ HBM มากขึ้น, และมีประสิทธิภาพด้านโทเค็น/$ ดีกว่า NVIDIA 40%
- ซอฟต์แวร์ ROCm 7 มุ่งขยายระบบนิเวศ AI โดยเน้นทั้งการปรับปรุงประสิทธิภาพและการรองรับตั้งแต่วันแรก (Day-0 support)
- โซลูชันแบบบูรณาการระดับแร็กสเกล มอบโครงสร้างพื้นฐาน AI แบบเทิร์นคีย์ที่รวม AMD CPU+GPU+เครือข่ายเข้าด้วยกัน
- โรดแมป: ในปี 2026 เตรียมเปิดเผยสถาปัตยกรรมรุ่นถัดไปและแร็ก Helios พร้อมประสิทธิภาพเพิ่ม 4 เท่า, HBM4 และความสามารถในการขยายระบบ
- ประสิทธิภาพพลังงาน: ตั้งเป้าปรับปรุง ประสิทธิภาพ 20 เท่าในระดับแร็กสเกล ภายในปี 2030 โดยผลักดันนวัตกรรมทั้งฮาร์ดแวร์และซอฟต์แวร์ควบคู่กัน
สรุปทั้งหมด
ความเคลื่อนไหวของ AMD บนพื้นฐานการเติบโตของ AI ระดับแร็กสเกล
- จาก ความต้องการฮาร์ดแวร์ AI ที่พุ่งสูงขึ้น ผู้ผลิตเซมิคอนดักเตอร์รายใหญ่ทั่วอุตสาหกรรมต่างเร่งชิงส่วนแบ่งตลาดและเร่งการเติบโต
- AMD เข้าสู่ตลาด GPU สำหรับเซิร์ฟเวอร์ AI อย่างรวดเร็วด้วย Instinct MI300X และเพิ่งสร้างรายได้มาร์จินสูงอย่างประสบความสำเร็จจากการเปิดตัวสถาปัตยกรรมแรกที่ทุ่มเต็มที่กับฟีเจอร์หลักและประสิทธิภาพ
- จากแรงส่งนี้ บริษัทได้ประกาศกลยุทธ์ขยายบทบาทอย่างต่อเนื่องด้วย ฮาร์ดแวร์เซิร์ฟเวอร์ AI รุ่นถัดไป
นวัตกรรมเชิงลึกของตัวเร่งความเร็ว Instinct MI350
ยกระดับประสิทธิภาพการคำนวณ AI แบบก้าวกระโดด
- ซีรีส์ Instinct MI350 ใช้สถาปัตยกรรมใหม่ CDNA4 โดยออกแบบให้มีทรูพุตการคำนวณแบบเมทริกซ์ (tensor) ต่อคล็อกมากกว่า MI300X เกินสองเท่า
- รองรับ การประมวลผลเลขทศนิยมความละเอียดต่ำ เช่น FP6 และ FP4 อย่างจริงจัง เพื่อลดภาระงาน inference พร้อมเพิ่มปริมาณงานคำนวณรวมอย่างมาก
- ในกรณีของการคำนวณ FP6 นั้น ถูกออกแบบมาให้ประมวลผลได้เร็วกว่า NVIDIA Blackwell สองเท่า เพื่อสร้างความได้เปรียบด้านประสิทธิภาพ
- การจัดสรรหน่วยความจำก็อัปเกรดอย่างมากเช่นกัน ด้วยหน่วยความจำ 288GB HBM3E (8 stack) และแบนด์วิดท์ 8TB/sec
- ชิปขนาดใหญ่พิเศษระดับ 185 พันล้านทรานซิสเตอร์ สร้างบนกระบวนการ TSMC N3P และใช้โครงสร้างการซ้อน die ที่มีประสิทธิภาพ
SKU ที่หลากหลาย และแนวโน้มสู่ประสิทธิภาพสูง/การใช้พลังงานสูง
- แบ่งเป็น MI355X สำหรับระบบระบายความร้อนด้วยของเหลว (2.4GHz, 5PFLOPS) และ MI350X แบบระบายความร้อนด้วยอากาศ (2.2GHz, 4.6PFLOPS)
- การใช้พลังงานสูงขึ้นเมื่อเทียบกับ MI300X โดยรุ่นระบายความร้อนด้วยอากาศใช้ 1000W และรุ่นระบายความร้อนด้วยของเหลวใช้ 1400W
- หากติดตั้ง MI355X จำนวน 128 ตัวต่อหนึ่งแร็ก เฉพาะ GPU ก็อาจใช้พลังงานได้ถึงระดับ 180kW
- ยังเน้น ความสามารถในการแข่งขันด้านราคา ด้วย โดยคาดว่าจะได้เปรียบกว่า NVIDIA มากกว่า 40% ในแง่โทเค็น/$ (ราคาถูกกว่าราว 30%)
- จะเริ่มส่งมอบให้พาร์ตเนอร์ตั้งแต่ไตรมาส 3 ปี 2024 แต่ความเร็วในการส่งมอบจริงยังเปลี่ยนแปลงได้
กลยุทธ์ซอฟต์แวร์ ROCm 7
การรองรับตั้งแต่วันแรกและการรีดประสิทธิภาพสูงสุด
- ROCm 7 เดินหน้าปรับปรุงรอบด้าน ทั้งการรองรับ CDNA4 และตัวเร่งความเร็วซีรีส์ MI350 รวมถึงประสิทธิภาพและการจัดการระดับองค์กร
- ตั้งเป้ารองรับเฟรมเวิร์กหลักอย่าง Pytorch ตั้งแต่วันแรก (Day-0)
- ในไตรมาส 3 ปี 2024 จะเริ่มรองรับ Windows native Pytorch, ONNX runtime และ GPU RDNA 4/3 ด้วย
- เพียงแค่การปรับแต่งซอฟต์แวร์ ก็ทำให้ประสิทธิภาพของ MI300X รุ่นก่อนหน้าใน ROCm 7 เพิ่มขึ้นได้สูงสุด 3.8 เท่าเมื่อเทียบกับ ROCm 6
- ผ่าน ROCm Enterprise AI บริษัทจะมอบเครื่องมือเฉพาะสำหรับองค์กร เช่น การบริหารคลัสเตอร์ AI ขนาดใหญ่และการทำ model fine-tuning
ระบบนิเวศเครือข่ายครบวงจร: Pollara 400 AI NIC
- หลังการเข้าซื้อกิจการ Pensando AMD ได้เปิดตัวการ์ดเครือข่ายตัวแรกคือ Pollara 400 AI NIC (400G Ethernet, กระบวนการ TSMC N4)
- รองรับการสร้างแร็กซูเปอร์คอมพิวเตอร์บนแพลตฟอร์ม AMD ด้วยความสามารถด้านการขยายระบบและฟังก์ชัน programmable P4 NIC
- เป็น AI NIC ตัวแรกที่เข้ากันได้กับ Ultra Ethernet Consortium ช่วยวางรากฐานเครือข่ายแบบขยายรุ่นถัดไป
โรดแมปอนาคตระดับแร็กสเกลบนพื้นฐาน MI400
- MI400 (ปี 2026) : ตั้งเป้าประสิทธิภาพ AI แบบ FP8 เพิ่มเป็นสองเท่า พร้อม HBM4 ขนาด 432GB/แบนด์วิดท์ 19.6TB/sec และใช้สถาปัตยกรรมรุ่นใหม่ (CDNA Next)
- ขยายสเกลจาก 8 GPU ไปสู่ 1024 GPU ผ่าน Ultra Accelerator Link เพื่อรองรับการประมวลผลแบบขนานขนาดใหญ่
- ระบบแร็ก Helios: ผสาน MI400, EPYC Venice (รุ่นที่ 6) และ Vulcano (800G NIC) พร้อมชูความได้เปรียบด้านหน่วยความจำ/เครือข่ายเมื่อเทียบกับค่ายรุ่นถัดไป (NVIDIA Vera Rubin)
- ผ่านโรดแมปที่เปิดเผยอย่างชัดเจน บริษัทนำเสนอแผนนวัตกรรมสถาปัตยกรรมหลักของ CPU, GPU และระบบแร็กในทุกปี
- ตั้งเป้า เพิ่มประสิทธิภาพพลังงานระดับแร็กสเกล 20 เท่า และประสิทธิภาพโดยรวม 100 เท่า ภายในปี 2030 โดยมุ่งปรับแต่งทั้งฮาร์ดแวร์และซอฟต์แวร์อย่างเต็มที่
บทสรุป
- AMD มุ่งคว้าความเป็นผู้นำที่แตกต่างใน ตลาดโครงสร้างพื้นฐาน AI ผ่านซีรีส์ Instinct MI350~Helios, CDNA 4~Next และโซลูชันเทิร์นคีย์ระดับแร็กสเกล
- ในระยะใกล้ คาดว่า MI350 รุ่นใหม่, สถาปัตยกรรม CDNA4 และซอฟต์แวร์ ROCm 7 จะเป็นแกนหลัก
- บริษัทกำลังเดินหน้ากลยุทธ์เสริมทั้งด้านประสิทธิภาพ ต้นทุน ความสามารถในการขยายระบบ และประสิทธิภาพพลังงาน ในการแข่งขัน ตลาด AI เซิร์ฟเวอร์ กับ NVIDIA
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
รู้สึกว่าการใช้งาน ROCm ต่างกันมากในแต่ละกรณี และพูดตรง ๆ ว่าระดับการรองรับการ์ดจอฝั่งผู้บริโภคก็ยังยากจะไว้ใจ เดิมทีอยากให้มันเป็นทางเลือกได้ แต่หลังจากย้ายไปใช้ CUDA ก็เจอปัญหาปวดหัวและการเสียเวลาน้อยลงมาก โดยเฉพาะปัญหาที่การรัน MiOpen benchmark บน HIP ใช้เวลานานเกินไป
รู้สึกว่าเป็นเรื่องเดิมที่พูดซ้ำมาตั้งแต่ราวปี 2010 ตอนที่ CUDA เริ่มดังในงานคำนวณเชิงวิทยาศาสตร์ ไม่เข้าใจว่า 15 ปีผ่านไปแล้วทำไม AMD ยังตามรูปแบบความสำเร็จนั้นไม่ทัน และในตอนนี้ที่ NVIDIA ครอง ecosystem ฝั่งซอฟต์แวร์ไปหมดแล้ว ก็ดูเหมือนจะสายเกินไปมาก
อยากให้มีคนที่รู้เรื่องซอฟต์แวร์ของ AMD ดี ๆ มาอธิบายภาพรวมให้ฟัง ว่า SDK ตัวไหนกันแน่ที่ใช้ทำ inference หรือ training ของ neural network ได้จริง ตัวเลือกมีเยอะเกินไป เคยลองหาข้อมูลอยู่พักหนึ่งแต่รู้สึกว่าทิศทางกระจายไปหลายทางมาก เลยยากที่จะรู้ว่ากำลังจะไปทางไหน
รู้สึกว่า Jensen มีความชำนาญชัดเจนทั้งใน CUDA stack และตลาดเวิร์กสเตชัน ทำให้ตระหนักว่า AMD ไม่ใช่แค่ต้องขยายขนาดฮาร์ดแวร์ แต่ต้องก้าวข้ามตัว stack นี้ด้วย และคนส่วนใหญ่ในตลาดก็ไม่อยากใช้เวลาเรียนรู้นาน ๆ เพื่อศึกษา stack ที่ซับซ้อนสำหรับโครงสร้างที่มีส่วนแบ่งตลาดไม่ถึง 10%
ความจริงคือแทบไม่มีนักพัฒนาคนไหนเรียกใช้ CUDA API ตรง ๆ ดังนั้นสิ่งที่ AMD ควรโฟกัสคือเชื่อม ROCm backend ให้เข้ากับ XLA และ PyTorch ให้ดี แค่นี้ก็อาจเจาะตลาดได้มากพอสมควร และ AMD ก็ควรทำแบบที่ Nvidia เคยทำเมื่อราว 10 ปีก่อน คือแจก GPU ฟรีให้มหาวิทยาลัยเพื่อสร้าง ecosystem นักวิจัย ตอนนี้มหาวิทยาลัยส่วนใหญ่ต้องใช้ฮาร์ดแวร์ที่ล้าหลังไปแล้ว 2-3 รุ่นเพราะขาดแคลนทรัพยากร AI หาก AMD เสนอ GPU ที่เสถียรในราคาครึ่งหนึ่ง นักศึกษาปริญญาเอกก็อาจเข้าสู่ ecosystem ของ AMD โดยธรรมชาติ และประสบการณ์นี้ก็อาจต่อยอดไปสู่อุตสาหกรรมได้
เวลาคนพูดถึง CUDA คนมักนึกถึงแค่ภาษา C แต่จริง ๆ ตั้งแต่ CUDA 3.0 เป็นต้นมา C++ คือพื้นฐาน และยังรองรับ Fortran ด้วย NVIDIA สนับสนุนอย่างจริงจังให้หลายภาษาใช้ประโยชน์จากสภาพแวดล้อม PTX ได้ และในปี 2025 ก็มีแผนนำ Python CUDA JIT DSL เข้ามาใช้งาน ต่อให้ไม่ใช้เวอร์ชันล่าสุด CUDA SDK ก็ยังทำงานได้บนโน้ตบุ๊กระดับเริ่มต้น จึงมีข้อดีตรงที่แม้ฮาร์ดแวร์ไม่แรงก็ยังค่อย ๆ เรียนรู้ได้
ได้ยินเรื่องไม่ดีมามากเกี่ยวกับการรองรับซอฟต์แวร์บนฮาร์ดแวร์ระดับเริ่มต้น จึงมองว่าทางเข้าสำหรับผู้เริ่มต้นที่มีอุปสรรคต่ำมีความสำคัญมาก ในทางกลับกัน ถ้าเน้นฮาร์ดแวร์สำหรับดาต้าเซ็นเตอร์ ก็อาจย่อพอร์ตโฟลิโอให้เล็กลงและเพิ่มการเข้าถึงที่กว้างขึ้นผ่านผู้ให้บริการคลาวด์ได้ แม้อยากเห็นอุปกรณ์สำหรับผู้เริ่มต้นอย่าง MI350-A workstation แต่ความจริงก็คงเกิดขึ้นได้ยาก
มองว่า ณ ตอนนี้ AMD มีปัญหาภายในร้ายแรงจนทำให้ซอฟต์แวร์สแตกยังไม่พร้อม มีเวลามากพอแล้วที่จะฟังเสียงลูกค้าและขยายทีมเพื่อแก้ปัญหาหลายอย่าง แต่ความคืบหน้าจริงกลับมีน้อย ทั้งที่แรงจูงใจด้านผลตอบแทนก็สูง จึงรู้สึกว่าเปลี่ยนแปลงน้อยเกินไป แม้จะเห็นด้วยว่า CEO Lisa Su เป็นผู้บริหารที่ยอดเยี่ยม แต่ก็อดสงสัยไม่ได้ว่าเพราะพื้นเพมาทางฮาร์ดแวร์ จึงอาจไม่ได้ผลักดันนวัตกรรมซอฟต์แวร์มากนัก
มีความเห็นว่าการรองรับ ROCm ยังไม่ใช่ประเด็นใหญ่มากสำหรับผู้ใช้ AI ทั่วไป เพราะราว 10 ปีที่ผ่านมา Vulkan API ที่รวมอยู่ในไดรเวอร์มาตรฐานของ AMD ก็ทำให้แอป LLM แบบคลิกครั้งเดียวหลัก ๆ อย่าง llama.cpp หรือ LM Studio ใช้งานได้อยู่แล้ว แม้จะช้ากว่าแต่ก็ยังเป็นสภาพแวดล้อมที่ใช้งานได้จริง
มีการพูดถึงการแข่งขันในอนาคตระหว่าง NVIDIA กับ AMD แบบติดตลกว่า "ถ้าอนาคตนั้นมาถึงจริงเมื่อไร เราจะติดต่อกลับไปก่อน"
ตั้งคำถามสั้น ๆ ว่า "Bob Page เป็นคนขับเรื่องนี้อยู่หรือเปล่า"
เล่าว่าประโยคในเกม "Atropos log, abandoning Helios" ทำให้รู้สึกสะเทือนอารมณ์ และนึกถึงทุกครั้งที่มีข่าวเกี่ยวข้องออกมา
หวังว่า AMD จะทำชิปสำหรับการฝึกที่เหนือกว่า H100 ออกมาได้
ปีก่อนตอนฝึกด้วย MI300X มีปัญหาอยู่พอสมควร และถึงจะพอรันได้ก็ยังช้ากว่า H100 ราว 20-30% แต่เมื่อไม่นานมานี้ลองทำ DPO training ด้วย OpenRLHF (อิงบน transformers/DeepSpeed) ภายใต้การตั้งค่า ROCm และ PyTorch รุ่นล่าสุด พบว่าสำหรับงานสั้นระดับ 12 ชั่วโมง ประสิทธิภาพต่อ GPU-hour ออกมาใกล้เคียง H200 มาก ก่อนหน้านี้ทดสอบบนโหนด 8 การ์ด แต่ตอนนี้กำลังทดลองบน MI300X GPU เดี่ยว จึงไม่ใช่การเทียบที่ยุติธรรมทั้งหมด และเรื่องการฝึกแบบ multi-GPU หรือ multi-node ก็ยังไม่แน่ชัด ดังนั้นขอให้มองว่าเป็นเพียงตัวอย่างเดียว
เมื่อคิดว่า H100 เปิดตัวมาแล้วถึง 3 ปี ก็ยิ่งรู้สึกว่าช่องว่างนั้นใหญ่กว่าเดิม สะท้อนความเร็วของนวัตกรรมได้ชัดเจน
เข้าใจว่ากำลังพูดถึงชิปที่ช้ากว่าเมื่อเทียบกัน จริง ๆ แล้วตระกูล MI300 นำหน้า H100 ไปแล้ว และ MI400 ก็อาจออกมาในไม่ช้า
สิ่งที่สำคัญจริง ๆ คือ ในหัวข้อหลักของ "ซอฟต์แวร์++: ROCm 7 Released" นั้น มีอะไรบ้างที่ฉันจะใช้ได้บนโน้ตบุ๊กผู้บริโภคทั่วไปแบบเดียวกับ CUDA
พูดตรง ๆ ว่าอ่านบทความนี้ได้ยากมาก และรู้สึกว่าผู้เขียนบทความทุ่มเทจนไม่เสียดายเลยถ้าจะให้ mi355 สักเครื่อง แต่ AMD ไม่มีเหตุผลอะไรเลยที่จะได้รับความเชื่อถือมากเท่าที่บทความนี้คาดหวัง จุดที่น่าผิดหวังที่สุดคือการไม่รองรับ RDNA4 บน ROCm อยู่หลายเดือน AMD มีท่าทีไม่รับผิดชอบเหมือนบอกว่าสามารถรองรับได้ตามกำหนด day 120 และยังไม่ชี้แจงชัดเจนด้วยว่าประสิทธิภาพใน benchmark มาจากส่วนไหนกันแน่ สงสัยอย่างมากว่ากำลังเอาผลประสิทธิภาพ FP4 ไปเทียบกับ FP8 หรือ 16 แล้วถูกอ้างอิงแบบผิด ๆ
แม้จะยังน่าตกใจและน่างุนงงที่ ROCm ไม่ได้ลงทุนกับผู้บริโภคอย่างจริงจังและการรองรับก็มาช้า แต่ล่าสุดมีข่าวว่า AMD ประกาศอย่างเป็นทางการแล้วว่าจะรองรับ client card ตั้งแต่ day 1 แน่นอนว่าประเด็นสำคัญคือจะทำตามสัญญาได้จริงหรือไม่ และดูเหมือน AMD จะเริ่มตระหนักแล้วว่าการรองรับ ROCm ให้แข็งแรงตลอดทั้ง stack สำคัญเพียงใด จนรู้สึกแปลกที่บริษัททำทั้ง Ryzen และ Radeon แต่กลับเป็นแบบนี้ ปีนี้มองว่า Radeon ทำได้ค่อนข้างดี แต่ก็น่าเสียดายที่การรองรับ ROCm อย่างเป็นทางการของ RDNA4 มาช้าเกินไป ถึงอย่างนั้นความประทับใจแรกของฝั่งผู้บริโภคต่อ 9070 XT และ FSR4 ก็ไม่เลว และต่างจากอดีตที่ AMD ดูเหมือนพยายามหลีกเลี่ยงโอกาส ตอนนี้เริ่มเห็นการขยับตัว จึงมองโลกในแง่ดีอย่างระมัดระวังมาก และหวังว่าคำสัญญาเหล่านี้จะยืนระยะได้ ลิงก์ที่เกี่ยวข้อง
ความจริงคือ AMD ไม่ค่อยสนใจการรองรับงานคอมพิวต์บน GPU สำหรับผู้บริโภค แต่สำหรับ GPU ดาต้าเซ็นเตอร์กลับมี software stack และการรองรับที่ค่อนข้างดี
อ้างถึงคอมเมนต์เดิมที่ว่า 'บทความนี้ดูให้เครดิต AMD มากเกินไป' พร้อมถามย้ำว่าอาจกำลังหมายถึง Ryan Smith ที่รู้จักกันจาก AnandTech หรือไม่ ลิงก์
มีความเห็นว่า AMD ตอนนี้เป็นบริษัทการตลาดไปแล้ว ให้ความรู้สึกว่าลงแข่งในตลาดด้วยการตลาดมากกว่าแก่นเทคโนโลยี