อเมซอนเปิดตัวชิป AI ใหม่ Trainium3 และประกาศโรดแมปความร่วมมือกับ Nvidia

(techcrunch.com)

2 คะแนน โดย GN⁺ 2025-12-03 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

AWS เปิดตัว Trainium3 UltraServer ที่ใช้ ชิป Trainium3 ขั้นตอนการผลิต 3 นาโนเมตร เพื่อยกระดับความสามารถในการฝึกและอนุมาน AI อย่างมาก
ระบบใหม่ให้ความเร็วสูงขึ้น 4 เท่า และหน่วยความจำมากขึ้น 4 เท่า พร้อม ประสิทธิภาพการใช้พลังงานที่สูงขึ้น 40% เมื่อเทียบกับรุ่นก่อนหน้า
สามารถเชื่อมต่อ ชิป Trainium3 ได้สูงสุด 1 ล้านตัว ซึ่งเหมาะสำหรับการประมวลผลแอปพลิเคชัน AI ขนาดใหญ่
ลูกค้าอย่าง Anthropic, Karakuri, SplashMusic, Decart และรายอื่น ๆ ใช้งานแล้ว และ AWS ระบุว่าพบการ ลดต้นทุนการอนุมานได้
AWS ยังแจ้งว่า Trainium4 รุ่นถัดไปจะสนับสนุน Nvidia NVLink Fusion ทำให้สามารถใช้งานร่วมกับ GPU ของ Nvidia ได้ ซึ่งถูกมองว่าเป็นจุดเปลี่ยนสำคัญในสงครามโครงสร้างพื้นฐาน AI

การเปิดตัว Trainium3

AWS ประกาศตัว Trainium3 UltraServer อย่างเป็นทางการในงาน re:Invent 2025
- ระบบนี้ใช้ ชิป Trainium3 ขนาด 3 นาโนเมตร และ เทคโนโลยีเครือข่ายของ AWS เอง
- ทั้งการฝึกและการอนุมาน AI มีรายงานว่าได้พัฒนาประสิทธิภาพขึ้นมากเมื่อเทียบกับรุ่นที่ 2
AWS ระบุว่า Trainium3 ให้การประมวลผลได้เร็วขึ้น 4 เท่า และความจุหน่วยความจำมากขึ้น 4 เท่า
- แต่ละ UltraServer ติดตั้ง 144 ชิป
- เชื่อมต่อเซิร์ฟเวอร์จำนวนหลายพันเครื่อง เพื่อใช้งานชิปได้สูงสุด 1 ล้านตัว ในแอปพลิเคชันเดียว
ชิปรุ่นใหม่นี้มี ประสิทธิภาพการใช้พลังงานดีขึ้น 40% จึงช่วยลดการใช้ไฟฟ้าในศูนย์ข้อมูลขนาดใหญ่
- AWS เน้นว่าด้วยการนี้ยังสามารถช่วยให้ ลูกค้า AI คลาวด์ประหยัดต้นทุน ได้ด้วย

ลูกค้าหลักและกรณีการใช้งาน

Anthropic, Karakuri (LLM จากญี่ปุ่น), SplashMusic, Decart และลูกค้าอื่น ๆ ได้เริ่มใช้งาน Trainium3 แล้ว
- AWS กล่าวว่า ลูกค้ากลุ่มนี้เห็นการ ลดต้นทุนการอนุมานอย่างมาก
AWS ระบุว่าการปรับปรุงด้านประสิทธิภาพและความคุ้มค่าเช่นนี้เป็นรากฐานสำคัญในการยกระดับ ความสามารถในการขยายตัวของแอปพลิเคชัน AI

แผนเชิงกลยุทธ์ของชิป Trainium4 รุ่นถัดไป

AWS ระบุว่า Trainium4 กำลังอยู่ในขั้นตอนพัฒนา และคาดว่าจะรองรับ เทคโนโลยีอินเทอร์คอนเนกต์ความเร็วสูง NVLink Fusion ของ Nvidia
- ด้วยเหตุนี้จึงทำให้เกิดการ ทำงานร่วมกันกับ GPU ของ Nvidia ได้ และสามารถผสานกับ เทคโนโลยีแร็กเซิร์ฟเวอร์ต้นทุนต่ำของ AWS ได้
ในขณะที่ Nvidia CUDA กลายเป็นมาตรฐานของแอปพลิเคชัน AI หลักของตลาด Trainium4 มีศักยภาพในการอำนวยความสะดวกให้การย้าย แอป AI ที่พึ่งพา GPU ของ Nvidia ไปยัง AWS คลาวด์ ทำได้ง่ายขึ้น
รายละเอียดการเปิดตัว Trainium4 ยังไม่ถูกประกาศ และเป็นไปได้ว่าจะมีข้อมูลเพิ่มเติมในงาน re:Invent ในปีหน้า

ความหมายเชิงกลยุทธ์ของประสิทธิภาพพลังงานและการลดต้นทุน

AWS กำลังก่อสร้างระบบที่เป็น "ใช้พลังงานน้อยลง" ในช่วงที่การใช้ไฟฟ้าศูนย์ข้อมูลพุ่งสูงขึ้น
แนวทางนี้ถูกมองว่าเป็นความพยายามที่พยายามบรรลุเป้าหมายสองด้านพร้อมกัน คือ ลดค่าใช้จ่ายการดำเนินงาน และ ความยั่งยืนทางด้านสิ่งแวดล้อม
กลยุทธ์ที่เน้นการลดค่าใช้จ่ายของ AWS มีศักยภาพจะต่อยอดสู่การเสริมพลัง การดึงดูดลูกค้าองค์กรคลาวด์ ในการแข่งขันโครงสร้างพื้นฐาน AI

สรุป

Trainium3 คือชิป AI รุ่นที่ 3 ที่ยกระดับอย่างมีนัยสำคัญทั้งด้าน ประสิทธิภาพ หน่วยความจำ และประสิทธิผลเชิงพลังงาน
Trainium4 มุ่งขยายระบบนิเวศของ AWS ด้วยการ ความเข้ากันได้กับ Nvidia
AWS มุ่งมั่นตามหาโครงสร้างพื้นฐาน AI ที่ ประสิทธิภาพสูง ต้นทุนต่ำ และเป็นมิตรต่อสิ่งแวดล้อม พร้อมเพิ่มขีดความสามารถในการแข่งขันในตลาด AI คลาวด์

1 ความคิดเห็น

GN⁺ 2025-12-03

ความเห็นจาก Hacker News

ทีมของเราบอกกับตัวแทน AWS ไปหลายครั้งแล้วว่าไม่ได้สนใจอินสแตนซ์ Trainium หรือ Inferentia
เพราะไม่มีหลักฐานที่ชัดเจนว่ามันเข้ากันได้อย่างเสถียรกับไลบรารีมาตรฐานอย่าง Transformers หรือ PyTorch
AWS อ้างว่ามันทำงานได้ดี แต่ก็เป็นแค่ ‘เส้นทางแสนสุข’ ที่ใช้ได้เฉพาะบน AMI บางตัวของพวกเขาเองกับ neuron SDK เท่านั้น
พอเอาไปทำงานจริงกับ dependency ของเรา มันก็พังทันที
แม้แต่ TPU ของ GCP เองกว่าจะใช้งานได้จริง ก็หลังจากที่กูเกิลลงทุนมหาศาลกับการรองรับฝั่งซอฟต์แวร์แล้ว
ฉันไม่มีเวลาจะไปเป็นเบตาเทสเตอร์เพื่อใช้ชิปของ AWS
- พอออกนอกบริการหลักของ AWS (S3, Dynamo, Lambda, ECS ฯลฯ) ก็เต็มไปด้วย บริการเบตา
  ตัวที่เสถียรมีไม่กี่ตัว ที่เหลือยังมีส่วนที่หยาบมาก
- กูเกิลทุ่มแรงอย่างหนักเพื่อผนวก TPU เข้ากับระบบนิเวศ
  นึกภาพได้ยากว่าอเมซอนจะลงทุนถึงระดับนั้น
- สปอยล์เลยคือ ถ้าไม่เขียนโค้ดคัสตอมเยอะ ๆ ก็ ใช้งานไม่ได้
เคยลองสร้าง LMI container เองบน SageMaker แล้วเจอนรก
เวอร์ชันของ vLLM ไม่ได้อัปเดตมา 6 เดือนแล้ว และ endpoint แบบทั่วไปก็ใช้ไม่ได้เพราะมี timeout 60 วินาที ที่ตัดสินใจกันไว้ตั้งแต่ 8 ปีก่อน
แค่จินตนาการว่านักพัฒนาที่จะใช้ custom silicon ในสภาพแบบนี้ต้องเจอความทรมานอะไรบ้างก็น่ากลัวแล้ว
AWS พูดเรื่อง Trainium ไว้อย่างใหญ่โต แต่ไม่มีลูกค้าสักคนขึ้นเวทีมาชมมัน
คนที่เคยใช้จริงบอกว่าถอดใจเพราะ ความเจ็บปวดของการดีพลอยและการปฏิบัติการ
ดูเหมือนภายในองค์กรจะใช้กันเยอะ แต่การยอมรับจากภายนอกแทบไม่มี
ถึงอย่างนั้นก็ยังมองบวกที่อเมซอนลงทุนกับชิปของตัวเอง
- อินสแตนซ์สปอต Inf1/Inf2 ไม่เป็นที่นิยมมากจนราคาถูกกว่าอินสแตนซ์ CPU อยู่ 10~20%
  ส่วน Trn1 ยังไม่ถึงขั้นนั้น แปลว่าน่าจะยังมีคนใช้อยู่บ้าง
- ได้ยินมาว่า Anthropic ก็ใช้ Trainium เยอะเหมือนกัน
  น่าจะได้รับการสนับสนุนเต็มที่จาก AWS
  ถ้าไม่ลงทุนกับ SDK และ tooling เพิ่ม ก็จะไม่มีใครใช้คลาวด์แบบนี้
แนวคิด Block floating point (MXFP8/4) น่าสนใจมาก
AI กำลังผลักดันชนิดข้อมูลพื้นฐานที่ไม่ค่อยเปลี่ยนมาหลายสิบปี
บทความวิกิพีเดียเรื่อง Block floating point
น่าสนใจที่บทความไม่เคยอธิบายเลยว่าชิปนี้ ทำอะไร
- แกนหลักคือสถาปัตยกรรม 128x128 systolic array หลายชุด
  รายละเอียดดูได้ใน จดหมายข่าว Semianalysis
- ตามชื่อเลย มันเป็นชิปสำหรับ Training
- ท้ายที่สุดแล้วมันก็คือชิปที่ทำ การคำนวณเวกเตอร์
- ดูเหมือนภารกิจที่แท้จริงของชิปนี้คือ ทำให้ผู้ถือหุ้นพอใจ เลยคิดว่าไม่จำเป็นต้องอธิบายให้ฝั่งนักพัฒนาฟัง
ไม่มีการพูดถึงประสิทธิภาพหรือ benchmark เลยแม้แต่นิดเดียว
- ถึงจะบอกว่า “มากขึ้น 4 เท่า” แต่นั่นไม่ได้แปลว่าเร็วขึ้น 4 เท่า และพอบอกว่าหน่วยความจำมากขึ้น 4 เท่า ก็ไม่มีฐานเปรียบเทียบ
ข่าวจริงคือส่วนที่บอกว่าเป็น “โรดแมปที่เป็นมิตรกับ Nvidia”
ดูเหมือนอเมซอนอยากลดต้นทุนใน AI แบบเดียวกับที่ทำกับโลจิสติกส์
แต่ความมั่นใจดูต่ำ และเหมือนเป็น กลยุทธ์รักษาหน้า เพื่อคงความสัมพันธ์กับ Nvidia มากกว่า
การที่ NVLink แพร่หลายขึ้นเป็นเรื่องน่าสนใจ
Intel ก็เข้าร่วมด้วย และนี่ให้ความรู้สึกเหมือนช่วง เปลี่ยนผ่านจาก PCI → AGP
AMD เกือบคว้าโอกาสได้ในยุค HyperTransport แต่ Infinity Fabric ตอนนี้ก็ยังจำกัดอยู่ภายใน
UALink กับ CXL ก็เริ่มถูกจับตามอง แต่ก็ยังติดข้อจำกัดด้านความเร็วของ PCIe
ในอุดมคติแล้วควรมี การรวมระบบเครือข่ายไว้บนชิป เป็นค่ามาตรฐาน
เหมือนตอนที่ Intel Xeon เคยให้ 100Gb Omni-Path มาแทบฟรี
- NVLink Fusion ท้ายที่สุดแล้วดูเหมือนกับดักของ การผูกติดกับ Nvidia
  ฝั่ง Intel ยังพอเข้าใจได้เพราะกำลังลำบาก แต่การที่ AWS เดินเส้นทางเดียวกันดูไม่ค่อยดีนัก
  ถ้าเป็น AMD ฉันคิดว่าการเอา SolarFlare NIC ใส่ใน I/O die น่าจะดีกว่า
  ในเมื่อสลับ PCIe/SATA ได้ ก็น่าจะสลับ PCIe/Ethernet ได้เหมือนกัน แต่ UEC อาจจะเป็นตลาดเฉพาะกลุ่มเกินไป
โพสต์ทางการของอเมซอน: แนะนำ Trainium 3 UltraServer

อเมซอนเปิดตัวชิป AI ใหม่ Trainium3 และประกาศโรดแมปความร่วมมือกับ Nvidia

การเปิดตัว Trainium3

ลูกค้าหลักและกรณีการใช้งาน

แผนเชิงกลยุทธ์ของชิป Trainium4 รุ่นถัดไป

ความหมายเชิงกลยุทธ์ของประสิทธิภาพพลังงานและการลดต้นทุน

สรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News