- AWS เปิดตัว Trainium3 UltraServer ที่ใช้ ชิป Trainium3 ขั้นตอนการผลิต 3 นาโนเมตร เพื่อยกระดับความสามารถในการฝึกและอนุมาน AI อย่างมาก
- ระบบใหม่ให้ความเร็วสูงขึ้น 4 เท่า และหน่วยความจำมากขึ้น 4 เท่า พร้อม ประสิทธิภาพการใช้พลังงานที่สูงขึ้น 40% เมื่อเทียบกับรุ่นก่อนหน้า
- สามารถเชื่อมต่อ ชิป Trainium3 ได้สูงสุด 1 ล้านตัว ซึ่งเหมาะสำหรับการประมวลผลแอปพลิเคชัน AI ขนาดใหญ่
- ลูกค้าอย่าง Anthropic, Karakuri, SplashMusic, Decart และรายอื่น ๆ ใช้งานแล้ว และ AWS ระบุว่าพบการ ลดต้นทุนการอนุมานได้
- AWS ยังแจ้งว่า Trainium4 รุ่นถัดไปจะสนับสนุน Nvidia NVLink Fusion ทำให้สามารถใช้งานร่วมกับ GPU ของ Nvidia ได้ ซึ่งถูกมองว่าเป็นจุดเปลี่ยนสำคัญในสงครามโครงสร้างพื้นฐาน AI
การเปิดตัว Trainium3
- AWS ประกาศตัว Trainium3 UltraServer อย่างเป็นทางการในงาน re:Invent 2025
- ระบบนี้ใช้ ชิป Trainium3 ขนาด 3 นาโนเมตร และ เทคโนโลยีเครือข่ายของ AWS เอง
- ทั้งการฝึกและการอนุมาน AI มีรายงานว่าได้พัฒนาประสิทธิภาพขึ้นมากเมื่อเทียบกับรุ่นที่ 2
- AWS ระบุว่า Trainium3 ให้การประมวลผลได้เร็วขึ้น 4 เท่า และความจุหน่วยความจำมากขึ้น 4 เท่า
- แต่ละ UltraServer ติดตั้ง 144 ชิป
- เชื่อมต่อเซิร์ฟเวอร์จำนวนหลายพันเครื่อง เพื่อใช้งานชิปได้สูงสุด 1 ล้านตัว ในแอปพลิเคชันเดียว
- ชิปรุ่นใหม่นี้มี ประสิทธิภาพการใช้พลังงานดีขึ้น 40% จึงช่วยลดการใช้ไฟฟ้าในศูนย์ข้อมูลขนาดใหญ่
- AWS เน้นว่าด้วยการนี้ยังสามารถช่วยให้ ลูกค้า AI คลาวด์ประหยัดต้นทุน ได้ด้วย
ลูกค้าหลักและกรณีการใช้งาน
- Anthropic, Karakuri (LLM จากญี่ปุ่น), SplashMusic, Decart และลูกค้าอื่น ๆ ได้เริ่มใช้งาน Trainium3 แล้ว
- AWS กล่าวว่า ลูกค้ากลุ่มนี้เห็นการ ลดต้นทุนการอนุมานอย่างมาก
- AWS ระบุว่าการปรับปรุงด้านประสิทธิภาพและความคุ้มค่าเช่นนี้เป็นรากฐานสำคัญในการยกระดับ ความสามารถในการขยายตัวของแอปพลิเคชัน AI
แผนเชิงกลยุทธ์ของชิป Trainium4 รุ่นถัดไป
- AWS ระบุว่า Trainium4 กำลังอยู่ในขั้นตอนพัฒนา และคาดว่าจะรองรับ เทคโนโลยีอินเทอร์คอนเนกต์ความเร็วสูง NVLink Fusion ของ Nvidia
- ด้วยเหตุนี้จึงทำให้เกิดการ ทำงานร่วมกันกับ GPU ของ Nvidia ได้ และสามารถผสานกับ เทคโนโลยีแร็กเซิร์ฟเวอร์ต้นทุนต่ำของ AWS ได้
- ในขณะที่ Nvidia CUDA กลายเป็นมาตรฐานของแอปพลิเคชัน AI หลักของตลาด Trainium4 มีศักยภาพในการอำนวยความสะดวกให้การย้าย แอป AI ที่พึ่งพา GPU ของ Nvidia ไปยัง AWS คลาวด์ ทำได้ง่ายขึ้น
- รายละเอียดการเปิดตัว Trainium4 ยังไม่ถูกประกาศ และเป็นไปได้ว่าจะมีข้อมูลเพิ่มเติมในงาน re:Invent ในปีหน้า
ความหมายเชิงกลยุทธ์ของประสิทธิภาพพลังงานและการลดต้นทุน
- AWS กำลังก่อสร้างระบบที่เป็น "ใช้พลังงานน้อยลง" ในช่วงที่การใช้ไฟฟ้าศูนย์ข้อมูลพุ่งสูงขึ้น
- แนวทางนี้ถูกมองว่าเป็นความพยายามที่พยายามบรรลุเป้าหมายสองด้านพร้อมกัน คือ ลดค่าใช้จ่ายการดำเนินงาน และ ความยั่งยืนทางด้านสิ่งแวดล้อม
- กลยุทธ์ที่เน้นการลดค่าใช้จ่ายของ AWS มีศักยภาพจะต่อยอดสู่การเสริมพลัง การดึงดูดลูกค้าองค์กรคลาวด์ ในการแข่งขันโครงสร้างพื้นฐาน AI
สรุป
- Trainium3 คือชิป AI รุ่นที่ 3 ที่ยกระดับอย่างมีนัยสำคัญทั้งด้าน ประสิทธิภาพ หน่วยความจำ และประสิทธิผลเชิงพลังงาน
- Trainium4 มุ่งขยายระบบนิเวศของ AWS ด้วยการ ความเข้ากันได้กับ Nvidia
- AWS มุ่งมั่นตามหาโครงสร้างพื้นฐาน AI ที่ ประสิทธิภาพสูง ต้นทุนต่ำ และเป็นมิตรต่อสิ่งแวดล้อม พร้อมเพิ่มขีดความสามารถในการแข่งขันในตลาด AI คลาวด์
1 ความคิดเห็น
ความเห็นจาก Hacker News
เพราะไม่มีหลักฐานที่ชัดเจนว่ามันเข้ากันได้อย่างเสถียรกับไลบรารีมาตรฐานอย่าง Transformers หรือ PyTorch
AWS อ้างว่ามันทำงานได้ดี แต่ก็เป็นแค่ ‘เส้นทางแสนสุข’ ที่ใช้ได้เฉพาะบน AMI บางตัวของพวกเขาเองกับ neuron SDK เท่านั้น
พอเอาไปทำงานจริงกับ dependency ของเรา มันก็พังทันที
แม้แต่ TPU ของ GCP เองกว่าจะใช้งานได้จริง ก็หลังจากที่กูเกิลลงทุนมหาศาลกับการรองรับฝั่งซอฟต์แวร์แล้ว
ฉันไม่มีเวลาจะไปเป็นเบตาเทสเตอร์เพื่อใช้ชิปของ AWS
ตัวที่เสถียรมีไม่กี่ตัว ที่เหลือยังมีส่วนที่หยาบมาก
นึกภาพได้ยากว่าอเมซอนจะลงทุนถึงระดับนั้น
เวอร์ชันของ vLLM ไม่ได้อัปเดตมา 6 เดือนแล้ว และ endpoint แบบทั่วไปก็ใช้ไม่ได้เพราะมี timeout 60 วินาที ที่ตัดสินใจกันไว้ตั้งแต่ 8 ปีก่อน
แค่จินตนาการว่านักพัฒนาที่จะใช้ custom silicon ในสภาพแบบนี้ต้องเจอความทรมานอะไรบ้างก็น่ากลัวแล้ว
คนที่เคยใช้จริงบอกว่าถอดใจเพราะ ความเจ็บปวดของการดีพลอยและการปฏิบัติการ
ดูเหมือนภายในองค์กรจะใช้กันเยอะ แต่การยอมรับจากภายนอกแทบไม่มี
ถึงอย่างนั้นก็ยังมองบวกที่อเมซอนลงทุนกับชิปของตัวเอง
ส่วน Trn1 ยังไม่ถึงขั้นนั้น แปลว่าน่าจะยังมีคนใช้อยู่บ้าง
น่าจะได้รับการสนับสนุนเต็มที่จาก AWS
ถ้าไม่ลงทุนกับ SDK และ tooling เพิ่ม ก็จะไม่มีใครใช้คลาวด์แบบนี้
AI กำลังผลักดันชนิดข้อมูลพื้นฐานที่ไม่ค่อยเปลี่ยนมาหลายสิบปี
บทความวิกิพีเดียเรื่อง Block floating point
รายละเอียดดูได้ใน จดหมายข่าว Semianalysis
ดูเหมือนอเมซอนอยากลดต้นทุนใน AI แบบเดียวกับที่ทำกับโลจิสติกส์
แต่ความมั่นใจดูต่ำ และเหมือนเป็น กลยุทธ์รักษาหน้า เพื่อคงความสัมพันธ์กับ Nvidia มากกว่า
Intel ก็เข้าร่วมด้วย และนี่ให้ความรู้สึกเหมือนช่วง เปลี่ยนผ่านจาก PCI → AGP
AMD เกือบคว้าโอกาสได้ในยุค HyperTransport แต่ Infinity Fabric ตอนนี้ก็ยังจำกัดอยู่ภายใน
UALink กับ CXL ก็เริ่มถูกจับตามอง แต่ก็ยังติดข้อจำกัดด้านความเร็วของ PCIe
ในอุดมคติแล้วควรมี การรวมระบบเครือข่ายไว้บนชิป เป็นค่ามาตรฐาน
เหมือนตอนที่ Intel Xeon เคยให้ 100Gb Omni-Path มาแทบฟรี
ฝั่ง Intel ยังพอเข้าใจได้เพราะกำลังลำบาก แต่การที่ AWS เดินเส้นทางเดียวกันดูไม่ค่อยดีนัก
ถ้าเป็น AMD ฉันคิดว่าการเอา SolarFlare NIC ใส่ใน I/O die น่าจะดีกว่า
ในเมื่อสลับ PCIe/SATA ได้ ก็น่าจะสลับ PCIe/Ethernet ได้เหมือนกัน แต่ UEC อาจจะเป็นตลาดเฉพาะกลุ่มเกินไป