2 คะแนน โดย GN⁺ 2025-12-03 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • AWS เปิดตัว Trainium3 UltraServer ที่ใช้ ชิป Trainium3 ขั้นตอนการผลิต 3 นาโนเมตร เพื่อยกระดับความสามารถในการฝึกและอนุมาน AI อย่างมาก
  • ระบบใหม่ให้ความเร็วสูงขึ้น 4 เท่า และหน่วยความจำมากขึ้น 4 เท่า พร้อม ประสิทธิภาพการใช้พลังงานที่สูงขึ้น 40% เมื่อเทียบกับรุ่นก่อนหน้า
  • สามารถเชื่อมต่อ ชิป Trainium3 ได้สูงสุด 1 ล้านตัว ซึ่งเหมาะสำหรับการประมวลผลแอปพลิเคชัน AI ขนาดใหญ่
  • ลูกค้าอย่าง Anthropic, Karakuri, SplashMusic, Decart และรายอื่น ๆ ใช้งานแล้ว และ AWS ระบุว่าพบการ ลดต้นทุนการอนุมานได้
  • AWS ยังแจ้งว่า Trainium4 รุ่นถัดไปจะสนับสนุน Nvidia NVLink Fusion ทำให้สามารถใช้งานร่วมกับ GPU ของ Nvidia ได้ ซึ่งถูกมองว่าเป็นจุดเปลี่ยนสำคัญในสงครามโครงสร้างพื้นฐาน AI

การเปิดตัว Trainium3

  • AWS ประกาศตัว Trainium3 UltraServer อย่างเป็นทางการในงาน re:Invent 2025
    • ระบบนี้ใช้ ชิป Trainium3 ขนาด 3 นาโนเมตร และ เทคโนโลยีเครือข่ายของ AWS เอง
    • ทั้งการฝึกและการอนุมาน AI มีรายงานว่าได้พัฒนาประสิทธิภาพขึ้นมากเมื่อเทียบกับรุ่นที่ 2
  • AWS ระบุว่า Trainium3 ให้การประมวลผลได้เร็วขึ้น 4 เท่า และความจุหน่วยความจำมากขึ้น 4 เท่า
    • แต่ละ UltraServer ติดตั้ง 144 ชิป
    • เชื่อมต่อเซิร์ฟเวอร์จำนวนหลายพันเครื่อง เพื่อใช้งานชิปได้สูงสุด 1 ล้านตัว ในแอปพลิเคชันเดียว
  • ชิปรุ่นใหม่นี้มี ประสิทธิภาพการใช้พลังงานดีขึ้น 40% จึงช่วยลดการใช้ไฟฟ้าในศูนย์ข้อมูลขนาดใหญ่
    • AWS เน้นว่าด้วยการนี้ยังสามารถช่วยให้ ลูกค้า AI คลาวด์ประหยัดต้นทุน ได้ด้วย

ลูกค้าหลักและกรณีการใช้งาน

  • Anthropic, Karakuri (LLM จากญี่ปุ่น), SplashMusic, Decart และลูกค้าอื่น ๆ ได้เริ่มใช้งาน Trainium3 แล้ว
    • AWS กล่าวว่า ลูกค้ากลุ่มนี้เห็นการ ลดต้นทุนการอนุมานอย่างมาก
  • AWS ระบุว่าการปรับปรุงด้านประสิทธิภาพและความคุ้มค่าเช่นนี้เป็นรากฐานสำคัญในการยกระดับ ความสามารถในการขยายตัวของแอปพลิเคชัน AI

แผนเชิงกลยุทธ์ของชิป Trainium4 รุ่นถัดไป

  • AWS ระบุว่า Trainium4 กำลังอยู่ในขั้นตอนพัฒนา และคาดว่าจะรองรับ เทคโนโลยีอินเทอร์คอนเนกต์ความเร็วสูง NVLink Fusion ของ Nvidia
    • ด้วยเหตุนี้จึงทำให้เกิดการ ทำงานร่วมกันกับ GPU ของ Nvidia ได้ และสามารถผสานกับ เทคโนโลยีแร็กเซิร์ฟเวอร์ต้นทุนต่ำของ AWS ได้
  • ในขณะที่ Nvidia CUDA กลายเป็นมาตรฐานของแอปพลิเคชัน AI หลักของตลาด Trainium4 มีศักยภาพในการอำนวยความสะดวกให้การย้าย แอป AI ที่พึ่งพา GPU ของ Nvidia ไปยัง AWS คลาวด์ ทำได้ง่ายขึ้น
  • รายละเอียดการเปิดตัว Trainium4 ยังไม่ถูกประกาศ และเป็นไปได้ว่าจะมีข้อมูลเพิ่มเติมในงาน re:Invent ในปีหน้า

ความหมายเชิงกลยุทธ์ของประสิทธิภาพพลังงานและการลดต้นทุน

  • AWS กำลังก่อสร้างระบบที่เป็น "ใช้พลังงานน้อยลง" ในช่วงที่การใช้ไฟฟ้าศูนย์ข้อมูลพุ่งสูงขึ้น
  • แนวทางนี้ถูกมองว่าเป็นความพยายามที่พยายามบรรลุเป้าหมายสองด้านพร้อมกัน คือ ลดค่าใช้จ่ายการดำเนินงาน และ ความยั่งยืนทางด้านสิ่งแวดล้อม
  • กลยุทธ์ที่เน้นการลดค่าใช้จ่ายของ AWS มีศักยภาพจะต่อยอดสู่การเสริมพลัง การดึงดูดลูกค้าองค์กรคลาวด์ ในการแข่งขันโครงสร้างพื้นฐาน AI

สรุป

  • Trainium3 คือชิป AI รุ่นที่ 3 ที่ยกระดับอย่างมีนัยสำคัญทั้งด้าน ประสิทธิภาพ หน่วยความจำ และประสิทธิผลเชิงพลังงาน
  • Trainium4 มุ่งขยายระบบนิเวศของ AWS ด้วยการ ความเข้ากันได้กับ Nvidia
  • AWS มุ่งมั่นตามหาโครงสร้างพื้นฐาน AI ที่ ประสิทธิภาพสูง ต้นทุนต่ำ และเป็นมิตรต่อสิ่งแวดล้อม พร้อมเพิ่มขีดความสามารถในการแข่งขันในตลาด AI คลาวด์

1 ความคิดเห็น

 
GN⁺ 2025-12-03
ความเห็นจาก Hacker News
  • ทีมของเราบอกกับตัวแทน AWS ไปหลายครั้งแล้วว่าไม่ได้สนใจอินสแตนซ์ Trainium หรือ Inferentia
    เพราะไม่มีหลักฐานที่ชัดเจนว่ามันเข้ากันได้อย่างเสถียรกับไลบรารีมาตรฐานอย่าง Transformers หรือ PyTorch
    AWS อ้างว่ามันทำงานได้ดี แต่ก็เป็นแค่ ‘เส้นทางแสนสุข’ ที่ใช้ได้เฉพาะบน AMI บางตัวของพวกเขาเองกับ neuron SDK เท่านั้น
    พอเอาไปทำงานจริงกับ dependency ของเรา มันก็พังทันที
    แม้แต่ TPU ของ GCP เองกว่าจะใช้งานได้จริง ก็หลังจากที่กูเกิลลงทุนมหาศาลกับการรองรับฝั่งซอฟต์แวร์แล้ว
    ฉันไม่มีเวลาจะไปเป็นเบตาเทสเตอร์เพื่อใช้ชิปของ AWS
    • พอออกนอกบริการหลักของ AWS (S3, Dynamo, Lambda, ECS ฯลฯ) ก็เต็มไปด้วย บริการเบตา
      ตัวที่เสถียรมีไม่กี่ตัว ที่เหลือยังมีส่วนที่หยาบมาก
    • กูเกิลทุ่มแรงอย่างหนักเพื่อผนวก TPU เข้ากับระบบนิเวศ
      นึกภาพได้ยากว่าอเมซอนจะลงทุนถึงระดับนั้น
    • สปอยล์เลยคือ ถ้าไม่เขียนโค้ดคัสตอมเยอะ ๆ ก็ ใช้งานไม่ได้
  • เคยลองสร้าง LMI container เองบน SageMaker แล้วเจอนรก
    เวอร์ชันของ vLLM ไม่ได้อัปเดตมา 6 เดือนแล้ว และ endpoint แบบทั่วไปก็ใช้ไม่ได้เพราะมี timeout 60 วินาที ที่ตัดสินใจกันไว้ตั้งแต่ 8 ปีก่อน
    แค่จินตนาการว่านักพัฒนาที่จะใช้ custom silicon ในสภาพแบบนี้ต้องเจอความทรมานอะไรบ้างก็น่ากลัวแล้ว
  • AWS พูดเรื่อง Trainium ไว้อย่างใหญ่โต แต่ไม่มีลูกค้าสักคนขึ้นเวทีมาชมมัน
    คนที่เคยใช้จริงบอกว่าถอดใจเพราะ ความเจ็บปวดของการดีพลอยและการปฏิบัติการ
    ดูเหมือนภายในองค์กรจะใช้กันเยอะ แต่การยอมรับจากภายนอกแทบไม่มี
    ถึงอย่างนั้นก็ยังมองบวกที่อเมซอนลงทุนกับชิปของตัวเอง
    • อินสแตนซ์สปอต Inf1/Inf2 ไม่เป็นที่นิยมมากจนราคาถูกกว่าอินสแตนซ์ CPU อยู่ 10~20%
      ส่วน Trn1 ยังไม่ถึงขั้นนั้น แปลว่าน่าจะยังมีคนใช้อยู่บ้าง
    • ได้ยินมาว่า Anthropic ก็ใช้ Trainium เยอะเหมือนกัน
      น่าจะได้รับการสนับสนุนเต็มที่จาก AWS
      ถ้าไม่ลงทุนกับ SDK และ tooling เพิ่ม ก็จะไม่มีใครใช้คลาวด์แบบนี้
  • แนวคิด Block floating point (MXFP8/4) น่าสนใจมาก
    AI กำลังผลักดันชนิดข้อมูลพื้นฐานที่ไม่ค่อยเปลี่ยนมาหลายสิบปี
    บทความวิกิพีเดียเรื่อง Block floating point
  • น่าสนใจที่บทความไม่เคยอธิบายเลยว่าชิปนี้ ทำอะไร
    • แกนหลักคือสถาปัตยกรรม 128x128 systolic array หลายชุด
      รายละเอียดดูได้ใน จดหมายข่าว Semianalysis
    • ตามชื่อเลย มันเป็นชิปสำหรับ Training
    • ท้ายที่สุดแล้วมันก็คือชิปที่ทำ การคำนวณเวกเตอร์
    • ดูเหมือนภารกิจที่แท้จริงของชิปนี้คือ ทำให้ผู้ถือหุ้นพอใจ เลยคิดว่าไม่จำเป็นต้องอธิบายให้ฝั่งนักพัฒนาฟัง
  • ไม่มีการพูดถึงประสิทธิภาพหรือ benchmark เลยแม้แต่นิดเดียว
    • ถึงจะบอกว่า “มากขึ้น 4 เท่า” แต่นั่นไม่ได้แปลว่าเร็วขึ้น 4 เท่า และพอบอกว่าหน่วยความจำมากขึ้น 4 เท่า ก็ไม่มีฐานเปรียบเทียบ
  • ข่าวจริงคือส่วนที่บอกว่าเป็น “โรดแมปที่เป็นมิตรกับ Nvidia
    ดูเหมือนอเมซอนอยากลดต้นทุนใน AI แบบเดียวกับที่ทำกับโลจิสติกส์
    แต่ความมั่นใจดูต่ำ และเหมือนเป็น กลยุทธ์รักษาหน้า เพื่อคงความสัมพันธ์กับ Nvidia มากกว่า
  • การที่ NVLink แพร่หลายขึ้นเป็นเรื่องน่าสนใจ
    Intel ก็เข้าร่วมด้วย และนี่ให้ความรู้สึกเหมือนช่วง เปลี่ยนผ่านจาก PCI → AGP
    AMD เกือบคว้าโอกาสได้ในยุค HyperTransport แต่ Infinity Fabric ตอนนี้ก็ยังจำกัดอยู่ภายใน
    UALink กับ CXL ก็เริ่มถูกจับตามอง แต่ก็ยังติดข้อจำกัดด้านความเร็วของ PCIe
    ในอุดมคติแล้วควรมี การรวมระบบเครือข่ายไว้บนชิป เป็นค่ามาตรฐาน
    เหมือนตอนที่ Intel Xeon เคยให้ 100Gb Omni-Path มาแทบฟรี
    • NVLink Fusion ท้ายที่สุดแล้วดูเหมือนกับดักของ การผูกติดกับ Nvidia
      ฝั่ง Intel ยังพอเข้าใจได้เพราะกำลังลำบาก แต่การที่ AWS เดินเส้นทางเดียวกันดูไม่ค่อยดีนัก
      ถ้าเป็น AMD ฉันคิดว่าการเอา SolarFlare NIC ใส่ใน I/O die น่าจะดีกว่า
      ในเมื่อสลับ PCIe/SATA ได้ ก็น่าจะสลับ PCIe/Ethernet ได้เหมือนกัน แต่ UEC อาจจะเป็นตลาดเฉพาะกลุ่มเกินไป
  • โพสต์ทางการของอเมซอน: แนะนำ Trainium 3 UltraServer