ชิปสองรุ่นสำหรับยุคเอเจนต์: TPU รุ่นที่ 8 ของ Google

(blog.google)

6 คะแนน โดย GN⁺ 2026-04-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Google เปิดตัว TPU รุ่นที่ 8 สองแบบ ซึ่งรวบรวมประสบการณ์การพัฒนา TPU มากกว่า 10 ปี โดยใช้สถาปัตยกรรมที่แยกเฉพาะสำหรับ TPU 8t ที่เน้นการฝึกโมเดลขนาดใหญ่ และ TPU 8i ที่เน้นการอนุมานความเร็วสูง
TPU 8t สามารถขยายซูเปอร์พ็อดเดี่ยวได้ถึง 9,600 ชิป, 121 ExaFlops และเพิ่มสมรรถนะการประมวลผลต่อพ็อดราว 3 เท่าเมื่อเทียบกับรุ่นก่อนหน้า
TPU 8i ถูกออกแบบใหม่ให้เหมาะกับการอนุมานแบบเอเจนต์ โดยเน้นการปรับแบนด์วิดท์หน่วยความจำและเวลาแฝง พร้อมเพิ่ม on-chip SRAM, โฮสต์ Axion CPU และปรับปรุงเครือข่ายสำหรับ MoE จนทำได้ ประสิทธิภาพต่อค่าใช้จ่ายดีขึ้น 80%
ชิปทั้งสองรุ่นทำงานบนโฮสต์ Axion CPU ที่ใช้ ARM ซึ่ง Google ออกแบบเอง และให้ประสิทธิภาพต่อวัตต์ดีขึ้นสูงสุด 2 เท่าเมื่อเทียบกับรุ่นก่อนหน้า
เป็นกลยุทธ์โครงสร้างพื้นฐานที่ แยกการเพิ่มประสิทธิภาพระหว่างการฝึกและการอนุมาน เพื่อรองรับยุคที่ AI agent ต้องอนุมาน วางแผน และลงมือทำอย่างต่อเนื่อง โดยมีกำหนดเปิดให้ใช้งานทั่วไปในช่วงครึ่งหลังของปีนี้ และใช้งานได้เป็นส่วนหนึ่งของ Google AI Hypercomputer

ภาพรวม TPU รุ่นที่ 8

Google เปิดตัว Tensor Processor Unit(TPU) รุ่นที่ 8 ในงาน Google Cloud Next โดยประกอบด้วยสองสถาปัตยกรรมคือ TPU 8t สำหรับการฝึก และ TPU 8i สำหรับการอนุมาน
ออกแบบมาเพื่อขับเคลื่อนซูเปอร์คอมพิวเตอร์แบบคัสตอม และครอบคลุมทั้งการฝึกโมเดลล้ำสมัย การพัฒนาเอเจนต์ และเวิร์กโหลดการอนุมานขนาดใหญ่
Google ใช้ TPU ขับเคลื่อนฟาวน์เดชันโมเดลหลักรวมถึง Gemini มาหลายปี และในรุ่นที่ 8 นี้มุ่งให้ทั้งสเกล ประสิทธิภาพ และสมรรถนะในงานฝึก งานเสิร์ฟโมเดล และเวิร์กโหลดแบบ agentic
ในยุคของ AI agent โมเดลต้องอนุมานปัญหา รันเวิร์กโฟลว์หลายขั้นตอน และเรียนรู้จากการกระทำของตัวเองในลูปต่อเนื่อง จึงทำให้โครงสร้างพื้นฐานต้องรองรับข้อกำหนดใหม่
ออกแบบร่วมกับ Google DeepMind เพื่อรองรับเวิร์กโหลด AI ที่ท้าทายที่สุดและปรับตัวตามสถาปัตยกรรมโมเดลที่เปลี่ยนแปลงอยู่เสมอ

ปรัชญาการออกแบบที่สั่งสมมากว่า 10 ปี

TPU ได้วางมาตรฐานขององค์ประกอบซูเปอร์คอมพิวติ้งสำหรับ ML มาอย่างต่อเนื่อง ไม่ว่าจะเป็นการคำนวณเชิงตัวเลขแบบคัสตอม, liquid cooling, และอินเตอร์คอนเนกต์แบบคัสตอม โดยรุ่นที่ 8 คือผลรวมของการพัฒนากว่า 10 ปี
หลักการออกแบบสำคัญคือการ co-design ซิลิคอนร่วมกับฮาร์ดแวร์ เครือข่าย และซอฟต์แวร์ รวมถึงสถาปัตยกรรมโมเดลและความต้องการของแอปพลิเคชัน เพื่อให้ได้ทั้งประสิทธิภาพพลังงานและสมรรถนะสูงสุดที่ดีขึ้นอย่างมาก
Google ยกตัวอย่างว่า Citadel Securities เลือกใช้ TPU สำหรับเวิร์กโหลด AI ของตน เป็นกรณีศึกษาขององค์กรชั้นนำ

เหตุผลที่แยกการฝึกและการอนุมาน

วงจรการพัฒนาฮาร์ดแวร์ยาวนานกว่าซอฟต์แวร์มาก จึงต้องคาดการณ์เทคโนโลยีและความต้องการล่วงหน้าตั้งแต่ตอนออกแบบ TPU แต่ละรุ่น
Google คาดการณ์มาหลายปีแล้วว่า ความต้องการด้านการอนุมานจะเพิ่มขึ้น จากการนำฟรอนเทียร์ AI โมเดลไปใช้งานจริงในโปรดักชัน
การเกิดขึ้นของ AI agent ทำให้ข้อกำหนดของการฝึกและการเสิร์ฟโมเดลแตกต่างกัน จึงมองว่าการมีชิปเฉพาะทางแยกกันจะเป็นประโยชน์ต่อชุมชนมากกว่า
TPU 8t ถูกปรับให้เหมาะกับ การฝึกขนาดใหญ่ ด้วยทรูพุตการประมวลผลที่มากกว่าและแบนด์วิดท์สำหรับการ scale-up ที่สูงกว่า
TPU 8i ถูกปรับให้เหมาะกับ เวิร์กโหลดการอนุมานที่ไวต่อเวลาแฝง ด้วยแบนด์วิดท์หน่วยความจำที่มากกว่า เพราะเมื่อเอเจนต์โต้ตอบกันในสเกลใหญ่ แม้ความไม่มีประสิทธิภาพเพียงเล็กน้อยก็จะถูกขยายผล
แม้ชิปทั้งสองจะรองรับเวิร์กโหลดได้หลากหลาย แต่การแยกให้เฉพาะทางช่วยเพิ่มประสิทธิภาพได้อย่างมาก

TPU 8t: ขุมพลังสำหรับการฝึกโดยเฉพาะ

เป้าหมายคือย่นรอบการพัฒนาฟรอนเทียร์โมเดลจาก หลายเดือนเหลือหลายสัปดาห์
ผสานทรูพุตการประมวลผลระดับสูงสุด หน่วยความจำร่วม และแบนด์วิดท์ระหว่างชิป เข้ากับประสิทธิภาพพลังงานที่เหมาะสมและเวลาคำนวณที่เกิดประโยชน์สูงสุดอย่างสมดุล
ให้ สมรรถนะการประมวลผลต่อพ็อดสูงขึ้นราว 3 เท่า เมื่อเทียบกับรุ่นก่อนหน้า
การขยายขนาดมหาศาล(Massive Scale)
- ซูเปอร์พ็อด TPU 8t เดี่ยวขยายได้ถึง 9,600 ชิป, shared HBM 2 เพตะไบต์
- แบนด์วิดท์ระหว่างชิปเพิ่มขึ้น 2 เท่าเมื่อเทียบกับรุ่นก่อนหน้า
- ให้สมรรถนะการประมวลผล 121 ExaFlops ทำให้โมเดลที่ซับซ้อนที่สุดสามารถใช้พูลหน่วยความจำขนาดใหญ่ชุดเดียวได้
การใช้ทรัพยากรสูงสุด(Maximum Utilization)
- รวมการเข้าถึงสตอเรจที่ เร็วขึ้น 10 เท่า
- ใช้ TPUDirect เพื่อดึงข้อมูลเข้าสู่ TPU โดยตรง ช่วยให้ระบบ end-to-end ใช้งานทรัพยากรได้สูงสุด
โฆษณา
การสเกลแบบเกือบเชิงเส้น(Near-Linear Scaling)
- ผสาน Virgo Network แบบใหม่เข้ากับซอฟต์แวร์ JAX และ Pathways เพื่อสเกลแบบเกือบเชิงเส้นได้ถึง 1 ล้านชิป ในคลัสเตอร์เชิงตรรกะเดียว
ความน่าเชื่อถือและความพร้อมใช้งาน
- ตั้งเป้า goodput(เวลาคำนวณที่ก่อให้เกิดผลผลิตจริง) มากกว่า 97%
- มีความสามารถ RAS(Reliability, Availability, Serviceability) แบบครบถ้วน
  - เทเลเมทรีแบบเรียลไทม์ครอบคลุมหลายหมื่นชิป
  - ตรวจจับลิงก์ ICI ที่ผิดพลาดโดยอัตโนมัติและ reroute ได้โดยไม่ต้องหยุดงาน
  - ใช้ OCS(Optical Circuit Switching) เพื่อปรับโครงสร้างฮาร์ดแวร์รอบจุดขัดข้องโดยไม่ต้องมีมนุษย์เข้ามาแทรกแซง
- ในสเกลการฝึกฟรอนเทียร์โมเดล ความขัดข้องของฮาร์ดแวร์ ความหน่วงของเครือข่าย และการรีสตาร์ตจากเช็กพอยต์ล้วนเป็นเวลาที่ไม่ได้ใช้ฝึก และความต่างเพียง 1 จุดเปอร์เซ็นต์อาจแปลเป็นเวลาฝึกหลายวัน

TPU 8i: เอนจินสำหรับการอนุมาน

ในยุค agentic ผู้ใช้คาดหวังประสบการณ์ที่สามารถถาม มอบหมายงาน และรับผลลัพธ์ได้ จึงออกแบบมาให้เหมาะกับงานที่เอเจนต์เฉพาะทางหลายตัว swarming และทำงานร่วมกันในโฟลว์ที่ซับซ้อน
Google ออกแบบสแต็กใหม่เพื่อขจัด “ผลกระทบแบบห้องรอ” และใช้ 4 นวัตกรรมหลัก
ทลายกำแพงหน่วยความจำ(Breaking the Memory Wall)
- มาพร้อม HBM 288GB และ on-chip SRAM 384MB ซึ่งมากกว่ารุ่นก่อนหน้า 3 เท่า
- ทำให้สามารถเก็บ active working set ทั้งหมดของโมเดลไว้บนชิป เพื่อป้องกันไม่ให้โปรเซสเซอร์ว่างงาน
โฆษณา
ประสิทธิภาพบนพื้นฐาน Axion
- เพิ่มจำนวนโฮสต์ CPU จริงต่อเซิร์ฟเวอร์เป็น 2 เท่า และใช้ Axion CPU ที่ใช้ ARM ซึ่ง Google ออกแบบเอง
- ปรับประสิทธิภาพทั้งระบบผ่านการแยก NUMA(Non-Uniform Memory Architecture)
การขยายโมเดล MoE
- เพิ่มแบนด์วิดท์ ICI เป็น 19.2 Tb/s หรือ 2 เท่า เพื่อรองรับโมเดล Mixture of Expert(MoE) รุ่นล่าสุด
- ใช้ สถาปัตยกรรม Boardfly ใหม่เพื่อลด network diameter สูงสุดลงมากกว่า 50% ทำให้ทำงานเป็นยูนิตที่มีความหน่วงต่ำและเชื่อมโยงกันแน่นแฟ้น
กำจัดเวลาแฝง(Eliminating Lag)
- CAE(Collectives Acceleration Engine) แบบ on-chip ใหม่ช่วย offload การคำนวณแบบ global และลดเวลาแฝงบนชิปได้สูงสุด 5 เท่า
ประสิทธิภาพต่อค่าใช้จ่าย
- ให้ ประสิทธิภาพต่อดอลลาร์ดีขึ้น 80% เมื่อเทียบกับรุ่นก่อนหน้า ทำให้รองรับปริมาณงานลูกค้าได้เกือบ 2 เท่าในต้นทุนเท่าเดิม

ออกแบบร่วมกับ Gemini และเปิดให้ทุกคนใช้

TPU รุ่นที่ 8 คือการแสดงออกล่าสุดของ ปรัชญา co-design ที่ออกแบบทุกสเปกเพื่อแก้ปัญหาที่ใหญ่ที่สุดของ AI
โทโพโลยี Boardfly: ออกแบบให้สอดคล้องกับความต้องการด้านการสื่อสารของโมเดลการอนุมานที่ดีที่สุดในปัจจุบัน
ความจุ SRAM ของ TPU 8i: คำนวณให้เหมาะกับขนาด KV cache footprint ของโมเดลอนุมานระดับโปรดักชัน
เป้าหมายแบนด์วิดท์ของ Virgo Network: มาจากข้อกำหนดด้านการทำงานขนานสำหรับการฝึกโมเดลระดับล้านล้านพารามิเตอร์
ชิปทั้งสองรุ่นเป็นครั้งแรกที่ทำงานบน Axion CPU host ที่ใช้ ARM ซึ่ง Google ออกแบบเอง ทำให้เพิ่มประสิทธิภาพได้ทั้งระบบ ไม่ใช่เฉพาะตัวชิป
เฟรมเวิร์กและการเข้าถึง
- รองรับ JAX, MaxText, PyTorch, SGLang, vLLM แบบเนทีฟ
- มี การเข้าถึงแบบ bare metal ให้เข้าถึงฮาร์ดแวร์โดยตรงโดยไม่มี virtualized overhead
- สนับสนุนโอเพนซอร์ส เช่น อิมพลีเมนเทชันอ้างอิง MaxText และ Tunix สำหรับ reinforcement learning เพื่อรองรับเส้นทางหลักตั้งแต่การพัฒนาไปจนถึงการนำขึ้นโปรดักชัน
โฆษณา

การออกแบบเพื่อประสิทธิภาพพลังงานในสเกลใหญ่

ปัจจุบันดาต้าเซ็นเตอร์ไม่ได้ติดข้อจำกัดแค่การจัดหาชิป แต่ พลังงานคือข้อจำกัดหลักที่ผูกระบบไว้
Google ปรับประสิทธิภาพครอบคลุมทั้งสแต็ก และใช้ การจัดการพลังงานแบบบูรณาการ ที่ปรับการใช้พลังงานแบบไดนามิกตามความต้องการจริงแบบเรียลไทม์
ทั้ง TPU 8t และ TPU 8i ให้ ประสิทธิภาพต่อวัตต์ดีขึ้นสูงสุด 2 เท่า เมื่อเทียบกับรุ่นก่อนหน้า (Ironwood)
ประสิทธิภาพไม่ได้เป็นเพียงตัวชี้วัดระดับชิป แต่เป็น พันธสัญญาระดับระบบ ตั้งแต่ซิลิคอนไปจนถึงดาต้าเซ็นเตอร์
- รวมการเชื่อมต่อเครือข่ายไว้บนชิปเดียวกับการประมวลผล ช่วยลดต้นทุนพลังงานของการเคลื่อนย้ายข้อมูลภายใน TPU pod ได้อย่างมาก
- ดาต้าเซ็นเตอร์ก็ถูก co-design ร่วมกับ TPU เช่นกัน ทำให้พลังประมวลผลต่อหน่วยพลังงานดีขึ้น 6 เท่า เมื่อเทียบกับ 5 ปีก่อน
ชิปทั้งสองรุ่นรองรับด้วยเทคโนโลยี liquid cooling รุ่นที่ 4 เพื่อรักษาความหนาแน่นของสมรรถนะในระดับที่ระบบระบายความร้อนด้วยอากาศทำไม่ได้
การเป็นเจ้าของทั้งสแต็กตั้งแต่โฮสต์ Axion ไปจนถึงตัวเร่งความเร็ว ทำให้ Google ปรับประสิทธิภาพพลังงานระดับระบบได้ในแบบที่เป็นไปไม่ได้หากออกแบบโฮสต์และชิปแยกจากกัน

โครงสร้างพื้นฐานสำหรับยุค agentic

ทุกการเปลี่ยนผ่านครั้งสำคัญของการประมวลผลต้องมาพร้อมนวัตกรรมด้านโครงสร้างพื้นฐาน และยุค agentic ก็เช่นกัน
โครงสร้างพื้นฐานต้องวิวัฒน์เพื่อรองรับความต้องการที่เอเจนต์อัตโนมัติจะต้องอนุมาน วางแผน ลงมือทำ และเรียนรู้ในลูปต่อเนื่อง
TPU 8t และ TPU 8i คือคำตอบต่อโจทย์นี้ เป็น สถาปัตยกรรมเฉพาะทางสองแบบ ที่นิยามใหม่ทั้งการสร้าง AI โมเดลที่ดีที่สุด การประสานงาน agent swarm อย่างสมบูรณ์ และการจัดการงานอนุมานที่ซับซ้อนที่สุด
ชิปทั้งสองรุ่นมีกำหนด เปิดให้ใช้งานทั่วไปในช่วงครึ่งหลังของปีนี้
ใช้งานได้เป็นส่วนหนึ่งของ AI Hypercomputer ของ Google
- ซึ่งรวมฮาร์ดแวร์เฉพาะงาน (คอมพิวต์ สตอเรจ เครือข่าย), ซอฟต์แวร์แบบเปิด (เฟรมเวิร์ก เอนจินการอนุมาน) และโมเดลการใช้งานที่ยืดหยุ่น (orchestration, การจัดการคลัสเตอร์, delivery model) ไว้ในสแต็กเดียว

1 ความคิดเห็น

GN⁺ 2026-04-23

ความคิดเห็นจาก Hacker News

ฉันรู้สึกว่า Gemini 3 ได้แสดงให้เห็นไปแล้วว่าการฝึกแบบ เน้นประสิทธิภาพ ไปได้ไกลแค่ไหน ฉันเดาว่า Pro กับ Flash น่าจะเล็กกว่าโมเดลระดับ Opus หรือ GPT-5 ราว 5 ถึง 10 เท่า การเรียกใช้เครื่องมือมักพังบ่อย และโดยรวมก็อ่อนในงานแบบ agentic เลยดูเหมือนว่ายังขัดเกลาทั้งด้านการให้เหตุผลและการลงมือทำไม่พอ ถึงอย่างนั้นถ้ามองเฉพาะการแก้ปัญหาแบบเพียว ๆ โดยไม่ใช้เครื่องมือหรือการค้นหา มันก็ดูสูสีกับ Opus และ GPT แต่ขนาดเหมือนจะเล็กกว่ามาก ถ้าวันหนึ่ง Google เลิกทำต้นแบบช่วงพรีวิวแล้วออกโมเดลจริงจังแบบตัวเต็ม ฉันคิดว่าพวกเขาอาจทำให้ทุกคนตกใจด้วยโมเดลที่ก้าวล้ำกว่าสถานะ SOTA ปัจจุบันไปราวหนึ่งรุ่น โมเดลที่ออกมาจนถึงตอนนี้ให้ความรู้สึกเหมือน ต้นแบบ ที่รีบเข็นเข้า GA เพื่อโชว์นักลงทุนและใส่เป็น proof of concept ในไลน์ผลิตภัณฑ์มากกว่า
- ฉัน สงสัย กับตัวเลขประมาณ 5 ถึง 10 เท่านั้น โดยเฉพาะกับ Pro ฉันกลับคิดว่าอาจเป็นกรณีที่ Google ใช้ฮาร์ดแวร์ของตัวเองเพื่อรันโมเดลที่ใหญ่กว่าได้ถูกและเร็วกว่า Gemini 3 Pro ให้ความรู้สึกว่าเป็นโมเดลที่ใกล้เคียง สติปัญญาแบบมนุษย์ มากที่สุดในภาพรวม โดยเฉพาะด้านมนุษยศาสตร์แข็งแรงมาก และความสามารถในการสร้างข้อความที่เป็นธรรมชาติในภาษามนุษย์หลายภาษา ฉันมองว่าแทบเป็นอันดับ 1 ความต่างแบบนี้ยิ่งชัดเมื่อเป็นภาษากลุ่มเฉพาะ ซึ่งทำให้ฉันรู้สึกว่ามันบ่งชี้ถึงโมเดลที่ใหญ่กว่า ไม่ใช่เล็กกว่า คณิตศาสตร์กับงาน agentic อ่อนชัดเจน และตัวแอป Gemini เองก็ดูล้าหลังจนแทบไม่ต่างจาก ChatGPT ยุคแรกเมื่อ 3 ปีก่อน ซึ่งยิ่งฉุดประสิทธิภาพที่ผู้ใช้รับรู้ลงไปอีก
- ฉันก็เห็นด้วยกับจุดนี้ Gemini-cli เทียบกับ CC หรือ Codex แล้วแย่มากจริง ๆ แต่ถึงอย่างนั้น ฉันคิดว่าสิ่งที่ Google ให้ความสำคัญก่อนคือการสร้าง AI ที่ดีที่สุดเพื่อเสริมหรือแทนที่การค้นหาแบบดั้งเดิม นั่นคือธุรกิจหลักของพวกเขา และตำแหน่งในการทำเงินก็ได้เปรียบกว่าทุกเจ้าอยู่แล้ว ฉันมองว่าพวกเขามี ข้อได้เปรียบด้านการกระจาย อย่างมหาศาลอยู่ก่อนแล้ว ทั้งในแง่ฐานผู้ใช้และปริมาณคำค้น ก็หวังว่า Google จะยกระดับความสำคัญของ Gemini-cli แล้วเดินเกมแข่งขันในพื้นที่นี้ให้หนักขึ้นด้วย
- ถ้าจำไม่ผิด ตอนที่ Gemini 3 Pro ออกมาใหม่ ๆ มันถูกมองว่า สูสี กับ Claude เวอร์ชันในตอนนั้น แต่ Gemini 3 ตอนนี้กลับให้ความรู้สึกค่อนข้างเก่า ระหว่างนั้นก็มีโมเดลจากจีนออกมาอีกมาก และ Claude เองก็อัปเดตไปหลายรอบ ตอนนี้เลยดูเหมือน Google จะ ชะงัก อยู่เล็กน้อยในสายนี้ แน่นอนว่าฉันก็ยังคิดว่าอาจมีเซอร์ไพรส์จากการปรับปรุงครั้งใหญ่ในไม่ช้า
- ฉันมองว่าการใช้คำว่า preview ของ Google ค่อนข้างตามอำเภอใจ มันเป็นวิธีเลี่ยงคำมั่นเรื่องความพร้อมใช้งานและความต่อเนื่อง และดูเหมือนเป็นกลยุทธ์ PR ที่เปิดช่องให้แก้ต่างได้ว่าคุณภาพยังเป็นแค่เบต้าเวลามีอะไรล้มเหลว
- ฉันสงสัยมาตลอดว่าฉันพลาดอะไรไปกับ Gemini หรือเปล่า เพราะสำหรับฉันมันให้ความรู้สึกอย่างมากก็แค่ โมเดลระดับรอง มันพอใช้เก็บข้อมูลได้ แต่แทบไร้ประโยชน์ในงาน agentic และดูเหมือนเมาอยู่ตลอด ถ้า Claude credit ใน Antigravity หมด วันนั้นก็เหมือนจบเลย เรื่องที่บอกว่าใช้ token น้อยกว่ามากฟังดูตลก เพราะจากประสบการณ์ฉัน มันมักวนเข้า ลูปมรณะ ที่แก้ปัญหาไม่ได้อยู่บ่อย ๆ
ตอนนี้ถ้าจะทำ AI ขนาดใหญ่จริง ๆ ก็ดูเหมือนแทบต้องซื้อจาก NVidia หรือเช่าจาก Google เท่านั้น และ Google สามารถออกแบบชิป เอนจิน และระบบจากมุมมอง ทั้งดาต้าเซ็นเตอร์ ได้ เลยปรับแต่งในจุดที่ผู้ขายชิปซึ่งรวมศูนย์อยู่ทำไม่ได้ เพราะงั้นฉันเดาว่ายิ่งสเกลใหญ่จริง ระบบของ Google จะยิ่ง คุ้มต้นทุน กว่าเสมอ อ้างอิงไว้ก่อนว่าฉันถือสถานะ long ใน GOOG ด้วย ส่วนหนึ่งก็เพราะเหตุผลนี้
- ฉันก็อยากเดิมพันกับ Google เหมือนกัน ถ้าแค่ ประสบการณ์ Gemini CLI ใกล้เคียง Codex หรือ Claude ได้ก็คงทำไปแล้ว ต่อให้ฮาร์ดแวร์ดีแค่ไหน ถ้า coding agent ตัวหลักยังหลุดไปวนลูปหา turn-end token อยู่ มูลค่าของมันก็ลดลงมาก
- Amazon ก็กำลังทำ ชิปแนว TPU ของตัวเองคล้าย ๆ กันอยู่หรือเปล่า ฉันสงสัยแบบนั้น
- ฉันนึกถึงคำเตือนว่าอย่า สร้างปราสาทบนอาณาจักรของคนอื่น สุดท้ายการซื้อจาก NVidia ก็ดูเป็นทางเลือกที่เป็นจริงได้ทางเดียว และถึงอย่างนั้นก็คงไม่ใช่ทางที่ดีที่สุดด้วย
- ฉันกลับค่อนข้างอยู่ฝั่งตรงข้ามของสมมติฐานนั้น เหตุผลมีสองอย่าง อย่างแรกคือ Google ดูเหมือนจะ จำกัดการผลิต ไว้แบบตั้งใจมาโดยตลอด อย่างที่สอง TSMC ก็คงเลือกฝั่งที่จ่ายค่ากำลังการผลิตได้มากที่สุด ดังนั้นสล็อตแรกของกระบวนการผลิตใหม่ก็น่าจะตกเป็นของ Nvidia อีกอย่าง GCP มี อัตรากำไรจากการดำเนินงาน สูงกว่า Hetzner หรือ lambdalabs และก็มีที่เช่า GPU ที่ถูกกว่าจริง ๆ อยู่ ทำให้นักศึกษาหรือนักวิจัยรายเล็กสุดท้ายก็ยังไปอยู่ฝั่ง GPU เหมือนเดิม
- ถ้าฝ่ายบริหารมีความ สร้างแรงบันดาลใจ มากกว่านี้อีกหน่อย ฉันคงเดิมพันกับ Google ไปแล้ว Apple ยุค Cook ถึงจะซอฟต์กว่ายุค Jobs แต่ Google เหมือนตกจากหน้าผา ถ้า OpenAI ไม่ปล่อย ChatGPT ออกมา ฉันคิดว่าเทคโนโลยีนี้อาจยังถูกดองไว้แค่ในห้องทดลองภายในอยู่เลย ตอนนี้เหตุการณ์นั้นกลับกลายเป็นแรงผลักให้ R&D ด้านชิปทั้งหมดเดินหน้าแทน
ระหว่างที่บริษัทอื่น ๆ ดึงความสนใจในรอบข่าวไป Google ดูเหมือนกำลังสะสมส่วนแบ่งตลาดผู้บริโภคอย่างเงียบ ๆ บนกระแสที่ แข็งแกร่งขึ้นเรื่อย ๆ อาจเพราะทำ AI แบบบูรณาการแนวดิ่งมาตั้งแต่แรก ปัญหาโครงสร้างพื้นฐานเลยแทบไม่เห็นเลย ช่วงหนึ่งมันเคยดูเหมือนบริษัทที่หมดสภาพไปแล้ว แต่ตอนนี้กลับให้ความรู้สึกเหมือนน้ำขึ้นที่ขยายออกทุกทิศทาง
- แต่ซับเรดดิต Google Antigravity ดูเหมือน โกลาหลสุด ๆ เลย https://www.reddit.com/r/GoogleAntigravityIDE/
- ฉันคิดว่าในอีก 1-2 ปี Google กับ Apple จะถึงจุดที่ ได้ประโยชน์กันทั้งคู่ ในที่สุด ทั้งสองเจ้าไม่ได้เล่นเกมเร่งความเร็วแบบปล่อยของดิบทุกเดือนเพื่อดันมูลค่าบริษัทให้โตสองเท่า พวกเขายังมีเวลาสังเกต คิด แล้วค่อยออก ผลิตภัณฑ์ที่ขัดเกลาจริง ๆ มาได้
- โมเดลเปิด รุ่นล่าสุดของ Google ฉันว่าค่อนข้างแข่งขันได้กับโมเดลเปิดเจ้าอื่น โดยเฉพาะในขนาดเล็กอย่าง 2-4GB ที่มีนวัตกรรมอยู่ และช่วยลดช่องว่างให้เข้าใกล้การให้เหตุผลที่คุณภาพใช้งานได้จริงบนโทรศัพท์หรืออุปกรณ์ที่เล็กกว่านั้น
- ถ้าตัดคำโฆษณาเกินจริงออกไป OpenAI กับ Anthropic ก็ดูเหมือนกำลังเอาเงินมากลบตัวเองแล้วจุด กองไฟที่ใหญ่กว่า แข่งกัน
- ฉันมองว่าการนำ AI มาใช้ไม่ใช่ปัญหาเชิง ความอยู่รอด สำหรับ Google เท่ากับที่เป็นกับ OpenAI หรือ Anthropic แถมไม่ว่า Google จะพูดอะไร ก็ยากจะสร้างกระแส hype แบบอีกสองเจ้าอยู่ดี และสุดท้ายก็มักฟังดูเหมือน สำนวนประชาสัมพันธ์องค์กร มากกว่า
จากมุมของคนที่ใช้ทั้ง Gemini, ChatGPT และ Claude ฉันรู้สึกว่า Gemini ใช้ token น้อยกว่ามาก อย่างสม่ำเสมอเมื่อเทียบกับอีกสองตัว สุดท้ายเลยดูเหมือนเหตุที่ Gemini ยังอยู่แค่ระดับนี้เป็นเพราะมี thinking budget เล็กกว่า Google น่าจะมีทั้ง compute มากที่สุดและโครงสร้างต้นทุนต่ำที่สุดแล้วด้วยซ้ำ เลยยิ่งสงสัยว่าทำไมไม่ดัน compute ฝั่งการให้เหตุผลแรง ๆ แบบอีกสองเจ้า ไม่รู้ว่าเป็นเพราะภาระจากบริการอื่น หรือเป็นกลยุทธ์ที่เน้นการฝึกมากกว่า แต่เป็นจุดที่น่าสนใจมาก
- ฉันใช้ Gemini Pro มาหลายเดือนผ่าน Google One ราคาราว 20 ดอลลาร์ และรู้สึกว่ามันค้นเว็บเพื่อตรวจสอบข้อมูลน้อยกว่า ChatGPT 5.4 Pro อย่างสม่ำเสมอ ฉันพยายามจะเทียบด้านโค้ดด้วย แต่ทำไม่ได้เพราะ Gemini add-in บน VSCode ใช้งานไม่ได้ ทั้งบน Android และเว็บแอปก็มี บั๊ก เยอะมาก แถมยังมีปัญหาประวัติแชตหายเวลาไปมาระหว่างเธรดอีก ดังนั้นเดือนนี้ฉันตั้งใจจะยกเลิก Google One
- ฉันยังไม่ค่อยเห็นว่า Gemini มี ข้อได้เปรียบในการแข่งขัน อะไรที่ทำให้ควรใช้แทน Claude หรือ ChatGPT ฉันรู้สึกว่าคุณภาพผลลัพธ์แทบสู้สองตัวนั้นไม่ได้
- แพลตฟอร์ม agentic ระดับองค์กร ที่เพิ่งเปิดตัววันนี้อาจกลายเป็นหลุมแรงโน้มถ่วงที่ดึง workload ด้านการให้เหตุผลของบริษัท Fortune 500 เข้ามาก็ได้
- ฉันค่อนข้างมั่นใจครึ่งหนึ่งว่าเหตุผลสำคัญที่ GLM-5 ดีกว่า GLM-4.7 คือมัน ยอมใช้ token มากขึ้น รุ่น 4.7 นั้นยากมากที่จะทำให้มันอ่านซอร์สโค้ดได้มากพอ แต่พออ่านแล้วมันก็เก่งใช้ได้ ความประหยัดเป็นข้อดี แต่ในอีกด้านมันก็อาจแปลว่า ไตร่ตรองไม่พอ พิจารณาองค์ประกอบไม่พอ หรืออ่านซอร์สโค้ดไม่พอด้วย สุดท้ายเส้นแบ่งระหว่างการประหยัด token กับการใช้มาก ๆ ก็ยังเป็นพื้นที่ที่ไม่มีใครรู้แน่ชัดในตอนนี้
คำอธิบายว่า superpod ของ TPU 8t หนึ่งชุดขยายได้ถึง 9,600 ชิป พร้อมหน่วยความจำแบนด์วิดท์สูงแบบแชร์ขนาด 2PB นั้น น่าประทับใจ มาก ฉันไม่ได้เชี่ยวชาญด้านนี้ แต่เท่าที่มอง อย่างน้อยมันก็ดูเป็น ข้อได้เปรียบในการแข่งขัน ที่ค่อนข้างใหญ่ของ Google
- ฉันก็คิดว่าใช่ แต่ก็ยังมองว่าถ้าไม่มีความก้าวหน้าด้าน การแยก instruction ออกจาก data ก็คงยังสร้าง AGI ไม่ได้
เรื่องที่ TPU 8t และ TPU 8i มีประสิทธิภาพต่อวัตต์สูงขึ้นได้ถึง 2 เท่าเมื่อเทียบกับรุ่นก่อนนั้น น่าประทับใจ มาก ยิ่งน่าสนใจตรงที่รุ่นก่อนก็ใหม่มากถึงขั้นเป็นผลิตภัณฑ์ปี 2025 และยังเห็นชัดว่าฮาร์ดแวร์สำหรับการฝึกกับการอนุมานถูกแยกกัน ฉันเลยสงสัยว่าบริษัทที่ใช้ฮาร์ดแวร์ของ NV ก็แยกแบบนี้เหมือนกันหรือเปล่า หรือเป็นแนว อเนกประสงค์ มากกว่า
- เป็นที่รู้กันดีว่าการฝึกนั้น compute-bound ส่วนการอนุมานนั้น memory-bound แต่เท่าที่รู้ การติดตั้งใช้งานของ Nvidia มักไม่ได้ทำให้เฉพาะทางกับอย่างใดอย่างหนึ่ง หลาย cloud และ neocloud ไม่ได้เป็นเจ้าของ workload เอง ดังนั้นความอเนกประสงค์จึงสำคัญ และเมื่อคุณลงทุนกับ H200 ราคาแพงรวมถึงระบบเครือข่ายไปแล้ว ก็ต้องสามารถขายให้ลูกค้าหลากหลายได้ แต่ก็เริ่มมีตัวเร่งเฉพาะทางสำหรับการอนุมานแล้ว เช่น Grok LPU ของ Vera Rubin หรือ Cerebras ดังนั้นกระแสสู่ความเฉพาะทางได้เริ่มขึ้นแล้วจริง ๆ
- ฝั่ง NVIDIA ฉันตอบยืนยันไม่ได้ แต่ AWS มี ชิปสำหรับการฝึกและชิปสำหรับการอนุมาน แยกกันของตัวเอง แต่ก็มีข่าวลือว่าชิปอนุมานอ่อนเกินไป จนบางบริษัทเอาชิปฝึกมารันงานอนุมานแทนด้วย
- ฮาร์ดแวร์เฉพาะทางมักให้ ประสิทธิภาพที่เร็วกว่า อยู่แล้ว เพราะงั้นยิ่งสาขาไหนเริ่มโตเต็มที่ ก็ยิ่งมีแนวโน้มที่ระบบซับซ้อนและราคาแพงจะไหลลงมาเป็นชิปทั่วไปราคา 1 ดอลลาร์ที่หาได้ทั่วไป เพราะแบบนี้ฉันเลยรู้สึกว่า Google เข้าใจสแตกของตัวเองดีกว่าบริษัทที่ไปอาศัยอยู่บน NVidia มาก Google เป็นเจ้าของทุกอย่างตั้งแต่คีย์บอร์ดไปจนถึงซิลิคอน และดูเหมือนจะ เรียนรู้จากการทำซ้ำ มามากพอว่าจะจะแยกฟีเจอร์ที่ต้องแย่งทรัพยากรกันออกจากกันอย่างไร
- ชิปฝึกก็น่าจะยังใช้ได้ดีทีเดียวกับงาน อนุมานขนาดใหญ่ ที่ช้าแต่เน้น throughput สูง ฉันคาดว่าวิธีแบบนี้จะเป็นที่นิยมมากขึ้นพอสมควรในงานที่ไม่ไวต่อเวลา
- แค่ดูจากที่ Vera Rubin ใส่ ชิป Groq สำหรับงานอนุมานเร็วเข้าไปด้วย ก็เห็นแนวโน้มอย่างหนึ่งแล้ว ในสถานการณ์ที่ความต้องการพลังงานสูงขนาดนี้ มันก็เป็นธรรมดาที่จะพยายามไล่เก็บทุกการปรับแต่งที่เป็นไปได้
ฉันใช้ Gemini คู่กับ Junie ของ JetBrains อยู่ และแม้ Junie เองจะยังไม่ดีเท่า Claude Code แต่มันก็ นำหน้า เครื่องมือของ Google ตอนนี้ไปไกลพอสมควร ด้วยชุดนี้ ฉันได้ ผลลัพธ์ที่สม่ำเสมอ ดีมากในราคาที่ค่อนข้างถูก
- ถ้ามองภายในบริบทของ IDE และเครื่องมือของ JetBrains เอง คุณคิดว่า Junie สู้กับคู่แข่งได้ เลยไหม
ในบรรดาผู้ให้บริการโมเดลอนุมานรายใหญ่ Google ให้ความรู้สึกว่าเป็นฝั่งที่มีนโยบาย เลิกใช้โมเดล น่ารำคาญที่สุดฝั่งหนึ่ง พอครบ 1 ปีหลังเปิดตัวเป๊ะก็ลบโมเดลทิ้งแล้วบังคับย้ายไปเจเนอเรชันถัดไป ทั้งที่ใช้ซิลิคอนของตัวเองแท้ ๆ ฉันนึกว่าจะเสถียรกว่านี้ แต่กลับตรงกันข้าม ส่วน rate limiting ก็เข้มกว่า OpenAI มาก เลยสงสัยว่านี่เป็นเพราะ TPU หรือแค่การตัดสินใจเชิงนโยบายแปลก ๆ กันแน่
- ท่าทีของ Google ที่ ยุติ Gemini รุ่นเก่า ๆ แบบสบาย ๆ นี่น่าหงุดหงิดไม่น้อย ฉันตีความว่าเพราะเครื่องมือส่วนใหญ่ใช้แค่โมเดลล่าสุด พอมีรุ่นใหม่ออกมา ไม่นานมันก็กินสัดส่วนปริมาณใช้งานรวมเกิน 90% แล้ว จากนั้นการวิเคราะห์ ต้นทุน-ผลประโยชน์ แบบฉบับ Google ก็ทำงาน และรุ่นเก่าก็ถูกปิดทิ้งอย่างไม่ไยดี ที่จริงการที่ Google เพิ่งขยายวัน EOL ของ Gemini 2.5 ออกไปยังทำให้ฉันแปลกใจด้วยซ้ำ และฉันก็คิดว่า Google ไม่เคยเป็นบริษัทที่ยึดลูกค้าเป็นศูนย์กลางนักอยู่แล้ว
- Flash 2 ยังไม่ถึง EOL ในเดือนมิถุนายนด้วยซ้ำ แต่สุดสัปดาห์ที่ผ่านมาเจอ 429 จน อัตราความผิดพลาด 90% สุดท้ายฉันเลยย้ายไป GPT 5.4 nano
ถ้าจะมีผู้ชนะสุดท้ายของ AI ฉันนึกภาพออกอยู่ไม่กี่แบบ คือไม่ Google ที่มี สแตกครบทั้งก้อน ก็ Apple ที่กระจายไซต์ edge ที่รองรับ AI ได้มากที่สุดน่าจะเป็นฝ่ายชนะ
- ฉันคิดว่าผู้ชนะอาจเป็น local model wrapper ที่เก่งกับงานเฉพาะก็ได้ ฝั่งที่ถูกออกแบบมาให้ทำงานอย่างการค้นหาได้จริงจัง แทนที่จะเป็นพวกช่างเอาใจที่ทำตัวเหมือนคนเพื่อประจบผู้ใช้ ดูมีภาษีกว่า
- ฉันก็ยังมองว่ามีโอกาสไม่น้อยที่ Google จะ พลาดทางผลิตภัณฑ์ ต่อไปเรื่อย ๆ ด้วยพลังการกระจายที่มหาศาล พวกเขาอาจยังเอาตัวรอดได้อยู่ แต่ถ้ามีผลิตภัณฑ์ที่ดีกว่าออกมา ก็ยังมีโอกาสโดน การเปลี่ยนผ่านแบบทำลายล้าง ได้มากพอ เหมือนกรณี IE กับ Chrome
ลิงก์นี้มีคำอธิบายสถาปัตยกรรมแบบละเอียดกว่าอยู่ https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive

ชิปสองรุ่นสำหรับยุคเอเจนต์: TPU รุ่นที่ 8 ของ Google

ภาพรวม TPU รุ่นที่ 8

ปรัชญาการออกแบบที่สั่งสมมากว่า 10 ปี

เหตุผลที่แยกการฝึกและการอนุมาน

TPU 8t: ขุมพลังสำหรับการฝึกโดยเฉพาะ

การขยายขนาดมหาศาล(Massive Scale)

การใช้ทรัพยากรสูงสุด(Maximum Utilization)

การสเกลแบบเกือบเชิงเส้น(Near-Linear Scaling)

ความน่าเชื่อถือและความพร้อมใช้งาน

TPU 8i: เอนจินสำหรับการอนุมาน

ทลายกำแพงหน่วยความจำ(Breaking the Memory Wall)

ประสิทธิภาพบนพื้นฐาน Axion

การขยายโมเดล MoE

กำจัดเวลาแฝง(Eliminating Lag)

ประสิทธิภาพต่อค่าใช้จ่าย

ออกแบบร่วมกับ Gemini และเปิดให้ทุกคนใช้

เฟรมเวิร์กและการเข้าถึง

การออกแบบเพื่อประสิทธิภาพพลังงานในสเกลใหญ่

โครงสร้างพื้นฐานสำหรับยุค agentic

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News