6 คะแนน โดย GN⁺ 2026-04-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Google เปิดตัว TPU รุ่นที่ 8 สองแบบ ซึ่งรวบรวมประสบการณ์การพัฒนา TPU มากกว่า 10 ปี โดยใช้สถาปัตยกรรมที่แยกเฉพาะสำหรับ TPU 8t ที่เน้นการฝึกโมเดลขนาดใหญ่ และ TPU 8i ที่เน้นการอนุมานความเร็วสูง
  • TPU 8t สามารถขยายซูเปอร์พ็อดเดี่ยวได้ถึง 9,600 ชิป, 121 ExaFlops และเพิ่มสมรรถนะการประมวลผลต่อพ็อดราว 3 เท่าเมื่อเทียบกับรุ่นก่อนหน้า
  • TPU 8i ถูกออกแบบใหม่ให้เหมาะกับการอนุมานแบบเอเจนต์ โดยเน้นการปรับแบนด์วิดท์หน่วยความจำและเวลาแฝง พร้อมเพิ่ม on-chip SRAM, โฮสต์ Axion CPU และปรับปรุงเครือข่ายสำหรับ MoE จนทำได้ ประสิทธิภาพต่อค่าใช้จ่ายดีขึ้น 80%
  • ชิปทั้งสองรุ่นทำงานบนโฮสต์ Axion CPU ที่ใช้ ARM ซึ่ง Google ออกแบบเอง และให้ประสิทธิภาพต่อวัตต์ดีขึ้นสูงสุด 2 เท่าเมื่อเทียบกับรุ่นก่อนหน้า
  • เป็นกลยุทธ์โครงสร้างพื้นฐานที่ แยกการเพิ่มประสิทธิภาพระหว่างการฝึกและการอนุมาน เพื่อรองรับยุคที่ AI agent ต้องอนุมาน วางแผน และลงมือทำอย่างต่อเนื่อง โดยมีกำหนดเปิดให้ใช้งานทั่วไปในช่วงครึ่งหลังของปีนี้ และใช้งานได้เป็นส่วนหนึ่งของ Google AI Hypercomputer

ภาพรวม TPU รุ่นที่ 8

  • Google เปิดตัว Tensor Processor Unit(TPU) รุ่นที่ 8 ในงาน Google Cloud Next โดยประกอบด้วยสองสถาปัตยกรรมคือ TPU 8t สำหรับการฝึก และ TPU 8i สำหรับการอนุมาน
  • ออกแบบมาเพื่อขับเคลื่อนซูเปอร์คอมพิวเตอร์แบบคัสตอม และครอบคลุมทั้งการฝึกโมเดลล้ำสมัย การพัฒนาเอเจนต์ และเวิร์กโหลดการอนุมานขนาดใหญ่
  • Google ใช้ TPU ขับเคลื่อนฟาวน์เดชันโมเดลหลักรวมถึง Gemini มาหลายปี และในรุ่นที่ 8 นี้มุ่งให้ทั้งสเกล ประสิทธิภาพ และสมรรถนะในงานฝึก งานเสิร์ฟโมเดล และเวิร์กโหลดแบบ agentic
  • ในยุคของ AI agent โมเดลต้องอนุมานปัญหา รันเวิร์กโฟลว์หลายขั้นตอน และเรียนรู้จากการกระทำของตัวเองในลูปต่อเนื่อง จึงทำให้โครงสร้างพื้นฐานต้องรองรับข้อกำหนดใหม่
  • ออกแบบร่วมกับ Google DeepMind เพื่อรองรับเวิร์กโหลด AI ที่ท้าทายที่สุดและปรับตัวตามสถาปัตยกรรมโมเดลที่เปลี่ยนแปลงอยู่เสมอ

ปรัชญาการออกแบบที่สั่งสมมากว่า 10 ปี

  • TPU ได้วางมาตรฐานขององค์ประกอบซูเปอร์คอมพิวติ้งสำหรับ ML มาอย่างต่อเนื่อง ไม่ว่าจะเป็นการคำนวณเชิงตัวเลขแบบคัสตอม, liquid cooling, และอินเตอร์คอนเนกต์แบบคัสตอม โดยรุ่นที่ 8 คือผลรวมของการพัฒนากว่า 10 ปี
  • หลักการออกแบบสำคัญคือการ co-design ซิลิคอนร่วมกับฮาร์ดแวร์ เครือข่าย และซอฟต์แวร์ รวมถึงสถาปัตยกรรมโมเดลและความต้องการของแอปพลิเคชัน เพื่อให้ได้ทั้งประสิทธิภาพพลังงานและสมรรถนะสูงสุดที่ดีขึ้นอย่างมาก
  • Google ยกตัวอย่างว่า Citadel Securities เลือกใช้ TPU สำหรับเวิร์กโหลด AI ของตน เป็นกรณีศึกษาขององค์กรชั้นนำ

เหตุผลที่แยกการฝึกและการอนุมาน

  • วงจรการพัฒนาฮาร์ดแวร์ยาวนานกว่าซอฟต์แวร์มาก จึงต้องคาดการณ์เทคโนโลยีและความต้องการล่วงหน้าตั้งแต่ตอนออกแบบ TPU แต่ละรุ่น
  • Google คาดการณ์มาหลายปีแล้วว่า ความต้องการด้านการอนุมานจะเพิ่มขึ้น จากการนำฟรอนเทียร์ AI โมเดลไปใช้งานจริงในโปรดักชัน
  • การเกิดขึ้นของ AI agent ทำให้ข้อกำหนดของการฝึกและการเสิร์ฟโมเดลแตกต่างกัน จึงมองว่าการมีชิปเฉพาะทางแยกกันจะเป็นประโยชน์ต่อชุมชนมากกว่า
  • TPU 8t ถูกปรับให้เหมาะกับ การฝึกขนาดใหญ่ ด้วยทรูพุตการประมวลผลที่มากกว่าและแบนด์วิดท์สำหรับการ scale-up ที่สูงกว่า
  • TPU 8i ถูกปรับให้เหมาะกับ เวิร์กโหลดการอนุมานที่ไวต่อเวลาแฝง ด้วยแบนด์วิดท์หน่วยความจำที่มากกว่า เพราะเมื่อเอเจนต์โต้ตอบกันในสเกลใหญ่ แม้ความไม่มีประสิทธิภาพเพียงเล็กน้อยก็จะถูกขยายผล
  • แม้ชิปทั้งสองจะรองรับเวิร์กโหลดได้หลากหลาย แต่การแยกให้เฉพาะทางช่วยเพิ่มประสิทธิภาพได้อย่างมาก

TPU 8t: ขุมพลังสำหรับการฝึกโดยเฉพาะ

  • เป้าหมายคือย่นรอบการพัฒนาฟรอนเทียร์โมเดลจาก หลายเดือนเหลือหลายสัปดาห์
  • ผสานทรูพุตการประมวลผลระดับสูงสุด หน่วยความจำร่วม และแบนด์วิดท์ระหว่างชิป เข้ากับประสิทธิภาพพลังงานที่เหมาะสมและเวลาคำนวณที่เกิดประโยชน์สูงสุดอย่างสมดุล
  • ให้ สมรรถนะการประมวลผลต่อพ็อดสูงขึ้นราว 3 เท่า เมื่อเทียบกับรุ่นก่อนหน้า
  • การขยายขนาดมหาศาล(Massive Scale)

    • ซูเปอร์พ็อด TPU 8t เดี่ยวขยายได้ถึง 9,600 ชิป, shared HBM 2 เพตะไบต์
    • แบนด์วิดท์ระหว่างชิปเพิ่มขึ้น 2 เท่าเมื่อเทียบกับรุ่นก่อนหน้า
    • ให้สมรรถนะการประมวลผล 121 ExaFlops ทำให้โมเดลที่ซับซ้อนที่สุดสามารถใช้พูลหน่วยความจำขนาดใหญ่ชุดเดียวได้
  • การใช้ทรัพยากรสูงสุด(Maximum Utilization)

    • รวมการเข้าถึงสตอเรจที่ เร็วขึ้น 10 เท่า
    • ใช้ TPUDirect เพื่อดึงข้อมูลเข้าสู่ TPU โดยตรง ช่วยให้ระบบ end-to-end ใช้งานทรัพยากรได้สูงสุด
    โฆษณา
  • การสเกลแบบเกือบเชิงเส้น(Near-Linear Scaling)

    • ผสาน Virgo Network แบบใหม่เข้ากับซอฟต์แวร์ JAX และ Pathways เพื่อสเกลแบบเกือบเชิงเส้นได้ถึง 1 ล้านชิป ในคลัสเตอร์เชิงตรรกะเดียว
  • ความน่าเชื่อถือและความพร้อมใช้งาน

    • ตั้งเป้า goodput(เวลาคำนวณที่ก่อให้เกิดผลผลิตจริง) มากกว่า 97%
    • มีความสามารถ RAS(Reliability, Availability, Serviceability) แบบครบถ้วน
      • เทเลเมทรีแบบเรียลไทม์ครอบคลุมหลายหมื่นชิป
      • ตรวจจับลิงก์ ICI ที่ผิดพลาดโดยอัตโนมัติและ reroute ได้โดยไม่ต้องหยุดงาน
      • ใช้ OCS(Optical Circuit Switching) เพื่อปรับโครงสร้างฮาร์ดแวร์รอบจุดขัดข้องโดยไม่ต้องมีมนุษย์เข้ามาแทรกแซง
    • ในสเกลการฝึกฟรอนเทียร์โมเดล ความขัดข้องของฮาร์ดแวร์ ความหน่วงของเครือข่าย และการรีสตาร์ตจากเช็กพอยต์ล้วนเป็นเวลาที่ไม่ได้ใช้ฝึก และความต่างเพียง 1 จุดเปอร์เซ็นต์อาจแปลเป็นเวลาฝึกหลายวัน

TPU 8i: เอนจินสำหรับการอนุมาน

  • ในยุค agentic ผู้ใช้คาดหวังประสบการณ์ที่สามารถถาม มอบหมายงาน และรับผลลัพธ์ได้ จึงออกแบบมาให้เหมาะกับงานที่เอเจนต์เฉพาะทางหลายตัว swarming และทำงานร่วมกันในโฟลว์ที่ซับซ้อน
  • Google ออกแบบสแต็กใหม่เพื่อขจัด “ผลกระทบแบบห้องรอ” และใช้ 4 นวัตกรรมหลัก
  • ทลายกำแพงหน่วยความจำ(Breaking the Memory Wall)

    • มาพร้อม HBM 288GB และ on-chip SRAM 384MB ซึ่งมากกว่ารุ่นก่อนหน้า 3 เท่า
    • ทำให้สามารถเก็บ active working set ทั้งหมดของโมเดลไว้บนชิป เพื่อป้องกันไม่ให้โปรเซสเซอร์ว่างงาน
    โฆษณา
  • ประสิทธิภาพบนพื้นฐาน Axion

    • เพิ่มจำนวนโฮสต์ CPU จริงต่อเซิร์ฟเวอร์เป็น 2 เท่า และใช้ Axion CPU ที่ใช้ ARM ซึ่ง Google ออกแบบเอง
    • ปรับประสิทธิภาพทั้งระบบผ่านการแยก NUMA(Non-Uniform Memory Architecture)
  • การขยายโมเดล MoE

    • เพิ่มแบนด์วิดท์ ICI เป็น 19.2 Tb/s หรือ 2 เท่า เพื่อรองรับโมเดล Mixture of Expert(MoE) รุ่นล่าสุด
    • ใช้ สถาปัตยกรรม Boardfly ใหม่เพื่อลด network diameter สูงสุดลงมากกว่า 50% ทำให้ทำงานเป็นยูนิตที่มีความหน่วงต่ำและเชื่อมโยงกันแน่นแฟ้น
  • กำจัดเวลาแฝง(Eliminating Lag)

    • CAE(Collectives Acceleration Engine) แบบ on-chip ใหม่ช่วย offload การคำนวณแบบ global และลดเวลาแฝงบนชิปได้สูงสุด 5 เท่า
  • ประสิทธิภาพต่อค่าใช้จ่าย

    • ให้ ประสิทธิภาพต่อดอลลาร์ดีขึ้น 80% เมื่อเทียบกับรุ่นก่อนหน้า ทำให้รองรับปริมาณงานลูกค้าได้เกือบ 2 เท่าในต้นทุนเท่าเดิม

ออกแบบร่วมกับ Gemini และเปิดให้ทุกคนใช้

  • TPU รุ่นที่ 8 คือการแสดงออกล่าสุดของ ปรัชญา co-design ที่ออกแบบทุกสเปกเพื่อแก้ปัญหาที่ใหญ่ที่สุดของ AI
  • โทโพโลยี Boardfly: ออกแบบให้สอดคล้องกับความต้องการด้านการสื่อสารของโมเดลการอนุมานที่ดีที่สุดในปัจจุบัน
  • ความจุ SRAM ของ TPU 8i: คำนวณให้เหมาะกับขนาด KV cache footprint ของโมเดลอนุมานระดับโปรดักชัน
  • เป้าหมายแบนด์วิดท์ของ Virgo Network: มาจากข้อกำหนดด้านการทำงานขนานสำหรับการฝึกโมเดลระดับล้านล้านพารามิเตอร์
  • ชิปทั้งสองรุ่นเป็นครั้งแรกที่ทำงานบน Axion CPU host ที่ใช้ ARM ซึ่ง Google ออกแบบเอง ทำให้เพิ่มประสิทธิภาพได้ทั้งระบบ ไม่ใช่เฉพาะตัวชิป
  • เฟรมเวิร์กและการเข้าถึง

    • รองรับ JAX, MaxText, PyTorch, SGLang, vLLM แบบเนทีฟ
    • มี การเข้าถึงแบบ bare metal ให้เข้าถึงฮาร์ดแวร์โดยตรงโดยไม่มี virtualized overhead
    • สนับสนุนโอเพนซอร์ส เช่น อิมพลีเมนเทชันอ้างอิง MaxText และ Tunix สำหรับ reinforcement learning เพื่อรองรับเส้นทางหลักตั้งแต่การพัฒนาไปจนถึงการนำขึ้นโปรดักชัน
    โฆษณา

การออกแบบเพื่อประสิทธิภาพพลังงานในสเกลใหญ่

  • ปัจจุบันดาต้าเซ็นเตอร์ไม่ได้ติดข้อจำกัดแค่การจัดหาชิป แต่ พลังงานคือข้อจำกัดหลักที่ผูกระบบไว้
  • Google ปรับประสิทธิภาพครอบคลุมทั้งสแต็ก และใช้ การจัดการพลังงานแบบบูรณาการ ที่ปรับการใช้พลังงานแบบไดนามิกตามความต้องการจริงแบบเรียลไทม์
  • ทั้ง TPU 8t และ TPU 8i ให้ ประสิทธิภาพต่อวัตต์ดีขึ้นสูงสุด 2 เท่า เมื่อเทียบกับรุ่นก่อนหน้า (Ironwood)
  • ประสิทธิภาพไม่ได้เป็นเพียงตัวชี้วัดระดับชิป แต่เป็น พันธสัญญาระดับระบบ ตั้งแต่ซิลิคอนไปจนถึงดาต้าเซ็นเตอร์
    • รวมการเชื่อมต่อเครือข่ายไว้บนชิปเดียวกับการประมวลผล ช่วยลดต้นทุนพลังงานของการเคลื่อนย้ายข้อมูลภายใน TPU pod ได้อย่างมาก
    • ดาต้าเซ็นเตอร์ก็ถูก co-design ร่วมกับ TPU เช่นกัน ทำให้พลังประมวลผลต่อหน่วยพลังงานดีขึ้น 6 เท่า เมื่อเทียบกับ 5 ปีก่อน
  • ชิปทั้งสองรุ่นรองรับด้วยเทคโนโลยี liquid cooling รุ่นที่ 4 เพื่อรักษาความหนาแน่นของสมรรถนะในระดับที่ระบบระบายความร้อนด้วยอากาศทำไม่ได้
  • การเป็นเจ้าของทั้งสแต็กตั้งแต่โฮสต์ Axion ไปจนถึงตัวเร่งความเร็ว ทำให้ Google ปรับประสิทธิภาพพลังงานระดับระบบได้ในแบบที่เป็นไปไม่ได้หากออกแบบโฮสต์และชิปแยกจากกัน

โครงสร้างพื้นฐานสำหรับยุค agentic

  • ทุกการเปลี่ยนผ่านครั้งสำคัญของการประมวลผลต้องมาพร้อมนวัตกรรมด้านโครงสร้างพื้นฐาน และยุค agentic ก็เช่นกัน
  • โครงสร้างพื้นฐานต้องวิวัฒน์เพื่อรองรับความต้องการที่เอเจนต์อัตโนมัติจะต้องอนุมาน วางแผน ลงมือทำ และเรียนรู้ในลูปต่อเนื่อง
  • TPU 8t และ TPU 8i คือคำตอบต่อโจทย์นี้ เป็น สถาปัตยกรรมเฉพาะทางสองแบบ ที่นิยามใหม่ทั้งการสร้าง AI โมเดลที่ดีที่สุด การประสานงาน agent swarm อย่างสมบูรณ์ และการจัดการงานอนุมานที่ซับซ้อนที่สุด
  • ชิปทั้งสองรุ่นมีกำหนด เปิดให้ใช้งานทั่วไปในช่วงครึ่งหลังของปีนี้
  • ใช้งานได้เป็นส่วนหนึ่งของ AI Hypercomputer ของ Google
    • ซึ่งรวมฮาร์ดแวร์เฉพาะงาน (คอมพิวต์ สตอเรจ เครือข่าย), ซอฟต์แวร์แบบเปิด (เฟรมเวิร์ก เอนจินการอนุมาน) และโมเดลการใช้งานที่ยืดหยุ่น (orchestration, การจัดการคลัสเตอร์, delivery model) ไว้ในสแต็กเดียว

1 ความคิดเห็น

 
GN⁺ 2026-04-23
ความคิดเห็นจาก Hacker News
  • ฉันรู้สึกว่า Gemini 3 ได้แสดงให้เห็นไปแล้วว่าการฝึกแบบ เน้นประสิทธิภาพ ไปได้ไกลแค่ไหน ฉันเดาว่า Pro กับ Flash น่าจะเล็กกว่าโมเดลระดับ Opus หรือ GPT-5 ราว 5 ถึง 10 เท่า การเรียกใช้เครื่องมือมักพังบ่อย และโดยรวมก็อ่อนในงานแบบ agentic เลยดูเหมือนว่ายังขัดเกลาทั้งด้านการให้เหตุผลและการลงมือทำไม่พอ ถึงอย่างนั้นถ้ามองเฉพาะการแก้ปัญหาแบบเพียว ๆ โดยไม่ใช้เครื่องมือหรือการค้นหา มันก็ดูสูสีกับ Opus และ GPT แต่ขนาดเหมือนจะเล็กกว่ามาก ถ้าวันหนึ่ง Google เลิกทำต้นแบบช่วงพรีวิวแล้วออกโมเดลจริงจังแบบตัวเต็ม ฉันคิดว่าพวกเขาอาจทำให้ทุกคนตกใจด้วยโมเดลที่ก้าวล้ำกว่าสถานะ SOTA ปัจจุบันไปราวหนึ่งรุ่น โมเดลที่ออกมาจนถึงตอนนี้ให้ความรู้สึกเหมือน ต้นแบบ ที่รีบเข็นเข้า GA เพื่อโชว์นักลงทุนและใส่เป็น proof of concept ในไลน์ผลิตภัณฑ์มากกว่า

    • ฉัน สงสัย กับตัวเลขประมาณ 5 ถึง 10 เท่านั้น โดยเฉพาะกับ Pro ฉันกลับคิดว่าอาจเป็นกรณีที่ Google ใช้ฮาร์ดแวร์ของตัวเองเพื่อรันโมเดลที่ใหญ่กว่าได้ถูกและเร็วกว่า Gemini 3 Pro ให้ความรู้สึกว่าเป็นโมเดลที่ใกล้เคียง สติปัญญาแบบมนุษย์ มากที่สุดในภาพรวม โดยเฉพาะด้านมนุษยศาสตร์แข็งแรงมาก และความสามารถในการสร้างข้อความที่เป็นธรรมชาติในภาษามนุษย์หลายภาษา ฉันมองว่าแทบเป็นอันดับ 1 ความต่างแบบนี้ยิ่งชัดเมื่อเป็นภาษากลุ่มเฉพาะ ซึ่งทำให้ฉันรู้สึกว่ามันบ่งชี้ถึงโมเดลที่ใหญ่กว่า ไม่ใช่เล็กกว่า คณิตศาสตร์กับงาน agentic อ่อนชัดเจน และตัวแอป Gemini เองก็ดูล้าหลังจนแทบไม่ต่างจาก ChatGPT ยุคแรกเมื่อ 3 ปีก่อน ซึ่งยิ่งฉุดประสิทธิภาพที่ผู้ใช้รับรู้ลงไปอีก
    • ฉันก็เห็นด้วยกับจุดนี้ Gemini-cli เทียบกับ CC หรือ Codex แล้วแย่มากจริง ๆ แต่ถึงอย่างนั้น ฉันคิดว่าสิ่งที่ Google ให้ความสำคัญก่อนคือการสร้าง AI ที่ดีที่สุดเพื่อเสริมหรือแทนที่การค้นหาแบบดั้งเดิม นั่นคือธุรกิจหลักของพวกเขา และตำแหน่งในการทำเงินก็ได้เปรียบกว่าทุกเจ้าอยู่แล้ว ฉันมองว่าพวกเขามี ข้อได้เปรียบด้านการกระจาย อย่างมหาศาลอยู่ก่อนแล้ว ทั้งในแง่ฐานผู้ใช้และปริมาณคำค้น ก็หวังว่า Google จะยกระดับความสำคัญของ Gemini-cli แล้วเดินเกมแข่งขันในพื้นที่นี้ให้หนักขึ้นด้วย
    • ถ้าจำไม่ผิด ตอนที่ Gemini 3 Pro ออกมาใหม่ ๆ มันถูกมองว่า สูสี กับ Claude เวอร์ชันในตอนนั้น แต่ Gemini 3 ตอนนี้กลับให้ความรู้สึกค่อนข้างเก่า ระหว่างนั้นก็มีโมเดลจากจีนออกมาอีกมาก และ Claude เองก็อัปเดตไปหลายรอบ ตอนนี้เลยดูเหมือน Google จะ ชะงัก อยู่เล็กน้อยในสายนี้ แน่นอนว่าฉันก็ยังคิดว่าอาจมีเซอร์ไพรส์จากการปรับปรุงครั้งใหญ่ในไม่ช้า
    • ฉันมองว่าการใช้คำว่า preview ของ Google ค่อนข้างตามอำเภอใจ มันเป็นวิธีเลี่ยงคำมั่นเรื่องความพร้อมใช้งานและความต่อเนื่อง และดูเหมือนเป็นกลยุทธ์ PR ที่เปิดช่องให้แก้ต่างได้ว่าคุณภาพยังเป็นแค่เบต้าเวลามีอะไรล้มเหลว
    • ฉันสงสัยมาตลอดว่าฉันพลาดอะไรไปกับ Gemini หรือเปล่า เพราะสำหรับฉันมันให้ความรู้สึกอย่างมากก็แค่ โมเดลระดับรอง มันพอใช้เก็บข้อมูลได้ แต่แทบไร้ประโยชน์ในงาน agentic และดูเหมือนเมาอยู่ตลอด ถ้า Claude credit ใน Antigravity หมด วันนั้นก็เหมือนจบเลย เรื่องที่บอกว่าใช้ token น้อยกว่ามากฟังดูตลก เพราะจากประสบการณ์ฉัน มันมักวนเข้า ลูปมรณะ ที่แก้ปัญหาไม่ได้อยู่บ่อย ๆ
  • ตอนนี้ถ้าจะทำ AI ขนาดใหญ่จริง ๆ ก็ดูเหมือนแทบต้องซื้อจาก NVidia หรือเช่าจาก Google เท่านั้น และ Google สามารถออกแบบชิป เอนจิน และระบบจากมุมมอง ทั้งดาต้าเซ็นเตอร์ ได้ เลยปรับแต่งในจุดที่ผู้ขายชิปซึ่งรวมศูนย์อยู่ทำไม่ได้ เพราะงั้นฉันเดาว่ายิ่งสเกลใหญ่จริง ระบบของ Google จะยิ่ง คุ้มต้นทุน กว่าเสมอ อ้างอิงไว้ก่อนว่าฉันถือสถานะ long ใน GOOG ด้วย ส่วนหนึ่งก็เพราะเหตุผลนี้

    • ฉันก็อยากเดิมพันกับ Google เหมือนกัน ถ้าแค่ ประสบการณ์ Gemini CLI ใกล้เคียง Codex หรือ Claude ได้ก็คงทำไปแล้ว ต่อให้ฮาร์ดแวร์ดีแค่ไหน ถ้า coding agent ตัวหลักยังหลุดไปวนลูปหา turn-end token อยู่ มูลค่าของมันก็ลดลงมาก
    • Amazon ก็กำลังทำ ชิปแนว TPU ของตัวเองคล้าย ๆ กันอยู่หรือเปล่า ฉันสงสัยแบบนั้น
    • ฉันนึกถึงคำเตือนว่าอย่า สร้างปราสาทบนอาณาจักรของคนอื่น สุดท้ายการซื้อจาก NVidia ก็ดูเป็นทางเลือกที่เป็นจริงได้ทางเดียว และถึงอย่างนั้นก็คงไม่ใช่ทางที่ดีที่สุดด้วย
    • ฉันกลับค่อนข้างอยู่ฝั่งตรงข้ามของสมมติฐานนั้น เหตุผลมีสองอย่าง อย่างแรกคือ Google ดูเหมือนจะ จำกัดการผลิต ไว้แบบตั้งใจมาโดยตลอด อย่างที่สอง TSMC ก็คงเลือกฝั่งที่จ่ายค่ากำลังการผลิตได้มากที่สุด ดังนั้นสล็อตแรกของกระบวนการผลิตใหม่ก็น่าจะตกเป็นของ Nvidia อีกอย่าง GCP มี อัตรากำไรจากการดำเนินงาน สูงกว่า Hetzner หรือ lambdalabs และก็มีที่เช่า GPU ที่ถูกกว่าจริง ๆ อยู่ ทำให้นักศึกษาหรือนักวิจัยรายเล็กสุดท้ายก็ยังไปอยู่ฝั่ง GPU เหมือนเดิม
    • ถ้าฝ่ายบริหารมีความ สร้างแรงบันดาลใจ มากกว่านี้อีกหน่อย ฉันคงเดิมพันกับ Google ไปแล้ว Apple ยุค Cook ถึงจะซอฟต์กว่ายุค Jobs แต่ Google เหมือนตกจากหน้าผา ถ้า OpenAI ไม่ปล่อย ChatGPT ออกมา ฉันคิดว่าเทคโนโลยีนี้อาจยังถูกดองไว้แค่ในห้องทดลองภายในอยู่เลย ตอนนี้เหตุการณ์นั้นกลับกลายเป็นแรงผลักให้ R&D ด้านชิปทั้งหมดเดินหน้าแทน
  • ระหว่างที่บริษัทอื่น ๆ ดึงความสนใจในรอบข่าวไป Google ดูเหมือนกำลังสะสมส่วนแบ่งตลาดผู้บริโภคอย่างเงียบ ๆ บนกระแสที่ แข็งแกร่งขึ้นเรื่อย ๆ อาจเพราะทำ AI แบบบูรณาการแนวดิ่งมาตั้งแต่แรก ปัญหาโครงสร้างพื้นฐานเลยแทบไม่เห็นเลย ช่วงหนึ่งมันเคยดูเหมือนบริษัทที่หมดสภาพไปแล้ว แต่ตอนนี้กลับให้ความรู้สึกเหมือนน้ำขึ้นที่ขยายออกทุกทิศทาง

    • แต่ซับเรดดิต Google Antigravity ดูเหมือน โกลาหลสุด ๆ เลย https://www.reddit.com/r/GoogleAntigravityIDE/
    • ฉันคิดว่าในอีก 1-2 ปี Google กับ Apple จะถึงจุดที่ ได้ประโยชน์กันทั้งคู่ ในที่สุด ทั้งสองเจ้าไม่ได้เล่นเกมเร่งความเร็วแบบปล่อยของดิบทุกเดือนเพื่อดันมูลค่าบริษัทให้โตสองเท่า พวกเขายังมีเวลาสังเกต คิด แล้วค่อยออก ผลิตภัณฑ์ที่ขัดเกลาจริง ๆ มาได้
    • โมเดลเปิด รุ่นล่าสุดของ Google ฉันว่าค่อนข้างแข่งขันได้กับโมเดลเปิดเจ้าอื่น โดยเฉพาะในขนาดเล็กอย่าง 2-4GB ที่มีนวัตกรรมอยู่ และช่วยลดช่องว่างให้เข้าใกล้การให้เหตุผลที่คุณภาพใช้งานได้จริงบนโทรศัพท์หรืออุปกรณ์ที่เล็กกว่านั้น
    • ถ้าตัดคำโฆษณาเกินจริงออกไป OpenAI กับ Anthropic ก็ดูเหมือนกำลังเอาเงินมากลบตัวเองแล้วจุด กองไฟที่ใหญ่กว่า แข่งกัน
    • ฉันมองว่าการนำ AI มาใช้ไม่ใช่ปัญหาเชิง ความอยู่รอด สำหรับ Google เท่ากับที่เป็นกับ OpenAI หรือ Anthropic แถมไม่ว่า Google จะพูดอะไร ก็ยากจะสร้างกระแส hype แบบอีกสองเจ้าอยู่ดี และสุดท้ายก็มักฟังดูเหมือน สำนวนประชาสัมพันธ์องค์กร มากกว่า
  • จากมุมของคนที่ใช้ทั้ง Gemini, ChatGPT และ Claude ฉันรู้สึกว่า Gemini ใช้ token น้อยกว่ามาก อย่างสม่ำเสมอเมื่อเทียบกับอีกสองตัว สุดท้ายเลยดูเหมือนเหตุที่ Gemini ยังอยู่แค่ระดับนี้เป็นเพราะมี thinking budget เล็กกว่า Google น่าจะมีทั้ง compute มากที่สุดและโครงสร้างต้นทุนต่ำที่สุดแล้วด้วยซ้ำ เลยยิ่งสงสัยว่าทำไมไม่ดัน compute ฝั่งการให้เหตุผลแรง ๆ แบบอีกสองเจ้า ไม่รู้ว่าเป็นเพราะภาระจากบริการอื่น หรือเป็นกลยุทธ์ที่เน้นการฝึกมากกว่า แต่เป็นจุดที่น่าสนใจมาก

    • ฉันใช้ Gemini Pro มาหลายเดือนผ่าน Google One ราคาราว 20 ดอลลาร์ และรู้สึกว่ามันค้นเว็บเพื่อตรวจสอบข้อมูลน้อยกว่า ChatGPT 5.4 Pro อย่างสม่ำเสมอ ฉันพยายามจะเทียบด้านโค้ดด้วย แต่ทำไม่ได้เพราะ Gemini add-in บน VSCode ใช้งานไม่ได้ ทั้งบน Android และเว็บแอปก็มี บั๊ก เยอะมาก แถมยังมีปัญหาประวัติแชตหายเวลาไปมาระหว่างเธรดอีก ดังนั้นเดือนนี้ฉันตั้งใจจะยกเลิก Google One
    • ฉันยังไม่ค่อยเห็นว่า Gemini มี ข้อได้เปรียบในการแข่งขัน อะไรที่ทำให้ควรใช้แทน Claude หรือ ChatGPT ฉันรู้สึกว่าคุณภาพผลลัพธ์แทบสู้สองตัวนั้นไม่ได้
    • แพลตฟอร์ม agentic ระดับองค์กร ที่เพิ่งเปิดตัววันนี้อาจกลายเป็นหลุมแรงโน้มถ่วงที่ดึง workload ด้านการให้เหตุผลของบริษัท Fortune 500 เข้ามาก็ได้
    • ฉันค่อนข้างมั่นใจครึ่งหนึ่งว่าเหตุผลสำคัญที่ GLM-5 ดีกว่า GLM-4.7 คือมัน ยอมใช้ token มากขึ้น รุ่น 4.7 นั้นยากมากที่จะทำให้มันอ่านซอร์สโค้ดได้มากพอ แต่พออ่านแล้วมันก็เก่งใช้ได้ ความประหยัดเป็นข้อดี แต่ในอีกด้านมันก็อาจแปลว่า ไตร่ตรองไม่พอ พิจารณาองค์ประกอบไม่พอ หรืออ่านซอร์สโค้ดไม่พอด้วย สุดท้ายเส้นแบ่งระหว่างการประหยัด token กับการใช้มาก ๆ ก็ยังเป็นพื้นที่ที่ไม่มีใครรู้แน่ชัดในตอนนี้
  • คำอธิบายว่า superpod ของ TPU 8t หนึ่งชุดขยายได้ถึง 9,600 ชิป พร้อมหน่วยความจำแบนด์วิดท์สูงแบบแชร์ขนาด 2PB นั้น น่าประทับใจ มาก ฉันไม่ได้เชี่ยวชาญด้านนี้ แต่เท่าที่มอง อย่างน้อยมันก็ดูเป็น ข้อได้เปรียบในการแข่งขัน ที่ค่อนข้างใหญ่ของ Google

    • ฉันก็คิดว่าใช่ แต่ก็ยังมองว่าถ้าไม่มีความก้าวหน้าด้าน การแยก instruction ออกจาก data ก็คงยังสร้าง AGI ไม่ได้
  • เรื่องที่ TPU 8t และ TPU 8i มีประสิทธิภาพต่อวัตต์สูงขึ้นได้ถึง 2 เท่าเมื่อเทียบกับรุ่นก่อนนั้น น่าประทับใจ มาก ยิ่งน่าสนใจตรงที่รุ่นก่อนก็ใหม่มากถึงขั้นเป็นผลิตภัณฑ์ปี 2025 และยังเห็นชัดว่าฮาร์ดแวร์สำหรับการฝึกกับการอนุมานถูกแยกกัน ฉันเลยสงสัยว่าบริษัทที่ใช้ฮาร์ดแวร์ของ NV ก็แยกแบบนี้เหมือนกันหรือเปล่า หรือเป็นแนว อเนกประสงค์ มากกว่า

    • เป็นที่รู้กันดีว่าการฝึกนั้น compute-bound ส่วนการอนุมานนั้น memory-bound แต่เท่าที่รู้ การติดตั้งใช้งานของ Nvidia มักไม่ได้ทำให้เฉพาะทางกับอย่างใดอย่างหนึ่ง หลาย cloud และ neocloud ไม่ได้เป็นเจ้าของ workload เอง ดังนั้นความอเนกประสงค์จึงสำคัญ และเมื่อคุณลงทุนกับ H200 ราคาแพงรวมถึงระบบเครือข่ายไปแล้ว ก็ต้องสามารถขายให้ลูกค้าหลากหลายได้ แต่ก็เริ่มมีตัวเร่งเฉพาะทางสำหรับการอนุมานแล้ว เช่น Grok LPU ของ Vera Rubin หรือ Cerebras ดังนั้นกระแสสู่ความเฉพาะทางได้เริ่มขึ้นแล้วจริง ๆ
    • ฝั่ง NVIDIA ฉันตอบยืนยันไม่ได้ แต่ AWS มี ชิปสำหรับการฝึกและชิปสำหรับการอนุมาน แยกกันของตัวเอง แต่ก็มีข่าวลือว่าชิปอนุมานอ่อนเกินไป จนบางบริษัทเอาชิปฝึกมารันงานอนุมานแทนด้วย
    • ฮาร์ดแวร์เฉพาะทางมักให้ ประสิทธิภาพที่เร็วกว่า อยู่แล้ว เพราะงั้นยิ่งสาขาไหนเริ่มโตเต็มที่ ก็ยิ่งมีแนวโน้มที่ระบบซับซ้อนและราคาแพงจะไหลลงมาเป็นชิปทั่วไปราคา 1 ดอลลาร์ที่หาได้ทั่วไป เพราะแบบนี้ฉันเลยรู้สึกว่า Google เข้าใจสแตกของตัวเองดีกว่าบริษัทที่ไปอาศัยอยู่บน NVidia มาก Google เป็นเจ้าของทุกอย่างตั้งแต่คีย์บอร์ดไปจนถึงซิลิคอน และดูเหมือนจะ เรียนรู้จากการทำซ้ำ มามากพอว่าจะจะแยกฟีเจอร์ที่ต้องแย่งทรัพยากรกันออกจากกันอย่างไร
    • ชิปฝึกก็น่าจะยังใช้ได้ดีทีเดียวกับงาน อนุมานขนาดใหญ่ ที่ช้าแต่เน้น throughput สูง ฉันคาดว่าวิธีแบบนี้จะเป็นที่นิยมมากขึ้นพอสมควรในงานที่ไม่ไวต่อเวลา
    • แค่ดูจากที่ Vera Rubin ใส่ ชิป Groq สำหรับงานอนุมานเร็วเข้าไปด้วย ก็เห็นแนวโน้มอย่างหนึ่งแล้ว ในสถานการณ์ที่ความต้องการพลังงานสูงขนาดนี้ มันก็เป็นธรรมดาที่จะพยายามไล่เก็บทุกการปรับแต่งที่เป็นไปได้
  • ฉันใช้ Gemini คู่กับ Junie ของ JetBrains อยู่ และแม้ Junie เองจะยังไม่ดีเท่า Claude Code แต่มันก็ นำหน้า เครื่องมือของ Google ตอนนี้ไปไกลพอสมควร ด้วยชุดนี้ ฉันได้ ผลลัพธ์ที่สม่ำเสมอ ดีมากในราคาที่ค่อนข้างถูก

    • ถ้ามองภายในบริบทของ IDE และเครื่องมือของ JetBrains เอง คุณคิดว่า Junie สู้กับคู่แข่งได้ เลยไหม
  • ในบรรดาผู้ให้บริการโมเดลอนุมานรายใหญ่ Google ให้ความรู้สึกว่าเป็นฝั่งที่มีนโยบาย เลิกใช้โมเดล น่ารำคาญที่สุดฝั่งหนึ่ง พอครบ 1 ปีหลังเปิดตัวเป๊ะก็ลบโมเดลทิ้งแล้วบังคับย้ายไปเจเนอเรชันถัดไป ทั้งที่ใช้ซิลิคอนของตัวเองแท้ ๆ ฉันนึกว่าจะเสถียรกว่านี้ แต่กลับตรงกันข้าม ส่วน rate limiting ก็เข้มกว่า OpenAI มาก เลยสงสัยว่านี่เป็นเพราะ TPU หรือแค่การตัดสินใจเชิงนโยบายแปลก ๆ กันแน่

    • ท่าทีของ Google ที่ ยุติ Gemini รุ่นเก่า ๆ แบบสบาย ๆ นี่น่าหงุดหงิดไม่น้อย ฉันตีความว่าเพราะเครื่องมือส่วนใหญ่ใช้แค่โมเดลล่าสุด พอมีรุ่นใหม่ออกมา ไม่นานมันก็กินสัดส่วนปริมาณใช้งานรวมเกิน 90% แล้ว จากนั้นการวิเคราะห์ ต้นทุน-ผลประโยชน์ แบบฉบับ Google ก็ทำงาน และรุ่นเก่าก็ถูกปิดทิ้งอย่างไม่ไยดี ที่จริงการที่ Google เพิ่งขยายวัน EOL ของ Gemini 2.5 ออกไปยังทำให้ฉันแปลกใจด้วยซ้ำ และฉันก็คิดว่า Google ไม่เคยเป็นบริษัทที่ยึดลูกค้าเป็นศูนย์กลางนักอยู่แล้ว
    • Flash 2 ยังไม่ถึง EOL ในเดือนมิถุนายนด้วยซ้ำ แต่สุดสัปดาห์ที่ผ่านมาเจอ 429 จน อัตราความผิดพลาด 90% สุดท้ายฉันเลยย้ายไป GPT 5.4 nano
  • ถ้าจะมีผู้ชนะสุดท้ายของ AI ฉันนึกภาพออกอยู่ไม่กี่แบบ คือไม่ Google ที่มี สแตกครบทั้งก้อน ก็ Apple ที่กระจายไซต์ edge ที่รองรับ AI ได้มากที่สุดน่าจะเป็นฝ่ายชนะ

    • ฉันคิดว่าผู้ชนะอาจเป็น local model wrapper ที่เก่งกับงานเฉพาะก็ได้ ฝั่งที่ถูกออกแบบมาให้ทำงานอย่างการค้นหาได้จริงจัง แทนที่จะเป็นพวกช่างเอาใจที่ทำตัวเหมือนคนเพื่อประจบผู้ใช้ ดูมีภาษีกว่า
    • ฉันก็ยังมองว่ามีโอกาสไม่น้อยที่ Google จะ พลาดทางผลิตภัณฑ์ ต่อไปเรื่อย ๆ ด้วยพลังการกระจายที่มหาศาล พวกเขาอาจยังเอาตัวรอดได้อยู่ แต่ถ้ามีผลิตภัณฑ์ที่ดีกว่าออกมา ก็ยังมีโอกาสโดน การเปลี่ยนผ่านแบบทำลายล้าง ได้มากพอ เหมือนกรณี IE กับ Chrome
  • ลิงก์นี้มีคำอธิบายสถาปัตยกรรมแบบละเอียดกว่าอยู่ https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive