OpenAI เปิดตัว Jalapeño ชิปประมวลผลอนุมานแบบออกแบบเองตัวแรกที่พัฒนาร่วมกับ Broadcom
(techcrunch.com)- Jalapeño คือแอ็กเซเลอเรเตอร์ที่ออกแบบมาเฉพาะสำหรับการอนุมาน (inference) ของ LLM และเป็นผลงานชิ้นแรกของ แพลตฟอร์มคอมพิวติ้งหลายเจเนอเรชัน ที่พัฒนาร่วมกับ Broadcom
- ใช้เวลาเพียง 9 เดือน ตั้งแต่เริ่มออกแบบจนถึง tape-out สำหรับการผลิต คาดว่าเป็นรอบการพัฒนา ASIC ที่เร็วที่สุดเท่าที่เคยมีมาในวงการเซมิคอนดักเตอร์ประสิทธิภาพสูงระดับล้ำสมัย
- ในการทดสอบเบื้องต้น ลดต้นทุนได้ราว 50% เมื่อเทียบกับ AI GPU ทั่วไป และประสิทธิภาพต่อวัตต์ก็เหนือกว่าระดับแนวหน้าปัจจุบันอย่างมาก
- เป็นส่วนหนึ่งของ กลยุทธ์ฟูลสแตก ที่ออกแบบตั้งแต่สถาปัตยกรรมชิป เคอร์เนล หน่วยความจำ ไปจนถึงเครือข่ายเอง เพื่อลดการพึ่งพา Nvidia GPU และขยายจากบริษัทซอฟต์แวร์ไปสู่ ผู้ให้บริการโครงสร้างพื้นฐาน AI
- มีแผนนำไปใช้งานใน ดาต้าเซ็นเตอร์ระดับกิกะวัตต์ ร่วมกับพาร์ตเนอร์อย่าง Microsoft ตั้งแต่ปลายปี 2026 ทำให้ประเด็นนี้ยิ่งมีความสำคัญท่ามกลางแรงกดดันในการพิสูจน์ความสามารถทำกำไรก่อน IPO มูลค่า 1 ล้านล้านดอลลาร์
เปิดตัวชิป Jalapeño
- เมื่อวันพุธ OpenAI และ Broadcom (NASDAQ: AVGO) เปิดตัว Jalapeño ซึ่งเป็น Intelligence Processor ตัวแรกของ OpenAI
- เป็นแอ็กเซเลอเรเตอร์ที่ออกแบบมาเพื่ออนาคตของการอนุมาน LLM และเป็น AI แอ็กเซเลอเรเตอร์ตัวแรกของ แพลตฟอร์มคอมพิวติ้งหลายเจเนอเรชัน ที่ทั้งสองบริษัทพัฒนาร่วมกัน
- Hock Tan ประธานและซีอีโอของ Broadcom และ Charlie Kawwas ประธานบริษัท ได้นำตัวอย่างชิปไปมอบให้ Sam Altman ซีอีโอของ OpenAI และ Greg Brockman ประธานบริษัทด้วยตนเอง
- เป็นก้าวสำคัญในกลยุทธ์ของ OpenAI ที่ต้องการยกระดับจากผลิตภัณฑ์สำหรับผู้บริโภคไปสู่ ผู้ให้บริการโครงสร้างพื้นฐาน AI
โครงสร้างและประสิทธิภาพของชิป
- Jalapeño ไม่ใช่ชิปอเนกประสงค์ที่ดัดแปลงจากแอ็กเซเลอเรเตอร์สำหรับเวิร์กโหลด AI แบบเดิม แต่เป็น การออกแบบจากศูนย์ (blank-slate) สำหรับการอนุมาน LLM ยุคใหม่
- เป็น ASIC ที่ออกแบบให้เหมาะกับงาน AI เฉพาะด้าน จึงยืดหยุ่นน้อยกว่า Nvidia GPU แต่มีต้นทุนต่ำกว่า
-
ประสิทธิภาพและความคุ้มค่า
- ในการทดสอบเบื้องต้น ลดต้นทุนได้ราว 50% เมื่อเทียบกับ AI GPU ทั่วไป (จากบทสัมภาษณ์ Hock Tan)
- ประสิทธิภาพสุดท้ายยังอยู่ระหว่างการวัดผล แต่ ประสิทธิภาพต่อวัตต์ ดีขึ้นอย่างมากเมื่อเทียบกับระดับแนวหน้าปัจจุบัน
- ด้วยการ ลดการเคลื่อนย้ายข้อมูล และปรับสมดุลทรัพยากรด้านการประมวลผล หน่วยความจำ และเครือข่าย ทำให้อัตราการใช้งานจริงเข้าใกล้สมรรถนะสูงสุดตามทฤษฎี
- จากภาพชิปที่เผยแพร่ เห็น ตำแหน่ง HBM 8 จุด และคอมพิวต์ไดอยู่ตรงกลาง
-
การยืนยันการทำงาน
- ตัวอย่างสำหรับวิศวกรรมกำลังรันเวิร์กโหลด ML ที่ความถี่และกำลังไฟตามเป้าหมายการผลิตจริง ซึ่งรวมถึง GPT‑5.3‑Codex‑Spark
- คาดว่าจะเผยแพร่รายงานทางเทคนิคฉบับละเอียดในอีกไม่กี่เดือนข้างหน้า
- การผลิตซิลิคอนของ Broadcom และ Tomahawk networking silicon จะรองรับการผลิตจำนวนมากในระดับใหญ่
tape-out ภายใน 9 เดือน โดยมีโมเดลของ OpenAI ช่วยเร่ง
- ตั้งแต่การออกแบบเริ่มต้นจนถึง tape-out สำหรับการผลิต ใช้เวลาร่วมพัฒนาเพียง 9 เดือน คาดว่าเป็นรอบการพัฒนา ASIC ที่เร็วที่สุดเท่าที่เคยมีมาในชิปประสิทธิภาพสูงระดับล้ำสมัย
- OpenAI ใช้ โมเดลภายในของตัวเอง ในบางส่วนของกระบวนการออกแบบและปรับแต่ง โดย Brockman ระบุว่าระดับที่โมเดลช่วยเร่งการพัฒนานั้น "น่าทึ่งมาก"
- โมเดลเดียวกับที่เปิดให้ผู้ใช้ใช้งานอยู่ จะมีส่วนช่วยพัฒนาโครงสร้างพื้นฐานสำหรับรันโมเดลในอนาคต
- หาก AI สามารถช่วยวิศวกรออกแบบชิปได้เร็วขึ้น ก็มีแนวโน้มจะนำไปสู่การลด ต้นทุนคอมพิวต์ ทั่วทั้งอุตสาหกรรม และขยายการเข้าถึง AI ขั้นสูงให้กว้างขึ้น
แพลตฟอร์มหลายเจเนอเรชันและพาร์ตเนอร์
- Jalapeño เป็นก้าวแรกของ แพลตฟอร์มคอมพิวติ้งหลายเจเนอเรชัน ที่ตั้งเป้าเริ่มใช้งานระยะแรกในปลายปี 2026 และขยายต่อเนื่องอีกหลายปีหลังจากนั้น
-
โครงสร้างความร่วมมือ
- OpenAI — ออกแบบแอ็กเซเลอเรเตอร์ โดยอาศัยความเข้าใจเชิงลึกเกี่ยวกับพื้นฐานของ LLM
- Broadcom — พัฒนาชิปจริง รวมถึงเทคโนโลยีเครือข่ายและการเชื่อมต่อ
- Celestica — ความเชี่ยวชาญด้านบอร์ด แร็ก และการบูรณาการระบบ
- เมื่อปีที่แล้ว OpenAI และ Broadcom ได้ประกาศแผนพัฒนาชิปแบบคัสตอมสำหรับคอมพิวต์ขนาด 10 กิกะวัตต์ และครั้งนี้คือการเปิดตัวชิปตัวแรกจากแผนนั้น
-
ความต้องการที่พุ่งสูง
- Hock Tan ซีอีโอของ Broadcom ระบุว่า ตั้งแต่ปี 2026 เป็นต้นไป จะทำให้สามารถนำไปใช้งานใน ดาต้าเซ็นเตอร์ระดับกิกะวัตต์ ร่วมกับพาร์ตเนอร์อย่าง Microsoft ได้ โดยจะเริ่มจากต้นแบบขนาดเล็กในปลายปี 2026 ก่อนขยายเพิ่ม
- Brockman กล่าวว่า "เราไม่สามารถหาคอมพิวต์ได้เร็วพอ" ขณะที่ Tan บอกว่าความต้องการจากลูกค้า 6 รายนั้น "มากจนเติมไม่เต็มจริงๆ" และในปี 2027~2028 ก็จะยังเท่าเดิมหรือสูงกว่านี้
- Richard Ho หัวหน้าโครงการฮาร์ดแวร์ของ OpenAI อธิบายว่า บริษัทได้ปรับสถาปัตยกรรมให้เหมาะกับเคอร์เนล การเคลื่อนย้ายหน่วยความจำ เครือข่าย และแพตเทิร์นการเสิร์ฟโมเดลที่สำคัญที่สุดสำหรับ frontier AI models
กลยุทธ์ฟูลสแตกและภูมิทัศน์การแข่งขัน
- OpenAI ไม่ได้หยุดอยู่แค่การพัฒนา frontier models และการสร้างผลิตภัณฑ์ แต่ยังออกแบบโครงสร้างพื้นฐานชั้นล่างด้วยตนเองด้วย — ครอบคลุม สถาปัตยกรรมชิป เคอร์เนล ระบบหน่วยความจำ เครือข่าย การจัดตาราง การปรับใช้ระบบ และประสบการณ์ผลิตภัณฑ์
- ทำให้บริษัทเข้าร่วมแถวเดียวกับผู้เล่น AI แบบฟูลสแตกที่มีซิลิคอนของตัวเองอย่าง Google (TPU), Amazon (Trainium), Microsoft (Azure Maia 100)
-
ลดการพึ่งพา Nvidia
- "ไม่มีใครอยากถูกผูกติดกับ Nvidia" (Ben Barringer หัวหน้าฝ่ายวิจัยเทคโนโลยีของ Quilter Cheviot) สะท้อนแนวโน้มการกระจายแหล่งจัดหาชิป
- OpenAI เป็นหนึ่งในลูกค้ารายใหญ่ที่สุดของ Nvidia ขณะเดียวกันก็ทำสัญญาจัดหากับ AMD (Instinct MI450 series), Cerebras และรายอื่น
-
ความหมายทางธุรกิจ
- ในช่วงที่ Nvidia ก้าวขึ้นเป็นบริษัทมูลค่าสูงสุดของโลกจากการเป็นผู้จัดหาชิ้นส่วนหลักให้ดาต้าเซ็นเตอร์ AI ก็ยิ่งตอกย้ำศักยภาพด้านรายได้ของตลาดโครงสร้างพื้นฐาน AI
- สำหรับ OpenAI ที่กำลังเผชิญกับการคาดการณ์ IPO มูลค่า 1 ล้านล้านดอลลาร์ การลดต้นทุนการอนุมานคือกุญแจสำคัญในการกู้คืนต้นทุนการฝึกโมเดลมหาศาลและพิสูจน์ความสามารถทำกำไร
- ราคาหุ้น Broadcom ปรับตัวขึ้นในปี 2026 และเพิ่มขึ้นราว 7 เท่าเมื่อเทียบกับปลายปี 2022 สะท้อนประโยชน์จากความร่วมมือนี้
การทำให้ AI ขั้นสูงเข้าถึงคนทั่วไป
- การอนุมานคือ จุดที่ AI พบกับมนุษย์ ดังนั้นการปรับปรุงด้านต้นทุน ความเร็ว และเสถียรภาพ จึงหมายถึงการตอบกลับของ ChatGPT ที่เร็วขึ้น งาน Codex ที่ไม่ต้องรอคิว ผลิตภัณฑ์ API ที่ถูกลง และการเข้าถึงที่เสถียรกว่าเมื่อมีความต้องการพุ่งสูง
- หัวใจของการทำให้ AI เป็นของคนหมู่มาก คือการทำให้โมเดลล้ำสมัย ใช้งานได้จริง เสถียร และมีราคาถูกพอ ที่ผู้คนจำนวนมากจะใช้ได้ทุกวัน
- เพื่อช่วยให้นักเรียน นักพัฒนา ผู้ประกอบการรายย่อย นักวิจัย บริษัท และทุกคนที่ต้องการเรียนรู้ สร้างสรรค์ และแก้ปัญหายากๆ สามารถเปลี่ยนโครงสร้างพื้นฐานให้กลายเป็นปัญญาที่มีประโยชน์ได้
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
อยากเห็นรายละเอียดมากกว่านี้ในส่วนที่บอกว่า “ใช้โมเดลของ OpenAI เพื่อเร่งการออกแบบและการปรับให้เหมาะสม”
จากถ้อยคำตอนนี้ ดูเหมือน ข้อความการตลาด ประมาณว่าการพัฒนาเร็วขึ้นเพราะ Microsoft Office หรือจอ 5K LG Ultrafine 40 นิ้ว
ถ้าเป็นเรื่องใหญ่จริงอย่างที่สื่อไว้ คิดว่า OpenAI น่าจะเน้นย้ำให้มากกว่านี้มาก
ยังไม่ชัดว่า “การออกแบบ” หมายถึงการออกแบบเสร็จสมบูรณ์หรือไม่ และ “การผลิต” หมายถึงการเริ่มผลิต หรือก็คือ tapeout หรือไม่
ถ้าจากการ freeze RTL ไปจนถึง tapeout ใช้เวลา 9 เดือน สำหรับชิป 3nm ขนาดใหญ่และซับซ้อนก็ถือว่าค่อนข้างปกติ และหากรวมปัญหาที่ไม่คาดคิดด้วยก็แทบไม่ใช่ไทม์ไลน์ที่น่าประทับใจนัก
แต่ถ้าจากระดับแนวคิด กล่าวคือยังไม่มี RTL มีแค่บล็อกไดอะแกรมสถาปัตยกรรม ไปจนถึง tapeout ได้ ก็เป็นไทม์ไลน์ที่น่าทึ่ง และความจริงก็น่าจะอยู่ตรงกลางระหว่างสองกรณีนี้
ถ้าจะประกาศให้ชัดเจนกว่านี้ ก็ควรใช้ milestone และ gate ทางเทคนิคจริงๆ
การใช้ large language model ใน workflow การออกแบบชิปไม่ได้จำเป็นต้องมีโมเดลเฉพาะทางเสมอไป
การตรวจสอบความถูกต้องของการออกแบบก็มีงานเขียนโปรแกรมแบบดั้งเดิมอยู่มาก จึงได้รับประโยชน์จาก large language model ได้เช่นกัน
มันไม่ใช่คำพูดที่ไร้ความหมายไปเสียทีเดียว และถ้าวันนี้คุณดาวน์โหลดซอฟต์แวร์ออกแบบชิปโอเพนซอร์สมา large language model ก็ช่วยให้เริ่มทำชิปเล็กๆ ด้วยตัวเองได้
ส่วนที่ยากของชิปอนุมานนี้ Broadcom น่าจะออกแบบไว้แล้ว และ OpenAI อาจเพียงส่งสเปกที่ต้องการให้ Broadcom
มันก็น่าจะคล้ายกับ Google TPU พอสมควร
เขาบอกว่า “ตัวเร่งความเร็วรุ่นแรกจะให้ประสิทธิภาพต่อวัตต์สูงขึ้นอย่างมีนัยสำคัญเมื่อเทียบกับ state of the art ปัจจุบัน” ซึ่งก็อยากรู้ว่า “อย่างมีนัยสำคัญ” นี่หมายถึงแค่ไหน
Vera Rubin มีกำหนดส่งมอบจำนวนมากช่วงปลายปีนี้ และคาดว่าจะมีประสิทธิภาพด้านพลังงานสำหรับงานอนุมานดีกว่า Blackwell ถึง 10 เท่า[0]
ต่อให้ tapeout ไปแล้ว อย่างต่ำก็ยังต้องใช้เวลา 12 เดือน และอาจมากกว่านั้น ในการแก้บั๊ก ผลิตชิป จัดสรร HBM ออกแบบแร็ก อินเตอร์คอนเน็กต์ และนำไปติดตั้งในดาต้าเซ็นเตอร์
พอถึงเวลาที่ชิปนี้ถูกนำเข้าไปใช้ในดาต้าเซ็นเตอร์จำนวนมาก มันอาจต้องไปแข่งกับ Vera Rubin Ultra หรือ Feynman แล้วก็ได้
ส่วนตัวคิดว่า OpenAI ไม่ควรลงทุนกับโครงการนี้
มันยังเร็วเกินไป และควรทำแบบ Anthropic คือชนะด้วยการโฟกัสที่โมเดลก่อน แล้วค่อยทำโครงการแบบนี้เมื่อเริ่มมีกำไร
AI มีเพดานแข็งเรื่องพลังงานอยู่แล้ว จึงเป็นความเสี่ยงสำหรับ OpenAI
ถ้ามีไฟ 1GW คุณก็ควรติดตั้งเฉพาะชิปที่ดีที่สุด และถ้าชิปของ Nvidia ดีกว่า โครงการนี้ก็เท่ากับเผาเงินหลายพันล้านดอลลาร์
[0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
ปัญหาคือประโยคนี้อาจหมายถึงแค่ข้อหลัง แต่เขียนให้ฟังเหมือนข้อแรก จึงทำให้เชื่อถือได้ยาก
ไม่จำเป็นต้องเป็นอะไรระดับปฏิวัติวงการก็ได้ แค่ การออกแบบแบบมี AI ช่วย มันเข้าที่เข้าทางพอจนทำให้การสร้าง ASIC เฉพาะทางคุ้มค่า
แม้ในบทความของ OpenAI จะไม่ได้ระบุ แต่ก็ดูเกือบจะแน่นอนว่าชิปนี้ผลิตโดย TSMC [1]
ก่อนหน้านี้ยังไม่มั่นใจว่า Intel มีส่วนรับงานนี้หรือไม่
Broadcom เคยทำเงินก้อนโตจากการเป็นพาร์ตเนอร์ฮาร์ดแวร์ TPU ของ Google และแบ่งปันกำลังการผลิตของ TSMC กับ Google และตอนนี้ก็ดูเหมือนกำลังทำแบบเดียวกันกับ OpenAI
เป็นวิธีที่ฉลาดมากในการใช้ประโยชน์จากกระแสตื่นทอง AI
เพียงแต่หวังว่าจะไม่เอาเงินที่หาได้แบบนั้นไปใช้รีดเงินจากวงการซอฟต์แวร์เหมือนที่ทำกับ VMWare และ Bitnami
อยากเห็นชิปอนุมานที่ใส่น้ำหนักไว้เป็นส่วนหนึ่งของ ROM บนชิป
มีตัวคูณหนึ่งตัวต่อน้ำหนักหนึ่งค่า และเพราะเป็นค่าคงที่ ทั้งระบบจึงอาจกลายเป็นเพียงชุดของตัวบวก โดยมี throughput แบบ fully pipelined ได้ถึงหนึ่งโทเคนต่อหนึ่งคล็อก
แบบนั้นซิลิคอนชิ้นเดียวอาจรองรับผู้ใช้พร้อมกันได้หลายล้านคน และอาจปล่อยโทเคนออกทางบัสเอาต์พุตได้ถึง 500 ล้านโทเคนต่อวินาที
ข้อเสียคือชิปจะมีขนาดมหึมาจนกลายเป็นทั้งเวเฟอร์แผ่นเดียว
ข้อบกพร่องระดับเวเฟอร์อาจไม่ใช่ปัญหาใหญ่ เครือข่ายประสาทมักทนได้แม้น้ำหนักบางส่วนหายไปหรือผิดพลาด
ด้วยความเร็วของวงการในตอนนี้ ดูเหมือนว่าจะต้องเร่งจากน้ำหนักของโมเดลไปสู่การผลิตอย่างรวดเร็ว ผลิตเวเฟอร์ 50 แผ่น ใช้งานหนึ่งปี แล้วถ้าโมเดลล้าสมัยก็ทิ้งไป
เป็นเทคนิคที่ทำให้ข้อมูล ซึ่งในที่นี้คือค่าที่ใช้คูณ กลายเป็นส่วนหนึ่งของตัวประมวลผล ซึ่งในที่นี้คือส่วนหนึ่งของวงจรคูณ
เป็นการเลี่ยงปัญหาแบบ “ดึงมาก่อนแล้วค่อยประมวลผล” ทางสถาปัตยกรรมอย่างสิ้นเชิง
ข้อมูลอยู่ตรงจุดที่เกิดการคำนวณ จึงไม่ต้องเคลื่อนย้ายและไม่มี latency
วิธีนี้ดูเหมาะกับ โมเดลขนาดเล็ก มากกว่า frontier model เพราะโมเดลแนวหน้ามีการเปลี่ยนแปลงเร็วเกินไป
มันยังไปไม่ไกลเท่าที่อธิบายไว้ มีคอร์และ RAM จำนวนมากก็จริง แต่น้ำหนักยังต้องโหลดขึ้นด้วยซอฟต์แวร์ และสำหรับโมเดลใหญ่ก็ยังต้องสตรีมเข้าชิป
ถึงอย่างนั้นมันก็ยังเป็น ชิปทั้งเวเฟอร์
สำหรับงานจำนวนมาก การใส่น้ำหนักไว้ใน ROM ก็น่าจะใช้ได้
แต่ก็ยังไม่แน่ใจว่าการมีตัวคูณหนึ่งตัวต่อน้ำหนักหนึ่งค่านั้นเป็นไอเดียที่ดีหรือไม่
ถ้าควอนไทซ์ได้ราว 2 บิตก็อาจพอเป็นไปได้ แต่ไม่เช่นนั้นอาจดีกว่าถ้ามี ROM ขนาดเล็กอยู่ใกล้ตัวคูณหรือใกล้แต่ละแถว เพื่อจัดการการคูณเมทริกซ์ที่ต่างกัน N แบบโดยไม่ต้องย้ายข้อมูลจากที่ไกล
อีกแนวคิดที่น่าสนใจคือเพิ่มแถวของหน่วย MAC เข้าไปใน DRAM เพื่อใช้แถวของ DRAM เป็นเวกเตอร์
ถ้าขนาดแถวคือ 64Kbit ก็จะได้ 8K ค่าสำหรับน้ำหนัก 8 บิต และสามารถเก็บทั้งน้ำหนักกับการคำนวณไว้บนชิปเดียวกันได้
เพียงแต่ไม่แน่ใจว่าจะใส่ตัวคูณได้มากพอบนชิปเดียวหรือไม่
Systolic array สามารถมีได้ตั้งแต่หลายหมื่นถึงหลายแสนตัว โดยแต่ละตัวทำงานได้หนึ่งโอเปอเรชันต่อคล็อก
น่าสนใจเพราะดูเหมือนว่ายังมี การปรับปรุงประสิทธิภาพ ให้แก้ได้อีกมหาศาลในระดับชิป
อยากรู้ว่ามอง Taalas กันอย่างไร
เขาบอกว่าจะเอาโมเดล LLM ไปฝังลงในซิลิคอนจริง ๆ และมีหน่วยความจำบนบอร์ดบางส่วนไว้สำหรับการปรับจูนละเอียด
อ้างว่าช่วยได้มากทั้งด้านต้นทุนและ latency
ดูเดโมที่เร็วมากได้ที่ https://chatjimmy.ai/
https://taalas.com/
https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...
นั่นจึงเป็นเหตุผลที่ Google เริ่มสร้าง TPU ตั้งแต่กว่าสิบปีก่อน
จำดราม่าตอนที่ Google ไล่ Timnit Gebru ออกได้ เพราะมีบทความที่คำนวณผลกระทบต่อสิ่งแวดล้อมของ LLM โดยอิง GPU และมองข้ามประสิทธิภาพของ TPU
ดูเหมือน Jeff Dean จะโกรธมากเพราะ ช่องว่างด้านประสิทธิภาพ ที่ใหญ่มหาศาลนั้น
ถ้าเป็นแบบนั้นก็จะขายยากสุด ๆ
ไม่ค่อยชอบแนวคิดที่จะใส่โมเดลเดียวที่ไม่มีวันเปลี่ยนลงไปบนชิป
สงสัยว่าถ้าใช้ ROM ที่เขียนซ้ำได้ สำหรับน้ำหนัก ซิลิคอนจะแพงขึ้นอีกแค่ไหน
ถ้าทำได้แบบนั้นก็จะปรับจูนละเอียดโมเดลเป้าหมายได้ และลดความกังวลว่าโมเดลจะล้าสมัย
สำหรับ coding agent มันเป็นการปรับปรุงที่มีความหมาย และสำหรับหุ่นยนต์มันอาจเป็น การปฏิวัติเต็มรูปแบบ
โมเดล 8B อาจไม่ค่อยมีประโยชน์สำหรับงานทั่วไป แต่สำหรับงานเฉพาะทางมันอาจให้ความฉลาดได้มหาศาล
คู่แข่งของ Tesla/Waymo ของ Nvidia ใช้ LLM 7B กับ diffusion model 2B และถ้ารันสิ่งเหล่านี้ได้ด้วยความเร็วระดับนั้น ต้นทุนอาจต่ำกว่าวิธีเดิมลงถึงระดับเลขหลักเดียว
จะเถียงว่าตอนนี้ก็เริ่มเข้าใกล้จุดนั้นแล้วก็ได้
Hyperscaler อย่าง AWS จะใช้ชิปแบบนี้ได้ดีในการให้บริการโมเดลที่ใช้งานได้หลายปี
แต่ตอนนี้ โดยเฉพาะในโมเดล open-weight อย่าง Deepseek/Kimi/GLM คุณภาพโมเดลยังดีขึ้นแบบก้าวกระโดดทุกไม่กี่เดือน
ก่อนจะถึงจุดนั้น ยังมองไม่ออกว่าวิธีนี้จะคุ้มต้นทุนกว่าฮาร์ดแวร์อเนกประสงค์ได้อย่างไร
และก็น่าจะได้เห็นเวอร์ชันย่อส่วนของสิ่งนี้เข้าไปอยู่ในฮาร์ดแวร์มือถือ เพื่อให้ได้ LLM บนอุปกรณ์ที่เร็วและมีประสิทธิภาพมาก
เป็นความเคลื่อนไหวที่ค่อนข้างใหญ่
ดูเหมือนว่า Google กับ TPU จะมาถึงราว ๆ รุ่นที่ 7 แล้ว และถ้านับความพยายามต่อยอดอย่าง LPU หรือ Wafer Scale Engine ของ Cerebras ก็ยิ่งดูเหมือนว่ามีวิสัยทัศน์ล่วงหน้ามากกว่านั้นอีก
แต่จากความประทับใจแรก ชิปตัวนี้ดูเหมือนจะเล็งไปที่ฝั่ง inference ไม่ใช่การฝึก และนั่นก็เป็นทางเลือกที่น่าสนใจเช่นกัน
ขณะที่ด้านสถาปัตยกรรมก็เริ่มทำให้ประสิทธิภาพดีขึ้นอยู่แล้ว
ในทางกลับกัน inference เป็นค่าใช้จ่ายที่เกิดขึ้นต่อเนื่อง และเมื่อเวลาผ่านไปจะใช้ทรัพยากรมากกว่ามาก ดังนั้นการโฟกัสที่การทำให้สิ่งนี้มีประสิทธิภาพขึ้นมาก ๆ จึงคุ้มกว่าในระยะยาว
Nvidia เป็นราชาของชิปฝึกแบบอเนกประสงค์ แต่ inference สามารถทำให้เฉพาะทางได้
หน้าต่างบริบทเล็กและโมเดลก็เก่าแล้ว
ถึงอย่างนั้นถ้ามันพัฒนาขึ้นจนใช้ GPT 5.5 ได้ที่ 1000 โทเคนต่อวินาทีก็คงดี
ถ้อยคำยังคลุมเครือ แต่ TPU ก็เคลมคล้าย ๆ กัน
เมโม “เราไม่มี moat” ของ Google ยังน่าจะถูกต้องอยู่ หากไม่รู้จัก ดู https://newsletter.semianalysis.com/p/google-we-have-no-moat...
กระแสตอนนี้ดูคล้าย การแข่งขันด้านฮาร์ดแวร์ ที่ IBM, DEC, Cray, Sun เคยทำกันในยุค 60~90 มากกว่า
ประวัติศาสตร์อาจไม่ซ้ำรอย แต่ก็มักมีจังหวะคล้ายกัน และความพยายามเหล่านี้ก็น่าจะเดินตามเส้นทางแบบเดียวกัน
เมื่อดูจากความเร็วของพัฒนาการ AI และสถานการณ์ที่ AI ช่วยสร้าง AI ที่เร็วและดีกว่าเดิม ก็อดสงสัยไม่ได้ว่าฮาร์ดแวร์แบบนี้จะล้าสมัยก่อนคืนทุนได้จริงหรือไม่
ตอนนี้เราก็รันโมเดล AI ขนาดใหญ่ด้วยทรัพยากรที่น้อยลงได้แล้วผ่าน quantization และ offloading แต่นั่นยังเป็นแค่จุดเริ่มต้น
สักวันหนึ่ง ซึ่งอาจไม่ไกลนัก อาจมีจุดเปลี่ยนที่ทำให้ LLM ระดับ 200B รันได้ดีบน Dell เดสก์ท็อปอายุ 5 ปี
ฟังดูบ้าหน่อย แต่ลองดูขนาดของฮาร์ดดิสก์ยุคแรก
IBM 350 เป็นดิสก์ที่มี platter ขนาดเส้นผ่านศูนย์กลาง 24 นิ้วจำนวน 50 แผ่น เก็บข้อมูลได้ 3.5Mb และถูกให้เช่าในมูลค่า 35,000 ดอลลาร์เมื่อคิดเป็นเงินปัจจุบัน
https://www.computerhistory.org/storageengine/first-commerci...
ลองเทียบกับ SSD ระดับหลาย TB และลองนึกว่าถ้าเอาการพัฒนาแบบเดียวกันมาใช้กับสถาปัตยกรรม LLM ปัจจุบันและวิธีการรันจะเป็นอย่างไร
ยิ่งมี AI เข้ามาช่วยด้วย ก็อาจเกิดการก้าวกระโดดในไม่ช้า และศูนย์ข้อมูลที่วันนี้เต็มไปด้วยการ์ด Nvidia ระดับล้ำสมัยอาจกลายเป็นของเก่าแทบชั่วข้ามคืน
IBM 350 ออกสู่เชิงพาณิชย์เมื่อ 70 ปีก่อน และกว่าจะมาถึงจุดที่มีคนเอามาเทียบกับ SSD หลาย TB ได้ก็ใช้เวลา 70 ปี
อีกอย่างก็ไม่มีอะไรรับประกันว่า กฎของมัวร์ จะใช้กับ LLM ไปอีกหลายทศวรรษแน่นอน
ถ้าโมเดลที่ใหญ่กว่าดีกว่าเสมอ ซึ่งก็ดูเหมือนจะเป็นเช่นนั้น เราก็จะต้องการ ฮาร์ดแวร์สมรรถนะสูง อยู่เสมอ
TPU มีอยู่ก็จริง แต่ส่วนใหญ่ใช้ในดาต้าเซ็นเตอร์ และ GPU เองก็เดิมทีเป็นของที่ปรับมาจากงานกราฟิก
ถ้าความต้องการจากดาต้าเซ็นเตอร์เริ่มแห้งลง นวัตกรรมจริงจังอาจเริ่มขึ้น
มีประเด็นหนึ่งที่ยังไม่ค่อยถูกพูดถึงตรงนี้
ในบทสัมภาษณ์ Hock Tan ซีอีโอ Broadcom บอกว่า accelerator ตัวนี้แสดงให้เห็นถึง การลดต้นทุนราว 50% เมื่อเทียบกับหน่วยประมวลผลกราฟิก AI ทั่วไปในปัจจุบัน [0]
ภาพรวมเปลี่ยนเร็วเกินไปและยังมีผลไม้ที่เด็ดได้ง่ายอีกมาก ทำให้การถกเถียงว่าใครจะมี moat หรือจะคืนทุนได้หรือไม่ ดูแทบไม่มีความหมาย
[0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...
มันอาจหมายถึงชิปที่เก่ากว่าชิปที่ Nvidia ขายอยู่ตอนนี้มากก็ได้
ถ้าบอกว่า “ตั้งเป้าปล่อยใช้งานระยะแรกปลายปี 2026 แล้วค่อยขยายต่อในช่วงหลายปีหลังจากนั้น” ก็ดูเหมือนว่าจะถูกใส่เป็น คำสัญญาในอนาคต ตัวใหญ่ ๆ ในเอกสารขาย IPO หลัง IPO
อะไรก็ตามที่ประกาศก่อน IPO ผมมองด้วยความระแวง
ถ้าจะเป็นของหลอกก็ไม่แปลกใจ
Broadcom กับ Google แน่นอนว่าเข้าตลาดไปแล้ว
Microsoft, Google, Amazon ก็ทำเรื่องแบบนี้เหมือนกัน แต่พวกเขามี โครงสร้างพื้นฐานดาต้าเซ็นเตอร์ระดับ hyperscale สำหรับโฮสต์ชิปเหล่านี้ด้วย
การออกแบบชิปและ tape-out เป็นคนละสแตกกับการแพ็กเกจ การระบายความร้อน การ deploy การจ่ายไฟ และการจัดการ fleet โดยสิ้นเชิง
เลยสงสัยว่าพวกเขาจะไปเอาส่วนนี้มาจากไหน
อัปเดต: มีคนบน Twitter บอกว่าจะโฮสต์โดย Microsoft และ Oracle แบบ 50:50
ก่อนหน้านี้เคยให้ Opus 4.5 ออกแบบ LLM inference engine บน Verilog รวมถึงเฟิร์มแวร์และการตรวจสอบอัตโนมัติด้วย: https://github.com/cpldcpu/smollm.c
แน่นอนว่ายังห่างไกลจากคำว่า optimal แต่ก็ยืนยันได้ว่าการลดระดับ abstraction ลงไปจนถึงตัว implementation นั้นทรงพลังมาก
ผมยังมี Tang Nano 9k เหลืออยู่ตัวหนึ่ง แต่ยังไม่มั่นใจพอที่จะให้ Claude แก้ปัญหาด้วยการ vibe coding แบบล้วน ๆ และอยากมีความเข้าใจพื้นฐานขั้นต่ำก่อน