3 คะแนน โดย GN⁺ 3 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Jalapeño คือแอ็กเซเลอเรเตอร์ที่ออกแบบมาเฉพาะสำหรับการอนุมาน (inference) ของ LLM และเป็นผลงานชิ้นแรกของ แพลตฟอร์มคอมพิวติ้งหลายเจเนอเรชัน ที่พัฒนาร่วมกับ Broadcom
  • ใช้เวลาเพียง 9 เดือน ตั้งแต่เริ่มออกแบบจนถึง tape-out สำหรับการผลิต คาดว่าเป็นรอบการพัฒนา ASIC ที่เร็วที่สุดเท่าที่เคยมีมาในวงการเซมิคอนดักเตอร์ประสิทธิภาพสูงระดับล้ำสมัย
  • ในการทดสอบเบื้องต้น ลดต้นทุนได้ราว 50% เมื่อเทียบกับ AI GPU ทั่วไป และประสิทธิภาพต่อวัตต์ก็เหนือกว่าระดับแนวหน้าปัจจุบันอย่างมาก
  • เป็นส่วนหนึ่งของ กลยุทธ์ฟูลสแตก ที่ออกแบบตั้งแต่สถาปัตยกรรมชิป เคอร์เนล หน่วยความจำ ไปจนถึงเครือข่ายเอง เพื่อลดการพึ่งพา Nvidia GPU และขยายจากบริษัทซอฟต์แวร์ไปสู่ ผู้ให้บริการโครงสร้างพื้นฐาน AI
  • มีแผนนำไปใช้งานใน ดาต้าเซ็นเตอร์ระดับกิกะวัตต์ ร่วมกับพาร์ตเนอร์อย่าง Microsoft ตั้งแต่ปลายปี 2026 ทำให้ประเด็นนี้ยิ่งมีความสำคัญท่ามกลางแรงกดดันในการพิสูจน์ความสามารถทำกำไรก่อน IPO มูลค่า 1 ล้านล้านดอลลาร์

เปิดตัวชิป Jalapeño

  • เมื่อวันพุธ OpenAI และ Broadcom (NASDAQ: AVGO) เปิดตัว Jalapeño ซึ่งเป็น Intelligence Processor ตัวแรกของ OpenAI
  • เป็นแอ็กเซเลอเรเตอร์ที่ออกแบบมาเพื่ออนาคตของการอนุมาน LLM และเป็น AI แอ็กเซเลอเรเตอร์ตัวแรกของ แพลตฟอร์มคอมพิวติ้งหลายเจเนอเรชัน ที่ทั้งสองบริษัทพัฒนาร่วมกัน
  • Hock Tan ประธานและซีอีโอของ Broadcom และ Charlie Kawwas ประธานบริษัท ได้นำตัวอย่างชิปไปมอบให้ Sam Altman ซีอีโอของ OpenAI และ Greg Brockman ประธานบริษัทด้วยตนเอง
  • เป็นก้าวสำคัญในกลยุทธ์ของ OpenAI ที่ต้องการยกระดับจากผลิตภัณฑ์สำหรับผู้บริโภคไปสู่ ผู้ให้บริการโครงสร้างพื้นฐาน AI

โครงสร้างและประสิทธิภาพของชิป

  • Jalapeño ไม่ใช่ชิปอเนกประสงค์ที่ดัดแปลงจากแอ็กเซเลอเรเตอร์สำหรับเวิร์กโหลด AI แบบเดิม แต่เป็น การออกแบบจากศูนย์ (blank-slate) สำหรับการอนุมาน LLM ยุคใหม่
  • เป็น ASIC ที่ออกแบบให้เหมาะกับงาน AI เฉพาะด้าน จึงยืดหยุ่นน้อยกว่า Nvidia GPU แต่มีต้นทุนต่ำกว่า
  • ประสิทธิภาพและความคุ้มค่า

    • ในการทดสอบเบื้องต้น ลดต้นทุนได้ราว 50% เมื่อเทียบกับ AI GPU ทั่วไป (จากบทสัมภาษณ์ Hock Tan)
    • ประสิทธิภาพสุดท้ายยังอยู่ระหว่างการวัดผล แต่ ประสิทธิภาพต่อวัตต์ ดีขึ้นอย่างมากเมื่อเทียบกับระดับแนวหน้าปัจจุบัน
    • ด้วยการ ลดการเคลื่อนย้ายข้อมูล และปรับสมดุลทรัพยากรด้านการประมวลผล หน่วยความจำ และเครือข่าย ทำให้อัตราการใช้งานจริงเข้าใกล้สมรรถนะสูงสุดตามทฤษฎี
    • จากภาพชิปที่เผยแพร่ เห็น ตำแหน่ง HBM 8 จุด และคอมพิวต์ไดอยู่ตรงกลาง
  • การยืนยันการทำงาน

    • ตัวอย่างสำหรับวิศวกรรมกำลังรันเวิร์กโหลด ML ที่ความถี่และกำลังไฟตามเป้าหมายการผลิตจริง ซึ่งรวมถึง GPT‑5.3‑Codex‑Spark
    • คาดว่าจะเผยแพร่รายงานทางเทคนิคฉบับละเอียดในอีกไม่กี่เดือนข้างหน้า
    • การผลิตซิลิคอนของ Broadcom และ Tomahawk networking silicon จะรองรับการผลิตจำนวนมากในระดับใหญ่

tape-out ภายใน 9 เดือน โดยมีโมเดลของ OpenAI ช่วยเร่ง

  • ตั้งแต่การออกแบบเริ่มต้นจนถึง tape-out สำหรับการผลิต ใช้เวลาร่วมพัฒนาเพียง 9 เดือน คาดว่าเป็นรอบการพัฒนา ASIC ที่เร็วที่สุดเท่าที่เคยมีมาในชิปประสิทธิภาพสูงระดับล้ำสมัย
  • OpenAI ใช้ โมเดลภายในของตัวเอง ในบางส่วนของกระบวนการออกแบบและปรับแต่ง โดย Brockman ระบุว่าระดับที่โมเดลช่วยเร่งการพัฒนานั้น "น่าทึ่งมาก"
  • โมเดลเดียวกับที่เปิดให้ผู้ใช้ใช้งานอยู่ จะมีส่วนช่วยพัฒนาโครงสร้างพื้นฐานสำหรับรันโมเดลในอนาคต
  • หาก AI สามารถช่วยวิศวกรออกแบบชิปได้เร็วขึ้น ก็มีแนวโน้มจะนำไปสู่การลด ต้นทุนคอมพิวต์ ทั่วทั้งอุตสาหกรรม และขยายการเข้าถึง AI ขั้นสูงให้กว้างขึ้น

แพลตฟอร์มหลายเจเนอเรชันและพาร์ตเนอร์

  • Jalapeño เป็นก้าวแรกของ แพลตฟอร์มคอมพิวติ้งหลายเจเนอเรชัน ที่ตั้งเป้าเริ่มใช้งานระยะแรกในปลายปี 2026 และขยายต่อเนื่องอีกหลายปีหลังจากนั้น
  • โครงสร้างความร่วมมือ

    • OpenAI — ออกแบบแอ็กเซเลอเรเตอร์ โดยอาศัยความเข้าใจเชิงลึกเกี่ยวกับพื้นฐานของ LLM
    • Broadcom — พัฒนาชิปจริง รวมถึงเทคโนโลยีเครือข่ายและการเชื่อมต่อ
    • Celestica — ความเชี่ยวชาญด้านบอร์ด แร็ก และการบูรณาการระบบ
  • เมื่อปีที่แล้ว OpenAI และ Broadcom ได้ประกาศแผนพัฒนาชิปแบบคัสตอมสำหรับคอมพิวต์ขนาด 10 กิกะวัตต์ และครั้งนี้คือการเปิดตัวชิปตัวแรกจากแผนนั้น
  • ความต้องการที่พุ่งสูง

    • Hock Tan ซีอีโอของ Broadcom ระบุว่า ตั้งแต่ปี 2026 เป็นต้นไป จะทำให้สามารถนำไปใช้งานใน ดาต้าเซ็นเตอร์ระดับกิกะวัตต์ ร่วมกับพาร์ตเนอร์อย่าง Microsoft ได้ โดยจะเริ่มจากต้นแบบขนาดเล็กในปลายปี 2026 ก่อนขยายเพิ่ม
    • Brockman กล่าวว่า "เราไม่สามารถหาคอมพิวต์ได้เร็วพอ" ขณะที่ Tan บอกว่าความต้องการจากลูกค้า 6 รายนั้น "มากจนเติมไม่เต็มจริงๆ" และในปี 2027~2028 ก็จะยังเท่าเดิมหรือสูงกว่านี้
    • Richard Ho หัวหน้าโครงการฮาร์ดแวร์ของ OpenAI อธิบายว่า บริษัทได้ปรับสถาปัตยกรรมให้เหมาะกับเคอร์เนล การเคลื่อนย้ายหน่วยความจำ เครือข่าย และแพตเทิร์นการเสิร์ฟโมเดลที่สำคัญที่สุดสำหรับ frontier AI models

กลยุทธ์ฟูลสแตกและภูมิทัศน์การแข่งขัน

  • OpenAI ไม่ได้หยุดอยู่แค่การพัฒนา frontier models และการสร้างผลิตภัณฑ์ แต่ยังออกแบบโครงสร้างพื้นฐานชั้นล่างด้วยตนเองด้วย — ครอบคลุม สถาปัตยกรรมชิป เคอร์เนล ระบบหน่วยความจำ เครือข่าย การจัดตาราง การปรับใช้ระบบ และประสบการณ์ผลิตภัณฑ์
  • ทำให้บริษัทเข้าร่วมแถวเดียวกับผู้เล่น AI แบบฟูลสแตกที่มีซิลิคอนของตัวเองอย่าง Google (TPU), Amazon (Trainium), Microsoft (Azure Maia 100)
  • ลดการพึ่งพา Nvidia

    • "ไม่มีใครอยากถูกผูกติดกับ Nvidia" (Ben Barringer หัวหน้าฝ่ายวิจัยเทคโนโลยีของ Quilter Cheviot) สะท้อนแนวโน้มการกระจายแหล่งจัดหาชิป
    • OpenAI เป็นหนึ่งในลูกค้ารายใหญ่ที่สุดของ Nvidia ขณะเดียวกันก็ทำสัญญาจัดหากับ AMD (Instinct MI450 series), Cerebras และรายอื่น
  • ความหมายทางธุรกิจ

    • ในช่วงที่ Nvidia ก้าวขึ้นเป็นบริษัทมูลค่าสูงสุดของโลกจากการเป็นผู้จัดหาชิ้นส่วนหลักให้ดาต้าเซ็นเตอร์ AI ก็ยิ่งตอกย้ำศักยภาพด้านรายได้ของตลาดโครงสร้างพื้นฐาน AI
    • สำหรับ OpenAI ที่กำลังเผชิญกับการคาดการณ์ IPO มูลค่า 1 ล้านล้านดอลลาร์ การลดต้นทุนการอนุมานคือกุญแจสำคัญในการกู้คืนต้นทุนการฝึกโมเดลมหาศาลและพิสูจน์ความสามารถทำกำไร
    • ราคาหุ้น Broadcom ปรับตัวขึ้นในปี 2026 และเพิ่มขึ้นราว 7 เท่าเมื่อเทียบกับปลายปี 2022 สะท้อนประโยชน์จากความร่วมมือนี้

การทำให้ AI ขั้นสูงเข้าถึงคนทั่วไป

  • การอนุมานคือ จุดที่ AI พบกับมนุษย์ ดังนั้นการปรับปรุงด้านต้นทุน ความเร็ว และเสถียรภาพ จึงหมายถึงการตอบกลับของ ChatGPT ที่เร็วขึ้น งาน Codex ที่ไม่ต้องรอคิว ผลิตภัณฑ์ API ที่ถูกลง และการเข้าถึงที่เสถียรกว่าเมื่อมีความต้องการพุ่งสูง
  • หัวใจของการทำให้ AI เป็นของคนหมู่มาก คือการทำให้โมเดลล้ำสมัย ใช้งานได้จริง เสถียร และมีราคาถูกพอ ที่ผู้คนจำนวนมากจะใช้ได้ทุกวัน
  • เพื่อช่วยให้นักเรียน นักพัฒนา ผู้ประกอบการรายย่อย นักวิจัย บริษัท และทุกคนที่ต้องการเรียนรู้ สร้างสรรค์ และแก้ปัญหายากๆ สามารถเปลี่ยนโครงสร้างพื้นฐานให้กลายเป็นปัญญาที่มีประโยชน์ได้

1 ความคิดเห็น

 
GN⁺ 3 시간 전
ความคิดเห็นจาก Hacker News
  • อยากเห็นรายละเอียดมากกว่านี้ในส่วนที่บอกว่า “ใช้โมเดลของ OpenAI เพื่อเร่งการออกแบบและการปรับให้เหมาะสม”
    จากถ้อยคำตอนนี้ ดูเหมือน ข้อความการตลาด ประมาณว่าการพัฒนาเร็วขึ้นเพราะ Microsoft Office หรือจอ 5K LG Ultrafine 40 นิ้ว
    ถ้าเป็นเรื่องใหญ่จริงอย่างที่สื่อไว้ คิดว่า OpenAI น่าจะเน้นย้ำให้มากกว่านี้มาก

    • ในมุมของ CEO บริษัทชิป ความหมายของ “การออกแบบ” และ “การผลิต” ทำให้เรื่องนี้ต่างกันโดยสิ้นเชิง
      ยังไม่ชัดว่า “การออกแบบ” หมายถึงการออกแบบเสร็จสมบูรณ์หรือไม่ และ “การผลิต” หมายถึงการเริ่มผลิต หรือก็คือ tapeout หรือไม่
      ถ้าจากการ freeze RTL ไปจนถึง tapeout ใช้เวลา 9 เดือน สำหรับชิป 3nm ขนาดใหญ่และซับซ้อนก็ถือว่าค่อนข้างปกติ และหากรวมปัญหาที่ไม่คาดคิดด้วยก็แทบไม่ใช่ไทม์ไลน์ที่น่าประทับใจนัก
      แต่ถ้าจากระดับแนวคิด กล่าวคือยังไม่มี RTL มีแค่บล็อกไดอะแกรมสถาปัตยกรรม ไปจนถึง tapeout ได้ ก็เป็นไทม์ไลน์ที่น่าทึ่ง และความจริงก็น่าจะอยู่ตรงกลางระหว่างสองกรณีนี้
      ถ้าจะประกาศให้ชัดเจนกว่านี้ ก็ควรใช้ milestone และ gate ทางเทคนิคจริงๆ
    • ภาษาคำอธิบายฮาร์ดแวร์ (HDL) ที่ใช้พัฒนาชิปมีลักษณะคล้ายภาษาโปรแกรม และโมเดลที่มีอยู่ก็เข้าใจสิ่งเหล่านี้อยู่แล้วจนทำงานได้หลายอย่าง
      การใช้ large language model ใน workflow การออกแบบชิปไม่ได้จำเป็นต้องมีโมเดลเฉพาะทางเสมอไป
      การตรวจสอบความถูกต้องของการออกแบบก็มีงานเขียนโปรแกรมแบบดั้งเดิมอยู่มาก จึงได้รับประโยชน์จาก large language model ได้เช่นกัน
      มันไม่ใช่คำพูดที่ไร้ความหมายไปเสียทีเดียว และถ้าวันนี้คุณดาวน์โหลดซอฟต์แวร์ออกแบบชิปโอเพนซอร์สมา large language model ก็ช่วยให้เริ่มทำชิปเล็กๆ ด้วยตัวเองได้
    • Broadcom มี IP สำหรับ AI SoC อยู่มากแล้ว
      ส่วนที่ยากของชิปอนุมานนี้ Broadcom น่าจะออกแบบไว้แล้ว และ OpenAI อาจเพียงส่งสเปกที่ต้องการให้ Broadcom
      มันก็น่าจะคล้ายกับ Google TPU พอสมควร
      เขาบอกว่า “ตัวเร่งความเร็วรุ่นแรกจะให้ประสิทธิภาพต่อวัตต์สูงขึ้นอย่างมีนัยสำคัญเมื่อเทียบกับ state of the art ปัจจุบัน” ซึ่งก็อยากรู้ว่า “อย่างมีนัยสำคัญ” นี่หมายถึงแค่ไหน
      Vera Rubin มีกำหนดส่งมอบจำนวนมากช่วงปลายปีนี้ และคาดว่าจะมีประสิทธิภาพด้านพลังงานสำหรับงานอนุมานดีกว่า Blackwell ถึง 10 เท่า[0]
      ต่อให้ tapeout ไปแล้ว อย่างต่ำก็ยังต้องใช้เวลา 12 เดือน และอาจมากกว่านั้น ในการแก้บั๊ก ผลิตชิป จัดสรร HBM ออกแบบแร็ก อินเตอร์คอนเน็กต์ และนำไปติดตั้งในดาต้าเซ็นเตอร์
      พอถึงเวลาที่ชิปนี้ถูกนำเข้าไปใช้ในดาต้าเซ็นเตอร์จำนวนมาก มันอาจต้องไปแข่งกับ Vera Rubin Ultra หรือ Feynman แล้วก็ได้
      ส่วนตัวคิดว่า OpenAI ไม่ควรลงทุนกับโครงการนี้
      มันยังเร็วเกินไป และควรทำแบบ Anthropic คือชนะด้วยการโฟกัสที่โมเดลก่อน แล้วค่อยทำโครงการแบบนี้เมื่อเริ่มมีกำไร
      AI มีเพดานแข็งเรื่องพลังงานอยู่แล้ว จึงเป็นความเสี่ยงสำหรับ OpenAI
      ถ้ามีไฟ 1GW คุณก็ควรติดตั้งเฉพาะชิปที่ดีที่สุด และถ้าชิปของ Nvidia ดีกว่า โครงการนี้ก็เท่ากับเผาเงินหลายพันล้านดอลลาร์
      [0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
    • ความหมายที่เป็นไปได้มีอยู่ใหญ่ๆ สองแบบ และมีมุกล้อเลียนอยู่ตรงกลางด้วย
      1. OpenAI มีเทคโนโลยี AI ที่ช่วยปรับปรุงการออกแบบชิปได้จริง — เป็นข้ออ้างที่แรงและความเป็นไปได้ต่ำ จึงต้องมีหลักฐานรองรับ
      2. OpenAI ออกแบบ โมเดลและเคอร์เนลสำหรับการทดสอบและตรวจสอบความถูกต้อง เพื่อใช้ทดสอบประสิทธิภาพบนฮาร์ดแวร์จำลอง
        ปัญหาคือประโยคนี้อาจหมายถึงแค่ข้อหลัง แต่เขียนให้ฟังเหมือนข้อแรก จึงทำให้เชื่อถือได้ยาก
    • Verilog มีการเปิดเผยสู่สาธารณะอยู่แล้วมากมาย จึงเป็นไปได้มากว่าเขาออกแบบชิปด้วยการให้ AI ช่วยเขียน Verilog เพิ่มขึ้น
      ไม่จำเป็นต้องเป็นอะไรระดับปฏิวัติวงการก็ได้ แค่ การออกแบบแบบมี AI ช่วย มันเข้าที่เข้าทางพอจนทำให้การสร้าง ASIC เฉพาะทางคุ้มค่า
  • แม้ในบทความของ OpenAI จะไม่ได้ระบุ แต่ก็ดูเกือบจะแน่นอนว่าชิปนี้ผลิตโดย TSMC [1]
    ก่อนหน้านี้ยังไม่มั่นใจว่า Intel มีส่วนรับงานนี้หรือไม่

    1. https://www.investing.com/news/stock-market-news/openai-unve...
    • มีคนอ้างบน Twitter ว่าเหตุผลที่บริษัทอย่าง Google, Amazon และ OpenAI ใช้ Broadcom ไม่ได้มีแค่ความสามารถด้านการออกแบบ แต่ยังเป็นเพราะ Broadcom มี สัญญาจัดสรรกับ TSMC และผู้ผลิตหน่วยความจำ ด้วย
    • เพิ่งมาต่อภาพจิ๊กซอว์ได้เมื่อไม่นานนี้
      Broadcom เคยทำเงินก้อนโตจากการเป็นพาร์ตเนอร์ฮาร์ดแวร์ TPU ของ Google และแบ่งปันกำลังการผลิตของ TSMC กับ Google และตอนนี้ก็ดูเหมือนกำลังทำแบบเดียวกันกับ OpenAI
      เป็นวิธีที่ฉลาดมากในการใช้ประโยชน์จากกระแสตื่นทอง AI
      เพียงแต่หวังว่าจะไม่เอาเงินที่หาได้แบบนั้นไปใช้รีดเงินจากวงการซอฟต์แวร์เหมือนที่ทำกับ VMWare และ Bitnami
  • อยากเห็นชิปอนุมานที่ใส่น้ำหนักไว้เป็นส่วนหนึ่งของ ROM บนชิป
    มีตัวคูณหนึ่งตัวต่อน้ำหนักหนึ่งค่า และเพราะเป็นค่าคงที่ ทั้งระบบจึงอาจกลายเป็นเพียงชุดของตัวบวก โดยมี throughput แบบ fully pipelined ได้ถึงหนึ่งโทเคนต่อหนึ่งคล็อก
    แบบนั้นซิลิคอนชิ้นเดียวอาจรองรับผู้ใช้พร้อมกันได้หลายล้านคน และอาจปล่อยโทเคนออกทางบัสเอาต์พุตได้ถึง 500 ล้านโทเคนต่อวินาที
    ข้อเสียคือชิปจะมีขนาดมหึมาจนกลายเป็นทั้งเวเฟอร์แผ่นเดียว
    ข้อบกพร่องระดับเวเฟอร์อาจไม่ใช่ปัญหาใหญ่ เครือข่ายประสาทมักทนได้แม้น้ำหนักบางส่วนหายไปหรือผิดพลาด
    ด้วยความเร็วของวงการในตอนนี้ ดูเหมือนว่าจะต้องเร่งจากน้ำหนักของโมเดลไปสู่การผลิตอย่างรวดเร็ว ผลิตเวเฟอร์ 50 แผ่น ใช้งานหนึ่งปี แล้วถ้าโมเดลล้าสมัยก็ทิ้งไป

    • ถ้าพูดให้แม่นยำ นี่ใกล้เคียงกับการหมายถึง การประมวลผลในหน่วยความจำ (CIM) มากกว่าการใส่น้ำหนักลงใน ROM
      เป็นเทคนิคที่ทำให้ข้อมูล ซึ่งในที่นี้คือค่าที่ใช้คูณ กลายเป็นส่วนหนึ่งของตัวประมวลผล ซึ่งในที่นี้คือส่วนหนึ่งของวงจรคูณ
      เป็นการเลี่ยงปัญหาแบบ “ดึงมาก่อนแล้วค่อยประมวลผล” ทางสถาปัตยกรรมอย่างสิ้นเชิง
      ข้อมูลอยู่ตรงจุดที่เกิดการคำนวณ จึงไม่ต้องเคลื่อนย้ายและไม่มี latency
    • ก่อนหน้านี้มี https://taalas.com/ ออกมาแล้ว และน่าจะมีที่อื่นที่คิดคล้ายกันอีก
      วิธีนี้ดูเหมาะกับ โมเดลขนาดเล็ก มากกว่า frontier model เพราะโมเดลแนวหน้ามีการเปลี่ยนแปลงเร็วเกินไป
    • สงสัยว่าเคยดู Cerebras หรือยัง
      มันยังไปไม่ไกลเท่าที่อธิบายไว้ มีคอร์และ RAM จำนวนมากก็จริง แต่น้ำหนักยังต้องโหลดขึ้นด้วยซอฟต์แวร์ และสำหรับโมเดลใหญ่ก็ยังต้องสตรีมเข้าชิป
      ถึงอย่างนั้นมันก็ยังเป็น ชิปทั้งเวเฟอร์
    • แนวคิดการใส่น้ำหนักลงใน ROM คิดมาสักพักแล้ว
      สำหรับงานจำนวนมาก การใส่น้ำหนักไว้ใน ROM ก็น่าจะใช้ได้
      แต่ก็ยังไม่แน่ใจว่าการมีตัวคูณหนึ่งตัวต่อน้ำหนักหนึ่งค่านั้นเป็นไอเดียที่ดีหรือไม่
      ถ้าควอนไทซ์ได้ราว 2 บิตก็อาจพอเป็นไปได้ แต่ไม่เช่นนั้นอาจดีกว่าถ้ามี ROM ขนาดเล็กอยู่ใกล้ตัวคูณหรือใกล้แต่ละแถว เพื่อจัดการการคูณเมทริกซ์ที่ต่างกัน N แบบโดยไม่ต้องย้ายข้อมูลจากที่ไกล
      อีกแนวคิดที่น่าสนใจคือเพิ่มแถวของหน่วย MAC เข้าไปใน DRAM เพื่อใช้แถวของ DRAM เป็นเวกเตอร์
      ถ้าขนาดแถวคือ 64Kbit ก็จะได้ 8K ค่าสำหรับน้ำหนัก 8 บิต และสามารถเก็บทั้งน้ำหนักกับการคำนวณไว้บนชิปเดียวกันได้
      เพียงแต่ไม่แน่ใจว่าจะใส่ตัวคูณได้มากพอบนชิปเดียวหรือไม่
      Systolic array สามารถมีได้ตั้งแต่หลายหมื่นถึงหลายแสนตัว โดยแต่ละตัวทำงานได้หนึ่งโอเปอเรชันต่อคล็อก
    • หลายคนบอกว่าเมมริสเตอร์เหมาะกับงานนี้อย่างยิ่งและยังตั้งโปรแกรมใหม่ได้ แต่เมมริสเตอร์ดูเหมือน คาร์บอนนาโนทิวบ์ แห่งโลกคอมพิวติ้ง
  • น่าสนใจเพราะดูเหมือนว่ายังมี การปรับปรุงประสิทธิภาพ ให้แก้ได้อีกมหาศาลในระดับชิป
    อยากรู้ว่ามอง Taalas กันอย่างไร
    เขาบอกว่าจะเอาโมเดล LLM ไปฝังลงในซิลิคอนจริง ๆ และมีหน่วยความจำบนบอร์ดบางส่วนไว้สำหรับการปรับจูนละเอียด
    อ้างว่าช่วยได้มากทั้งด้านต้นทุนและ latency
    ดูเดโมที่เร็วมากได้ที่ https://chatjimmy.ai/
    https://taalas.com/
    https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...

    • ถ้าใช้แต่ GPU อเนกประสงค์แบบผูกขาด ก็แน่นอนว่าจะพลาดประสิทธิภาพไปมาก
      นั่นจึงเป็นเหตุผลที่ Google เริ่มสร้าง TPU ตั้งแต่กว่าสิบปีก่อน
      จำดราม่าตอนที่ Google ไล่ Timnit Gebru ออกได้ เพราะมีบทความที่คำนวณผลกระทบต่อสิ่งแวดล้อมของ LLM โดยอิง GPU และมองข้ามประสิทธิภาพของ TPU
      ดูเหมือน Jeff Dean จะโกรธมากเพราะ ช่องว่างด้านประสิทธิภาพ ที่ใหญ่มหาศาลนั้น
    • คงเจ๋งถ้าได้เห็นของประเภทนี้มากขึ้น แต่ความสามารถในการอัปเดตเป็นโมเดลใหม่ทั้งหมดทุกครั้งที่มีโมเดลใหม่ออกมา ดูจะมีข้อจำกัดมาก
      ถ้าเป็นแบบนั้นก็จะขายยากสุด ๆ
    • ในเชิงเทคนิคก็น่าสนใจ แต่รายละเอียดดูน้อยเกินไป
      ไม่ค่อยชอบแนวคิดที่จะใส่โมเดลเดียวที่ไม่มีวันเปลี่ยนลงไปบนชิป
      สงสัยว่าถ้าใช้ ROM ที่เขียนซ้ำได้ สำหรับน้ำหนัก ซิลิคอนจะแพงขึ้นอีกแค่ไหน
      ถ้าทำได้แบบนั้นก็จะปรับจูนละเอียดโมเดลเป้าหมายได้ และลดความกังวลว่าโมเดลจะล้าสมัย
    • 17k โทเคน/วินาทีในแชตบอตนั้นเท่ก็จริง แต่แทบไม่มีประโยชน์ในฐานะเดโม
      สำหรับ coding agent มันเป็นการปรับปรุงที่มีความหมาย และสำหรับหุ่นยนต์มันอาจเป็น การปฏิวัติเต็มรูปแบบ
      โมเดล 8B อาจไม่ค่อยมีประโยชน์สำหรับงานทั่วไป แต่สำหรับงานเฉพาะทางมันอาจให้ความฉลาดได้มหาศาล
      คู่แข่งของ Tesla/Waymo ของ Nvidia ใช้ LLM 7B กับ diffusion model 2B และถ้ารันสิ่งเหล่านี้ได้ด้วยความเร็วระดับนั้น ต้นทุนอาจต่ำกว่าวิธีเดิมลงถึงระดับเลขหลักเดียว
    • เมื่อไปถึงจุดที่พัฒนาการของโมเดลชะลอลงอย่างมาก ฮาร์ดแวร์แบบนี้น่าจะเป็นอนาคตของผู้ให้บริการ LLM
      จะเถียงว่าตอนนี้ก็เริ่มเข้าใกล้จุดนั้นแล้วก็ได้
      Hyperscaler อย่าง AWS จะใช้ชิปแบบนี้ได้ดีในการให้บริการโมเดลที่ใช้งานได้หลายปี
      แต่ตอนนี้ โดยเฉพาะในโมเดล open-weight อย่าง Deepseek/Kimi/GLM คุณภาพโมเดลยังดีขึ้นแบบก้าวกระโดดทุกไม่กี่เดือน
      ก่อนจะถึงจุดนั้น ยังมองไม่ออกว่าวิธีนี้จะคุ้มต้นทุนกว่าฮาร์ดแวร์อเนกประสงค์ได้อย่างไร
      และก็น่าจะได้เห็นเวอร์ชันย่อส่วนของสิ่งนี้เข้าไปอยู่ในฮาร์ดแวร์มือถือ เพื่อให้ได้ LLM บนอุปกรณ์ที่เร็วและมีประสิทธิภาพมาก
  • เป็นความเคลื่อนไหวที่ค่อนข้างใหญ่
    ดูเหมือนว่า Google กับ TPU จะมาถึงราว ๆ รุ่นที่ 7 แล้ว และถ้านับความพยายามต่อยอดอย่าง LPU หรือ Wafer Scale Engine ของ Cerebras ก็ยิ่งดูเหมือนว่ามีวิสัยทัศน์ล่วงหน้ามากกว่านั้นอีก
    แต่จากความประทับใจแรก ชิปตัวนี้ดูเหมือนจะเล็งไปที่ฝั่ง inference ไม่ใช่การฝึก และนั่นก็เป็นทางเลือกที่น่าสนใจเช่นกัน

    • การฝึกแทบจะเป็นต้นทุนแบบครั้งเดียว
      ขณะที่ด้านสถาปัตยกรรมก็เริ่มทำให้ประสิทธิภาพดีขึ้นอยู่แล้ว
      ในทางกลับกัน inference เป็นค่าใช้จ่ายที่เกิดขึ้นต่อเนื่อง และเมื่อเวลาผ่านไปจะใช้ทรัพยากรมากกว่ามาก ดังนั้นการโฟกัสที่การทำให้สิ่งนี้มีประสิทธิภาพขึ้นมาก ๆ จึงคุ้มกว่าในระยะยาว
    • ตอนนี้มองว่า ต้นทุน inference สูงกว่าต้นทุนการฝึกแล้ว
      Nvidia เป็นราชาของชิปฝึกแบบอเนกประสงค์ แต่ inference สามารถทำให้เฉพาะทางได้
    • Codex Spark 5.3 ของ Cerebras เป็นความล้มเหลวครั้งใหญ่
      หน้าต่างบริบทเล็กและโมเดลก็เก่าแล้ว
      ถึงอย่างนั้นถ้ามันพัฒนาขึ้นจนใช้ GPT 5.5 ได้ที่ 1000 โทเคนต่อวินาทีก็คงดี
    • มีการบอกว่า “ในการทดสอบช่วงต้น Jalapeño จะเพิ่มประสิทธิภาพต่อวัตต์ได้อย่างมากเมื่อเทียบกับ state of the art ปัจจุบัน” ซึ่งตรงนี้เริ่มทำให้เห็นแล้วว่าอะไรคือสิ่งสำคัญจริง ๆ
      ถ้อยคำยังคลุมเครือ แต่ TPU ก็เคลมคล้าย ๆ กัน
      เมโม “เราไม่มี moat” ของ Google ยังน่าจะถูกต้องอยู่ หากไม่รู้จัก ดู https://newsletter.semianalysis.com/p/google-we-have-no-moat...
      กระแสตอนนี้ดูคล้าย การแข่งขันด้านฮาร์ดแวร์ ที่ IBM, DEC, Cray, Sun เคยทำกันในยุค 60~90 มากกว่า
      ประวัติศาสตร์อาจไม่ซ้ำรอย แต่ก็มักมีจังหวะคล้ายกัน และความพยายามเหล่านี้ก็น่าจะเดินตามเส้นทางแบบเดียวกัน
  • เมื่อดูจากความเร็วของพัฒนาการ AI และสถานการณ์ที่ AI ช่วยสร้าง AI ที่เร็วและดีกว่าเดิม ก็อดสงสัยไม่ได้ว่าฮาร์ดแวร์แบบนี้จะล้าสมัยก่อนคืนทุนได้จริงหรือไม่
    ตอนนี้เราก็รันโมเดล AI ขนาดใหญ่ด้วยทรัพยากรที่น้อยลงได้แล้วผ่าน quantization และ offloading แต่นั่นยังเป็นแค่จุดเริ่มต้น
    สักวันหนึ่ง ซึ่งอาจไม่ไกลนัก อาจมีจุดเปลี่ยนที่ทำให้ LLM ระดับ 200B รันได้ดีบน Dell เดสก์ท็อปอายุ 5 ปี
    ฟังดูบ้าหน่อย แต่ลองดูขนาดของฮาร์ดดิสก์ยุคแรก
    IBM 350 เป็นดิสก์ที่มี platter ขนาดเส้นผ่านศูนย์กลาง 24 นิ้วจำนวน 50 แผ่น เก็บข้อมูลได้ 3.5Mb และถูกให้เช่าในมูลค่า 35,000 ดอลลาร์เมื่อคิดเป็นเงินปัจจุบัน
    https://www.computerhistory.org/storageengine/first-commerci...
    ลองเทียบกับ SSD ระดับหลาย TB และลองนึกว่าถ้าเอาการพัฒนาแบบเดียวกันมาใช้กับสถาปัตยกรรม LLM ปัจจุบันและวิธีการรันจะเป็นอย่างไร
    ยิ่งมี AI เข้ามาช่วยด้วย ก็อาจเกิดการก้าวกระโดดในไม่ช้า และศูนย์ข้อมูลที่วันนี้เต็มไปด้วยการ์ด Nvidia ระดับล้ำสมัยอาจกลายเป็นของเก่าแทบชั่วข้ามคืน

    • ถ้ามีจุดเปลี่ยนแบบนั้น ก็อาจใช้วิธีเดียวกันรัน โมเดล 200T ในดาต้าเซ็นเตอร์ปัจจุบันได้เหมือนกันไม่ใช่หรือ
    • เป็นความคิดที่น่าสนใจ แต่การเทียบกับฮาร์ดดิสก์อาจไม่ยุติธรรมนัก
      IBM 350 ออกสู่เชิงพาณิชย์เมื่อ 70 ปีก่อน และกว่าจะมาถึงจุดที่มีคนเอามาเทียบกับ SSD หลาย TB ได้ก็ใช้เวลา 70 ปี
      อีกอย่างก็ไม่มีอะไรรับประกันว่า กฎของมัวร์ จะใช้กับ LLM ไปอีกหลายทศวรรษแน่นอน
    • เพราะ Jevons paradox และ scaling laws จึงดูไม่น่าเป็นแบบนั้น
      ถ้าโมเดลที่ใหญ่กว่าดีกว่าเสมอ ซึ่งก็ดูเหมือนจะเป็นเช่นนั้น เราก็จะต้องการ ฮาร์ดแวร์สมรรถนะสูง อยู่เสมอ
    • ความก้าวหน้าด้านคอมพิวติ้งโดยปกติไม่ได้ทำให้การใช้คอมพิวติ้งลดลง แต่กลับทำให้เพิ่มขึ้น
    • สักวันหนึ่งน่าจะมี ฮาร์ดแวร์เฉพาะทาง สำหรับ LLM ที่ไม่ใช่ GPU
      TPU มีอยู่ก็จริง แต่ส่วนใหญ่ใช้ในดาต้าเซ็นเตอร์ และ GPU เองก็เดิมทีเป็นของที่ปรับมาจากงานกราฟิก
      ถ้าความต้องการจากดาต้าเซ็นเตอร์เริ่มแห้งลง นวัตกรรมจริงจังอาจเริ่มขึ้น
  • มีประเด็นหนึ่งที่ยังไม่ค่อยถูกพูดถึงตรงนี้
    ในบทสัมภาษณ์ Hock Tan ซีอีโอ Broadcom บอกว่า accelerator ตัวนี้แสดงให้เห็นถึง การลดต้นทุนราว 50% เมื่อเทียบกับหน่วยประมวลผลกราฟิก AI ทั่วไปในปัจจุบัน [0]
    ภาพรวมเปลี่ยนเร็วเกินไปและยังมีผลไม้ที่เด็ดได้ง่ายอีกมาก ทำให้การถกเถียงว่าใครจะมี moat หรือจะคืนทุนได้หรือไม่ ดูแทบไม่มีความหมาย
    [0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...

    • ถ้า margin ของ GPU อยู่ที่ 75% การที่ถูกกว่าราว 50% ก็ไม่น่าแปลกใจ
    • คำว่า “ทั่วไป” มีบทบาทมาก
      มันอาจหมายถึงชิปที่เก่ากว่าชิปที่ Nvidia ขายอยู่ตอนนี้มากก็ได้
  • ถ้าบอกว่า “ตั้งเป้าปล่อยใช้งานระยะแรกปลายปี 2026 แล้วค่อยขยายต่อในช่วงหลายปีหลังจากนั้น” ก็ดูเหมือนว่าจะถูกใส่เป็น คำสัญญาในอนาคต ตัวใหญ่ ๆ ในเอกสารขาย IPO หลัง IPO
    อะไรก็ตามที่ประกาศก่อน IPO ผมมองด้วยความระแวง

    • เนื้อเรื่องมันให้ความรู้สึกเหมือนลูกเล่นก่อน IPO และหน้าตาก็ดันเหมือนฝาตะกร้าซักผ้า
      ถ้าจะเป็นของหลอกก็ไม่แปลกใจ
    • ไม่แน่ใจว่าเป็น IPO ของใคร
      Broadcom กับ Google แน่นอนว่าเข้าตลาดไปแล้ว
  • Microsoft, Google, Amazon ก็ทำเรื่องแบบนี้เหมือนกัน แต่พวกเขามี โครงสร้างพื้นฐานดาต้าเซ็นเตอร์ระดับ hyperscale สำหรับโฮสต์ชิปเหล่านี้ด้วย
    การออกแบบชิปและ tape-out เป็นคนละสแตกกับการแพ็กเกจ การระบายความร้อน การ deploy การจ่ายไฟ และการจัดการ fleet โดยสิ้นเชิง
    เลยสงสัยว่าพวกเขาจะไปเอาส่วนนี้มาจากไหน

    • อย่าลืม Stargate
      อัปเดต: มีคนบน Twitter บอกว่าจะโฮสต์โดย Microsoft และ Oracle แบบ 50:50
  • ก่อนหน้านี้เคยให้ Opus 4.5 ออกแบบ LLM inference engine บน Verilog รวมถึงเฟิร์มแวร์และการตรวจสอบอัตโนมัติด้วย: https://github.com/cpldcpu/smollm.c
    แน่นอนว่ายังห่างไกลจากคำว่า optimal แต่ก็ยืนยันได้ว่าการลดระดับ abstraction ลงไปจนถึงตัว implementation นั้นทรงพลังมาก

    • อยากรู้ว่ามีใครแนะนำทิวทอเรียลที่คุ้มค่าแก่การเรียนสำหรับ Verilog และ FPGA โดยรวมได้บ้างไหม
      ผมยังมี Tang Nano 9k เหลืออยู่ตัวหนึ่ง แต่ยังไม่มั่นใจพอที่จะให้ Claude แก้ปัญหาด้วยการ vibe coding แบบล้วน ๆ และอยากมีความเข้าใจพื้นฐานขั้นต่ำก่อน