วิธีของ Taalas ในการ ‘พิมพ์’ LLM ลงบนชิป

(anuragk.com)

23 คะแนน โดย GN⁺ 2026-02-23 | 5 ความคิดเห็น | แชร์ทาง WhatsApp

Taalas เป็นสตาร์ทอัพที่สลักโมเดล Llama 3.1 8B ลงบน ชิป ASIC โดยตรง และทำความเร็วในการอนุมานได้ 17,000 โทเค็นต่อวินาที
อ้างว่ามีต้นทุน ถูกกว่า 10 เท่า ใช้พลังงานน้อยกว่า 10 เท่า และมี ประสิทธิภาพการอนุมานเร็วกว่า 10 เท่า เมื่อเทียบกับระบบที่ใช้ GPU
ใช้สถาปัตยกรรมที่ สลักน้ำหนักของโมเดลลงเป็นทรานซิสเตอร์ซิลิคอนโดยตรง เพื่อตัดคอขวดด้านหน่วยความจำของ GPU
โดยไม่ใช้ DRAM/HBM ภายนอก แต่ใช้เพียง SRAM ภายในชิปในการจัดการ KV cache และ LoRA adapter
การผลิตชิปสำหรับแต่ละโมเดลใช้วิธีปรับแต่งเฉพาะสองเลเยอร์บนสุดเท่านั้น และสามารถ สร้างชิปสำหรับ Llama 3.1 ได้เสร็จภายใน 2 เดือน

ภาพรวมของชิป Taalas

Taalas เป็นบริษัทที่ก่อตั้งมาได้ 2.5 ปี และชิปตัวนี้คือ ผลิตภัณฑ์ตัวแรก ของบริษัท
ชิปเป็น ASIC แบบฟังก์ชันตายตัว ที่เก็บได้เพียงโมเดลเดียวและไม่สามารถเขียนใหม่ได้
- มีโครงสร้างแบบ เฉพาะสำหรับโมเดลเดียว คล้าย CD-ROM หรือเกมคาร์ทริดจ์

ความไม่มีประสิทธิภาพของการอนุมาน LLM บน GPU

LLM ประกอบด้วย หลายเลเยอร์ (layer) และตัวอย่างเช่น Llama 3.1 8B มี 32 เลเยอร์
GPU จะทำงานโดยดึง เมทริกซ์น้ำหนัก ของแต่ละเลเยอร์จาก VRAM มาคำนวณ แล้วเก็บกลับซ้ำไปมา
- กระบวนการนี้ต้องทำซ้ำ 32 ครั้งทุกครั้งที่สร้างโทเค็นหนึ่งตัว
การไปกลับของหน่วยความจำ แบบนี้ทำให้เกิดความหน่วงและการใช้พลังงานสูง ซึ่งเรียกว่า คอขวดแบนด์วิดท์หน่วยความจำ หรือ คอขวดแบบ Von Neumann

แนวทางแบบ ‘ฮาร์ดไวร์’ ของ Taalas

Taalas สลัก 32 เลเยอร์ของ Llama 3.1 เรียงลำดับต่อเนื่องลงบนซิลิคอน
- น้ำหนักของโมเดลถูกทำให้เป็น ทรานซิสเตอร์จริงทางกายภาพ
เมื่อเวกเตอร์อินพุตเข้ามา มันจะผ่านทรานซิสเตอร์ของแต่ละเลเยอร์และถูก ประมวลผลต่อเนื่องในรูปแบบสัญญาณไฟฟ้า
- โดยไม่ต้องเก็บผลลัพธ์ระหว่างทางลง VRAM แต่ส่งต่อไปยังเลเยอร์ถัดไปทันทีตาม สายส่ง (pipeline registers)
บริษัทระบุว่าได้พัฒนาโครงสร้าง ‘magic multiplier’ ที่สามารถ เก็บข้อมูล 4 บิตและทำการคูณได้ด้วยทรานซิสเตอร์เพียงตัวเดียว

โครงสร้างหน่วยความจำ

ไม่ใช้ DRAM/HBM ภายนอก แต่ติดตั้ง SRAM ปริมาณเล็กน้อย ไว้ภายในชิปแทน
- เพราะการผลิต DRAM ร่วมกับลอจิกเกตในกระบวนการเดียวกันทำได้ยาก
SRAM บนชิป นี้ใช้สำหรับเก็บ KV cache (หน่วยความจำชั่วคราวระหว่างการสนทนา) และ LoRA adapter

วิธีสร้างชิปสำหรับแต่ละโมเดล

โดยทั่วไปการสร้างชิปใหม่สำหรับแต่ละโมเดลมี ต้นทุนสูง
Taalas ออกแบบ โครงสร้างชิปพื้นฐานให้ใช้ร่วมกัน แล้วปรับแก้เฉพาะ สองเลเยอร์บนสุด (mask) ให้ตรงกับโมเดลนั้น
- เป็นวิธีที่เร็วกว่าการสร้างชิปใหม่ทั้งหมดมาก
การพัฒนาชิปสำหรับ Llama 3.1 8B ใช้เวลา ประมาณ 2 เดือน
- แม้จะช้าถ้ามองตามมาตรฐานอุตสาหกรรม AI แต่ถือว่า เร็วมากในแง่ความเร็วของการผลิตชิปแบบคัสตอม

ความคาดหวังในอนาคต

สำหรับผู้ใช้ที่ต้องการรันโมเดลแบบโลคัลโดยไม่พึ่ง GPU ก็มีความหวังว่าจะได้เห็น การผลิตฮาร์ดแวร์ลักษณะนี้ในปริมาณมาก

5 ความคิดเห็น

GN⁺ 2026-02-23

ความเห็นจาก Hacker News

ค่าสัมประสิทธิ์ (coefficients) 8B ถูกแพ็กอยู่ในทรานซิสเตอร์ 53B ตัว เท่ากับใช้ทรานซิสเตอร์ประมาณ 6.5 ตัวต่อค่าสัมประสิทธิ์
ดูเหมือนว่าจะใช้ block quantization เช่น ถ้าเป็นบล็อกที่มีค่าสัมประสิทธิ์ 3 บิต 4 ตัว ก็จะต้องมีบล็อกที่แตกต่างกันเพียง 330 แบบ
เมทริกซ์ของ Llama 3.1 มีขนาด 4096x4096 หรือก็คือมีค่าสัมประสิทธิ์ 16 ล้านตัว ซึ่งมองว่าสามารถบีบอัดลงเหลือ 330 บล็อกได้
ถ้าสมมติว่างบทรานซิสเตอร์ต่อบล็อกอยู่ที่ประมาณ 250,000 ตัว ก็จะคำนวณได้ว่าประมาณ 5 ทรานซิสเตอร์ต่อค่าสัมประสิทธิ์ แม้ในระดับ FP4 ก็ดูทำได้จริงเพียงพอ
- หวังว่า PyTorch จะมีฟีเจอร์อย่าง model.toVHDL()
กลับรู้สึกแปลกใจกว่าที่คนยังประหลาดใจกับความเป็นไปได้ของเรื่องนี้
ที่ GPU เกิดขึ้นมาได้ก็สุดท้ายเป็นผลจากการ ย้ายการคำนวณในซอฟต์แวร์ไปไว้บนฮาร์ดแวร์ LLM ก็มีโครงสร้างทางคณิตศาสตร์แบบเดียวกัน จึงมองว่านี่เป็นวิวัฒนาการที่เป็นธรรมดา
- เหตุผลที่คนแปลกใจน่าจะเป็นเรื่อง จังหวะของ ROI มากกว่า จุดสำคัญคือเมื่อไรการ tape-out ชิปเฉพาะสำหรับโมเดลจะเริ่มคุ้มทุน และสถาปัตยกรรม MoE ก็น่าจะโยนโจทย์ใหม่เข้ามาในกระบวนการนี้
- นี่ไม่ใช่การเทียบ CPU กับ GPU แต่เป็นการเทียบ CPU/GPU กับ ASIC ASIC ได้เปรียบด้านความเร็ว พลังงาน และต้นทุน แต่ก็ออกแบบยากและโปรแกรมใหม่ไม่ได้ สำหรับฟังก์ชันที่ไวต่อประสิทธิภาพอย่าง LLM นั้น ASIC เหมาะมาก
- วิธี ฝัง weights ลงไปในเกตโดยตรง นั้นเป็นแนวทางใหม่ชัดเจน คำว่า “Weights to gates” เข้ากับมันดี
- แต่ปัญหาคือความยืดหยุ่นต่ำ รับมือกับความต้องการของดาต้าเซ็นเตอร์ที่เปลี่ยนไปหรือโมเดลใหม่ได้ยาก ถึงอย่างนั้นในงานอย่าง โดรนหรือกลาโหม ที่ประสิทธิภาพพลังงานและความเร็วสำคัญมาก มันก็ดูใช้งานได้จริง
- คิดว่า Nvidia ก็น่าจะทดลองอะไรแบบนี้อยู่แน่นอน ตอนนี้อาจยังเร็วเกินไปในเชิงพาณิชย์ แต่ทิศทางไปสู่ ฮาร์ดแวร์ AI ที่เน้นประสิทธิภาพ นั้นชัดเจนแล้ว
มากกว่าฟอร์มแฟกเตอร์ นวัตกรรมที่แท้จริงคือ latency
การทำ inference บนคลาวด์มีแค่ overhead ของเครือข่ายก็ 50~200ms แล้ว แต่ ASIC เฉพาะทางที่เสียบผ่าน PCIe สามารถปล่อยโทเค็นแรกได้ในระดับไมโครวินาที
สำหรับการสร้างวิดีโอแบบเรียลไทม์หรือเอเจนต์ที่ต้องการการตอบสนองต่ำกว่า 100ms เรื่องนี้ชี้ขาดได้เลย ต้นทุนอาจสูงกว่า GPU แต่ก็ทำให้เกิด แอปพลิเคชันเรียลไทม์แบบใหม่ ได้
- ไม่ใช่แค่ latency แต่ ความน่าเชื่อถือของแบนด์วิดท์และอำนาจการควบคุม ก็สำคัญเช่นกัน การประมวลผลแบบรวมศูนย์กับแบบโลคัลแข่งขันกันมาตลอด บริษัทต้องการการควบคุม ส่วนผู้ใช้ต้องการอิสระ สุดท้ายตลาดก็จะยังมีความต้องการแบบ “ฉันอยากควบคุมคอมพิวเตอร์ของตัวเองได้ทั้งหมด” อยู่เสมอ
- สงสัยว่าในความเป็นจริงบริการ AI ถูกเสิร์ฟจากที่ไหนกันแน่ เช่น เวลาใช้ Claude จากลอนดอน ก็ยากจะรู้ว่าคำขอถูกส่งไปที่ไหน ถ้ามี เครือข่าย edge สำหรับ LLM ก็คงจะดีมาก และ ASIC อาจทำให้เรื่องนั้นเป็นไปได้
อนาคตที่โมเดลอย่าง Gemma 5 Mini รันตรงบนฮาร์ดแวร์โลคัล นั้นน่าสนใจมาก
อาจมี “AI core” สำหรับโมเดลเฉพาะแบบเดียวกับ H.264 หรือ AV1 encoder ก็ได้
ต้นทุนก็อาจลดลงได้ด้วย Structured ASIC platform ที่อาจเปิดยุคของ ASIC เชิงโครงสร้างขึ้นมาอีกครั้ง
- เหตุผลที่บริษัทใหญ่ยังไม่ค่อยสนใจเรื่องนี้น่าจะมีสองข้อ ข้อแรกคือความก้าวหน้าของ AI เร็วมาก จนกว่าชิปจะผลิตจำนวนมากได้ มันอาจ ล้าสมัยไปแล้ว ข้อสองคือโครงสร้างธุรกิจที่เน้น โมเดลสมัครสมาชิกบนคลาวด์ และการเก็บข้อมูลนั้นไม่ค่อยเข้ากับชิปออฟไลน์
- คิดว่า Apple ควร เริ่มทำเรื่องนี้ตั้งแต่เมื่อวานแล้ว อนาคตที่ต้องการจริง ๆ คือ AI ที่รันแบบโลคัลเต็มรูปแบบบนมือถือหรือ MacBook ของฉัน ส่วน AI บนคลาวด์นั้นดูเหมือนเศษซากจากยุค AOL
- แม้แต่ ASIC แบบโปรแกรมได้ อย่าง Cerebras หรือ Groq ที่เร็วกว่า GPU หลายเท่าก็ยังแทบไม่ถูกตลาดตอบรับ
มันทำให้นึกถึงชิปที่บรรจุได้แค่โมเดลเดียว เหมือน CD-ROM หรือเกมคาร์ทริดจ์ โดยเปลี่ยนโมเดลด้วยการเสียบสลอตเข้าคอมพิวเตอร์
- สลอตนั้นในทางปฏิบัติก็คงเป็น USB-C นี่เอง นึกภาพการเสียบ inference ASIC ในรูปแบบ power bank แล้วใช้งาน
- อยากได้ อุปกรณ์โมเดลโลคัลที่วางไว้ใต้โต๊ะ แบบ eGPU สมัยก่อน ออฟไลน์เต็มรูปแบบและความเป็นส่วนตัวสมบูรณ์
- ฮาร์ดแวร์แบบนี้จะช่วยสนับสนุน โมเดล open-weight และเพิ่มความเป็นส่วนตัวได้ด้วย แถมยังอาจทำ MoE แบบฮาร์ดแวร์ ได้ เช่น หุ่นยนต์เปลี่ยนคาร์ทริดจ์โมเดลตามงานที่ทำ
- คาร์ทริดจ์โมเดลเฉพาะน่าจะให้ประสิทธิภาพ/พลังงานดีกว่ามาก แต่ก็ยังสงสัยว่าจะคุ้มในตลาดผู้บริโภคหรือไม่
- การใช้พลังงานคืออีกตัวแปรหนึ่ง ถ้าสำหรับใช้งานในบ้านทำได้ที่ 2.5W และ 170 โทเค็นต่อวินาทีก็คงยอดเยี่ยมมาก และความก้าวหน้าแบบนี้วันหนึ่งอาจพาไปถึง สมองโพซิโทรนิก ได้
ถ้า พิมพ์ ASIC ได้ในราคาถูก จริง วิธีใช้โมเดลก็คงเปลี่ยนไปโดยสิ้นเชิง
โมเดลอาจถูกขายในรูปอุปกรณ์ USB และถ้าเป็นโมเดลหนาแน่นที่มีพารามิเตอร์ต่ำกว่า 20B ก็เพียงพอสำหรับผู้ช่วยส่วนตัวแล้ว
มันให้ความรู้สึกเหมือน การกลับมาของการ์ดจอ ตอนนี้มีโมเดล open-weight มากขึ้น และตลาดใหญ่ก็อาจเปิดกว้างได้แม้ต้นทุนซื้อและต้นทุนใช้งานจะต่ำ
สงสัยว่าถ้าเป็นสถาปัตยกรรม MoE จะทำงานอย่างไร
LLM แบบหนาแน่นได้ประโยชน์จากการวางน้ำหนักทั้งหมดไว้ใกล้กัน แต่ MoE เป็นงานที่ เน้นการเข้าถึงหน่วยความจำ จึงเกิดความไม่สมดุลระหว่าง MAC กับหน่วยความจำ และสุดท้ายมีโอกาสสูงที่จะย้อนกลับไปใช้ แนวทาง chiplet
- TPUv4 ของ Google ใช้ Optical Circuit Switch สร้างโครงแบบ 3D torus และรีไวร์แบบไดนามิกให้เข้ากับแพตเทิร์นการสื่อสารของ MoE เชื่อมชิป 4,096 ตัวเป็นพ็อดเดียว และใช้ SparseCore จัดการการเข้าถึงหน่วยความจำแบบไม่ต่อเนื่อง เรื่องนี้เป็นสเกลดาต้าเซ็นเตอร์ก็จริง แต่ก็น่าสนใจในฐานะ ตัวอย่างของความสามารถในการขยายสเกล
- ถ้าสลักแต่ละโมเดล Expert ลงในซิลิคอน ความเร็วคงมหาศาลมาก สุดท้ายข้อจำกัดใหญ่ที่สุดก็คือ ต้นทุนการพิมพ์ ASIC
คิดว่าสักวันหนึ่ง การ์ดขยาย PCIe สำหรับ AI โดยเฉพาะ จะกลายเป็นกระแสหลัก
เหมือนการ์ดจอหรือการ์ดเสียงในอดีต พอมีโมเดลใหม่ออกมาก็เปลี่ยนการ์ดเพื่ออัปเกรด “สติปัญญา” ของพีซี
- มองว่าทิศทางนี้แทบจะเป็น วิวัฒนาการที่หลีกเลี่ยงไม่ได้ ภาครัฐหรือองค์กรใหญ่จะเป็นฝ่ายต้องการก่อน แล้วสุดท้ายก็กระจายมาสู่ตลาดผู้บริโภค
  โลกคอมพิวติ้งวนอยู่กับวัฏจักร โลคัล vs เซิร์ฟเวอร์ มาตลอด แต่ความต้องการแบบ on-premises จะไม่มีวันหายไป
สุดท้ายก็คงได้เห็นเมนบอร์ดที่มี สล็อตชิป AI หรือไม่ก็อุปกรณ์ต่อพ่วง AI ที่เสียบเข้าพอร์ตความเร็วสูง
สงสัยว่าผู้ผลิตอย่าง Apple จะสามารถ ฝังชิปแบบนี้ในตัวเครื่องโดยตรง ได้ภายใน 3 ปีหรือไม่ อยากเห็นประสิทธิภาพแบบโลคัลที่เร็วมากในระดับโมเดลปัจจุบัน
- จะอัปเดตโมเดลด้วย หน่วยความจำแบบโมดูลาร์ (diff) ได้หรือเปล่า? สงสัยว่าประสิทธิภาพจะลดลงมากไหม
- แต่การรัน โมเดลที่ล้าสมัย ไปอีก 3 ปีอาจไม่มีความหมายเลยก็ได้ เพราะความก้าวหน้ามันเร็วเกินไป

dolsangodkimchi 2026-03-04

ทำให้นึกถึงความแตกต่างระหว่างการทำแคลคูลัสแบบดิจิทัลกับการทำแคลคูลัสแบบแอนะล็อกเลยครับ

chcv0313 2026-03-04

ถ้าใช้วิธีนี้ทำโมเดล text embedding แทนโมเดล LLM ก็น่าจะดีนะครับ

bungker 2026-03-04

จริงครับ พอทำครั้งเดียวก็ใช้ต่อได้เรื่อย ๆ

parkindani 2026-02-23

ถ้า AI ช่วยเร่งความเร็วในการออกแบบและพัฒนาชิปใหม่ได้ นี่อาจเป็นอนาคตจริง ๆ ก็ได้นะครับ ทำให้นึกถึงช่วงราว 25 ปีก่อนตอนที่ประสิทธิภาพฮาร์ดแวร์พุ่งขึ้นแบบแข่งขันกันเลยด้วย