- Taalas เป็นสตาร์ทอัพที่สลักโมเดล Llama 3.1 8B ลงบน ชิป ASIC โดยตรง และทำความเร็วในการอนุมานได้ 17,000 โทเค็นต่อวินาที
- อ้างว่ามีต้นทุน ถูกกว่า 10 เท่า ใช้พลังงานน้อยกว่า 10 เท่า และมี ประสิทธิภาพการอนุมานเร็วกว่า 10 เท่า เมื่อเทียบกับระบบที่ใช้ GPU
- ใช้สถาปัตยกรรมที่ สลักน้ำหนักของโมเดลลงเป็นทรานซิสเตอร์ซิลิคอนโดยตรง เพื่อตัดคอขวดด้านหน่วยความจำของ GPU
- โดยไม่ใช้ DRAM/HBM ภายนอก แต่ใช้เพียง SRAM ภายในชิปในการจัดการ KV cache และ LoRA adapter
- การผลิตชิปสำหรับแต่ละโมเดลใช้วิธีปรับแต่งเฉพาะสองเลเยอร์บนสุดเท่านั้น และสามารถ สร้างชิปสำหรับ Llama 3.1 ได้เสร็จภายใน 2 เดือน
ภาพรวมของชิป Taalas
- Taalas เป็นบริษัทที่ก่อตั้งมาได้ 2.5 ปี และชิปตัวนี้คือ ผลิตภัณฑ์ตัวแรก ของบริษัท
- ชิปเป็น ASIC แบบฟังก์ชันตายตัว ที่เก็บได้เพียงโมเดลเดียวและไม่สามารถเขียนใหม่ได้
- มีโครงสร้างแบบ เฉพาะสำหรับโมเดลเดียว คล้าย CD-ROM หรือเกมคาร์ทริดจ์
ความไม่มีประสิทธิภาพของการอนุมาน LLM บน GPU
- LLM ประกอบด้วย หลายเลเยอร์ (layer) และตัวอย่างเช่น Llama 3.1 8B มี 32 เลเยอร์
- GPU จะทำงานโดยดึง เมทริกซ์น้ำหนัก ของแต่ละเลเยอร์จาก VRAM มาคำนวณ แล้วเก็บกลับซ้ำไปมา
- กระบวนการนี้ต้องทำซ้ำ 32 ครั้งทุกครั้งที่สร้างโทเค็นหนึ่งตัว
- การไปกลับของหน่วยความจำ แบบนี้ทำให้เกิดความหน่วงและการใช้พลังงานสูง ซึ่งเรียกว่า คอขวดแบนด์วิดท์หน่วยความจำ หรือ คอขวดแบบ Von Neumann
แนวทางแบบ ‘ฮาร์ดไวร์’ ของ Taalas
- Taalas สลัก 32 เลเยอร์ของ Llama 3.1 เรียงลำดับต่อเนื่องลงบนซิลิคอน
- น้ำหนักของโมเดลถูกทำให้เป็น ทรานซิสเตอร์จริงทางกายภาพ
- เมื่อเวกเตอร์อินพุตเข้ามา มันจะผ่านทรานซิสเตอร์ของแต่ละเลเยอร์และถูก ประมวลผลต่อเนื่องในรูปแบบสัญญาณไฟฟ้า
- โดยไม่ต้องเก็บผลลัพธ์ระหว่างทางลง VRAM แต่ส่งต่อไปยังเลเยอร์ถัดไปทันทีตาม สายส่ง (pipeline registers)
- บริษัทระบุว่าได้พัฒนาโครงสร้าง ‘magic multiplier’ ที่สามารถ เก็บข้อมูล 4 บิตและทำการคูณได้ด้วยทรานซิสเตอร์เพียงตัวเดียว
โครงสร้างหน่วยความจำ
- ไม่ใช้ DRAM/HBM ภายนอก แต่ติดตั้ง SRAM ปริมาณเล็กน้อย ไว้ภายในชิปแทน
- เพราะการผลิต DRAM ร่วมกับลอจิกเกตในกระบวนการเดียวกันทำได้ยาก
- SRAM บนชิป นี้ใช้สำหรับเก็บ KV cache (หน่วยความจำชั่วคราวระหว่างการสนทนา) และ LoRA adapter
วิธีสร้างชิปสำหรับแต่ละโมเดล
- โดยทั่วไปการสร้างชิปใหม่สำหรับแต่ละโมเดลมี ต้นทุนสูง
- Taalas ออกแบบ โครงสร้างชิปพื้นฐานให้ใช้ร่วมกัน แล้วปรับแก้เฉพาะ สองเลเยอร์บนสุด (mask) ให้ตรงกับโมเดลนั้น
- เป็นวิธีที่เร็วกว่าการสร้างชิปใหม่ทั้งหมดมาก
- การพัฒนาชิปสำหรับ Llama 3.1 8B ใช้เวลา ประมาณ 2 เดือน
- แม้จะช้าถ้ามองตามมาตรฐานอุตสาหกรรม AI แต่ถือว่า เร็วมากในแง่ความเร็วของการผลิตชิปแบบคัสตอม
ความคาดหวังในอนาคต
- สำหรับผู้ใช้ที่ต้องการรันโมเดลแบบโลคัลโดยไม่พึ่ง GPU ก็มีความหวังว่าจะได้เห็น การผลิตฮาร์ดแวร์ลักษณะนี้ในปริมาณมาก
5 ความคิดเห็น
ความเห็นจาก Hacker News
ค่าสัมประสิทธิ์ (coefficients) 8B ถูกแพ็กอยู่ในทรานซิสเตอร์ 53B ตัว เท่ากับใช้ทรานซิสเตอร์ประมาณ 6.5 ตัวต่อค่าสัมประสิทธิ์
ดูเหมือนว่าจะใช้ block quantization เช่น ถ้าเป็นบล็อกที่มีค่าสัมประสิทธิ์ 3 บิต 4 ตัว ก็จะต้องมีบล็อกที่แตกต่างกันเพียง 330 แบบ
เมทริกซ์ของ Llama 3.1 มีขนาด 4096x4096 หรือก็คือมีค่าสัมประสิทธิ์ 16 ล้านตัว ซึ่งมองว่าสามารถบีบอัดลงเหลือ 330 บล็อกได้
ถ้าสมมติว่างบทรานซิสเตอร์ต่อบล็อกอยู่ที่ประมาณ 250,000 ตัว ก็จะคำนวณได้ว่าประมาณ 5 ทรานซิสเตอร์ต่อค่าสัมประสิทธิ์ แม้ในระดับ FP4 ก็ดูทำได้จริงเพียงพอ
model.toVHDL()กลับรู้สึกแปลกใจกว่าที่คนยังประหลาดใจกับความเป็นไปได้ของเรื่องนี้
ที่ GPU เกิดขึ้นมาได้ก็สุดท้ายเป็นผลจากการ ย้ายการคำนวณในซอฟต์แวร์ไปไว้บนฮาร์ดแวร์ LLM ก็มีโครงสร้างทางคณิตศาสตร์แบบเดียวกัน จึงมองว่านี่เป็นวิวัฒนาการที่เป็นธรรมดา
มากกว่าฟอร์มแฟกเตอร์ นวัตกรรมที่แท้จริงคือ latency
การทำ inference บนคลาวด์มีแค่ overhead ของเครือข่ายก็ 50~200ms แล้ว แต่ ASIC เฉพาะทางที่เสียบผ่าน PCIe สามารถปล่อยโทเค็นแรกได้ในระดับไมโครวินาที
สำหรับการสร้างวิดีโอแบบเรียลไทม์หรือเอเจนต์ที่ต้องการการตอบสนองต่ำกว่า 100ms เรื่องนี้ชี้ขาดได้เลย ต้นทุนอาจสูงกว่า GPU แต่ก็ทำให้เกิด แอปพลิเคชันเรียลไทม์แบบใหม่ ได้
อนาคตที่โมเดลอย่าง Gemma 5 Mini รันตรงบนฮาร์ดแวร์โลคัล นั้นน่าสนใจมาก
อาจมี “AI core” สำหรับโมเดลเฉพาะแบบเดียวกับ H.264 หรือ AV1 encoder ก็ได้
ต้นทุนก็อาจลดลงได้ด้วย Structured ASIC platform ที่อาจเปิดยุคของ ASIC เชิงโครงสร้างขึ้นมาอีกครั้ง
มันทำให้นึกถึงชิปที่บรรจุได้แค่โมเดลเดียว เหมือน CD-ROM หรือเกมคาร์ทริดจ์ โดยเปลี่ยนโมเดลด้วยการเสียบสลอตเข้าคอมพิวเตอร์
ถ้า พิมพ์ ASIC ได้ในราคาถูก จริง วิธีใช้โมเดลก็คงเปลี่ยนไปโดยสิ้นเชิง
โมเดลอาจถูกขายในรูปอุปกรณ์ USB และถ้าเป็นโมเดลหนาแน่นที่มีพารามิเตอร์ต่ำกว่า 20B ก็เพียงพอสำหรับผู้ช่วยส่วนตัวแล้ว
มันให้ความรู้สึกเหมือน การกลับมาของการ์ดจอ ตอนนี้มีโมเดล open-weight มากขึ้น และตลาดใหญ่ก็อาจเปิดกว้างได้แม้ต้นทุนซื้อและต้นทุนใช้งานจะต่ำ
สงสัยว่าถ้าเป็นสถาปัตยกรรม MoE จะทำงานอย่างไร
LLM แบบหนาแน่นได้ประโยชน์จากการวางน้ำหนักทั้งหมดไว้ใกล้กัน แต่ MoE เป็นงานที่ เน้นการเข้าถึงหน่วยความจำ จึงเกิดความไม่สมดุลระหว่าง MAC กับหน่วยความจำ และสุดท้ายมีโอกาสสูงที่จะย้อนกลับไปใช้ แนวทาง chiplet
คิดว่าสักวันหนึ่ง การ์ดขยาย PCIe สำหรับ AI โดยเฉพาะ จะกลายเป็นกระแสหลัก
เหมือนการ์ดจอหรือการ์ดเสียงในอดีต พอมีโมเดลใหม่ออกมาก็เปลี่ยนการ์ดเพื่ออัปเกรด “สติปัญญา” ของพีซี
โลกคอมพิวติ้งวนอยู่กับวัฏจักร โลคัล vs เซิร์ฟเวอร์ มาตลอด แต่ความต้องการแบบ on-premises จะไม่มีวันหายไป
สุดท้ายก็คงได้เห็นเมนบอร์ดที่มี สล็อตชิป AI หรือไม่ก็อุปกรณ์ต่อพ่วง AI ที่เสียบเข้าพอร์ตความเร็วสูง
สงสัยว่าผู้ผลิตอย่าง Apple จะสามารถ ฝังชิปแบบนี้ในตัวเครื่องโดยตรง ได้ภายใน 3 ปีหรือไม่ อยากเห็นประสิทธิภาพแบบโลคัลที่เร็วมากในระดับโมเดลปัจจุบัน
ทำให้นึกถึงความแตกต่างระหว่างการทำแคลคูลัสแบบดิจิทัลกับการทำแคลคูลัสแบบแอนะล็อกเลยครับ
ถ้าใช้วิธีนี้ทำโมเดล text embedding แทนโมเดล LLM ก็น่าจะดีนะครับ
จริงครับ พอทำครั้งเดียวก็ใช้ต่อได้เรื่อย ๆ
ถ้า AI ช่วยเร่งความเร็วในการออกแบบและพัฒนาชิปใหม่ได้ นี่อาจเป็นอนาคตจริง ๆ ก็ได้นะครับ ทำให้นึกถึงช่วงราว 25 ปีก่อนตอนที่ประสิทธิภาพฮาร์ดแวร์พุ่งขึ้นแบบแข่งขันกันเลยด้วย