- MVDRAM เป็นระบบที่เร่งการทำงาน GeMV สำหรับการอนุมาน Low-Bit LLM โดยใช้ DRAM แบบไม่ดัดแปลง
- ใช้ DRAM เป็นเอนจิน GeMV เพื่อให้ได้ throughput สูง
- ขจัดต้นทุนของการจัดเรียงอินพุตล่วงหน้าและการสลับบิตเอาต์พุตของแนวทาง PUD แบบเดิม
- ผลการทดลองแสดงให้เห็นว่ามีประสิทธิภาพเหนือกว่าการใช้งานบนโปรเซสเซอร์ใน Low-Bit LLM
- นำเสนอความเป็นไปได้ใหม่สำหรับฮาร์ดแวร์ AI
MVDRAM: การเร่ง Low-Bit LLM ด้วย DRAM แบบไม่ดัดแปลง
- การทำงาน GeMV ยังคงเป็นคอขวดด้านเวลาแฝงที่สำคัญในการอนุมานของโมเดลภาษาขนาดใหญ่ (LLM)
- Processing-Using-DRAM (PUD) มีศักยภาพในการนำ DRAM มาใช้ใหม่เป็นเอนจิน GeMV
- อย่างไรก็ตาม เมื่อนำ PUD ไปใช้กับไปป์ไลน์การอนุมาน LLM จะเกิดโอเวอร์เฮดอย่างมาก
แนวทางที่ล้ำสมัยของ MVDRAM
- MVDRAM ประสานการทำงานระหว่างโปรเซสเซอร์และ DRAM โดยอาศัย รูปแบบการแชร์ข้อมูล และ ความเป็นเชิงเส้นทางคณิตศาสตร์
- เร่งการทำงาน GeMV โดยขจัดต้นทุนของแนวทาง PUD แบบเดิม
ผลการทดลอง
- ในการทดลองที่ใช้โมดูล DDR4 DRAM จำนวน 4 โมดูล MVDRAM แสดงประสิทธิภาพเหนือกว่าการใช้งานบนโปรเซสเซอร์ใน LLM แบบ low-bit (4 บิตหรือต่ำกว่า)
- ทำความเร็วได้สูงสุด 7.29 เท่า และมีประสิทธิภาพด้านพลังงานสูงขึ้น 30.5 เท่า
การปรับปรุงโดยรวมของการอนุมาน LLM
- ในโมเดล low-bit ที่ควอนไทซ์เป็น 2 บิตและ 4 บิต มีการปรับปรุง throughput 2.18 เท่า และ 1.31 เท่า ตามลำดับ
- ประสิทธิภาพด้านพลังงานก็ดีขึ้น 3.04 เท่า และ 2.35 เท่า ตามลำดับ
ความเป็นไปได้ใหม่ของฮาร์ดแวร์ AI
- MVDRAM พิสูจน์ให้เห็นถึงความเป็นไปได้ในการใช้ DRAM มาตรฐานเป็นตัวเร่ง LLM
- มีศักยภาพในการเปิดขอบเขตใหม่ให้กับฮาร์ดแวร์ AI
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
มีข้อมูลเกี่ยวกับหนึ่งในข้อเสนอช่วงแรก ๆ สำหรับการประมวลผลภายใน DRAM
มีคนสังเกตว่ารายชื่อผู้เขียนของเอกสารอ้างอิง 1 และ 3 ยาวมาก
สามารถทำให้เกิดการประมวลผลแบบขนานขนาดใหญ่ได้ด้วยการส่งคำสั่ง DRAM โดยจงใจละเมิดพารามิเตอร์ด้านเวลา (timing parameters) ที่ผู้ผลิตกำหนด
ไอเดียนี้มีความแปลกใหม่และสร้างสรรค์มาก
การอาศัยบั๊กในโลกฮาร์ดแวร์อาจเป็นเรื่องเสี่ยง
มีการทำการคำนวณเมทริกซ์โดยตรงภายใน DRAM เอง
มีการกล่าวถึงการคูณเมทริกซ์-เวกเตอร์ทั่วไป (GeMV)
มีความเห็นว่าการไม่อ้างอิงแหล่งต้นฉบับ Intelligent RAM (IRAM) ดั้งเดิมจากปี 1997 เป็นเรื่องที่ไม่เป็นวิทยาศาสตร์
มีคนสงสัยว่าการคูณเมทริกซ์และงานคำนวณอื่น ๆ จะย้ายจาก CPU แบบดั้งเดิมไปอยู่ใน DRAM ได้หรือไม่
นี่อาจเป็นวิธีที่ยอดเยี่ยมในการสร้างอุปกรณ์อนุมานราคาประหยัดสำหรับ LLM ขนาดใหญ่