Addition สำหรับโมเดลภาษาแบบประหยัดพลังงาน
-
พื้นหลังของงานวิจัย
- โครงข่ายประสาทขนาดใหญ่ใช้การคำนวณส่วนใหญ่ไปกับการคูณเทนเซอร์แบบ floating-point
- งานวิจัยนี้ค้นพบว่าสามารถประมาณตัวคูณแบบ floating-point ด้วยตัวบวกจำนวนเต็มเพียงตัวเดียวได้ด้วยความแม่นยำสูง
-
อัลกอริทึม L-Mul
- เสนอ L-Mul ซึ่งเป็นอัลกอริทึมการคูณที่มีความซับซ้อนเชิงเส้น สำหรับประมาณการคูณของจำนวนแบบ floating-point ด้วยการบวกจำนวนเต็ม
- อัลกอริทึมใหม่นี้ใช้ทรัพยากรการคำนวณน้อยกว่าการคูณ floating-point แบบ 8 บิต แต่ให้ความแม่นยำสูงกว่า
- เนื่องจากการคูณจำนวนแบบ floating-point ใช้พลังงานสูงกว่าการบวกจำนวนเต็มอย่างมาก การนำการคำนวณ L-Mul ไปใช้กับฮาร์ดแวร์ประมวลผลเทนเซอร์จึงสามารถลดต้นทุนพลังงานของการคูณเทนเซอร์แบบ floating-point รายองค์ประกอบได้สูงสุด 95% และลดต้นทุนพลังงานของ inner product ได้สูงสุด 80%
-
การประเมินเชิงทฤษฎีและเชิงทดลอง
- คำนวณค่าคาดหมายของความคลาดเคลื่อนเชิงทฤษฎีของ L-Mul และประเมินอัลกอริทึมนี้กับงานด้านข้อความ ภาพ และสัญลักษณ์ที่หลากหลาย เช่น การทำความเข้าใจภาษาธรรมชาติ การให้เหตุผลเชิงโครงสร้าง คณิตศาสตร์ และการตอบคำถามสามัญสำนึก
- ผลการทดลองด้านการวิเคราะห์เชิงตัวเลขสอดคล้องกับการประมาณค่าความคลาดเคลื่อนเชิงทฤษฎี โดย L-Mul แบบ mantissa 4 บิตให้ความแม่นยำใกล้เคียงกับการคูณ
float8_e4m3และ L-Mul แบบ mantissa 3 บิตทำได้ดีกว่าfloat8_e5m2 - ผลการประเมินบนเบนช์มาร์กที่น่าสนใจแสดงให้เห็นว่าการนำ L-Mul ไปใช้กับกลไก attention โดยตรงแทบไม่ทำให้เกิดการสูญเสีย
- เมื่อแทนที่การคูณแบบ floating-point ทั้งหมดในโมเดล Transformer ด้วย L-Mul แบบ mantissa 3 บิต จะได้ความแม่นยำในการ fine-tuning และการอนุมานเทียบเท่ากับการใช้
float8_e4m3เป็นความแม่นยำสะสม
สรุปโดย GN⁺
- อัลกอริทึม L-Mul นำเสนอวิธีที่สามารถเพิ่มประสิทธิภาพด้านพลังงานได้อย่างมาก ขณะเดียวกันก็ยังรักษาความแม่นยำในระดับสูง
- แสดงให้เห็นถึงความเป็นไปได้ในการแก้ปัญหาการใช้พลังงานของการคำนวณแบบ floating-point โดยเฉพาะอย่างยิ่งคาดว่าจะมีประโยชน์กับโมเดลโครงข่ายประสาทขนาดใหญ่
- งานวิจัยนี้อาจได้รับความสนใจอย่างมากในสาขาที่การประหยัดพลังงานเป็นเรื่องสำคัญ และโครงการอื่นที่มีแนวทางคล้ายกัน ได้แก่ TensorFlow Lite ของ Google
ยังไม่มีความคิดเห็น