1 คะแนน โดย GN⁺ 2025-05-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • MVDRAM เป็นระบบที่เร่งการทำงาน GeMV สำหรับการอนุมาน Low-Bit LLM โดยใช้ DRAM แบบไม่ดัดแปลง
  • ใช้ DRAM เป็นเอนจิน GeMV เพื่อให้ได้ throughput สูง
  • ขจัดต้นทุนของการจัดเรียงอินพุตล่วงหน้าและการสลับบิตเอาต์พุตของแนวทาง PUD แบบเดิม
  • ผลการทดลองแสดงให้เห็นว่ามีประสิทธิภาพเหนือกว่าการใช้งานบนโปรเซสเซอร์ใน Low-Bit LLM
  • นำเสนอความเป็นไปได้ใหม่สำหรับฮาร์ดแวร์ AI

MVDRAM: การเร่ง Low-Bit LLM ด้วย DRAM แบบไม่ดัดแปลง

  • การทำงาน GeMV ยังคงเป็นคอขวดด้านเวลาแฝงที่สำคัญในการอนุมานของโมเดลภาษาขนาดใหญ่ (LLM)
  • Processing-Using-DRAM (PUD) มีศักยภาพในการนำ DRAM มาใช้ใหม่เป็นเอนจิน GeMV
  • อย่างไรก็ตาม เมื่อนำ PUD ไปใช้กับไปป์ไลน์การอนุมาน LLM จะเกิดโอเวอร์เฮดอย่างมาก

แนวทางที่ล้ำสมัยของ MVDRAM

  • MVDRAM ประสานการทำงานระหว่างโปรเซสเซอร์และ DRAM โดยอาศัย รูปแบบการแชร์ข้อมูล และ ความเป็นเชิงเส้นทางคณิตศาสตร์
  • เร่งการทำงาน GeMV โดยขจัดต้นทุนของแนวทาง PUD แบบเดิม

ผลการทดลอง

  • ในการทดลองที่ใช้โมดูล DDR4 DRAM จำนวน 4 โมดูล MVDRAM แสดงประสิทธิภาพเหนือกว่าการใช้งานบนโปรเซสเซอร์ใน LLM แบบ low-bit (4 บิตหรือต่ำกว่า)
  • ทำความเร็วได้สูงสุด 7.29 เท่า และมีประสิทธิภาพด้านพลังงานสูงขึ้น 30.5 เท่า

การปรับปรุงโดยรวมของการอนุมาน LLM

  • ในโมเดล low-bit ที่ควอนไทซ์เป็น 2 บิตและ 4 บิต มีการปรับปรุง throughput 2.18 เท่า และ 1.31 เท่า ตามลำดับ
  • ประสิทธิภาพด้านพลังงานก็ดีขึ้น 3.04 เท่า และ 2.35 เท่า ตามลำดับ

ความเป็นไปได้ใหม่ของฮาร์ดแวร์ AI

  • MVDRAM พิสูจน์ให้เห็นถึงความเป็นไปได้ในการใช้ DRAM มาตรฐานเป็นตัวเร่ง LLM
  • มีศักยภาพในการเปิดขอบเขตใหม่ให้กับฮาร์ดแวร์ AI

1 ความคิดเห็น

 
GN⁺ 2025-05-06
ความคิดเห็นจาก Hacker News
  • มีข้อมูลเกี่ยวกับหนึ่งในข้อเสนอช่วงแรก ๆ สำหรับการประมวลผลภายใน DRAM

    • มีการสาธิตครั้งแรกโดยใช้อุปกรณ์เชิงพาณิชย์
    • กำลังนำไปใช้งานด้วยเครื่องมือชื่อ DRAM Bender
    • มีงานวิจัยเกี่ยวกับความก้าวหน้าล่าสุดของการประมวลผลภายใน DRAM
  • มีคนสังเกตว่ารายชื่อผู้เขียนของเอกสารอ้างอิง 1 และ 3 ยาวมาก

    • เคยคาดหวังว่าจะมีบทความปี 2016 แต่ไม่ได้ถูกรวมไว้
    • บทความปี 2019 ถูกรวมไว้
    • พฤติกรรมนอกเหนือจากสเปกของ DRAM โดยเฉพาะความสามารถในการคัดลอก มีความเกี่ยวข้องกับบั๊กชื่อดัง
  • สามารถทำให้เกิดการประมวลผลแบบขนานขนาดใหญ่ได้ด้วยการส่งคำสั่ง DRAM โดยจงใจละเมิดพารามิเตอร์ด้านเวลา (timing parameters) ที่ผู้ผลิตกำหนด

    • นี่เป็นความท้าทายสำหรับไบนารีบล็อบที่ใช้ฝึก DRAM
  • ไอเดียนี้มีความแปลกใหม่และสร้างสรรค์มาก

    • การทำงานในรายละเอียดเชิงลึกอาจให้ความรู้สึกคุ้มค่า
  • การอาศัยบั๊กในโลกฮาร์ดแวร์อาจเป็นเรื่องเสี่ยง

    • ในโลกซอฟต์แวร์ การใช้ประโยชน์จากบั๊กของแพลตฟอร์มเพื่อเปิดใช้ฟังก์ชันไม่ใช่แนวทางที่ดี
    • หากบั๊กถูกแก้ ระบบอาจทำงานอย่างไม่คาดคิด
  • มีการทำการคำนวณเมทริกซ์โดยตรงภายใน DRAM เอง

    • เป็นไอเดียที่น่าสนใจและน่าทึ่งมาก
  • มีการกล่าวถึงการคูณเมทริกซ์-เวกเตอร์ทั่วไป (GeMV)

    • บางคนก็ยอมรับว่าตนเองไม่ค่อยเข้าใจคณิตศาสตร์นัก
    • ควอเทอร์เนียนได้รับความนิยมเพราะมีความซับซ้อนในการคำนวณน้อยกว่าเมทริกซ์
    • ยังมีคนสงสัยว่ามีกรณีที่สร้าง LLM โดยใช้ควอเทอร์เนียนหรือไม่
  • มีความเห็นว่าการไม่อ้างอิงแหล่งต้นฉบับ Intelligent RAM (IRAM) ดั้งเดิมจากปี 1997 เป็นเรื่องที่ไม่เป็นวิทยาศาสตร์

  • มีคนสงสัยว่าการคูณเมทริกซ์และงานคำนวณอื่น ๆ จะย้ายจาก CPU แบบดั้งเดิมไปอยู่ใน DRAM ได้หรือไม่

    • มีคำถามว่าการย้ายภาระประมวลผลแบบนี้จะเป็นประโยชน์ต่อบริษัทอย่าง Samsung หรือไม่
    • และก็มีความสงสัยว่าแล้วบริษัทอย่าง NVIDIA จะได้รับผลอย่างไร
  • นี่อาจเป็นวิธีที่ยอดเยี่ยมในการสร้างอุปกรณ์อนุมานราคาประหยัดสำหรับ LLM ขนาดใหญ่