1 คะแนน โดย GN⁺ 2024-09-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

LLMs ที่เร่งด้วยฮาร์ดแวร์: การสำรวจและเปรียบเทียบแบบครอบคลุม

  • LLM ได้กลายเป็นเครื่องมือทรงพลังในงานประมวลผลภาษาธรรมชาติ และกำลังปฏิวัติวงการนี้ด้วยความสามารถในการเข้าใจและสร้างข้อความที่คล้ายมนุษย์
  • งานวิจัยนี้สำรวจอย่างครอบคลุมถึงความพยายามวิจัยหลายด้านในการเร่งเครือข่าย Transformer สำหรับโมเดลภาษาขนาดใหญ่โดยใช้อุปกรณ์เร่งฮาร์ดแวร์

เฟรมเวิร์กและการเปรียบเทียบ

  • นำเสนอเฟรมเวิร์กที่เสนอไว้ และทำการเปรียบเทียบทั้งเชิงคุณภาพและเชิงปริมาณในด้านเทคโนโลยี แพลตฟอร์มประมวลผล (FPGA, ASIC, In-Memory, GPU) การเพิ่มความเร็ว ประสิทธิภาพด้านพลังงาน สมรรถนะ (GOPs) และประสิทธิภาพด้านพลังงาน (GOPs/W)
  • ความท้าทายสำคัญคือแต่ละสคีมที่นำเสนอถูกนำไปใช้งานบนเทคโนโลยีกระบวนการที่แตกต่างกัน ทำให้การเปรียบเทียบอย่างเป็นธรรมทำได้ยาก
  • ผลงานหลักของงานวิจัยนี้คือการประเมินผลลัพธ์ด้านสมรรถนะและประสิทธิภาพพลังงานบนเทคโนโลยีเดียวกัน เพื่อให้สามารถเปรียบเทียบอย่างเป็นธรรมได้

การทดลองและผลลัพธ์

  • มีการนำบางส่วนของ LLMs ไปใช้งานบนชิป FPGA หลายตัว เพื่อประเมินผลลัพธ์บนเทคโนโลยีกระบวนการเดียวกันและเปรียบเทียบสมรรถนะอย่างเป็นธรรม

สรุปโดย GN⁺

  • งานวิจัยนี้นำเสนอการสำรวจแบบครอบคลุมเกี่ยวกับการเร่งฮาร์ดแวร์สำหรับโมเดลภาษาขนาดใหญ่ (LLMs)
  • เปรียบเทียบสมรรถนะและประสิทธิภาพด้านพลังงานบนแพลตฟอร์มประมวลผลที่หลากหลาย เพื่อให้สามารถเปรียบเทียบได้อย่างเป็นธรรม
  • ใช้การทดลองบนชิป FPGA เพื่อประเมินผลลัพธ์บนเทคโนโลยีเดียวกัน
  • อาจเป็นประโยชน์สำหรับผู้ที่สนใจการปรับปรุงสมรรถนะของ LLMs ในสาขาการประมวลผลภาษาธรรมชาติ
  • โครงการอื่นที่มีฟังก์ชันคล้ายกัน ได้แก่ ตัวเร่ง GPU ของ NVIDIA และ TPU ของ Google

1 ความคิดเห็น

 
GN⁺ 2024-09-08
ความคิดเห็นจาก Hacker News
  • ตั้งแต่ทศวรรษ 1990 ความเร็วของ CPU เพิ่มขึ้นเร็วกว่าความกว้างแบนด์วิดท์หน่วยความจำ

    • William Wulf และ Sally Mckee ได้คาดการณ์เรื่อง "กำแพงหน่วยความจำ" ไว้ตั้งแต่ปี 1995
    • ตลอด 20 ปีที่ผ่านมา FLOPS ของฮาร์ดแวร์เซิร์ฟเวอร์เพิ่มขึ้น 3 เท่าทุก 2 ปี แต่แบนด์วิดท์ของ DRAM และ interconnect เพิ่มขึ้นเพียง 1.6 เท่าและ 1.4 เท่าตามลำดับ
    • คอขวดด้านประสิทธิภาพในการเทรนและอนุมานของ LLM กำลังย้ายไปอยู่ที่แบนด์วิดท์หน่วยความจำมากขึ้นเรื่อย ๆ
    • โดยเฉพาะในโมเดล autoregressive Transformer decoder แบนด์วิดท์หน่วยความจำอาจกลายเป็นคอขวดหลักได้
    • เทคโนโลยีใหม่อย่าง Compute-in-memory (CIM) หรือ processing-in-memory (PIM) จึงเริ่มมีความจำเป็น
    • CIM/PIM ช่วยให้คำนวณได้โดยตรงในหน่วยความจำโดยไม่ต้องย้ายข้อมูลไปยังรีจิสเตอร์ของ CPU จึงช่วยลด latency และการใช้พลังงาน
    • บทความนี้ประเมินประสิทธิภาพด้วยกระบวนการผลิต 16nm เพื่อเปรียบเทียบฮาร์ดแวร์ ASIC และ FPGA บนขนาดกระบวนการผลิตเซมิคอนดักเตอร์ที่หลากหลาย
    • แต่ไม่ได้ประเมิน CIM/PIM เพราะประสิทธิภาพไม่ได้ขึ้นอยู่กับเทคโนโลยีกระบวนการผลิตเพียงอย่างเดียว
    • ดูข้อมูลเพิ่มเติมได้จากลิงก์ด้านล่าง
  • มีความชอบส่วนตัวต่อ systolic arrays

    • หลังจากพิจารณาทางเลือกหลายแบบมาหลายสิบปี ก็เลือก Cartesian grid of cells เป็นทางออกที่ดีที่สุด
    • แต่ละเซลล์มีอินพุต 4 บิตและเอาต์พุต 4 บิต โดยมี shift register 64 บิตอยู่ตรงกลาง
    • ด้วยกลเม็ดของ graph coloring จึงสามารถ clock ทุกเซลล์เพื่อให้ข้อมูลไหลไปได้ทุกทิศทาง
    • ได้ความยืดหยุ่นแบบ FPGA โดยไม่ต้องกังวลเรื่องปัญหา timing หรือ race condition
    • การคำนวณทั้งหมดเกิดขึ้นแบบขนาน
    • มีไอเดียนี้มาตั้งแต่ปี 1982 และหวังว่าจะมีใครสักคนลงมือทำมันจริง
    • เรียกไอเดียนี้ว่า BitGrid
    • ดูบทความที่เกี่ยวข้องได้ที่นี่
  • อยากเห็น LLM บน WebGL ที่ทุกอย่างถูกสร้างขึ้นจาก texture

    • น่าจะสนุกดีถ้าได้เห็นความแตกต่างของสถาปัตยกรรมในเชิงภาพ
  • อธิบายความสำเร็จของ LPU แบบ ASIC ของ Groq

    • การอนุมาน LLM บน Groq Cloud เร็วมาก
    • การใช้พลังงานที่ลดลงก็เป็นข้อดีเช่นกัน
  • ทุกวันนี้การย้ายข้อมูลในหน่วยความจำคือคอขวด

    • จึงต้องใช้ HBM ที่มีราคาแพง
    • ดีไซน์ของ Nvidia ก็ถูกปรับให้เหมาะกับหน่วยความจำเช่นกัน
  • สงสัยว่าสถาปัตยกรรมไฮบริด FPGA + ASIC + in-mem จะมีบทบาทด้านการขยายขนาด/ความยืดหยุ่นได้หรือไม่

    • สงสัยว่าจะสามารถรวมข้อดีของแต่ละแบบ (เช่น ความยืดหยุ่นของ FPGA, ประสิทธิภาพของ ASIC, ประสิทธิภาพพลังงานของ in-memory) เพื่อยกระดับประสิทธิภาพ LLM ได้อีกหรือไม่
  • มีงานวิจัยเกี่ยวกับการรัน LLM ด้วยพลังงานระดับเดียวกับหลอดไฟ

  • สงสัยว่ามีวิธีอ่านคอนเทนต์บน Arxiv แบบ "ดี ๆ" หรือไม่

    • อินเทอร์เฟซของเว็บทำให้สับสน จนหลายครั้งออกจากหน้าไปโดยไม่ได้อ่านเนื้อหา
  • สงสัยว่า "in-memory" คือฮาร์ดแวร์พิเศษที่รวม CPU และ RAM เข้าด้วยกันหรือไม่