6 คะแนน โดย GN⁺ 2024-09-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • AMD เปิดตัว AMD-135M โมเดลภาษาขนาดเล็กตัวแรก
  • โมเดลนี้ฝึกด้วยโทเคน 6.7 แสนล้านโทเคนโดยใช้ตัวเร่งความเร็ว AMD Instinct™ MI250
  • แบ่งออกเป็น 2 โมเดล: AMD-Llama-135M และ AMD-Llama-135M-code
    • โมเดล AMD-Llama-135M ฝึกด้วยโทเคน 6.7 แสนล้านโทเคนจากข้อมูลทั่วไปเป็นเวลา 6 วัน
    • โมเดล AMD-Llama-135M-code ถูกปรับจูนละเอียดเพิ่มเติมเป็นเวลา 4 วันด้วยโทเคนข้อมูลโค้ดอีก 2 หมื่นล้านโทเคน
    • โค้ดฝึก ชุดข้อมูล และค่าน้ำหนักของโมเดลนี้เปิดเป็นโอเพนซอร์ส
  • เพิ่มประสิทธิภาพการอนุมานด้วย Speculative Decoding
    • โมเดลภาษาขนาดใหญ่โดยทั่วไปทำการอนุมานด้วยแนวทาง autoregressive
    • ข้อจำกัดหลักของแนวทางนี้คือในการทำ forward pass แต่ละครั้งสามารถสร้างได้เพียงโทเคนเดียว
    • การนำ speculative decoding มาใช้ช่วยแก้ปัญหานี้
    • ใช้โมเดลร่างขนาดเล็กสร้างชุดโทเคนตัวเลือก จากนั้นให้โมเดลเป้าหมายที่ใหญ่กว่าตรวจสอบความถูกต้อง
    • แนวทางนี้ทำให้สามารถสร้างได้หลายโทเคนต่อหนึ่ง forward pass ช่วยลดการใช้การเข้าถึงหน่วยความจำอย่างมากและเพิ่มความเร็วได้มาก
  • เร่งประสิทธิภาพการอนุมาน
    • AMD ทดสอบประสิทธิภาพการอนุมานโดยใช้ AMD-Llama-135M-code เป็นโมเดลร่างของ CodeLlama-7b
    • เปรียบเทียบกรณีใช้และไม่ใช้ speculative decoding บนตัวเร่ง MI250 และโปรเซสเซอร์ Ryzen™ AI (รวม NPU)
    • ในบางการตั้งค่า พบว่ามีการเพิ่มความเร็วเมื่อใช้ speculative decoding
  • ขั้นตอนถัดไป
    • AMD มอบ reference implementation แบบโอเพนซอร์สเพื่อส่งเสริมนวัตกรรมในชุมชน AI
    • ดูรายละเอียดเพิ่มเติมเกี่ยวกับ AMD-135M ได้จาก technical blog
    • เข้าถึงโค้ดได้จาก AMD Github repository
    • ดาวน์โหลดไฟล์โมเดลได้จาก Hugging Face Model Card
    • สมัครขอเข้าถึงการ์ดตัวเร่ง Instinct ได้ผ่าน AMD Developer Cloud

สรุปโดย GN⁺

  • AMD-135M โมเดลภาษาขนาดเล็กตัวแรกของ AMD เป็นความก้าวหน้าสำคัญสำหรับชุมชน AI
  • speculative decoding ช่วยเพิ่มประสิทธิภาพการอนุมานได้อย่างมาก
  • reference implementation แบบโอเพนซอร์สช่วยให้นักพัฒนาสามารถทำซ้ำโมเดลและฝึก SLM และ LLM อื่น ๆ ได้
  • มีเป้าหมายเพื่อส่งเสริมนวัตกรรมในวงการ AI และมุ่งสู่การพัฒนาเทคโนโลยีที่ครอบคลุมและมีจริยธรรมมากขึ้น

1 ความคิดเห็น

 
comsect62 2024-09-30

หากจะพัฒนาไปสู่ปัญญาประดิษฐ์ทั่วไป ก็ต้องมีจุดเปลี่ยนแบบก้าวกระโดดในเชิงมิติ และจุดเปลี่ยนนั้นก็คือการศึกษา