AMD เปิดตัว AMD-135M โมเดลภาษาขนาดเล็กตัวแรก

(community.amd.com)

6 คะแนน โดย GN⁺ 2024-09-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

AMD เปิดตัว AMD-135M โมเดลภาษาขนาดเล็กตัวแรก
โมเดลนี้ฝึกด้วยโทเคน 6.7 แสนล้านโทเคนโดยใช้ตัวเร่งความเร็ว AMD Instinct™ MI250
แบ่งออกเป็น 2 โมเดล: AMD-Llama-135M และ AMD-Llama-135M-code
- โมเดล AMD-Llama-135M ฝึกด้วยโทเคน 6.7 แสนล้านโทเคนจากข้อมูลทั่วไปเป็นเวลา 6 วัน
- โมเดล AMD-Llama-135M-code ถูกปรับจูนละเอียดเพิ่มเติมเป็นเวลา 4 วันด้วยโทเคนข้อมูลโค้ดอีก 2 หมื่นล้านโทเคน
- โค้ดฝึก ชุดข้อมูล และค่าน้ำหนักของโมเดลนี้เปิดเป็นโอเพนซอร์ส
เพิ่มประสิทธิภาพการอนุมานด้วย Speculative Decoding
- โมเดลภาษาขนาดใหญ่โดยทั่วไปทำการอนุมานด้วยแนวทาง autoregressive
- ข้อจำกัดหลักของแนวทางนี้คือในการทำ forward pass แต่ละครั้งสามารถสร้างได้เพียงโทเคนเดียว
- การนำ speculative decoding มาใช้ช่วยแก้ปัญหานี้
- ใช้โมเดลร่างขนาดเล็กสร้างชุดโทเคนตัวเลือก จากนั้นให้โมเดลเป้าหมายที่ใหญ่กว่าตรวจสอบความถูกต้อง
- แนวทางนี้ทำให้สามารถสร้างได้หลายโทเคนต่อหนึ่ง forward pass ช่วยลดการใช้การเข้าถึงหน่วยความจำอย่างมากและเพิ่มความเร็วได้มาก
เร่งประสิทธิภาพการอนุมาน
- AMD ทดสอบประสิทธิภาพการอนุมานโดยใช้ AMD-Llama-135M-code เป็นโมเดลร่างของ CodeLlama-7b
- เปรียบเทียบกรณีใช้และไม่ใช้ speculative decoding บนตัวเร่ง MI250 และโปรเซสเซอร์ Ryzen™ AI (รวม NPU)
- ในบางการตั้งค่า พบว่ามีการเพิ่มความเร็วเมื่อใช้ speculative decoding
ขั้นตอนถัดไป
- AMD มอบ reference implementation แบบโอเพนซอร์สเพื่อส่งเสริมนวัตกรรมในชุมชน AI
- ดูรายละเอียดเพิ่มเติมเกี่ยวกับ AMD-135M ได้จาก technical blog
- เข้าถึงโค้ดได้จาก AMD Github repository
- ดาวน์โหลดไฟล์โมเดลได้จาก Hugging Face Model Card
- สมัครขอเข้าถึงการ์ดตัวเร่ง Instinct ได้ผ่าน AMD Developer Cloud

สรุปโดย GN⁺

AMD-135M โมเดลภาษาขนาดเล็กตัวแรกของ AMD เป็นความก้าวหน้าสำคัญสำหรับชุมชน AI
speculative decoding ช่วยเพิ่มประสิทธิภาพการอนุมานได้อย่างมาก
reference implementation แบบโอเพนซอร์สช่วยให้นักพัฒนาสามารถทำซ้ำโมเดลและฝึก SLM และ LLM อื่น ๆ ได้
มีเป้าหมายเพื่อส่งเสริมนวัตกรรมในวงการ AI และมุ่งสู่การพัฒนาเทคโนโลยีที่ครอบคลุมและมีจริยธรรมมากขึ้น

1 ความคิดเห็น

comsect62 2024-09-30

หากจะพัฒนาไปสู่ปัญญาประดิษฐ์ทั่วไป ก็ต้องมีจุดเปลี่ยนแบบก้าวกระโดดในเชิงมิติ และจุดเปลี่ยนนั้นก็คือการศึกษา

AMD เปิดตัว AMD-135M โมเดลภาษาขนาดเล็กตัวแรก

สรุปโดย GN⁺

บทความที่เกี่ยวข้อง

1 ความคิดเห็น