- AMD เปิดตัว AMD-135M โมเดลภาษาขนาดเล็กตัวแรก
- โมเดลนี้ฝึกด้วยโทเคน 6.7 แสนล้านโทเคนโดยใช้ตัวเร่งความเร็ว AMD Instinct™ MI250
- แบ่งออกเป็น 2 โมเดล: AMD-Llama-135M และ AMD-Llama-135M-code
- โมเดล AMD-Llama-135M ฝึกด้วยโทเคน 6.7 แสนล้านโทเคนจากข้อมูลทั่วไปเป็นเวลา 6 วัน
- โมเดล AMD-Llama-135M-code ถูกปรับจูนละเอียดเพิ่มเติมเป็นเวลา 4 วันด้วยโทเคนข้อมูลโค้ดอีก 2 หมื่นล้านโทเคน
- โค้ดฝึก ชุดข้อมูล และค่าน้ำหนักของโมเดลนี้เปิดเป็นโอเพนซอร์ส
- เพิ่มประสิทธิภาพการอนุมานด้วย Speculative Decoding
- โมเดลภาษาขนาดใหญ่โดยทั่วไปทำการอนุมานด้วยแนวทาง autoregressive
- ข้อจำกัดหลักของแนวทางนี้คือในการทำ forward pass แต่ละครั้งสามารถสร้างได้เพียงโทเคนเดียว
- การนำ speculative decoding มาใช้ช่วยแก้ปัญหานี้
- ใช้โมเดลร่างขนาดเล็กสร้างชุดโทเคนตัวเลือก จากนั้นให้โมเดลเป้าหมายที่ใหญ่กว่าตรวจสอบความถูกต้อง
- แนวทางนี้ทำให้สามารถสร้างได้หลายโทเคนต่อหนึ่ง forward pass ช่วยลดการใช้การเข้าถึงหน่วยความจำอย่างมากและเพิ่มความเร็วได้มาก
- เร่งประสิทธิภาพการอนุมาน
- AMD ทดสอบประสิทธิภาพการอนุมานโดยใช้ AMD-Llama-135M-code เป็นโมเดลร่างของ CodeLlama-7b
- เปรียบเทียบกรณีใช้และไม่ใช้ speculative decoding บนตัวเร่ง MI250 และโปรเซสเซอร์ Ryzen™ AI (รวม NPU)
- ในบางการตั้งค่า พบว่ามีการเพิ่มความเร็วเมื่อใช้ speculative decoding
- ขั้นตอนถัดไป
- AMD มอบ reference implementation แบบโอเพนซอร์สเพื่อส่งเสริมนวัตกรรมในชุมชน AI
- ดูรายละเอียดเพิ่มเติมเกี่ยวกับ AMD-135M ได้จาก technical blog
- เข้าถึงโค้ดได้จาก AMD Github repository
- ดาวน์โหลดไฟล์โมเดลได้จาก Hugging Face Model Card
- สมัครขอเข้าถึงการ์ดตัวเร่ง Instinct ได้ผ่าน AMD Developer Cloud
สรุปโดย GN⁺
- AMD-135M โมเดลภาษาขนาดเล็กตัวแรกของ AMD เป็นความก้าวหน้าสำคัญสำหรับชุมชน AI
- speculative decoding ช่วยเพิ่มประสิทธิภาพการอนุมานได้อย่างมาก
- reference implementation แบบโอเพนซอร์สช่วยให้นักพัฒนาสามารถทำซ้ำโมเดลและฝึก SLM และ LLM อื่น ๆ ได้
- มีเป้าหมายเพื่อส่งเสริมนวัตกรรมในวงการ AI และมุ่งสู่การพัฒนาเทคโนโลยีที่ครอบคลุมและมีจริยธรรมมากขึ้น
1 ความคิดเห็น
หากจะพัฒนาไปสู่ปัญญาประดิษฐ์ทั่วไป ก็ต้องมีจุดเปลี่ยนแบบก้าวกระโดดในเชิงมิติ และจุดเปลี่ยนนั้นก็คือการศึกษา