- รวมโค้ดฝึกของ MobileLLM ที่นำเสนอในงานวิจัย "MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases" ซึ่งเผยแพร่ใน ICML 2024
- งานวิจัยนี้พิจารณาองค์ประกอบการออกแบบหลายด้านอย่างครอบคลุม เพื่อให้ได้ LLM คุณภาพสูงที่มีพารามิเตอร์น้อยกว่า 1 พันล้านตัว
- MobileLLM ถูกสร้างขึ้นโดยผสาน (1) ฟังก์ชันกระตุ้น SwiGLU, (2) สถาปัตยกรรมลึกและบาง, (3) การแชร์ embedding, (4) grouped-query attention
- MobileLLM-125M/350M บรรลุความแม่นยำที่ดีขึ้น 2.7%/4.3% ตามลำดับ ในงานให้เหตุผลเชิงสามัญสำนึกแบบ zero-shot เมื่อเทียบกับโมเดล SoTA 125M/350M รุ่นก่อนหน้า
- ในเวอร์ชันอัปเดต โมเดล MobileLLM-600M/1B/1.5B ถูกขยายไปเป็นโมเดลที่ใหญ่ขึ้นและแสดงผลลัพธ์ระดับ SoTA
สรุปโดย GN⁺
- MobileLLM นำเสนอแนวคิดการออกแบบที่ปรับแต่งมาอย่างเหมาะสมสำหรับโมเดลภาษาคุณภาพสูงที่มีพารามิเตอร์ต่ำกว่า 1 พันล้านตัว
- ปรับปรุงประสิทธิภาพด้วยการผสานองค์ประกอบอย่างฟังก์ชันกระตุ้น SwiGLU, สถาปัตยกรรมลึกและบาง, การแชร์ embedding และ grouped-query attention
- บรรลุความแม่นยำสูงกว่าโมเดลเดิมในงานให้เหตุผลเชิงสามัญสำนึกแบบ zero-shot
- งานวิจัยนี้มีส่วนสำคัญต่อกรณีการใช้งานโมเดลภาษาบนอุปกรณ์พกพาและอุปกรณ์ฝังตัว
- โครงการที่มีความสามารถคล้ายกัน ได้แก่ GPT-neo, OPT และ BLOOM
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
โมเดล MobileLLM-125M/350M แสดงให้เห็นว่าความแม่นยำดีขึ้น 2.7%/4.3% เมื่อเทียบกับโมเดล SoTA ขนาด 125M/350M รุ่นก่อนหน้า
มีการกล่าวว่าโมเดลขนาด 1.5B พารามิเตอร์ถือเป็นความก้าวหน้าที่ค่อนข้างใหญ่
สงสัยว่า Apple Watch มีความสามารถด้านฮาร์ดแวร์มากพอที่จะรัน inference ของโมเดลขนาดเล็กได้หรือไม่
ถามว่าจำเป็นต้องจำกัดอยู่แค่อุปกรณ์พกพาเท่านั้นหรือไม่
ระบุว่าขณะนี้ต้องการ STT บนอุปกรณ์แบบ wake-word
กำลังมองหาแอปที่สามารถรันบน iPhone ได้
สงสัยว่าส่วนของ "ลึกขึ้นและบางลง" จะผลักไปได้ไกลแค่ไหน
ถามว่าวิธีอย่าง distillation จะช่วยได้หรือไม่
ระบุว่าโมเดลขนาดเล็กดูเหมือนจะลดขนาดได้มากที่สุดจากการแชร์/ผูกน้ำหนักระหว่าง linear head กับ token embedding
ถามว่าสามารถใช้โมเดลนี้เพื่อฝึกโมเดลบน Windows PC ได้ด้วยหรือไม่
น่าสนใจ แต่สงสัยว่านอกจากการทำ autocomplete ที่ดีขึ้นแล้ว ยังมี use case อะไรอีกบ้าง