3 คะแนน โดย GN⁺ 2024-07-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • รวมโค้ดฝึกของ MobileLLM ที่นำเสนอในงานวิจัย "MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases" ซึ่งเผยแพร่ใน ICML 2024
  • งานวิจัยนี้พิจารณาองค์ประกอบการออกแบบหลายด้านอย่างครอบคลุม เพื่อให้ได้ LLM คุณภาพสูงที่มีพารามิเตอร์น้อยกว่า 1 พันล้านตัว
  • MobileLLM ถูกสร้างขึ้นโดยผสาน (1) ฟังก์ชันกระตุ้น SwiGLU, (2) สถาปัตยกรรมลึกและบาง, (3) การแชร์ embedding, (4) grouped-query attention
  • MobileLLM-125M/350M บรรลุความแม่นยำที่ดีขึ้น 2.7%/4.3% ตามลำดับ ในงานให้เหตุผลเชิงสามัญสำนึกแบบ zero-shot เมื่อเทียบกับโมเดล SoTA 125M/350M รุ่นก่อนหน้า
  • ในเวอร์ชันอัปเดต โมเดล MobileLLM-600M/1B/1.5B ถูกขยายไปเป็นโมเดลที่ใหญ่ขึ้นและแสดงผลลัพธ์ระดับ SoTA

สรุปโดย GN⁺

  • MobileLLM นำเสนอแนวคิดการออกแบบที่ปรับแต่งมาอย่างเหมาะสมสำหรับโมเดลภาษาคุณภาพสูงที่มีพารามิเตอร์ต่ำกว่า 1 พันล้านตัว
  • ปรับปรุงประสิทธิภาพด้วยการผสานองค์ประกอบอย่างฟังก์ชันกระตุ้น SwiGLU, สถาปัตยกรรมลึกและบาง, การแชร์ embedding และ grouped-query attention
  • บรรลุความแม่นยำสูงกว่าโมเดลเดิมในงานให้เหตุผลเชิงสามัญสำนึกแบบ zero-shot
  • งานวิจัยนี้มีส่วนสำคัญต่อกรณีการใช้งานโมเดลภาษาบนอุปกรณ์พกพาและอุปกรณ์ฝังตัว
  • โครงการที่มีความสามารถคล้ายกัน ได้แก่ GPT-neo, OPT และ BLOOM

1 ความคิดเห็น

 
GN⁺ 2024-07-11
ความคิดเห็นจาก Hacker News
  • โมเดล MobileLLM-125M/350M แสดงให้เห็นว่าความแม่นยำดีขึ้น 2.7%/4.3% เมื่อเทียบกับโมเดล SoTA ขนาด 125M/350M รุ่นก่อนหน้า

    • แม้โมเดลขนาดเล็กจะดีขึ้นเล็กน้อย แต่ก็ยังไม่เพียงพอสำหรับงานแบบเดียวกับโมเดลออนไลน์
    • ระบุว่าไม่มีปัญหากับความก้าวหน้าแบบค่อยเป็นค่อยไป
  • มีการกล่าวว่าโมเดลขนาด 1.5B พารามิเตอร์ถือเป็นความก้าวหน้าที่ค่อนข้างใหญ่

    • สงสัยว่าทำไมถึงไม่ใช้โมเดลที่ใหญ่กว่านี้
    • ระบุว่าโมเดลที่มีประสิทธิภาพและเหมาะกับฮาร์ดแวร์ขนาดประมาณ RPi อาจเป็นตัวเปลี่ยนเกมได้
    • ระบุว่าโมเดล TinyLlama 7B แทบจะพอรันได้
  • สงสัยว่า Apple Watch มีความสามารถด้านฮาร์ดแวร์มากพอที่จะรัน inference ของโมเดลขนาดเล็กได้หรือไม่

    • ถามว่าจำเป็นต้องมีบัญชีนักพัฒนาหรือไม่
  • ถามว่าจำเป็นต้องจำกัดอยู่แค่อุปกรณ์พกพาเท่านั้นหรือไม่

    • หากใช้ทรัพยากรไม่มาก ก็อาจทำให้บทสนทนา NPC ในเกมน่าสนใจยิ่งขึ้นได้
    • หากสามารถปรับให้ส่งผลต่อพฤติกรรมหรือการกระทำของ NPC ได้ก็น่าจะดียิ่งกว่า
  • ระบุว่าขณะนี้ต้องการ STT บนอุปกรณ์แบบ wake-word

    • กำลังมองหาโมเดลที่มี WER ต่ำที่สุดในบรรดาโมเดลที่รันได้บน RPi 4B
    • กำลังดู openWakeWord อยู่
    • ระบุว่าต้องใช้สำหรับระบบ inventory แบบ DIY
  • กำลังมองหาแอปที่สามารถรันบน iPhone ได้

    • ตอนนี้รู้จักแค่แอป MLC ซึ่งมีเพียง 3 โมเดลเก่า
  • สงสัยว่าส่วนของ "ลึกขึ้นและบางลง" จะผลักไปได้ไกลแค่ไหน

    • ระบุว่าถ้า FFN พอดีกับ L2 cache ประสิทธิภาพก็น่าจะดีขึ้น
  • ถามว่าวิธีอย่าง distillation จะช่วยได้หรือไม่

  • ระบุว่าโมเดลขนาดเล็กดูเหมือนจะลดขนาดได้มากที่สุดจากการแชร์/ผูกน้ำหนักระหว่าง linear head กับ token embedding

    • สงสัยว่าหลังจากนั้นยังมีงานวิจัยเกี่ยวกับวิธีลดขนาดลงอีกหรือไม่
  • ถามว่าสามารถใช้โมเดลนี้เพื่อฝึกโมเดลบน Windows PC ได้ด้วยหรือไม่

    • ระบุว่ามี RAM ไม่มาก
  • น่าสนใจ แต่สงสัยว่านอกจากการทำ autocomplete ที่ดีขึ้นแล้ว ยังมี use case อะไรอีกบ้าง