Alibaba เปิดตัวโมเดล Qwen 2
(qwenlm.github.io)- Qwen2 เป็นโมเดลที่พัฒนาต่อยอดจาก Qwen1.5 โดยมีทั้งโมเดลพรีเทรนและโมเดลปรับจูนตามคำสั่ง 5 ขนาด
- ขนาดโมเดลคือ Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B
- เพิ่มการฝึกด้วยข้อมูลในอีก 27 ภาษา นอกเหนือจากภาษาอังกฤษและภาษาจีน
- แสดงประสิทธิภาพระดับล้ำสมัยในการประเมิน benchmark หลายรายการ และมีการปรับปรุงอย่างมากในด้านการเขียนโค้ดและคณิตศาสตร์
- โมเดล Qwen2-7B-Instruct และ Qwen2-72B-Instruct รองรับความยาวคอนเท็กซ์ที่ขยายได้สูงสุด 128K โทเคนด้วยการใช้ YARN
ข้อมูลโมเดล Qwen2
- ใช้ Group Query Attention(GQA) กับทุกขนาดโมเดล เพื่อเพิ่มความเร็วในการอนุมานและลดการใช้หน่วยความจำ
- สำหรับโมเดลขนาดเล็ก มีแนวโน้มเลือกใช้เทคนิค embedding tying
- โมเดลที่ปรับจูนตามคำสั่งมีการประเมินความสามารถในการจัดการความยาวคอนเท็กซ์ผ่านงาน Needle in a Haystack
- ด้วยเทคโนโลยี YARN ทำให้ Qwen2-7B-Instruct และ Qwen2-72B-Instruct ประมวลผลได้ถึง 128K โทเคน
ประสิทธิภาพ
- เสริมความสามารถหลายภาษาด้วยการพรีเทรนและปรับจูนตามคำสั่งบนชุดข้อมูล 27 ภาษา นอกเหนือจากภาษาอังกฤษและภาษาจีน
- ความสามารถในการจัดการ code-switching ดีขึ้นอย่างมาก
- ด้วยชุดข้อมูลพรีเทรนและวิธีการฝึกที่ปรับให้เหมาะสม Qwen2-72B แสดงประสิทธิภาพเหนือกว่าโมเดลรุ่นใหม่อย่าง Llama-3-70B
- การฝึกหลังการพัฒนาได้ยกระดับความสามารถด้านโค้ด คณิตศาสตร์ การให้เหตุผล การทำตามคำสั่ง และความเข้าใจหลายภาษาเพิ่มเติม พร้อมทั้งปรับให้สอดคล้องกับคุณค่าของมนุษย์
- ใน 16 benchmarks, Qwen2-72B-Instruct เหนือกว่า Qwen1.5-72B-Chat อย่างชัดเจน และมีประสิทธิภาพใกล้เคียงกับ Llama-3-70B-Instruct
- โมเดล Qwen2 ขนาดเล็กก็เหนือกว่าโมเดล SOTA ที่มีขนาดใกล้เคียงกันหรือใหญ่กว่า โดยโดดเด่นเป็นพิเศษในตัวชี้วัดด้านโค้ดและภาษาจีน
ประเด็นสำคัญ
- ผสานประสบการณ์และข้อมูลการฝึกโค้ดจาก CodeQwen1.5 เพื่อยกระดับประสิทธิภาพของ Qwen2-72B-Instruct ในภาษาโปรแกรมหลากหลายประเภทอย่างมาก
- ใช้ชุดข้อมูลที่กว้างขวางและมีคุณภาพสูงเพื่อเสริมความสามารถในการแก้โจทย์คณิตศาสตร์ของ Qwen2-72B-Instruct
- Qwen2-72B-Instruct สามารถจัดการงานดึงข้อมูลจากคอนเท็กซ์ความยาว 128K ได้อย่างสมบูรณ์
- ยังเปิดซอร์สโซลูชันเอเจนต์ที่มีประสิทธิภาพสำหรับการประมวลผลเอกสารขนาด 1 ล้านโทเคน
- จากการประเมินอัตราการตอบสนองที่เป็นอันตรายต่อคำถามหลายภาษาที่เป็นอันตราย 4 ประเภท พบว่า Qwen2-72B-Instruct มีความปลอดภัยในระดับใกล้เคียงกับ GPT-4 และดีกว่า Mistral-8x22B อย่างมาก
การใช้งาน Qwen2
- ทุกโมเดลถูกเผยแพร่บน Hugging Face และ ModelScope และสามารถนำไปใช้งานได้อย่างอิสระ
- Qwen2-72B และโมเดลที่ปรับจูนตามคำสั่งใช้ Qianwen License ส่วนโมเดลที่เหลือใช้ไลเซนส์ Apache 2.0
- วิธีใช้งาน Qwen2 ร่วมกับเฟรมเวิร์กของบุคคลที่สามหลากหลายแบบ สามารถดูได้จากเอกสารของแต่ละเฟรมเวิร์กและเอกสารทางการ
แผนในอนาคตของ Qwen2
- มีแผนฝึกโมเดล Qwen2 ที่ใหญ่ขึ้น เพื่อสำรวจ model scaling ควบคู่ไปกับ data scaling
- มีแผนขยาย Qwen2 ไปเป็นโมเดลภาษาหลายรูปแบบที่เข้าใจข้อมูลด้านภาพและเสียงได้
- จะเดินหน้าเปิดซอร์สโมเดลใหม่ต่อไป เพื่อเร่งการพัฒนา AI โอเพนซอร์ส
1 ความคิดเห็น
Alibaba เปิดตัวโมเดล AI โอเพนซอร์ส QWEN
Qwen1.5-110B : โมเดล 100B+ รุ่นแรกของซีรีส์โอเพนซอร์ส LLM Qwen1.5 ของ Alibaba