Alibaba เปิดตัวโมเดล Qwen 2

xguru · 2024-06-08T10:02:01+09:00

Qwen2 เป็นโมเดลที่พัฒนาต่อยอดจาก Qwen1.5 โดยมีทั้งโมเดลพรีเทรนและโมเดลปรับจูนตามคำสั่ง 5 ขนาด ขนาดโมเดลคือ Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B เพิ่มการฝึกด้วยข้อมูลในอีก 27 ภาษา นอกเหนือจากภาษาอังกฤษและภาษาจีน แสดงประสิทธิภาพระดับล้ำสมัยในการประเมิน benchmark หลายรายการ และมีการปรับปรุงอย่างมากในด้านการเขียนโค้ดและคณิตศาสตร์ โมเดล Qwen2-7B-Instruct และ Qwen2-72B-Instruct รองรับความยาวคอนเท็กซ์ที่ขยายได้สูงสุด 128K โทเคนด้วยการใช้ YARN ข้อมูลโมเดล Qwen2 ใช้ Group Query Attention(GQA) กับทุกขนาดโมเดล เพื่อเพิ่มความเร็วในการอนุมานและลดการใช้หน่วยความจำ สำหรับโมเดลขนาดเล็ก มีแนวโน้มเลือกใช้เทคนิค embedding tying โมเดลที่ปรับจูนตามคำสั่งมีการประเมินความสามารถในการจัดการความยาวคอนเท็กซ์ผ่านงาน Needle in a Haystack ด้วยเทคโนโลยี YARN ทำให้ Qwen2-7B-Instruct และ Qwen2-72B-Instruct ประมวลผลได้ถึง 128K โทเคน ประสิทธิภาพ เสริมความสามารถหลายภาษาด้วยการพรีเทรนและปรับจูนตามคำสั่งบนชุดข้อมูล 27 ภาษา นอกเหนือจากภาษาอังกฤษและภาษาจีน ความสามารถในการจัดการ code-switching ดีขึ้นอย่างมาก ด้วยชุดข้อมูลพรีเทรนและวิธีการฝึกที่ปรับให้เหมาะสม Qwen2-72B แสดงประสิทธิภาพเหนือกว่าโมเดลรุ่นใหม่อย่าง Llama-3-70B การฝึกหลังการพัฒนาได้ยกระดับความสามารถด้านโค้ด คณิตศาสตร์ การให้เหตุผล การทำตามคำสั่ง และความเข้าใจหลายภาษาเพิ่มเติม พร้อมทั้งปรับให้สอดคล้องกับคุณค่าของมนุษย์ ใน 16 benchmarks, Qwen2-72B-Instruct เหนือกว่า Qwen1.5-72B-Chat อย่างชัดเจน และมีประสิทธิภาพใกล้เคียงกับ Llama-3-70B-Instruct โมเดล Qwen2 ขนาดเล็กก็เหนือกว่าโมเดล SOTA ที่มีขนาดใกล้เคียงกันหรือใหญ่กว่า โดยโดดเด่นเป็นพิเศษในตัวชี้วัดด้านโค้ดและภาษาจีน ประเด็นสำคัญ ผสานประสบการณ์และข้อมูลการฝึกโค้ดจาก CodeQwen1.5 เพื่อยกระดับประสิทธิภาพของ Qwen2-72B-Instruct ในภาษาโปรแกรมหลากหลายประเภทอย่างมาก ใช้ชุดข้อมูลที่กว้างขวางและมีคุณภาพสูงเพื่อเสริมความสามารถในการแก้โจทย์คณิตศาสตร์ของ Qwen2-72B-Instruct Qwen2-72B-Instruct สามารถจัดการงานดึงข้อมูลจากคอนเท็กซ์ความยาว 128K ได้อย่างสมบูรณ์ ยังเปิดซอร์สโซลูชันเอเจนต์ที่มีประสิทธิภาพสำหรับการประมวลผลเอกสารขนาด 1 ล้านโทเคน จากการประเมินอัตราการตอบสนองที่เป็นอันตรายต่อคำถามหลายภาษาที่เป็นอันตราย 4 ประเภท พบว่า Qwen2-72B-Instruct มีความปลอดภัยในระดับใกล้เคียงกับ GPT-4 และดีกว่า Mistral-8x22B อย่างมาก การใช้งาน Qwen2 ทุกโมเดลถูกเผยแพร่บน Hugging Face และ ModelScope และสามารถนำไปใช้งานได้อย่างอิสระ Qwen2-72B และโมเดลที่ปรับจูนตามคำสั่งใช้ Qianwen License ส่วนโมเดลที่เหลือใช้ไลเซนส์ Apache 2.0 วิธีใช้งาน Qwen2 ร่วมกับเฟรมเวิร์กของบุคคลที่สามหลากหลายแบบ สามารถดูได้จากเอกสารของแต่ละเฟรมเวิร์กและเอกสารทางการ แผนในอนาคตของ Qwen2 มีแผนฝึกโมเดล Qwen2 ที่ใหญ่ขึ้น เพื่อสำรวจ model scaling ควบคู่ไปกับ data scaling มีแผนขยาย Qwen2 ไปเป็นโมเดลภาษาหลายรูปแบบที่เข้าใจข้อมูลด้านภาพและเสียงได้ จะเดินหน้าเปิดซอร์สโมเดลใหม่ต่อไป เพื่อเร่งการพัฒนา AI โอเพนซอร์ส

(qwenlm.github.io)

5 คะแนน โดย xguru 2024-06-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Qwen2 เป็นโมเดลที่พัฒนาต่อยอดจาก Qwen1.5 โดยมีทั้งโมเดลพรีเทรนและโมเดลปรับจูนตามคำสั่ง 5 ขนาด
- ขนาดโมเดลคือ Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B
เพิ่มการฝึกด้วยข้อมูลในอีก 27 ภาษา นอกเหนือจากภาษาอังกฤษและภาษาจีน
แสดงประสิทธิภาพระดับล้ำสมัยในการประเมิน benchmark หลายรายการ และมีการปรับปรุงอย่างมากในด้านการเขียนโค้ดและคณิตศาสตร์
โมเดล Qwen2-7B-Instruct และ Qwen2-72B-Instruct รองรับความยาวคอนเท็กซ์ที่ขยายได้สูงสุด 128K โทเคนด้วยการใช้ YARN

ข้อมูลโมเดล Qwen2

ใช้ Group Query Attention(GQA) กับทุกขนาดโมเดล เพื่อเพิ่มความเร็วในการอนุมานและลดการใช้หน่วยความจำ
สำหรับโมเดลขนาดเล็ก มีแนวโน้มเลือกใช้เทคนิค embedding tying
โมเดลที่ปรับจูนตามคำสั่งมีการประเมินความสามารถในการจัดการความยาวคอนเท็กซ์ผ่านงาน Needle in a Haystack
ด้วยเทคโนโลยี YARN ทำให้ Qwen2-7B-Instruct และ Qwen2-72B-Instruct ประมวลผลได้ถึง 128K โทเคน

ประสิทธิภาพ

เสริมความสามารถหลายภาษาด้วยการพรีเทรนและปรับจูนตามคำสั่งบนชุดข้อมูล 27 ภาษา นอกเหนือจากภาษาอังกฤษและภาษาจีน
ความสามารถในการจัดการ code-switching ดีขึ้นอย่างมาก
ด้วยชุดข้อมูลพรีเทรนและวิธีการฝึกที่ปรับให้เหมาะสม Qwen2-72B แสดงประสิทธิภาพเหนือกว่าโมเดลรุ่นใหม่อย่าง Llama-3-70B
การฝึกหลังการพัฒนาได้ยกระดับความสามารถด้านโค้ด คณิตศาสตร์ การให้เหตุผล การทำตามคำสั่ง และความเข้าใจหลายภาษาเพิ่มเติม พร้อมทั้งปรับให้สอดคล้องกับคุณค่าของมนุษย์
ใน 16 benchmarks, Qwen2-72B-Instruct เหนือกว่า Qwen1.5-72B-Chat อย่างชัดเจน และมีประสิทธิภาพใกล้เคียงกับ Llama-3-70B-Instruct
โมเดล Qwen2 ขนาดเล็กก็เหนือกว่าโมเดล SOTA ที่มีขนาดใกล้เคียงกันหรือใหญ่กว่า โดยโดดเด่นเป็นพิเศษในตัวชี้วัดด้านโค้ดและภาษาจีน

ประเด็นสำคัญ

ผสานประสบการณ์และข้อมูลการฝึกโค้ดจาก CodeQwen1.5 เพื่อยกระดับประสิทธิภาพของ Qwen2-72B-Instruct ในภาษาโปรแกรมหลากหลายประเภทอย่างมาก
ใช้ชุดข้อมูลที่กว้างขวางและมีคุณภาพสูงเพื่อเสริมความสามารถในการแก้โจทย์คณิตศาสตร์ของ Qwen2-72B-Instruct
Qwen2-72B-Instruct สามารถจัดการงานดึงข้อมูลจากคอนเท็กซ์ความยาว 128K ได้อย่างสมบูรณ์
ยังเปิดซอร์สโซลูชันเอเจนต์ที่มีประสิทธิภาพสำหรับการประมวลผลเอกสารขนาด 1 ล้านโทเคน
จากการประเมินอัตราการตอบสนองที่เป็นอันตรายต่อคำถามหลายภาษาที่เป็นอันตราย 4 ประเภท พบว่า Qwen2-72B-Instruct มีความปลอดภัยในระดับใกล้เคียงกับ GPT-4 และดีกว่า Mistral-8x22B อย่างมาก

การใช้งาน Qwen2

ทุกโมเดลถูกเผยแพร่บน Hugging Face และ ModelScope และสามารถนำไปใช้งานได้อย่างอิสระ
Qwen2-72B และโมเดลที่ปรับจูนตามคำสั่งใช้ Qianwen License ส่วนโมเดลที่เหลือใช้ไลเซนส์ Apache 2.0
วิธีใช้งาน Qwen2 ร่วมกับเฟรมเวิร์กของบุคคลที่สามหลากหลายแบบ สามารถดูได้จากเอกสารของแต่ละเฟรมเวิร์กและเอกสารทางการ

แผนในอนาคตของ Qwen2

มีแผนฝึกโมเดล Qwen2 ที่ใหญ่ขึ้น เพื่อสำรวจ model scaling ควบคู่ไปกับ data scaling
มีแผนขยาย Qwen2 ไปเป็นโมเดลภาษาหลายรูปแบบที่เข้าใจข้อมูลด้านภาพและเสียงได้
จะเดินหน้าเปิดซอร์สโมเดลใหม่ต่อไป เพื่อเร่งการพัฒนา AI โอเพนซอร์ส

1 ความคิดเห็น

xguru 2024-06-08

Alibaba เปิดตัวโมเดล AI โอเพนซอร์ส QWEN
Qwen1.5-110B : โมเดล 100B+ รุ่นแรกของซีรีส์โอเพนซอร์ส LLM Qwen1.5 ของ Alibaba