5 คะแนน โดย xguru 2024-06-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Qwen2 เป็นโมเดลที่พัฒนาต่อยอดจาก Qwen1.5 โดยมีทั้งโมเดลพรีเทรนและโมเดลปรับจูนตามคำสั่ง 5 ขนาด
    • ขนาดโมเดลคือ Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B
  • เพิ่มการฝึกด้วยข้อมูลในอีก 27 ภาษา นอกเหนือจากภาษาอังกฤษและภาษาจีน
  • แสดงประสิทธิภาพระดับล้ำสมัยในการประเมิน benchmark หลายรายการ และมีการปรับปรุงอย่างมากในด้านการเขียนโค้ดและคณิตศาสตร์
  • โมเดล Qwen2-7B-Instruct และ Qwen2-72B-Instruct รองรับความยาวคอนเท็กซ์ที่ขยายได้สูงสุด 128K โทเคนด้วยการใช้ YARN

ข้อมูลโมเดล Qwen2

  • ใช้ Group Query Attention(GQA) กับทุกขนาดโมเดล เพื่อเพิ่มความเร็วในการอนุมานและลดการใช้หน่วยความจำ
  • สำหรับโมเดลขนาดเล็ก มีแนวโน้มเลือกใช้เทคนิค embedding tying
  • โมเดลที่ปรับจูนตามคำสั่งมีการประเมินความสามารถในการจัดการความยาวคอนเท็กซ์ผ่านงาน Needle in a Haystack
  • ด้วยเทคโนโลยี YARN ทำให้ Qwen2-7B-Instruct และ Qwen2-72B-Instruct ประมวลผลได้ถึง 128K โทเคน

ประสิทธิภาพ

  • เสริมความสามารถหลายภาษาด้วยการพรีเทรนและปรับจูนตามคำสั่งบนชุดข้อมูล 27 ภาษา นอกเหนือจากภาษาอังกฤษและภาษาจีน
  • ความสามารถในการจัดการ code-switching ดีขึ้นอย่างมาก
  • ด้วยชุดข้อมูลพรีเทรนและวิธีการฝึกที่ปรับให้เหมาะสม Qwen2-72B แสดงประสิทธิภาพเหนือกว่าโมเดลรุ่นใหม่อย่าง Llama-3-70B
  • การฝึกหลังการพัฒนาได้ยกระดับความสามารถด้านโค้ด คณิตศาสตร์ การให้เหตุผล การทำตามคำสั่ง และความเข้าใจหลายภาษาเพิ่มเติม พร้อมทั้งปรับให้สอดคล้องกับคุณค่าของมนุษย์
  • ใน 16 benchmarks, Qwen2-72B-Instruct เหนือกว่า Qwen1.5-72B-Chat อย่างชัดเจน และมีประสิทธิภาพใกล้เคียงกับ Llama-3-70B-Instruct
  • โมเดล Qwen2 ขนาดเล็กก็เหนือกว่าโมเดล SOTA ที่มีขนาดใกล้เคียงกันหรือใหญ่กว่า โดยโดดเด่นเป็นพิเศษในตัวชี้วัดด้านโค้ดและภาษาจีน

ประเด็นสำคัญ

  • ผสานประสบการณ์และข้อมูลการฝึกโค้ดจาก CodeQwen1.5 เพื่อยกระดับประสิทธิภาพของ Qwen2-72B-Instruct ในภาษาโปรแกรมหลากหลายประเภทอย่างมาก
  • ใช้ชุดข้อมูลที่กว้างขวางและมีคุณภาพสูงเพื่อเสริมความสามารถในการแก้โจทย์คณิตศาสตร์ของ Qwen2-72B-Instruct
  • Qwen2-72B-Instruct สามารถจัดการงานดึงข้อมูลจากคอนเท็กซ์ความยาว 128K ได้อย่างสมบูรณ์
  • ยังเปิดซอร์สโซลูชันเอเจนต์ที่มีประสิทธิภาพสำหรับการประมวลผลเอกสารขนาด 1 ล้านโทเคน
  • จากการประเมินอัตราการตอบสนองที่เป็นอันตรายต่อคำถามหลายภาษาที่เป็นอันตราย 4 ประเภท พบว่า Qwen2-72B-Instruct มีความปลอดภัยในระดับใกล้เคียงกับ GPT-4 และดีกว่า Mistral-8x22B อย่างมาก

การใช้งาน Qwen2

  • ทุกโมเดลถูกเผยแพร่บน Hugging Face และ ModelScope และสามารถนำไปใช้งานได้อย่างอิสระ
  • Qwen2-72B และโมเดลที่ปรับจูนตามคำสั่งใช้ Qianwen License ส่วนโมเดลที่เหลือใช้ไลเซนส์ Apache 2.0
  • วิธีใช้งาน Qwen2 ร่วมกับเฟรมเวิร์กของบุคคลที่สามหลากหลายแบบ สามารถดูได้จากเอกสารของแต่ละเฟรมเวิร์กและเอกสารทางการ

แผนในอนาคตของ Qwen2

  • มีแผนฝึกโมเดล Qwen2 ที่ใหญ่ขึ้น เพื่อสำรวจ model scaling ควบคู่ไปกับ data scaling
  • มีแผนขยาย Qwen2 ไปเป็นโมเดลภาษาหลายรูปแบบที่เข้าใจข้อมูลด้านภาพและเสียงได้
  • จะเดินหน้าเปิดซอร์สโมเดลใหม่ต่อไป เพื่อเร่งการพัฒนา AI โอเพนซอร์ส