Qwen1.5-110B : โมเดล 100B+ ตัวแรกในซีรีส์โอเพนซอร์ส LLM Qwen1.5 ของ Alibaba
(qwenlm.github.io)- ชุมชนโอเพนซอร์สกำลังมีการเปิดตัวโมเดลขนาดใหญ่ที่มีพารามิเตอร์มากกว่า 1 แสนล้านตัวออกมาอย่างต่อเนื่องในช่วงหลังมานี้ และแสดงประสิทธิภาพที่น่าทึ่งทั้งในการประเมินด้วยเบนช์มาร์กและงานแชตบอต
- Alibaba ก็ได้เปิดตัว Qwen1.5-110B ซึ่งเป็นโมเดล 100B+ ตัวแรกของซีรีส์ Qwen1.5
- ในการประเมินโมเดลพื้นฐาน โมเดลนี้ทำผลงานได้ในระดับที่สูสีกับ Meta-Llama3-70B และยังแสดงประสิทธิภาพโดดเด่นในการประเมินด้านแชต รวมถึง MT-Bench และ AlpacaEval 2.0
จุดเด่นของโมเดล Qwen1.5-110B
- Qwen1.5-110B มีลักษณะใกล้เคียงกับโมเดลอื่น ๆ ในตระกูล Qwen1.5 และสร้างขึ้นบนสถาปัตยกรรม Transformer decoder แบบเดียวกัน
- ใช้ grouped query attention (GQA) ทำให้มีประสิทธิภาพต่อการให้บริการโมเดล
- รองรับ context length 32K tokens และเป็นโมเดลหลายภาษาที่รองรับภาษาอังกฤษ จีน ฝรั่งเศส สเปน เยอรมัน รัสเซีย ไทย ญี่ปุ่น เวียดนาม อาหรับ เป็นต้น
ผลการประเมินโมเดลภาษาพื้นฐาน
- มีการประเมินโมเดลภาษาพื้นฐานหลายชุด และเปรียบเทียบกับ Meta-Llama3-70B และ Mixtral-8x22B ซึ่งเป็นโมเดลภาษา SOTA รุ่นล่าสุด
- ผลลัพธ์ชี้ว่าโมเดล 110B ใหม่นี้มีความสามารถพื้นฐานอย่างน้อยก็แข่งขันกับ Llama-3-70B ได้
- สำหรับโมเดลนี้ สูตรการ pre-training และ post-training ไม่ได้ถูกเปลี่ยนแปลงอย่างมากนัก ดังนั้นการปรับปรุงเมื่อเทียบกับ 72B จึงน่าจะมาจากการเพิ่มขนาดโมเดล
ผลการประเมินโมเดลแชต
- มีการทดสอบโมเดลแชตบน MT-Bench และ AlpacaEval 2.0
- เมื่อเทียบกับโมเดล 72B ที่เปิดตัวก่อนหน้า รุ่น 110B แสดงประสิทธิภาพที่ดีกว่าอย่างชัดเจนในทั้งสองเบนช์มาร์ก
- การปรับปรุงอย่างสม่ำเสมอในการประเมินบ่งชี้ว่า แม้จะไม่ได้เปลี่ยนสูตร post-training มากนัก แต่โมเดลภาษาพื้นฐานที่ใหญ่ขึ้นและแข็งแกร่งขึ้นก็สามารถนำไปสู่โมเดลแชตที่ดีกว่าได้
การพัฒนาด้วย Qwen1.5-110B
- หากต้องการดูวิธีใช้งานร่วมกับ Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl และ LLaMA-Factory แนะนำให้อ่านบล็อก Qwen1.5
บทสรุป
- Qwen1.5-110B เป็นโมเดลที่ใหญ่ที่สุดในซีรีส์ Qwen1.5 และเป็นโมเดลแรกของซีรีส์ที่มีพารามิเตอร์มากกว่า 1 แสนล้านตัว
- โมเดลนี้แสดงประสิทธิภาพที่แข่งขันได้กับ Llama-3-70B ซึ่งเป็นโมเดล SOTA ที่เพิ่งเปิดตัว และเหนือกว่าโมเดล 72B อย่างชัดเจน
- สิ่งนี้สะท้อนว่ายังมีโอกาสอีกมากในการขยายขนาดโมเดลเพื่อให้ได้ประสิทธิภาพที่ดียิ่งขึ้น
- การเปิดตัวของ Llama-3 แสดงให้เห็นถึงความสำคัญของการขยายข้อมูลไปสู่สเกลที่ใหญ่มาก แต่เชื่อว่าในการเปิดตัวครั้งต่อ ๆ ไป จะสามารถขยายทั้งข้อมูลและขนาดโมเดลเพื่อเก็บข้อดีของทั้งสองแนวทางไว้ได้
1 ความคิดเห็น
Alibaba, เปิดตัวโมเดล AI โอเพนซอร์ส QWEN