Qwen1.5-110B : โมเดล 100B+ ตัวแรกในซีรีส์โอเพนซอร์ส LLM Qwen1.5 ของ Alibaba

xguru · 2024-04-28T09:30:03+09:00

ชุมชนโอเพนซอร์สกำลังมีการเปิดตัวโมเดลขนาดใหญ่ที่มีพารามิเตอร์มากกว่า 1 แสนล้านตัวออกมาอย่างต่อเนื่องในช่วงหลังมานี้ และแสดงประสิทธิภาพที่น่าทึ่งทั้งในการประเมินด้วยเบนช์มาร์กและงานแชตบอต Alibaba ก็ได้เปิดตัว Qwen1.5-110B ซึ่งเป็นโมเดล 100B+ ตัวแรกของซีรีส์ Qwen1.5 ในการประเมินโมเดลพื้นฐาน โมเดลนี้ทำผลงานได้ในระดับที่สูสีกับ Meta-Llama3-70B และยังแสดงประสิทธิภาพโดดเด่นในการประเมินด้านแชต รวมถึง MT-Bench และ AlpacaEval 2.0 จุดเด่นของโมเดล Qwen1.5-110B Qwen1.5-110B มีลักษณะใกล้เคียงกับโมเดลอื่น ๆ ในตระกูล Qwen1.5 และสร้างขึ้นบนสถาปัตยกรรม Transformer decoder แบบเดียวกัน ใช้ grouped query attention (GQA) ทำให้มีประสิทธิภาพต่อการให้บริการโมเดล รองรับ context length 32K tokens และเป็นโมเดลหลายภาษาที่รองรับภาษาอังกฤษ จีน ฝรั่งเศส สเปน เยอรมัน รัสเซีย ไทย ญี่ปุ่น เวียดนาม อาหรับ เป็นต้น ผลการประเมินโมเดลภาษาพื้นฐาน มีการประเมินโมเดลภาษาพื้นฐานหลายชุด และเปรียบเทียบกับ Meta-Llama3-70B และ Mixtral-8x22B ซึ่งเป็นโมเดลภาษา SOTA รุ่นล่าสุด ผลลัพธ์ชี้ว่าโมเดล 110B ใหม่นี้มีความสามารถพื้นฐานอย่างน้อยก็แข่งขันกับ Llama-3-70B ได้ สำหรับโมเดลนี้ สูตรการ pre-training และ post-training ไม่ได้ถูกเปลี่ยนแปลงอย่างมากนัก ดังนั้นการปรับปรุงเมื่อเทียบกับ 72B จึงน่าจะมาจากการเพิ่มขนาดโมเดล ผลการประเมินโมเดลแชต มีการทดสอบโมเดลแชตบน MT-Bench และ AlpacaEval 2.0 เมื่อเทียบกับโมเดล 72B ที่เปิดตัวก่อนหน้า รุ่น 110B แสดงประสิทธิภาพที่ดีกว่าอย่างชัดเจนในทั้งสองเบนช์มาร์ก การปรับปรุงอย่างสม่ำเสมอในการประเมินบ่งชี้ว่า แม้จะไม่ได้เปลี่ยนสูตร post-training มากนัก แต่โมเดลภาษาพื้นฐานที่ใหญ่ขึ้นและแข็งแกร่งขึ้นก็สามารถนำไปสู่โมเดลแชตที่ดีกว่าได้ การพัฒนาด้วย Qwen1.5-110B หากต้องการดูวิธีใช้งานร่วมกับ Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl และ LLaMA-Factory แนะนำให้อ่านบล็อก Qwen1.5 บทสรุป Qwen1.5-110B เป็นโมเดลที่ใหญ่ที่สุดในซีรีส์ Qwen1.5 และเป็นโมเดลแรกของซีรีส์ที่มีพารามิเตอร์มากกว่า 1 แสนล้านตัว โมเดลนี้แสดงประสิทธิภาพที่แข่งขันได้กับ Llama-3-70B ซึ่งเป็นโมเดล SOTA ที่เพิ่งเปิดตัว และเหนือกว่าโมเดล 72B อย่างชัดเจน สิ่งนี้สะท้อนว่ายังมีโอกาสอีกมากในการขยายขนาดโมเดลเพื่อให้ได้ประสิทธิภาพที่ดียิ่งขึ้น การเปิดตัวของ Llama-3 แสดงให้เห็นถึงความสำคัญของการขยายข้อมูลไปสู่สเกลที่ใหญ่มาก แต่เชื่อว่าในการเปิดตัวครั้งต่อ ๆ ไป จะสามารถขยายทั้งข้อมูลและขนาดโมเดลเพื่อเก็บข้อดีของทั้งสองแนวทางไว้ได้

(qwenlm.github.io)

5 คะแนน โดย xguru 2024-04-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ชุมชนโอเพนซอร์สกำลังมีการเปิดตัวโมเดลขนาดใหญ่ที่มีพารามิเตอร์มากกว่า 1 แสนล้านตัวออกมาอย่างต่อเนื่องในช่วงหลังมานี้ และแสดงประสิทธิภาพที่น่าทึ่งทั้งในการประเมินด้วยเบนช์มาร์กและงานแชตบอต
Alibaba ก็ได้เปิดตัว Qwen1.5-110B ซึ่งเป็นโมเดล 100B+ ตัวแรกของซีรีส์ Qwen1.5
ในการประเมินโมเดลพื้นฐาน โมเดลนี้ทำผลงานได้ในระดับที่สูสีกับ Meta-Llama3-70B และยังแสดงประสิทธิภาพโดดเด่นในการประเมินด้านแชต รวมถึง MT-Bench และ AlpacaEval 2.0

จุดเด่นของโมเดล Qwen1.5-110B

Qwen1.5-110B มีลักษณะใกล้เคียงกับโมเดลอื่น ๆ ในตระกูล Qwen1.5 และสร้างขึ้นบนสถาปัตยกรรม Transformer decoder แบบเดียวกัน
ใช้ grouped query attention (GQA) ทำให้มีประสิทธิภาพต่อการให้บริการโมเดล
รองรับ context length 32K tokens และเป็นโมเดลหลายภาษาที่รองรับภาษาอังกฤษ จีน ฝรั่งเศส สเปน เยอรมัน รัสเซีย ไทย ญี่ปุ่น เวียดนาม อาหรับ เป็นต้น

ผลการประเมินโมเดลภาษาพื้นฐาน

มีการประเมินโมเดลภาษาพื้นฐานหลายชุด และเปรียบเทียบกับ Meta-Llama3-70B และ Mixtral-8x22B ซึ่งเป็นโมเดลภาษา SOTA รุ่นล่าสุด
ผลลัพธ์ชี้ว่าโมเดล 110B ใหม่นี้มีความสามารถพื้นฐานอย่างน้อยก็แข่งขันกับ Llama-3-70B ได้
สำหรับโมเดลนี้ สูตรการ pre-training และ post-training ไม่ได้ถูกเปลี่ยนแปลงอย่างมากนัก ดังนั้นการปรับปรุงเมื่อเทียบกับ 72B จึงน่าจะมาจากการเพิ่มขนาดโมเดล

ผลการประเมินโมเดลแชต

มีการทดสอบโมเดลแชตบน MT-Bench และ AlpacaEval 2.0
เมื่อเทียบกับโมเดล 72B ที่เปิดตัวก่อนหน้า รุ่น 110B แสดงประสิทธิภาพที่ดีกว่าอย่างชัดเจนในทั้งสองเบนช์มาร์ก
การปรับปรุงอย่างสม่ำเสมอในการประเมินบ่งชี้ว่า แม้จะไม่ได้เปลี่ยนสูตร post-training มากนัก แต่โมเดลภาษาพื้นฐานที่ใหญ่ขึ้นและแข็งแกร่งขึ้นก็สามารถนำไปสู่โมเดลแชตที่ดีกว่าได้

การพัฒนาด้วย Qwen1.5-110B

หากต้องการดูวิธีใช้งานร่วมกับ Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl และ LLaMA-Factory แนะนำให้อ่านบล็อก Qwen1.5

บทสรุป

Qwen1.5-110B เป็นโมเดลที่ใหญ่ที่สุดในซีรีส์ Qwen1.5 และเป็นโมเดลแรกของซีรีส์ที่มีพารามิเตอร์มากกว่า 1 แสนล้านตัว
โมเดลนี้แสดงประสิทธิภาพที่แข่งขันได้กับ Llama-3-70B ซึ่งเป็นโมเดล SOTA ที่เพิ่งเปิดตัว และเหนือกว่าโมเดล 72B อย่างชัดเจน
สิ่งนี้สะท้อนว่ายังมีโอกาสอีกมากในการขยายขนาดโมเดลเพื่อให้ได้ประสิทธิภาพที่ดียิ่งขึ้น
การเปิดตัวของ Llama-3 แสดงให้เห็นถึงความสำคัญของการขยายข้อมูลไปสู่สเกลที่ใหญ่มาก แต่เชื่อว่าในการเปิดตัวครั้งต่อ ๆ ไป จะสามารถขยายทั้งข้อมูลและขนาดโมเดลเพื่อเก็บข้อดีของทั้งสองแนวทางไว้ได้

1 ความคิดเห็น

xguru 2024-04-28

Alibaba, เปิดตัวโมเดล AI โอเพนซอร์ส QWEN