Qwen2.5 - เปิดตัว Foundation Model หลายรุ่น
(qwenlm.github.io)- Qwen2.5 ประกอบด้วยโมเดลเฉพาะทาง เช่น LLM อย่าง Qwen2.5, Qwen2.5-Coder สำหรับงานเขียนโค้ด และ Qwen2.5-Math สำหรับงานคณิตศาสตร์
- โมเดล open-weight ทั้งหมดเป็นภาษาโมเดลแบบ dense decoder-only และมีหลายขนาดตั้งแต่ 0.5B ถึง 72B
- โมเดลโอเพนซอร์สทั้งหมด ยกเว้นรุ่น 3B และ 72B ให้ใช้งานภายใต้ไลเซนส์ Apache 2.0
- โมเดลภาษารุ่นเรือธง Qwen-Plus และ Qwen-Turbo ให้บริการผ่าน API บน Model Studio
- Qwen2-VL-72B ก็ถูกเปิดซอร์สเช่นกัน และมีประสิทธิภาพดีขึ้นจากเวอร์ชันของเดือนก่อน
จุดเด่นของ Qwen2.5
- พรีเทรนด้วยชุดข้อมูลขนาดใหญ่สูงสุด 1.8 ล้านล้าน โทเค็น ทำให้มีความรู้เพิ่มขึ้นอย่างมากเมื่อเทียบกับ Qwen2 (MMLU: 85+)
- ความสามารถด้านการเขียนโค้ด (HumanEval 85+) และคณิตศาสตร์ (MATH 80+) ดีขึ้นมาก
- ความสามารถในการทำตามคำสั่ง, การสร้างข้อความยาว (มากกว่า 8K โทเค็น), การเข้าใจข้อมูลแบบมีโครงสร้าง (เช่น ตาราง) และการสร้างผลลัพธ์แบบมีโครงสร้างอย่าง JSON ดีขึ้นอย่างมาก
- มีความทนทานต่อความหลากหลายของ system prompt มากขึ้น ทำให้กำหนดบทบาทและเงื่อนไขของแชตบอตได้ง่ายขึ้น
- เช่นเดียวกับ Qwen2 โมเดลภาษาของ Qwen2.5 รองรับสูงสุด 128K โทเค็น และสร้างข้อความได้สูงสุด 8K โทเค็น
- รองรับมากกว่า 29 ภาษา เช่น จีน อังกฤษ ฝรั่งเศส สเปน โปรตุเกส เยอรมัน อิตาลี รัสเซีย ญี่ปุ่น เกาหลี เวียดนาม ไทย และอาหรับ
ประสิทธิภาพ
Qwen2.5
- เปรียบเทียบประสิทธิภาพของ Qwen2.5-72B ซึ่งเป็นโมเดลโอเพนซอร์สขนาดใหญ่ที่สุด (ภาษาโมเดลแบบ dense decoder-only ขนาด 72B พารามิเตอร์) กับโมเดลโอเพนซอร์สหลักอย่าง Llama-3.1-70B และ Mistral-Large-V2
- นำเสนอผลลัพธ์แบบครอบคลุมของเวอร์ชัน instruction-tuned บนเบนช์มาร์กหลากหลายชุด เพื่อประเมินทั้งความสามารถของโมเดลและความชอบของมนุษย์
- นอกจากโมเดลภาษาที่ผ่าน instruction tuning แล้ว base language model ของ Qwen2.5-72B ยังแสดงประสิทธิภาพระดับแนวหน้า แม้เทียบกับโมเดลขนาดใหญ่กว่าอย่าง Llama-3-405B
- เปรียบเทียบเวอร์ชันล่าสุดของโมเดลแบบ API คือ Qwen-Plus กับโมเดลชื่อดังทั้งแบบ proprietary และโอเพนซอร์ส เช่น GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B และ DeepSeek-V2.5
- Qwen-Plus เหนือกว่า DeepSeek-V2.5 อย่างชัดเจน และให้ประสิทธิภาพใกล้เคียง Llama-3.1-405B แต่ยังด้อยกว่า GPT4-o และ Claude-3.5-Sonnet ในบางด้าน
- นำ Qwen2.5-14B และ Qwen2.5-32B กลับมาอีกครั้ง โดยโมเดลเหล่านี้เหนือกว่าโมเดลอ้างอิงที่มีขนาดใกล้เคียงหรือใหญ่กว่า เช่น Phi-3.5-MoE-Instruct และ Gemma2-27B-IT
- โมเดลแบบ API อย่าง Qwen-Turbo ให้บริการได้รวดเร็วในราคาสมเหตุสมผล และมีประสิทธิภาพที่แข่งขันได้มากเมื่อเทียบกับโมเดลโอเพนซอร์สสองรุ่นนั้น
- Qwen2.5-3B มีพารามิเตอร์ราว 3 พันล้านตัว แต่ให้ประสิทธิภาพที่น่าประทับใจมาก พร้อมประสิทธิภาพเชิงทรัพยากรและความสามารถที่เหนือกว่าเวอร์ชันก่อน
- นอกจากการปรับปรุงผลการประเมินบนเบนช์มาร์กแล้ว ยังพัฒนาวิธีการ post-training ด้วย โดยมีการอัปเดตหลัก 4 ด้าน ได้แก่ รองรับการสร้างข้อความยาวได้ถึง 8K โทเค็น, เข้าใจข้อมูลแบบมีโครงสร้างดีขึ้นมาก, สร้างผลลัพธ์แบบมีโครงสร้างอย่าง JSON ได้เชื่อถือได้มากขึ้น, และให้ประสิทธิภาพดีขึ้นกับ system prompt ที่หลากหลาย ช่วยเรื่องการรับบทบาทได้ดีขึ้น
Qwen2.5-Coder
- หลังจากเปิดตัว CodeQwen1.5 ก็มีผู้ใช้จำนวนมากพึ่งพาโมเดลนี้ในงานเขียนโค้ดหลากหลายรูปแบบ เช่น การดีบัก, การตอบคำถามเกี่ยวกับโค้ด และการเสนอแนะโค้ด
- เวอร์ชันล่าสุด Qwen2.5-Coder ถูกออกแบบมาโดยเฉพาะสำหรับแอปพลิเคชันด้านการเขียนโค้ด
- แม้จะมีขนาดเล็ก แต่ก็แสดงความสามารถด้านโค้ดที่โดดเด่น รวมถึงทำได้ดีกว่าโมเดลภาษาที่ใหญ่กว่าในหลายภาษาโปรแกรมและหลายงาน
Qwen2.5-Math
- เมื่อเดือนก่อนมีการเปิดตัว Qwen2-Math ซึ่งเป็นโมเดลภาษาสำหรับคณิตศาสตร์โดยเฉพาะเป็นครั้งแรก และเมื่อเทียบกับ Qwen2-Math แล้ว Qwen2.5-Math ถูกพรีเทรนด้วยข้อมูลด้านคณิตศาสตร์ขนาดใหญ่ยิ่งขึ้น รวมถึงข้อมูลสังเคราะห์ที่สร้างโดย Qwen2-Math
- ครั้งนี้ได้ขยายการรองรับภาษาจีน และเพิ่มความสามารถในการทำ CoT, PoT และ TIR เพื่อเสริมความสามารถด้านการให้เหตุผล
- ประสิทธิภาพโดยรวมของ Qwen2.5-Math-72B-Instruct เหนือกว่า Qwen2-Math-72B-Instruct และ GPT4-o และแม้แต่โมเดลผู้เชี่ยวชาญขนาดเล็กมากอย่าง Qwen2.5-Math-1.5B-Instruct ก็ยังให้ประสิทธิภาพที่แข่งขันได้สูงเมื่อเทียบกับโมเดลภาษาขนาดใหญ่
การพัฒนาด้วย Qwen2.5
- หากต้องการใช้ Qwen2.5 ร่วมกับ vLLM สามารถดีพลอยบริการที่เข้ากันได้กับ OpenAI API ได้ด้วยคำสั่งต่อไปนี้:
- Qwen2.5 รองรับ tool calling แบบ built-in ของ vllm โดยฟีเจอร์นี้ต้องใช้
vllm>=0.6 - Qwen2.5 ยังรองรับ tool calling ของ Ollama
- ยังใช้งาน การรองรับ tool calling ของ transformers บน Hugging Face ได้
- ก่อนหน้านี้ Qwen-Agent รองรับ tool calling โดยใช้เทมเพลต tool calling เฉพาะของ Qwen2 และ Qwen2.5 ก็ยังคงเข้ากันได้กับเทมเพลตของ Qwen2 และ Qwen-Agent เช่นกัน
แผนต่อจากนี้คืออะไร?
- แม้จะยินดีที่ได้เปิดตัวโมเดลคุณภาพสูงจำนวนมากพร้อมกัน แต่ก็ยังตระหนักว่ายังมีความท้าทายสำคัญเหลืออยู่
- การเปิดตัวล่าสุดแสดงให้เห็นว่ากำลังมุ่งพัฒนา foundation model ที่แข็งแกร่งในด้านภาษา วิชัน-ภาษา และออดิโอ-ภาษา
- อย่างไรก็ตาม สิ่งสำคัญคือการรวมโมดาลิตีที่หลากหลายเหล่านี้ไว้ในโมเดลเดียว เพื่อให้สามารถประมวลผลข้อมูลจากทุกด้านได้อย่างไร้รอยต่อ
- แม้จะยกระดับความสามารถด้านการให้เหตุผลผ่านการสเกลข้อมูลแล้ว แต่ด้วยแรงบันดาลใจจากความก้าวหน้าล่าสุดของ reinforcement learning ทีมจึงมุ่งมั่นที่จะสเกล inference compute เพื่อยกระดับความสามารถด้านการให้เหตุผลของโมเดลให้ดียิ่งขึ้น
1 ความคิดเห็น
Alibaba เปิดตัวโมเดล AI โอเพนซอร์ส QWEN
Alibaba เปิดตัวโมเดล Qwen 2