Qwen2.5 - เปิดตัว Foundation Model หลายรุ่น

xguru · 2024-09-20T11:22:54+09:00

Qwen2.5 ประกอบด้วยโมเดลเฉพาะทาง เช่น LLM อย่าง Qwen2.5, Qwen2.5-Coder สำหรับงานเขียนโค้ด และ Qwen2.5-Math สำหรับงานคณิตศาสตร์ โมเดล open-weight ทั้งหมดเป็นภาษาโมเดลแบบ dense decoder-only และมีหลายขนาดตั้งแต่ 0.5B ถึง 72B โมเดลโอเพนซอร์สทั้งหมด ยกเว้นรุ่น 3B และ 72B ให้ใช้งานภายใต้ไลเซนส์ Apache 2.0 โมเดลภาษารุ่นเรือธง Qwen-Plus และ Qwen-Turbo ให้บริการผ่าน API บน Model Studio Qwen2-VL-72B ก็ถูกเปิดซอร์สเช่นกัน และมีประสิทธิภาพดีขึ้นจากเวอร์ชันของเดือนก่อน จุดเด่นของ Qwen2.5 พรีเทรนด้วยชุดข้อมูลขนาดใหญ่สูงสุด 1.8 ล้านล้าน โทเค็น ทำให้มีความรู้เพิ่มขึ้นอย่างมากเมื่อเทียบกับ Qwen2 (MMLU: 85+) ความสามารถด้านการเขียนโค้ด (HumanEval 85+) และคณิตศาสตร์ (MATH 80+) ดีขึ้นมาก ความสามารถในการทำตามคำสั่ง, การสร้างข้อความยาว (มากกว่า 8K โทเค็น), การเข้าใจข้อมูลแบบมีโครงสร้าง (เช่น ตาราง) และการสร้างผลลัพธ์แบบมีโครงสร้างอย่าง JSON ดีขึ้นอย่างมาก มีความทนทานต่อความหลากหลายของ system prompt มากขึ้น ทำให้กำหนดบทบาทและเงื่อนไขของแชตบอตได้ง่ายขึ้น เช่นเดียวกับ Qwen2 โมเดลภาษาของ Qwen2.5 รองรับสูงสุด 128K โทเค็น และสร้างข้อความได้สูงสุด 8K โทเค็น รองรับมากกว่า 29 ภาษา เช่น จีน อังกฤษ ฝรั่งเศส สเปน โปรตุเกส เยอรมัน อิตาลี รัสเซีย ญี่ปุ่น เกาหลี เวียดนาม ไทย และอาหรับ ประสิทธิภาพ Qwen2.5 เปรียบเทียบประสิทธิภาพของ Qwen2.5-72B ซึ่งเป็นโมเดลโอเพนซอร์สขนาดใหญ่ที่สุด (ภาษาโมเดลแบบ dense decoder-only ขนาด 72B พารามิเตอร์) กับโมเดลโอเพนซอร์สหลักอย่าง Llama-3.1-70B และ Mistral-Large-V2 นำเสนอผลลัพธ์แบบครอบคลุมของเวอร์ชัน instruction-tuned บนเบนช์มาร์กหลากหลายชุด เพื่อประเมินทั้งความสามารถของโมเดลและความชอบของมนุษย์ นอกจากโมเดลภาษาที่ผ่าน instruction tuning แล้ว base language model ของ Qwen2.5-72B ยังแสดงประสิทธิภาพระดับแนวหน้า แม้เทียบกับโมเดลขนาดใหญ่กว่าอย่าง Llama-3-405B เปรียบเทียบเวอร์ชันล่าสุดของโมเดลแบบ API คือ Qwen-Plus กับโมเดลชื่อดังทั้งแบบ proprietary และโอเพนซอร์ส เช่น GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B และ DeepSeek-V2.5 Qwen-Plus เหนือกว่า DeepSeek-V2.5 อย่างชัดเจน และให้ประสิทธิภาพใกล้เคียง Llama-3.1-405B แต่ยังด้อยกว่า GPT4-o และ Claude-3.5-Sonnet ในบางด้าน นำ Qwen2.5-14B และ Qwen2.5-32B กลับมาอีกครั้ง โดยโมเดลเหล่านี้เหนือกว่าโมเดลอ้างอิงที่มีขนาดใกล้เคียงหรือใหญ่กว่า เช่น Phi-3.5-MoE-Instruct และ Gemma2-27B-IT โมเดลแบบ API อย่าง Qwen-Turbo ให้บริการได้รวดเร็วในราคาสมเหตุสมผล และมีประสิทธิภาพที่แข่งขันได้มากเมื่อเทียบกับโมเดลโอเพนซอร์สสองรุ่นนั้น Qwen2.5-3B มีพารามิเตอร์ราว 3 พันล้านตัว แต่ให้ประสิทธิภาพที่น่าประทับใจมาก พร้อมประสิทธิภาพเชิงทรัพยากรและความสามารถที่เหนือกว่าเวอร์ชันก่อน นอกจากการปรับปรุงผลการประเมินบนเบนช์มาร์กแล้ว ยังพัฒนาวิธีการ post-training ด้วย โดยมีการอัปเดตหลัก 4 ด้าน ได้แก่ รองรับการสร้างข้อความยาวได้ถึง 8K โทเค็น, เข้าใจข้อมูลแบบมีโครงสร้างดีขึ้นมาก, สร้างผลลัพธ์แบบมีโครงสร้างอย่าง JSON ได้เชื่อถือได้มากขึ้น, และให้ประสิทธิภาพดีขึ้นกับ system prompt ที่หลากหลาย ช่วยเรื่องการรับบทบาทได้ดีขึ้น Qwen2.5-Coder หลังจากเปิดตัว CodeQwen1.5 ก็มีผู้ใช้จำนวนมากพึ่งพาโมเดลนี้ในงานเขียนโค้ดหลากหลายรูปแบบ เช่น การดีบัก, การตอบคำถามเกี่ยวกับโค้ด และการเสนอแนะโค้ด เวอร์ชันล่าสุด Qwen2.5-Coder ถูกออกแบบมาโดยเฉพาะสำหรับแอปพลิเคชันด้านการเขียนโค้ด แม้จะมีขนาดเล็ก แต่ก็แสดงความสามารถด้านโค้ดที่โดดเด่น รวมถึงทำได้ดีกว่าโมเดลภาษาที่ใหญ่กว่าในหลายภาษาโปรแกรมและหลายงาน Qwen2.5-Math เมื่อเดือนก่อนมีการเปิดตัว Qwen2-Math ซึ่งเป็นโมเดลภาษาสำหรับคณิตศาสตร์โดยเฉพาะเป็นครั้งแรก และเมื่อเทียบกับ Qwen2-Math แล้ว Qwen2.5-Math ถูกพรีเทรนด้วยข้อมูลด้านคณิตศาสตร์ขนาดใหญ่ยิ่งขึ้น รวมถึงข้อมูลสังเคราะห์ที่สร้างโดย Qwen2-Math ครั้งนี้ได้ขยายการรองรับภาษาจีน และเพิ่มความสามารถในการทำ CoT, PoT และ TIR เพื่อเสริมความสามารถด้านการให้เหตุผล ประสิทธิภาพโดยรวมของ Qwen2.5-Math-72B-Instruct เหนือกว่า Qwen2-Math-72B-Instruct และ GPT4-o และแม้แต่โมเดลผู้เชี่ยวชาญขนาดเล็กมากอย่าง Qwen2.5-Math-1.5B-Instruct ก็ยังให้ประสิทธิภาพที่แข่งขันได้สูงเมื่อเทียบกับโมเดลภาษาขนาดใหญ่ การพัฒนาด้วย Qwen2.5 หากต้องการใช้ Qwen2.5 ร่วมกับ vLLM สามารถดีพลอยบริการที่เข้ากันได้กับ OpenAI API ได้ด้วยคำสั่งต่อไปนี้: Qwen2.5 รองรับ tool calling แบบ built-in ของ vllm โดยฟีเจอร์นี้ต้องใช้ vllm>=0.6 Qwen2.5 ยังรองรับ tool calling ของ Ollama ยังใช้งาน การรองรับ tool calling ของ transformers บน Hugging Face ได้ ก่อนหน้านี้ Qwen-Agent รองรับ tool calling โดยใช้เทมเพลต tool calling เฉพาะของ Qwen2 และ Qwen2.5 ก็ยังคงเข้ากันได้กับเทมเพลตของ Qwen2 และ Qwen-Agent เช่นกัน แผนต่อจากนี้คืออะไร? แม้จะยินดีที่ได้เปิดตัวโมเดลคุณภาพสูงจำนวนมากพร้อมกัน แต่ก็ยังตระหนักว่ายังมีความท้าทายสำคัญเหลืออยู่ การเปิดตัวล่าสุดแสดงให้เห็นว่ากำลังมุ่งพัฒนา foundation model ที่แข็งแกร่งในด้านภาษา วิชัน-ภาษา และออดิโอ-ภาษา อย่างไรก็ตาม สิ่งสำคัญคือการรวมโมดาลิตีที่หลากหลายเหล่านี้ไว้ในโมเดลเดียว เพื่อให้สามารถประมวลผลข้อมูลจากทุกด้านได้อย่างไร้รอยต่อ แม้จะยกระดับความสามารถด้านการให้เหตุผลผ่านการสเกลข้อมูลแล้ว แต่ด้วยแรงบันดาลใจจากความก้าวหน้าล่าสุดของ reinforcement learning ทีมจึงมุ่งมั่นที่จะสเกล inference compute เพื่อยกระดับความสามารถด้านการให้เหตุผลของโมเดลให้ดียิ่งขึ้น

(qwenlm.github.io)

7 คะแนน โดย xguru 2024-09-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Qwen2.5 ประกอบด้วยโมเดลเฉพาะทาง เช่น LLM อย่าง Qwen2.5, Qwen2.5-Coder สำหรับงานเขียนโค้ด และ Qwen2.5-Math สำหรับงานคณิตศาสตร์
โมเดล open-weight ทั้งหมดเป็นภาษาโมเดลแบบ dense decoder-only และมีหลายขนาดตั้งแต่ 0.5B ถึง 72B
โมเดลโอเพนซอร์สทั้งหมด ยกเว้นรุ่น 3B และ 72B ให้ใช้งานภายใต้ไลเซนส์ Apache 2.0
โมเดลภาษารุ่นเรือธง Qwen-Plus และ Qwen-Turbo ให้บริการผ่าน API บน Model Studio
Qwen2-VL-72B ก็ถูกเปิดซอร์สเช่นกัน และมีประสิทธิภาพดีขึ้นจากเวอร์ชันของเดือนก่อน

จุดเด่นของ Qwen2.5

พรีเทรนด้วยชุดข้อมูลขนาดใหญ่สูงสุด 1.8 ล้านล้าน โทเค็น ทำให้มีความรู้เพิ่มขึ้นอย่างมากเมื่อเทียบกับ Qwen2 (MMLU: 85+)
ความสามารถด้านการเขียนโค้ด (HumanEval 85+) และคณิตศาสตร์ (MATH 80+) ดีขึ้นมาก
ความสามารถในการทำตามคำสั่ง, การสร้างข้อความยาว (มากกว่า 8K โทเค็น), การเข้าใจข้อมูลแบบมีโครงสร้าง (เช่น ตาราง) และการสร้างผลลัพธ์แบบมีโครงสร้างอย่าง JSON ดีขึ้นอย่างมาก
มีความทนทานต่อความหลากหลายของ system prompt มากขึ้น ทำให้กำหนดบทบาทและเงื่อนไขของแชตบอตได้ง่ายขึ้น
เช่นเดียวกับ Qwen2 โมเดลภาษาของ Qwen2.5 รองรับสูงสุด 128K โทเค็น และสร้างข้อความได้สูงสุด 8K โทเค็น
รองรับมากกว่า 29 ภาษา เช่น จีน อังกฤษ ฝรั่งเศส สเปน โปรตุเกส เยอรมัน อิตาลี รัสเซีย ญี่ปุ่น เกาหลี เวียดนาม ไทย และอาหรับ

ประสิทธิภาพ

Qwen2.5

เปรียบเทียบประสิทธิภาพของ Qwen2.5-72B ซึ่งเป็นโมเดลโอเพนซอร์สขนาดใหญ่ที่สุด (ภาษาโมเดลแบบ dense decoder-only ขนาด 72B พารามิเตอร์) กับโมเดลโอเพนซอร์สหลักอย่าง Llama-3.1-70B และ Mistral-Large-V2
นำเสนอผลลัพธ์แบบครอบคลุมของเวอร์ชัน instruction-tuned บนเบนช์มาร์กหลากหลายชุด เพื่อประเมินทั้งความสามารถของโมเดลและความชอบของมนุษย์
นอกจากโมเดลภาษาที่ผ่าน instruction tuning แล้ว base language model ของ Qwen2.5-72B ยังแสดงประสิทธิภาพระดับแนวหน้า แม้เทียบกับโมเดลขนาดใหญ่กว่าอย่าง Llama-3-405B
เปรียบเทียบเวอร์ชันล่าสุดของโมเดลแบบ API คือ Qwen-Plus กับโมเดลชื่อดังทั้งแบบ proprietary และโอเพนซอร์ส เช่น GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B และ DeepSeek-V2.5
- Qwen-Plus เหนือกว่า DeepSeek-V2.5 อย่างชัดเจน และให้ประสิทธิภาพใกล้เคียง Llama-3.1-405B แต่ยังด้อยกว่า GPT4-o และ Claude-3.5-Sonnet ในบางด้าน
นำ Qwen2.5-14B และ Qwen2.5-32B กลับมาอีกครั้ง โดยโมเดลเหล่านี้เหนือกว่าโมเดลอ้างอิงที่มีขนาดใกล้เคียงหรือใหญ่กว่า เช่น Phi-3.5-MoE-Instruct และ Gemma2-27B-IT
โมเดลแบบ API อย่าง Qwen-Turbo ให้บริการได้รวดเร็วในราคาสมเหตุสมผล และมีประสิทธิภาพที่แข่งขันได้มากเมื่อเทียบกับโมเดลโอเพนซอร์สสองรุ่นนั้น
Qwen2.5-3B มีพารามิเตอร์ราว 3 พันล้านตัว แต่ให้ประสิทธิภาพที่น่าประทับใจมาก พร้อมประสิทธิภาพเชิงทรัพยากรและความสามารถที่เหนือกว่าเวอร์ชันก่อน
นอกจากการปรับปรุงผลการประเมินบนเบนช์มาร์กแล้ว ยังพัฒนาวิธีการ post-training ด้วย โดยมีการอัปเดตหลัก 4 ด้าน ได้แก่ รองรับการสร้างข้อความยาวได้ถึง 8K โทเค็น, เข้าใจข้อมูลแบบมีโครงสร้างดีขึ้นมาก, สร้างผลลัพธ์แบบมีโครงสร้างอย่าง JSON ได้เชื่อถือได้มากขึ้น, และให้ประสิทธิภาพดีขึ้นกับ system prompt ที่หลากหลาย ช่วยเรื่องการรับบทบาทได้ดีขึ้น

Qwen2.5-Coder

หลังจากเปิดตัว CodeQwen1.5 ก็มีผู้ใช้จำนวนมากพึ่งพาโมเดลนี้ในงานเขียนโค้ดหลากหลายรูปแบบ เช่น การดีบัก, การตอบคำถามเกี่ยวกับโค้ด และการเสนอแนะโค้ด
เวอร์ชันล่าสุด Qwen2.5-Coder ถูกออกแบบมาโดยเฉพาะสำหรับแอปพลิเคชันด้านการเขียนโค้ด
แม้จะมีขนาดเล็ก แต่ก็แสดงความสามารถด้านโค้ดที่โดดเด่น รวมถึงทำได้ดีกว่าโมเดลภาษาที่ใหญ่กว่าในหลายภาษาโปรแกรมและหลายงาน

Qwen2.5-Math

เมื่อเดือนก่อนมีการเปิดตัว Qwen2-Math ซึ่งเป็นโมเดลภาษาสำหรับคณิตศาสตร์โดยเฉพาะเป็นครั้งแรก และเมื่อเทียบกับ Qwen2-Math แล้ว Qwen2.5-Math ถูกพรีเทรนด้วยข้อมูลด้านคณิตศาสตร์ขนาดใหญ่ยิ่งขึ้น รวมถึงข้อมูลสังเคราะห์ที่สร้างโดย Qwen2-Math
ครั้งนี้ได้ขยายการรองรับภาษาจีน และเพิ่มความสามารถในการทำ CoT, PoT และ TIR เพื่อเสริมความสามารถด้านการให้เหตุผล
ประสิทธิภาพโดยรวมของ Qwen2.5-Math-72B-Instruct เหนือกว่า Qwen2-Math-72B-Instruct และ GPT4-o และแม้แต่โมเดลผู้เชี่ยวชาญขนาดเล็กมากอย่าง Qwen2.5-Math-1.5B-Instruct ก็ยังให้ประสิทธิภาพที่แข่งขันได้สูงเมื่อเทียบกับโมเดลภาษาขนาดใหญ่

การพัฒนาด้วย Qwen2.5

หากต้องการใช้ Qwen2.5 ร่วมกับ vLLM สามารถดีพลอยบริการที่เข้ากันได้กับ OpenAI API ได้ด้วยคำสั่งต่อไปนี้:
Qwen2.5 รองรับ tool calling แบบ built-in ของ vllm โดยฟีเจอร์นี้ต้องใช้ vllm>=0.6
Qwen2.5 ยังรองรับ tool calling ของ Ollama
ยังใช้งาน การรองรับ tool calling ของ transformers บน Hugging Face ได้
ก่อนหน้านี้ Qwen-Agent รองรับ tool calling โดยใช้เทมเพลต tool calling เฉพาะของ Qwen2 และ Qwen2.5 ก็ยังคงเข้ากันได้กับเทมเพลตของ Qwen2 และ Qwen-Agent เช่นกัน

แผนต่อจากนี้คืออะไร?

แม้จะยินดีที่ได้เปิดตัวโมเดลคุณภาพสูงจำนวนมากพร้อมกัน แต่ก็ยังตระหนักว่ายังมีความท้าทายสำคัญเหลืออยู่
การเปิดตัวล่าสุดแสดงให้เห็นว่ากำลังมุ่งพัฒนา foundation model ที่แข็งแกร่งในด้านภาษา วิชัน-ภาษา และออดิโอ-ภาษา
อย่างไรก็ตาม สิ่งสำคัญคือการรวมโมดาลิตีที่หลากหลายเหล่านี้ไว้ในโมเดลเดียว เพื่อให้สามารถประมวลผลข้อมูลจากทุกด้านได้อย่างไร้รอยต่อ
แม้จะยกระดับความสามารถด้านการให้เหตุผลผ่านการสเกลข้อมูลแล้ว แต่ด้วยแรงบันดาลใจจากความก้าวหน้าล่าสุดของ reinforcement learning ทีมจึงมุ่งมั่นที่จะสเกล inference compute เพื่อยกระดับความสามารถด้านการให้เหตุผลของโมเดลให้ดียิ่งขึ้น

1 ความคิดเห็น

xguru 2024-09-20

Alibaba เปิดตัวโมเดล AI โอเพนซอร์ส QWEN
Alibaba เปิดตัวโมเดล Qwen 2