7 คะแนน โดย xguru 2024-09-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Qwen2.5 ประกอบด้วยโมเดลเฉพาะทาง เช่น LLM อย่าง Qwen2.5, Qwen2.5-Coder สำหรับงานเขียนโค้ด และ Qwen2.5-Math สำหรับงานคณิตศาสตร์
  • โมเดล open-weight ทั้งหมดเป็นภาษาโมเดลแบบ dense decoder-only และมีหลายขนาดตั้งแต่ 0.5B ถึง 72B
  • โมเดลโอเพนซอร์สทั้งหมด ยกเว้นรุ่น 3B และ 72B ให้ใช้งานภายใต้ไลเซนส์ Apache 2.0
  • โมเดลภาษารุ่นเรือธง Qwen-Plus และ Qwen-Turbo ให้บริการผ่าน API บน Model Studio
  • Qwen2-VL-72B ก็ถูกเปิดซอร์สเช่นกัน และมีประสิทธิภาพดีขึ้นจากเวอร์ชันของเดือนก่อน

จุดเด่นของ Qwen2.5

  • พรีเทรนด้วยชุดข้อมูลขนาดใหญ่สูงสุด 1.8 ล้านล้าน โทเค็น ทำให้มีความรู้เพิ่มขึ้นอย่างมากเมื่อเทียบกับ Qwen2 (MMLU: 85+)
  • ความสามารถด้านการเขียนโค้ด (HumanEval 85+) และคณิตศาสตร์ (MATH 80+) ดีขึ้นมาก
  • ความสามารถในการทำตามคำสั่ง, การสร้างข้อความยาว (มากกว่า 8K โทเค็น), การเข้าใจข้อมูลแบบมีโครงสร้าง (เช่น ตาราง) และการสร้างผลลัพธ์แบบมีโครงสร้างอย่าง JSON ดีขึ้นอย่างมาก
  • มีความทนทานต่อความหลากหลายของ system prompt มากขึ้น ทำให้กำหนดบทบาทและเงื่อนไขของแชตบอตได้ง่ายขึ้น
  • เช่นเดียวกับ Qwen2 โมเดลภาษาของ Qwen2.5 รองรับสูงสุด 128K โทเค็น และสร้างข้อความได้สูงสุด 8K โทเค็น
  • รองรับมากกว่า 29 ภาษา เช่น จีน อังกฤษ ฝรั่งเศส สเปน โปรตุเกส เยอรมัน อิตาลี รัสเซีย ญี่ปุ่น เกาหลี เวียดนาม ไทย และอาหรับ

ประสิทธิภาพ

Qwen2.5

  • เปรียบเทียบประสิทธิภาพของ Qwen2.5-72B ซึ่งเป็นโมเดลโอเพนซอร์สขนาดใหญ่ที่สุด (ภาษาโมเดลแบบ dense decoder-only ขนาด 72B พารามิเตอร์) กับโมเดลโอเพนซอร์สหลักอย่าง Llama-3.1-70B และ Mistral-Large-V2
  • นำเสนอผลลัพธ์แบบครอบคลุมของเวอร์ชัน instruction-tuned บนเบนช์มาร์กหลากหลายชุด เพื่อประเมินทั้งความสามารถของโมเดลและความชอบของมนุษย์
  • นอกจากโมเดลภาษาที่ผ่าน instruction tuning แล้ว base language model ของ Qwen2.5-72B ยังแสดงประสิทธิภาพระดับแนวหน้า แม้เทียบกับโมเดลขนาดใหญ่กว่าอย่าง Llama-3-405B
  • เปรียบเทียบเวอร์ชันล่าสุดของโมเดลแบบ API คือ Qwen-Plus กับโมเดลชื่อดังทั้งแบบ proprietary และโอเพนซอร์ส เช่น GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B และ DeepSeek-V2.5
    • Qwen-Plus เหนือกว่า DeepSeek-V2.5 อย่างชัดเจน และให้ประสิทธิภาพใกล้เคียง Llama-3.1-405B แต่ยังด้อยกว่า GPT4-o และ Claude-3.5-Sonnet ในบางด้าน
  • นำ Qwen2.5-14B และ Qwen2.5-32B กลับมาอีกครั้ง โดยโมเดลเหล่านี้เหนือกว่าโมเดลอ้างอิงที่มีขนาดใกล้เคียงหรือใหญ่กว่า เช่น Phi-3.5-MoE-Instruct และ Gemma2-27B-IT
  • โมเดลแบบ API อย่าง Qwen-Turbo ให้บริการได้รวดเร็วในราคาสมเหตุสมผล และมีประสิทธิภาพที่แข่งขันได้มากเมื่อเทียบกับโมเดลโอเพนซอร์สสองรุ่นนั้น
  • Qwen2.5-3B มีพารามิเตอร์ราว 3 พันล้านตัว แต่ให้ประสิทธิภาพที่น่าประทับใจมาก พร้อมประสิทธิภาพเชิงทรัพยากรและความสามารถที่เหนือกว่าเวอร์ชันก่อน
  • นอกจากการปรับปรุงผลการประเมินบนเบนช์มาร์กแล้ว ยังพัฒนาวิธีการ post-training ด้วย โดยมีการอัปเดตหลัก 4 ด้าน ได้แก่ รองรับการสร้างข้อความยาวได้ถึง 8K โทเค็น, เข้าใจข้อมูลแบบมีโครงสร้างดีขึ้นมาก, สร้างผลลัพธ์แบบมีโครงสร้างอย่าง JSON ได้เชื่อถือได้มากขึ้น, และให้ประสิทธิภาพดีขึ้นกับ system prompt ที่หลากหลาย ช่วยเรื่องการรับบทบาทได้ดีขึ้น

Qwen2.5-Coder

  • หลังจากเปิดตัว CodeQwen1.5 ก็มีผู้ใช้จำนวนมากพึ่งพาโมเดลนี้ในงานเขียนโค้ดหลากหลายรูปแบบ เช่น การดีบัก, การตอบคำถามเกี่ยวกับโค้ด และการเสนอแนะโค้ด
  • เวอร์ชันล่าสุด Qwen2.5-Coder ถูกออกแบบมาโดยเฉพาะสำหรับแอปพลิเคชันด้านการเขียนโค้ด
  • แม้จะมีขนาดเล็ก แต่ก็แสดงความสามารถด้านโค้ดที่โดดเด่น รวมถึงทำได้ดีกว่าโมเดลภาษาที่ใหญ่กว่าในหลายภาษาโปรแกรมและหลายงาน

Qwen2.5-Math

  • เมื่อเดือนก่อนมีการเปิดตัว Qwen2-Math ซึ่งเป็นโมเดลภาษาสำหรับคณิตศาสตร์โดยเฉพาะเป็นครั้งแรก และเมื่อเทียบกับ Qwen2-Math แล้ว Qwen2.5-Math ถูกพรีเทรนด้วยข้อมูลด้านคณิตศาสตร์ขนาดใหญ่ยิ่งขึ้น รวมถึงข้อมูลสังเคราะห์ที่สร้างโดย Qwen2-Math
  • ครั้งนี้ได้ขยายการรองรับภาษาจีน และเพิ่มความสามารถในการทำ CoT, PoT และ TIR เพื่อเสริมความสามารถด้านการให้เหตุผล
  • ประสิทธิภาพโดยรวมของ Qwen2.5-Math-72B-Instruct เหนือกว่า Qwen2-Math-72B-Instruct และ GPT4-o และแม้แต่โมเดลผู้เชี่ยวชาญขนาดเล็กมากอย่าง Qwen2.5-Math-1.5B-Instruct ก็ยังให้ประสิทธิภาพที่แข่งขันได้สูงเมื่อเทียบกับโมเดลภาษาขนาดใหญ่

การพัฒนาด้วย Qwen2.5

  • หากต้องการใช้ Qwen2.5 ร่วมกับ vLLM สามารถดีพลอยบริการที่เข้ากันได้กับ OpenAI API ได้ด้วยคำสั่งต่อไปนี้:
  • Qwen2.5 รองรับ tool calling แบบ built-in ของ vllm โดยฟีเจอร์นี้ต้องใช้ vllm>=0.6
  • Qwen2.5 ยังรองรับ tool calling ของ Ollama
  • ยังใช้งาน การรองรับ tool calling ของ transformers บน Hugging Face ได้
  • ก่อนหน้านี้ Qwen-Agent รองรับ tool calling โดยใช้เทมเพลต tool calling เฉพาะของ Qwen2 และ Qwen2.5 ก็ยังคงเข้ากันได้กับเทมเพลตของ Qwen2 และ Qwen-Agent เช่นกัน

แผนต่อจากนี้คืออะไร?

  • แม้จะยินดีที่ได้เปิดตัวโมเดลคุณภาพสูงจำนวนมากพร้อมกัน แต่ก็ยังตระหนักว่ายังมีความท้าทายสำคัญเหลืออยู่
  • การเปิดตัวล่าสุดแสดงให้เห็นว่ากำลังมุ่งพัฒนา foundation model ที่แข็งแกร่งในด้านภาษา วิชัน-ภาษา และออดิโอ-ภาษา
  • อย่างไรก็ตาม สิ่งสำคัญคือการรวมโมดาลิตีที่หลากหลายเหล่านี้ไว้ในโมเดลเดียว เพื่อให้สามารถประมวลผลข้อมูลจากทุกด้านได้อย่างไร้รอยต่อ
  • แม้จะยกระดับความสามารถด้านการให้เหตุผลผ่านการสเกลข้อมูลแล้ว แต่ด้วยแรงบันดาลใจจากความก้าวหน้าล่าสุดของ reinforcement learning ทีมจึงมุ่งมั่นที่จะสเกล inference compute เพื่อยกระดับความสามารถด้านการให้เหตุผลของโมเดลให้ดียิ่งขึ้น