8 คะแนน โดย GN⁺ 2025-04-29 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • Qwen3 คือโมเดลภาษาขนาดใหญ่รุ่นล่าสุดที่มี พารามิเตอร์สูงสุด 235B และแสดงประสิทธิภาพในระดับ แข่งขันได้ กับ DeepSeek-R1, Grok-3, Gemini-2.5-Pro เป็นต้น
  • รองรับ โหมดการคิดแบบไฮบริด (Thinking/Non-Thinking) ทำให้สามารถ ปรับระดับความลึกของการให้เหตุผลตามความยากของปัญหา ได้
  • รองรับ 119 ภาษาและภาษาถิ่น ช่วยยกระดับ การใช้งานในระดับโลก อย่างมาก
  • พรีเทรนด้วยข้อมูล 36 ล้านล้านโทเคนที่ขยายจากรุ่นก่อน 2 เท่า ทำให้ความสามารถด้าน การเขียนโค้ด คณิตศาสตร์ และการให้เหตุผลเชิงตรรกะ ดีขึ้น
  • เปิดซอร์สภายใต้ Apache 2.0 license และสามารถใช้งานได้ทันทีบน Hugging Face, ModelScope, Kaggle เป็นต้น

บทนำ

  • Qwen3 คือโมเดลภาษาขนาดใหญ่รุ่นล่าสุดใน Qwen series โดยมี Qwen3-235B-A22B ซึ่งมี 235B พารามิเตอร์ เป็นโมเดลเรือธงหลัก
  • Qwen3-30B-A3B ซึ่งเป็น MoE model ขนาดเล็ก แสดงประสิทธิภาพเหนือกว่า QwQ-32B ที่มีการเปิดใช้งานพารามิเตอร์มากกว่าถึง 10 เท่า
  • เปิดเผย Dense model 6 รุ่น (0.6B, 1.7B, 4B, 8B, 14B, 32B) และ MoE model 2 รุ่น (30B, 235B) ภายใต้ไลเซนส์ Apache 2.0

คุณสมบัติหลัก

  • โหมดการคิดแบบไฮบริด

    • Thinking mode: โหมดที่ทำ การให้เหตุผลแบบเป็นลำดับขั้น สำหรับปัญหาที่ซับซ้อน
    • Non-Thinking mode: โหมดที่ให้ คำตอบได้ทันที สำหรับปัญหาง่ายที่ต้องการการตอบสนองรวดเร็ว
    • สามารถปรับ งบประมาณการให้เหตุผล ตามงานเพื่อ เพิ่มประสิทธิภาพด้านต้นทุนและคุณภาพ ได้
  • การรองรับหลายภาษา

    • รองรับ 119 ภาษาและภาษาถิ่น ช่วยเพิ่มศักยภาพในการขยายไปสู่ แอปพลิเคชันระดับโลก
    • กลุ่มภาษาหลักที่รองรับ: อินโด-ยูโรเปียน, จีน-ทิเบต, แอฟโฟร-เอเชียติก, ออสโตรนีเซียน, ดราวิเดียน เป็นต้น
  • ความสามารถด้านเอเจนต์ที่ปรับปรุงแล้ว

    • ปรับแต่งให้เหมาะกับ การเขียนโค้ดและความสามารถของเอเจนต์
    • ผสานรวมกับ Qwen-Agent เพื่อเพิ่มความสามารถด้าน tool calling ได้สูงสุด

การพรีเทรน

  • ดำเนินการพรีเทรนโดยใช้ข้อมูล 36 ล้านล้านโทเคน ซึ่งเพิ่มขึ้น 2 เท่าเมื่อเทียบกับ Qwen2.5
  • รวบรวมข้อมูลจากเว็บและเอกสารลักษณะคล้าย PDF เพื่อสร้าง ชุดข้อมูลคุณภาพสูงที่หลากหลาย
  • เสริมข้อมูลในด้าน STEM, การเขียนโค้ด, คณิตศาสตร์ เพื่อให้ ความสามารถในการให้เหตุผลโดยรวมดีขึ้น

การฝึกหลังพรีเทรน

  • ใช้ ไปป์ไลน์ 4 ขั้นตอน (เริ่มต้นด้วย CoT → reinforcement learning → ผสานโหมดการคิด → reinforcement learning ทั่วไป)
  • ปรับแต่งโมเดลให้สามารถทำได้ทั้ง การให้เหตุผลเชิงตรรกะ และ การตอบสนองอย่างรวดเร็ว พร้อมกัน
  • เสริม ความเป็นสากลและความเสถียร ผ่าน reinforcement learning กับ งานโดเมนทั่วไปมากกว่า 20 รายการ

การพัฒนาด้วย Qwen3

  • รองรับเฟรมเวิร์กหลากหลาย เช่น Hugging Face transformers, SGLang, vLLM, Ollama, LMStudio, llama.cpp
  • Thinking mode สามารถ เปิด/ปิด ได้ง่ายในโค้ด และสลับระหว่างการสนทนาได้ด้วยคำสั่ง /think, /no_think

วิธีใช้งานเอเจนต์

  • ผ่าน Qwen-Agent สามารถใช้ ไฟล์กำหนดค่า MCP หรือ เครื่องมือที่มีมาในตัว เพื่อสร้าง ระบบเอเจนต์ที่ซับซ้อน ได้
  • สามารถสร้างเซิร์ฟเวอร์ที่เข้ากันได้กับ OpenAI API ได้โดยตรงเพื่อ ดีพลอยแบบโลคัลหรือสาธารณะ

งานในอนาคต

  • Qwen3 เป็นหมุดหมายสำคัญสู่ปัญญาประดิษฐ์ทั่วไป (AGI) และปัญญาประดิษฐ์เหนือมนุษย์ (ASI) โดยขยายทั้งการพรีเทรนและ reinforcement learning เพื่อบรรลุปัญญาในระดับที่สูงขึ้น
  • มีเป้าหมายปรับปรุงสถาปัตยกรรมโมเดลและวิธีวิทยาการฝึก เพื่อมุ่งสู่การขยายข้อมูล การเพิ่มขนาดโมเดล การขยายความยาวคอนเท็กซ์ การขยายโมดาลิตี และการให้เหตุผลระยะยาวผ่านฟีดแบ็กจากสภาพแวดล้อม
  • กำลังเปลี่ยนผ่านจากยุคที่เน้นการฝึกโมเดล ไปสู่ยุคที่เน้นการฝึกเอเจนต์ และเวอร์ชันถัดไปจะนำความก้าวหน้าที่มีความหมายมาสู่งานและชีวิตของทุกคน

2 ความคิดเห็น

 
iwanhae 2025-04-29

โมเดลขนาดใหญ่ก็น่าสนใจ แต่ฝั่งโมเดลขนาดเล็กน่าสนใจกว่า
ดูเหมือนว่าโมเดล 0.6B จะให้ประสิทธิภาพได้ราวกับโมเดล 7B ของรุ่นอื่น ๆ หลายตัวเลย

 
GN⁺ 2025-04-29
ความคิดเห็นจาก Hacker News
  • มีการโยนปัญหาที่อิงฟิสิกส์ให้ LLMs แก้ ซึ่งเป็นปัญหาที่ยากแม้แต่สำหรับมนุษย์ GPT o3, Claude 3.7, Gemini 2.5 Pro ต่างก็ตอบไม่ถูกในตอนแรก ส่วน Qwen3 ตอบผิดยิ่งกว่าเดิม

  • เอกสารถูกจัดทำมาอย่างดี และมีการรองรับสำหรับสแตกการทำอนุมานหลัก ๆ ตั้งแต่วันแรก มีตัวเลือกขนาดที่หลากหลาย และเคยร่วมงานกับผู้ทำ quant ในคอมมูนิตี้มาแล้ว

  • แม้จะยังไม่ได้ทดสอบประสิทธิภาพ แต่แค่ความใส่ใจในรายละเอียดรอบด้านก็ทำให้นี่เป็นรีลีสที่ยอดเยี่ยมแล้ว ควรเป็นมาตรฐานเมื่อเทียบกับ Llama 4 ของ Meta

  • ผลลัพธ์ benchmark ดีมากจนแทบไม่น่าเชื่อ โมเดล 30B แข่งขันกับ Gemini 2.5 Pro ได้ และดีกว่า Gemma 27B มาก

  • ตอนนี้มีโมเดล open weight หลากหลายออกมา เลยสงสัยว่ามีวิธีหาหรือไม่ว่าโมเดลไหนจะรันได้ด้วยความเร็วที่เหมาะสมบน desktop GPU มาตรฐาน กำลังใช้ Quadro RTX 4000 อยู่ และไม่รู้ว่าในบรรดาโมเดลหลายขนาด ตัวไหนจะเร็ว

  • มีความเป็นไปได้ว่าโมเดล Qwen และ DeepSeek ถูกฝึกให้สอดคล้องกับโลกทัศน์ของ CCP แต่ในทางปฏิบัติก็ยังไม่เคยก่อปัญหา ยังมีงานวิจัยที่เกี่ยวข้องไม่มากนัก

  • คาดหวังกับ Qwen-30B-A3B มากที่สุด ดูเหมือนจะเหมาะกับการเป็น coding assistant แบบออฟไลน์/โลคัลโดยเฉพาะ จนถึงตอนนี้โมเดล open weight มักจะประสิทธิภาพไม่ถึงหรือไม่ก็ช้าเกินไป

  • กำลังมองหามุมมองเกี่ยวกับวิธีที่ดีที่สุดในการเปรียบเทียบโมเดล reasoning โดยทั่วไปจะแนะนำให้ใช้ temperature สูงสำหรับคำตอบเชิงสร้างสรรค์ และใช้ temperature ต่ำสำหรับเอาต์พุตที่มีตรรกะและแน่นอน แต่ไม่มั่นใจว่านำไปใช้กับโมเดล reasoning ได้หรือไม่

  • น่าสนใจที่ LLM ขนาด 0.6B มี context window 32k อาจเป็นโมเดลตั้งต้นที่สนุกสำหรับการทำ fine-tuning บน Hugging Face มียอดดาวน์โหลดและยอดกดถูกใจมากที่สุด

  • โมเดลเหล่านี้ดูเหมือนจะใช้การคิดจำนวนมาก benchmark รันด้วยงบการคิด 32k โทเค็น โดยเฉพาะ A3B ที่เหนือกว่า QWQ และอาจมีประโยชน์กับการทำอนุมานบน CPU

  • ตัวเลขประสิทธิภาพน่าประทับใจมาก MoE ที่มี active parameters 3B แซง o1 ได้ โมเดลโลคัลกำลังดีขึ้นจนมากพอจะรับงานส่วนใหญ่ได้แล้ว