- โมเดล QwQ-32B เป็นโมเดลที่มีพารามิเตอร์ 32 พันล้านตัว และแสดงประสิทธิภาพใกล้เคียงกับ DeepSeek-R1
- โมเดลนี้ใช้การเรียนรู้แบบเสริมกำลัง (RL) เพื่อเสริมความฉลาดของโมเดลภาษาขนาดใหญ่
- เปิดเผยภายใต้ไลเซนส์ Apache 2.0 บน Hugging Face และ ModelScope และเข้าถึงได้ผ่าน Qwen Chat
ประสิทธิภาพ
- QwQ-32B ถูกทดสอบบนเบนช์มาร์กหลากหลายชุดที่ใช้ประเมินการให้เหตุผลทางคณิตศาสตร์ ความสามารถด้านโค้ดดิ้ง และความสามารถในการแก้ปัญหาทั่วไป
- มีการประเมินประสิทธิภาพโดยเปรียบเทียบกับ DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini และ DeepSeek-R1 ต้นฉบับ
- QwQ-32B ทำผลงานสูงสุดบน LiveBench และ BFCL และอยู่ในระดับ ใกล้เคียง DeepSeek-R1-671B บน IFEval และ AIME24
- บน LiveCodeBench มีคะแนนต่ำกว่า DeepSeek-R1-671B เล็กน้อย แต่ยังคงเหนือกว่าโมเดลอื่น
- โดยรวมแล้ว แสดงให้เห็นถึง ประสิทธิภาพที่ใกล้เคียงหรือดีกว่า DeepSeek-R1-671B ขณะเดียวกันก็พิสูจน์ความสามารถในการแข่งขันด้วย พารามิเตอร์ที่น้อยกว่ามาก (32.5 พันล้าน vs 671 พันล้าน)
- กล่าวคือ ประเด็นสำคัญคือ QwQ-32B เป็นโมเดลที่ปรับให้เหมาะสมผ่านการเรียนรู้แบบเสริมกำลัง และสามารถทำ ประสิทธิภาพระดับแนวหน้าแม้มีขนาดเล็กกว่ามาก
การเรียนรู้แบบเสริมกำลัง
- ในระยะเริ่มต้น ได้มีการนำ แนวทางการสเกลการเรียนรู้แบบเสริมกำลัง (RL) สำหรับงานคณิตศาสตร์และการเขียนโค้ด มาใช้
- แทนที่จะใช้ reward model แบบดั้งเดิม ระบบใช้ตัวตรวจสอบความถูกต้องและเซิร์ฟเวอร์รันโค้ดเพื่อรับประกันความถูกต้องของคำตอบสุดท้าย
- มีขั้นตอน RL เพิ่มเติมสำหรับความสามารถทั่วไป ซึ่งช่วยปรับปรุงผลลัพธ์ในด้านอย่างความชอบของมนุษย์และประสิทธิภาพของเอเจนต์
งานในอนาคต
- Qwen ยังอยู่ในช่วงเริ่มต้นของการขยายการเรียนรู้แบบเสริมกำลัง (RL) เพื่อยกระดับความสามารถด้านการให้เหตุผล
- การผสาน foundation model ที่ได้รับการเสริมด้วยทรัพยากรคอมพิวต์ที่สเกลขึ้น จะช่วยให้เข้าใกล้การบรรลุปัญญาประดิษฐ์ทั่วไป (AGI) มากขึ้น
- กำลังสำรวจการผสานเอเจนต์กับ RL เพื่อทำให้เกิดการให้เหตุผลระยะยาวและปลดปล่อยความฉลาดที่สูงยิ่งขึ้น
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ต้องระวังเรื่องความยาวคอนเท็กซ์ที่มาก (130k โทเค็น) การสร้าง CoT ที่ยาวโดยไม่มีคอนเท็กซ์เพียงพอไม่มีความหมาย
การเรียนคณิตศาสตร์และการเขียนโค้ดช่วยเพิ่มความสามารถในการให้เหตุผลโดยทั่วไป
เล็กกว่า DeepSeek อยู่ 20 เท่า เลยสงสัยว่าจะรันได้บนฮาร์ดแวร์แบบไหน
กลยุทธ์ของจีนคือสร้างรายได้จากซอฟต์แวร์โอเพนซอร์สและหุ่นยนต์
ให้ลิงก์ไว้เพื่อทดสอบ Qwen2.5-plus
เปิดตัวในรูปแบบ "พรีวิว" เมื่อเดือนพฤศจิกายน 2024
อยู่ต่ำกว่า Deepseek-R1 ลงมาเพียงเล็กน้อย
จากประสบการณ์ส่วนตัว เคยทดสอบให้อ่านย้อนกลับแล้วตอบคำถาม
ตอบสนองได้ทันที และเป็นประสบการณ์ที่ดี