QwQ-32B: ทำประสิทธิภาพใกล้เคียง DeepSeek-R1 ด้วยพารามิเตอร์ที่เล็กกว่าผ่านการเรียนรู้แบบเสริมกำลัง

(qwenlm.github.io)

3 คะแนน โดย GN⁺ 2025-03-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดล QwQ-32B เป็นโมเดลที่มีพารามิเตอร์ 32 พันล้านตัว และแสดงประสิทธิภาพใกล้เคียงกับ DeepSeek-R1
โมเดลนี้ใช้การเรียนรู้แบบเสริมกำลัง (RL) เพื่อเสริมความฉลาดของโมเดลภาษาขนาดใหญ่
เปิดเผยภายใต้ไลเซนส์ Apache 2.0 บน Hugging Face และ ModelScope และเข้าถึงได้ผ่าน Qwen Chat

ประสิทธิภาพ

QwQ-32B ถูกทดสอบบนเบนช์มาร์กหลากหลายชุดที่ใช้ประเมินการให้เหตุผลทางคณิตศาสตร์ ความสามารถด้านโค้ดดิ้ง และความสามารถในการแก้ปัญหาทั่วไป
มีการประเมินประสิทธิภาพโดยเปรียบเทียบกับ DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini และ DeepSeek-R1 ต้นฉบับ
- QwQ-32B ทำผลงานสูงสุดบน LiveBench และ BFCL และอยู่ในระดับ ใกล้เคียง DeepSeek-R1-671B บน IFEval และ AIME24
- บน LiveCodeBench มีคะแนนต่ำกว่า DeepSeek-R1-671B เล็กน้อย แต่ยังคงเหนือกว่าโมเดลอื่น
- โดยรวมแล้ว แสดงให้เห็นถึง ประสิทธิภาพที่ใกล้เคียงหรือดีกว่า DeepSeek-R1-671B ขณะเดียวกันก็พิสูจน์ความสามารถในการแข่งขันด้วย พารามิเตอร์ที่น้อยกว่ามาก (32.5 พันล้าน vs 671 พันล้าน)
- กล่าวคือ ประเด็นสำคัญคือ QwQ-32B เป็นโมเดลที่ปรับให้เหมาะสมผ่านการเรียนรู้แบบเสริมกำลัง และสามารถทำ ประสิทธิภาพระดับแนวหน้าแม้มีขนาดเล็กกว่ามาก

การเรียนรู้แบบเสริมกำลัง

ในระยะเริ่มต้น ได้มีการนำ แนวทางการสเกลการเรียนรู้แบบเสริมกำลัง (RL) สำหรับงานคณิตศาสตร์และการเขียนโค้ด มาใช้
แทนที่จะใช้ reward model แบบดั้งเดิม ระบบใช้ตัวตรวจสอบความถูกต้องและเซิร์ฟเวอร์รันโค้ดเพื่อรับประกันความถูกต้องของคำตอบสุดท้าย
มีขั้นตอน RL เพิ่มเติมสำหรับความสามารถทั่วไป ซึ่งช่วยปรับปรุงผลลัพธ์ในด้านอย่างความชอบของมนุษย์และประสิทธิภาพของเอเจนต์

งานในอนาคต

Qwen ยังอยู่ในช่วงเริ่มต้นของการขยายการเรียนรู้แบบเสริมกำลัง (RL) เพื่อยกระดับความสามารถด้านการให้เหตุผล
การผสาน foundation model ที่ได้รับการเสริมด้วยทรัพยากรคอมพิวต์ที่สเกลขึ้น จะช่วยให้เข้าใกล้การบรรลุปัญญาประดิษฐ์ทั่วไป (AGI) มากขึ้น
กำลังสำรวจการผสานเอเจนต์กับ RL เพื่อทำให้เกิดการให้เหตุผลระยะยาวและปลดปล่อยความฉลาดที่สูงยิ่งขึ้น

1 ความคิดเห็น

GN⁺ 2025-03-06

ความคิดเห็นจาก Hacker News

ต้องระวังเรื่องความยาวคอนเท็กซ์ที่มาก (130k โทเค็น) การสร้าง CoT ที่ยาวโดยไม่มีคอนเท็กซ์เพียงพอไม่มีความหมาย
- พรอมป์ต์แรกยาวเกินไปจนลืมงานที่ต้องทำ
- ผู้ใช้ไม่ได้ให้งานที่เฉพาะเจาะจง
- คำสั่งตั้งต้นคือให้ทำตัวเป็น AI agent
- ดูเหมือนว่าผู้ใช้จะให้โจทย์แล้วขอให้ให้เหตุผลแบบทีละขั้นตอน
การเรียนคณิตศาสตร์และการเขียนโค้ดช่วยเพิ่มความสามารถในการให้เหตุผลโดยทั่วไป
เล็กกว่า DeepSeek อยู่ 20 เท่า เลยสงสัยว่าจะรันได้บนฮาร์ดแวร์แบบไหน
- น่าจะไม่ต้องใช้ 512GB M3 Ultra
- สูสีกับ Deepseek แต่เล็กกว่า 20 เท่า
กลยุทธ์ของจีนคือสร้างรายได้จากซอฟต์แวร์โอเพนซอร์สและหุ่นยนต์
- สงสัยว่าสหรัฐฯ จะรักษาอำนาจไว้ได้อย่างไร
- อินเดียยังเข้าร่วมการแข่งขันนี้ไม่ได้
ให้ลิงก์ไว้เพื่อทดสอบ Qwen2.5-plus
เปิดตัวในรูปแบบ "พรีวิว" เมื่อเดือนพฤศจิกายน 2024
- ใช้คำว่า "รอ" บ่อยมาก
- มีปัญหาหลงประเด็นหลังจากสร้างโทเค็นสำหรับการให้เหตุผลจำนวนมาก
อยู่ต่ำกว่า Deepseek-R1 ลงมาเพียงเล็กน้อย
- 32B ถือว่าน่าประทับใจมาก
- บางครั้งโทเค็นที่ใช้คิดยาวกว่าคำตอบสุดท้าย 10 เท่า
- ตั้งใจจะทดสอบด้วย function calling ในช่วงสุดสัปดาห์
จากประสบการณ์ส่วนตัว เคยทดสอบให้อ่านย้อนกลับแล้วตอบคำถาม
- ถ้าอ่าน "ip fo eulav si tahw" ย้อนกลับ จะได้ "what is value of pi"
- ค่าของ π คือประมาณ 3.14159
- π เป็นจำนวนอตรรกยะ จึงไม่มีที่สิ้นสุดและไม่ซ้ำเป็นคาบ
ตอบสนองได้ทันที และเป็นประสบการณ์ที่ดี

QwQ-32B: ทำประสิทธิภาพใกล้เคียง DeepSeek-R1 ด้วยพารามิเตอร์ที่เล็กกว่าผ่านการเรียนรู้แบบเสริมกำลัง

ประสิทธิภาพ

การเรียนรู้แบบเสริมกำลัง

งานในอนาคต

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News