3 คะแนน โดย GN⁺ 2025-03-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดล QwQ-32B เป็นโมเดลที่มีพารามิเตอร์ 32 พันล้านตัว และแสดงประสิทธิภาพใกล้เคียงกับ DeepSeek-R1
  • โมเดลนี้ใช้การเรียนรู้แบบเสริมกำลัง (RL) เพื่อเสริมความฉลาดของโมเดลภาษาขนาดใหญ่
  • เปิดเผยภายใต้ไลเซนส์ Apache 2.0 บน Hugging Face และ ModelScope และเข้าถึงได้ผ่าน Qwen Chat

ประสิทธิภาพ

  • QwQ-32B ถูกทดสอบบนเบนช์มาร์กหลากหลายชุดที่ใช้ประเมินการให้เหตุผลทางคณิตศาสตร์ ความสามารถด้านโค้ดดิ้ง และความสามารถในการแก้ปัญหาทั่วไป
  • มีการประเมินประสิทธิภาพโดยเปรียบเทียบกับ DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini และ DeepSeek-R1 ต้นฉบับ
    • QwQ-32B ทำผลงานสูงสุดบน LiveBench และ BFCL และอยู่ในระดับ ใกล้เคียง DeepSeek-R1-671B บน IFEval และ AIME24
    • บน LiveCodeBench มีคะแนนต่ำกว่า DeepSeek-R1-671B เล็กน้อย แต่ยังคงเหนือกว่าโมเดลอื่น
    • โดยรวมแล้ว แสดงให้เห็นถึง ประสิทธิภาพที่ใกล้เคียงหรือดีกว่า DeepSeek-R1-671B ขณะเดียวกันก็พิสูจน์ความสามารถในการแข่งขันด้วย พารามิเตอร์ที่น้อยกว่ามาก (32.5 พันล้าน vs 671 พันล้าน)
    • กล่าวคือ ประเด็นสำคัญคือ QwQ-32B เป็นโมเดลที่ปรับให้เหมาะสมผ่านการเรียนรู้แบบเสริมกำลัง และสามารถทำ ประสิทธิภาพระดับแนวหน้าแม้มีขนาดเล็กกว่ามาก

การเรียนรู้แบบเสริมกำลัง

  • ในระยะเริ่มต้น ได้มีการนำ แนวทางการสเกลการเรียนรู้แบบเสริมกำลัง (RL) สำหรับงานคณิตศาสตร์และการเขียนโค้ด มาใช้
  • แทนที่จะใช้ reward model แบบดั้งเดิม ระบบใช้ตัวตรวจสอบความถูกต้องและเซิร์ฟเวอร์รันโค้ดเพื่อรับประกันความถูกต้องของคำตอบสุดท้าย
  • มีขั้นตอน RL เพิ่มเติมสำหรับความสามารถทั่วไป ซึ่งช่วยปรับปรุงผลลัพธ์ในด้านอย่างความชอบของมนุษย์และประสิทธิภาพของเอเจนต์

งานในอนาคต

  • Qwen ยังอยู่ในช่วงเริ่มต้นของการขยายการเรียนรู้แบบเสริมกำลัง (RL) เพื่อยกระดับความสามารถด้านการให้เหตุผล
  • การผสาน foundation model ที่ได้รับการเสริมด้วยทรัพยากรคอมพิวต์ที่สเกลขึ้น จะช่วยให้เข้าใกล้การบรรลุปัญญาประดิษฐ์ทั่วไป (AGI) มากขึ้น
  • กำลังสำรวจการผสานเอเจนต์กับ RL เพื่อทำให้เกิดการให้เหตุผลระยะยาวและปลดปล่อยความฉลาดที่สูงยิ่งขึ้น

1 ความคิดเห็น

 
GN⁺ 2025-03-06
ความคิดเห็นจาก Hacker News
  • ต้องระวังเรื่องความยาวคอนเท็กซ์ที่มาก (130k โทเค็น) การสร้าง CoT ที่ยาวโดยไม่มีคอนเท็กซ์เพียงพอไม่มีความหมาย

    • พรอมป์ต์แรกยาวเกินไปจนลืมงานที่ต้องทำ
    • ผู้ใช้ไม่ได้ให้งานที่เฉพาะเจาะจง
    • คำสั่งตั้งต้นคือให้ทำตัวเป็น AI agent
    • ดูเหมือนว่าผู้ใช้จะให้โจทย์แล้วขอให้ให้เหตุผลแบบทีละขั้นตอน
  • การเรียนคณิตศาสตร์และการเขียนโค้ดช่วยเพิ่มความสามารถในการให้เหตุผลโดยทั่วไป

  • เล็กกว่า DeepSeek อยู่ 20 เท่า เลยสงสัยว่าจะรันได้บนฮาร์ดแวร์แบบไหน

    • น่าจะไม่ต้องใช้ 512GB M3 Ultra
    • สูสีกับ Deepseek แต่เล็กกว่า 20 เท่า
  • กลยุทธ์ของจีนคือสร้างรายได้จากซอฟต์แวร์โอเพนซอร์สและหุ่นยนต์

    • สงสัยว่าสหรัฐฯ จะรักษาอำนาจไว้ได้อย่างไร
    • อินเดียยังเข้าร่วมการแข่งขันนี้ไม่ได้
  • ให้ลิงก์ไว้เพื่อทดสอบ Qwen2.5-plus

  • เปิดตัวในรูปแบบ "พรีวิว" เมื่อเดือนพฤศจิกายน 2024

    • ใช้คำว่า "รอ" บ่อยมาก
    • มีปัญหาหลงประเด็นหลังจากสร้างโทเค็นสำหรับการให้เหตุผลจำนวนมาก
  • อยู่ต่ำกว่า Deepseek-R1 ลงมาเพียงเล็กน้อย

    • 32B ถือว่าน่าประทับใจมาก
    • บางครั้งโทเค็นที่ใช้คิดยาวกว่าคำตอบสุดท้าย 10 เท่า
    • ตั้งใจจะทดสอบด้วย function calling ในช่วงสุดสัปดาห์
  • จากประสบการณ์ส่วนตัว เคยทดสอบให้อ่านย้อนกลับแล้วตอบคำถาม

    • ถ้าอ่าน "ip fo eulav si tahw" ย้อนกลับ จะได้ "what is value of pi"
    • ค่าของ π คือประมาณ 3.14159
    • π เป็นจำนวนอตรรกยะ จึงไม่มีที่สิ้นสุดและไม่ซ้ำเป็นคาบ
  • ตอบสนองได้ทันที และเป็นประสบการณ์ที่ดี