- เป้าหมายคือเพิ่ม ความสามารถในการให้เหตุผลทางคณิตศาสตร์ ของโมเดลภาษาเชิงลึก โดยเสริมความสามารถในการ ตรวจสอบความถูกต้องของกระบวนการให้เหตุผล ให้มากกว่าแค่ความแม่นยำของคำตอบสุดท้าย
- แก้ไขข้อจำกัดของแนวทางเดิมที่อาศัยการเรียนรู้เสริมที่เน้น รางวัลจากคำตอบสุดท้าย โดยนำกลไก การตรวจสอบด้วยตนเอง (self-verification) มาใช้งาน
- ในปัญหาที่ต้องมีการขยายเหตุผลแบบก้าวเป็นขั้นตอน เช่น การพิสูจน์ทฤษฎี (theorem proving) ออกแบบโมเดลให้ตัวสร้างสามารถค้นหาและแก้ไขข้อผิดพลาดได้ด้วยตนเอง
- ใช้ตัวตรวจสอบ (verifier) เป็นตัวแบบประเมินรางวัล และขยายการคำนวณเพื่อการตรวจสอบเพื่อทำการป้ายกำกับข้อมูลคำพิสูจน์ที่ซับซ้อนโดยอัตโนมัติ ทำให้เกิดการปรับปรุงประสิทธิภาพต่อเนื่อง
- ได้รับผลลัพธ์ระดับสูงสุดใน IMO 2025, CMO 2024, Putnam 2024 โดยแสดงให้เห็นถึงความเป็นไปได้ของ AI คณิตศาสตร์แบบ self-verification
1. แนะนำ (Introduction)
- โมเดลภาษาแบบขนาดใหญ่ (LLM) ได้ก้าวหน้าอย่างมากในการ ให้เหตุผลทางคณิตศาสตร์ และเป็นสนามทดสอบสำคัญในการวิจัย AI
- ผ่านการเรียนรู้เสริมโดยอาศัย รางวัลจากคำตอบถูกต้อง ทำให้ภายในหนึ่งปียังทำผลลัพธ์ระดับแนวหน้าในการแข่งขันเช่น AIME, HMMT
- อย่างไรก็ตาม การเพิ่มเพียง ความแม่นยำของคำตอบสุดท้าย มีข้อจำกัด
- แม้คำตอบจะถูกต้อง กระบวนการให้เหตุผลอาจยังไม่สมเหตุสมผล และสำหรับปัญหาที่ต้องมีการขยายตรรกะแบบขั้นตอน เช่น การพิสูจน์ทฤษฎี จึงไม่สามารถใช้งานได้
- เพื่อแก้ปัญหานี้ จึงนำแนวคิด self-verification มาใช้เพื่อประเมินความครอบคลุมและความเข้มงวดของการให้เหตุผล
- โดยเฉพาะอย่างยิ่งสำหรับ ปัญหาที่ยังไม่มีเฉลย (open problems) ในการทดสอบ การขยายการคำนวณเป็นองค์ประกอบสำคัญ
- ทีมวิจัยฝึกตัวตรวจสอบ (verifier) ที่ แม่นยำและเชื่อถือได้ ที่อาศัย LLM และใช้เป็นโมเดลรางวัลในการฝึก ตัวสร้างคำพิสูจน์ (generator)
- ช่วยให้ตัวสร้างคำพิสูจน์สามารถค้นหาและแก้ไขข้อผิดพลาดได้ด้วยตัวเอง
- เมื่อประสิทธิภาพตัวสร้างดีขึ้น ความยากของการตรวจสอบก็เพิ่มขึ้นตามไปด้วย จึง ขยายการคำนวณเพื่อการตรวจสอบ (scale verification compute) เพื่อป้ายกำกับอัตโนมัติสำหรับการพิสูจน์ที่ยากขึ้น
- ทำให้สามารถพัฒนาคุณภาพตัวตรวจสอบได้อย่างต่อเนื่อง
- โมเดลผลลัพธ์ DeepSeekMath-V2 ได้รับคะแนนระดับสูงสุดใน IMO 2025 และ CMO 2024 ระดับเหรียญทอง และ Putnam 2024 118/120 คะแนน
- ผลลัพธ์เหล่านี้แสดงให้เห็นว่า การให้เหตุผลทางคณิตศาสตร์แบบ self-verification เป็นทิศทางการวิจัยที่เป็นไปได้จริง
2. ผลการประเมิน (Evaluation Results)
- ใช้ IMO-ProofBench ที่พัฒนาขึ้นโดยทีม DeepMind DeepThink IMO-Gold และการแข่งขันคณิตศาสตร์ล่าสุด ได้แก่ IMO 2025, CMO 2024, Putnam 2024
- รายละเอียดเชิงตัวเลขหรือผลลัพธ์เฉพาะรายตัวไม่ถูกระบุในบทความนี้
3. โครงสร้างและฐานโมเดล (Model Architecture)
- DeepSeekMath-V2 ถูกสร้างบนพื้นฐานของโมเดล DeepSeek-V3.2-Exp-Base
- สำหรับการสนับสนุนด้านการอนุมาน/ inference โปรดดูคลังโค้ด GitHub ของ DeepSeek-V3.2-Exp
4. ลิขสิทธิ์ (License)
- โมเดลและน้ำหนักโมเดลเผยแพร่ภายใต้ Apache License 2.0
5. อ้างอิง (Citation)
- มีการระบุผู้แต่งและข้อมูลงานวิจัย โดยชื่อเรื่องคือ
“DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)
6. ข้อมูลเพิ่มเติม
- จำนวนการดาวน์โหลดในหนึ่งเดือนล่าสุด 4,434 ครั้ง
- ในการสร้างโครงสร้างต้นไม้ของโมเดล รุ่นพื้นฐานถูกระบุว่าเกิด self-referential loop ทำให้ไม่สามารถสร้างต้นไม้ได้
1 ความคิดเห็น
ความเห็นบน Hacker News
โมเดลที่เปิดตัวครั้งนี้เปิดซอร์สน้ำหนักโมเดลภายใต้ Apache 2.0 license
ขณะที่โมเดลเหรียญทอง IMO ของ OpenAI และ DeepMind ยังปิดไว้ไม่เปิดเผย
การสนทนาก่อนหน้านี้อยู่ที่ลิงก์นี้
น่าประทับใจที่โมเดลแบบ open weights ไล่ตามได้เร็วใน โดเมนเฉพาะทาง อย่างคณิตศาสตร์หรือการให้เหตุผล
อยากรู้ว่ามีใครลองทดสอบกับตรรกะซับซ้อนหรือการเขียนโค้ดบ้างไหม โมเดลที่ทำคณิตศาสตร์ได้ดีมักเก่งด้าน debugging หรือการสร้างอัลกอริทึมด้วย
ผมคิดว่าควรมี มุมมองแบบตั้งข้อสงสัย ต่อผลงานของโมเดลนี้ด้วย
มีการระบุว่าฝึกจากโจทย์ที่รวบรวมมาจากอินเทอร์เน็ตโดยตรง แต่ไม่ได้พูดถึงการ กำจัด benchmark contamination หรือการตัดโจทย์ปี 2024/2025 ออกหรือไม่
ส่วน OpenAI และ Google ทดสอบโมเดลทดลองโดยไม่มีการเข้าถึงโจทย์ปี 2025 ล่วงหน้า
สงสัยว่าทำไมโมเดลเหรียญทองของ OpenAI ถึงยังไม่ถูกปล่อยออกมา
ประเด็นสำคัญคือครั้งนี้ ไม่ใช่โมเดลอเนกประสงค์ ขณะที่โมเดลของ Google และ OpenAI ใช้โมเดลอเนกประสงค์
สงสัยว่าถ้าจะรันโมเดลนี้ที่บ้านต้องทำอย่างไร
มีคำถามว่าใช้ CPU เป็นหลักกับ RAM ราว 1TB จะพอไหม
แอบสงสัยว่าโมเดลนี้อาจ distill เอาผลลัพธ์ของ OpenAI หรือ Google มาโดยตรงหรือไม่
สงสัยว่าโมเดลนี้มีแผนจะขึ้น OpenRouter หรือเปล่า
ถ้า OpenAI ใส่โฆษณาใน ChatGPT คนจะไม่ย้ายไปใช้โมเดลอื่นทันทีหรือ