การเปิดตัว DeepSeekMath-V2 - สู่การให้เหตุผลทางคณิตศาสตร์ที่สามารถตรวจสอบด้วยตนเอง

(huggingface.co)

5 คะแนน โดย GN⁺ 2025-12-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เป้าหมายคือเพิ่ม ความสามารถในการให้เหตุผลทางคณิตศาสตร์ ของโมเดลภาษาเชิงลึก โดยเสริมความสามารถในการ ตรวจสอบความถูกต้องของกระบวนการให้เหตุผล ให้มากกว่าแค่ความแม่นยำของคำตอบสุดท้าย
แก้ไขข้อจำกัดของแนวทางเดิมที่อาศัยการเรียนรู้เสริมที่เน้น รางวัลจากคำตอบสุดท้าย โดยนำกลไก การตรวจสอบด้วยตนเอง (self-verification) มาใช้งาน
ในปัญหาที่ต้องมีการขยายเหตุผลแบบก้าวเป็นขั้นตอน เช่น การพิสูจน์ทฤษฎี (theorem proving) ออกแบบโมเดลให้ตัวสร้างสามารถค้นหาและแก้ไขข้อผิดพลาดได้ด้วยตนเอง
ใช้ตัวตรวจสอบ (verifier) เป็นตัวแบบประเมินรางวัล และขยายการคำนวณเพื่อการตรวจสอบเพื่อทำการป้ายกำกับข้อมูลคำพิสูจน์ที่ซับซ้อนโดยอัตโนมัติ ทำให้เกิดการปรับปรุงประสิทธิภาพต่อเนื่อง
ได้รับผลลัพธ์ระดับสูงสุดใน IMO 2025, CMO 2024, Putnam 2024 โดยแสดงให้เห็นถึงความเป็นไปได้ของ AI คณิตศาสตร์แบบ self-verification

1. แนะนำ (Introduction)

โมเดลภาษาแบบขนาดใหญ่ (LLM) ได้ก้าวหน้าอย่างมากในการ ให้เหตุผลทางคณิตศาสตร์ และเป็นสนามทดสอบสำคัญในการวิจัย AI
- ผ่านการเรียนรู้เสริมโดยอาศัย รางวัลจากคำตอบถูกต้อง ทำให้ภายในหนึ่งปียังทำผลลัพธ์ระดับแนวหน้าในการแข่งขันเช่น AIME, HMMT
อย่างไรก็ตาม การเพิ่มเพียง ความแม่นยำของคำตอบสุดท้าย มีข้อจำกัด
- แม้คำตอบจะถูกต้อง กระบวนการให้เหตุผลอาจยังไม่สมเหตุสมผล และสำหรับปัญหาที่ต้องมีการขยายตรรกะแบบขั้นตอน เช่น การพิสูจน์ทฤษฎี จึงไม่สามารถใช้งานได้
เพื่อแก้ปัญหานี้ จึงนำแนวคิด self-verification มาใช้เพื่อประเมินความครอบคลุมและความเข้มงวดของการให้เหตุผล
- โดยเฉพาะอย่างยิ่งสำหรับ ปัญหาที่ยังไม่มีเฉลย (open problems) ในการทดสอบ การขยายการคำนวณเป็นองค์ประกอบสำคัญ
ทีมวิจัยฝึกตัวตรวจสอบ (verifier) ที่ แม่นยำและเชื่อถือได้ ที่อาศัย LLM และใช้เป็นโมเดลรางวัลในการฝึก ตัวสร้างคำพิสูจน์ (generator)
- ช่วยให้ตัวสร้างคำพิสูจน์สามารถค้นหาและแก้ไขข้อผิดพลาดได้ด้วยตัวเอง
เมื่อประสิทธิภาพตัวสร้างดีขึ้น ความยากของการตรวจสอบก็เพิ่มขึ้นตามไปด้วย จึง ขยายการคำนวณเพื่อการตรวจสอบ (scale verification compute) เพื่อป้ายกำกับอัตโนมัติสำหรับการพิสูจน์ที่ยากขึ้น
- ทำให้สามารถพัฒนาคุณภาพตัวตรวจสอบได้อย่างต่อเนื่อง
โมเดลผลลัพธ์ DeepSeekMath-V2 ได้รับคะแนนระดับสูงสุดใน IMO 2025 และ CMO 2024 ระดับเหรียญทอง และ Putnam 2024 118/120 คะแนน
- ผลลัพธ์เหล่านี้แสดงให้เห็นว่า การให้เหตุผลทางคณิตศาสตร์แบบ self-verification เป็นทิศทางการวิจัยที่เป็นไปได้จริง

2. ผลการประเมิน (Evaluation Results)

ใช้ IMO-ProofBench ที่พัฒนาขึ้นโดยทีม DeepMind DeepThink IMO-Gold และการแข่งขันคณิตศาสตร์ล่าสุด ได้แก่ IMO 2025, CMO 2024, Putnam 2024
- รายละเอียดเชิงตัวเลขหรือผลลัพธ์เฉพาะรายตัวไม่ถูกระบุในบทความนี้

3. โครงสร้างและฐานโมเดล (Model Architecture)

DeepSeekMath-V2 ถูกสร้างบนพื้นฐานของโมเดล DeepSeek-V3.2-Exp-Base
- สำหรับการสนับสนุนด้านการอนุมาน/ inference โปรดดูคลังโค้ด GitHub ของ DeepSeek-V3.2-Exp

4. ลิขสิทธิ์ (License)

โมเดลและน้ำหนักโมเดลเผยแพร่ภายใต้ Apache License 2.0

5. อ้างอิง (Citation)

มีการระบุผู้แต่งและข้อมูลงานวิจัย โดยชื่อเรื่องคือ
“DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)

6. ข้อมูลเพิ่มเติม

จำนวนการดาวน์โหลดในหนึ่งเดือนล่าสุด 4,434 ครั้ง
ในการสร้างโครงสร้างต้นไม้ของโมเดล รุ่นพื้นฐานถูกระบุว่าเกิด self-referential loop ทำให้ไม่สามารถสร้างต้นไม้ได้

1 ความคิดเห็น

GN⁺ 2025-12-02

ความเห็นบน Hacker News

โมเดลที่เปิดตัวครั้งนี้เปิดซอร์สน้ำหนักโมเดลภายใต้ Apache 2.0 license
ขณะที่โมเดลเหรียญทอง IMO ของ OpenAI และ DeepMind ยังปิดไว้ไม่เปิดเผย
- ผมคิดว่าเราควรปฏิบัติต่อ ลิขสิทธิ์ของน้ำหนักโมเดล แบบเดียวกับที่บริษัท AI จัดการเรื่องลิขสิทธิ์ของข้อมูลฝึก
- แต่ถ้าเปิดเผยแค่น้ำหนักโมเดลโดยไม่เปิด โค้ดเทรนหรือข้อมูลฝึก ก็ยังคงเป็นโมเดลแบบปิดอยู่ดี
การสนทนาก่อนหน้านี้อยู่ที่ลิงก์นี้
- ผมพลาดลิงก์นั้นไป ขอบคุณที่แชร์
น่าประทับใจที่โมเดลแบบ open weights ไล่ตามได้เร็วใน โดเมนเฉพาะทาง อย่างคณิตศาสตร์หรือการให้เหตุผล
อยากรู้ว่ามีใครลองทดสอบกับตรรกะซับซ้อนหรือการเขียนโค้ดบ้างไหม โมเดลที่ทำคณิตศาสตร์ได้ดีมักเก่งด้าน debugging หรือการสร้างอัลกอริทึมด้วย
- โมเดลที่เชี่ยวชาญเฉพาะโดเมนมีมูลค่าทางการค้าต่ำกว่า และการฝึก LLM ขนาดใหญ่ก็มักเน้น ความเป็นอเนกประสงค์ จึงเป็นเรื่องธรรมชาติ
- kimi-k2 ค่อนข้างดีในงานโค้ด แต่ยังไม่ถึงระดับ SOTA model ของ Anthropic, OpenAI หรือ Google
ผมคิดว่าควรมี มุมมองแบบตั้งข้อสงสัย ต่อผลงานของโมเดลนี้ด้วย
มีการระบุว่าฝึกจากโจทย์ที่รวบรวมมาจากอินเทอร์เน็ตโดยตรง แต่ไม่ได้พูดถึงการ กำจัด benchmark contamination หรือการตัดโจทย์ปี 2024/2025 ออกหรือไม่
ส่วน OpenAI และ Google ทดสอบโมเดลทดลองโดยไม่มีการเข้าถึงโจทย์ปี 2025 ล่วงหน้า
สงสัยว่าทำไมโมเดลเหรียญทองของ OpenAI ถึงยังไม่ถูกปล่อยออกมา
- นั่นเป็นแค่ งานประชาสัมพันธ์ เท่านั้น และพวกเขาวางแผนนำบทเรียนที่ได้ไปใช้กับโมเดลอเนกประสงค์ตัวถัดไป
ประเด็นสำคัญคือครั้งนี้ ไม่ใช่โมเดลอเนกประสงค์ ขณะที่โมเดลของ Google และ OpenAI ใช้โมเดลอเนกประสงค์
- อันที่จริงทั้ง OpenAI และ Google ต่างก็ใช้ โมเดลวิจัยที่ปรับแต่งเฉพาะทาง สำหรับ IMO
  - OpenAI ระบุในทวีตนี้พร้อมเปรยการเปิดตัว GPT-5 ว่าโมเดล IMO เป็นโมเดลทดลองและยังไม่มีแผนจะเปิดเผยในเร็ว ๆ นี้
  - DeepMind อธิบายในบล็อกทางการว่าได้ฝึก Gemini ด้วย การให้เหตุผลหลายขั้นตอน ที่อิงการเรียนรู้แบบเสริมกำลัง และ ข้อมูลการพิสูจน์ทฤษฎีบท
- มีการแชร์โพสต์ทางการของ DeepSeekไว้ด้วย
สงสัยว่าถ้าจะรันโมเดลนี้ที่บ้านต้องทำอย่างไร
มีคำถามว่าใช้ CPU เป็นหลักกับ RAM ราว 1TB จะพอไหม
- แค่ข้อมูลดาวน์โหลดก็ 690GB แล้ว จึงน่าจะต้องใช้ RAM 1TB เครื่อง Strix Halo สองเครื่องของผมก็ยังไม่พอ
- ใช้ ik_llama.cpp กับ RAM มากพอและ GPU หนึ่งใบก็รันได้แม้จะช้า llama.cpp ปกติก็ได้ แต่ fork ของ ik มีประสิทธิภาพกว่า
- มีคนบอกว่าใช้ Mac Studio 512GB สองเครื่องต่อผ่าน Thunderbolt 5 ก็ทำได้
แอบสงสัยว่าโมเดลนี้อาจ distill เอาผลลัพธ์ของ OpenAI หรือ Google มาโดยตรงหรือไม่
สงสัยว่าโมเดลนี้มีแผนจะขึ้น OpenRouter หรือเปล่า
ถ้า OpenAI ใส่โฆษณาใน ChatGPT คนจะไม่ย้ายไปใช้โมเดลอื่นทันทีหรือ
- ผมกลับคิดว่าการมีผู้ให้บริการหลายรายออก โมเดลอเนกประสงค์ที่แข่งขันกันตามราคาตลาด เป็นเรื่องที่ดีกว่า
- ไม่ว่าจะมีโฆษณาหรือไม่ ผมก็ไม่ไว้ใจ OpenAI อยู่ดี คงเชื่อยากจนกว่าจะเปลี่ยนชื่อเป็น CloseAI
- ChatGPT ก็เป็นแค่เว็บไซต์ การมีโฆษณาในเว็บไซต์ไม่ใช่เรื่องแปลก Instagram ก็เหมือนกัน
- พวกเขามีโครงสร้างรายได้จาก GPU datacenter และ API อยู่แล้ว ต่อให้มีการแข่งขันเกิดขึ้นก็คงยังเป็น ตัวเลือกอันดับหนึ่ง ไปอีกสักพัก
- Google ก็ทำโฆษณามาหลายสิบปีแล้ว แต่ก็ไม่มีใครย้ายไปใช้เสิร์ชเอนจินอื่น

การเปิดตัว DeepSeekMath-V2 - สู่การให้เหตุผลทางคณิตศาสตร์ที่สามารถตรวจสอบด้วยตนเอง

1. แนะนำ (Introduction)

2. ผลการประเมิน (Evaluation Results)

3. โครงสร้างและฐานโมเดล (Model Architecture)

4. ลิขสิทธิ์ (License)

5. อ้างอิง (Citation)

6. ข้อมูลเพิ่มเติม

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นบน Hacker News