5 คะแนน โดย GN⁺ 2025-12-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เป้าหมายคือเพิ่ม ความสามารถในการให้เหตุผลทางคณิตศาสตร์ ของโมเดลภาษาเชิงลึก โดยเสริมความสามารถในการ ตรวจสอบความถูกต้องของกระบวนการให้เหตุผล ให้มากกว่าแค่ความแม่นยำของคำตอบสุดท้าย
  • แก้ไขข้อจำกัดของแนวทางเดิมที่อาศัยการเรียนรู้เสริมที่เน้น รางวัลจากคำตอบสุดท้าย โดยนำกลไก การตรวจสอบด้วยตนเอง (self-verification) มาใช้งาน
  • ในปัญหาที่ต้องมีการขยายเหตุผลแบบก้าวเป็นขั้นตอน เช่น การพิสูจน์ทฤษฎี (theorem proving) ออกแบบโมเดลให้ตัวสร้างสามารถค้นหาและแก้ไขข้อผิดพลาดได้ด้วยตนเอง
  • ใช้ตัวตรวจสอบ (verifier) เป็นตัวแบบประเมินรางวัล และขยายการคำนวณเพื่อการตรวจสอบเพื่อทำการป้ายกำกับข้อมูลคำพิสูจน์ที่ซับซ้อนโดยอัตโนมัติ ทำให้เกิดการปรับปรุงประสิทธิภาพต่อเนื่อง
  • ได้รับผลลัพธ์ระดับสูงสุดใน IMO 2025, CMO 2024, Putnam 2024 โดยแสดงให้เห็นถึงความเป็นไปได้ของ AI คณิตศาสตร์แบบ self-verification

1. แนะนำ (Introduction)

  • โมเดลภาษาแบบขนาดใหญ่ (LLM) ได้ก้าวหน้าอย่างมากในการ ให้เหตุผลทางคณิตศาสตร์ และเป็นสนามทดสอบสำคัญในการวิจัย AI
    • ผ่านการเรียนรู้เสริมโดยอาศัย รางวัลจากคำตอบถูกต้อง ทำให้ภายในหนึ่งปียังทำผลลัพธ์ระดับแนวหน้าในการแข่งขันเช่น AIME, HMMT
  • อย่างไรก็ตาม การเพิ่มเพียง ความแม่นยำของคำตอบสุดท้าย มีข้อจำกัด
    • แม้คำตอบจะถูกต้อง กระบวนการให้เหตุผลอาจยังไม่สมเหตุสมผล และสำหรับปัญหาที่ต้องมีการขยายตรรกะแบบขั้นตอน เช่น การพิสูจน์ทฤษฎี จึงไม่สามารถใช้งานได้
  • เพื่อแก้ปัญหานี้ จึงนำแนวคิด self-verification มาใช้เพื่อประเมินความครอบคลุมและความเข้มงวดของการให้เหตุผล
    • โดยเฉพาะอย่างยิ่งสำหรับ ปัญหาที่ยังไม่มีเฉลย (open problems) ในการทดสอบ การขยายการคำนวณเป็นองค์ประกอบสำคัญ
  • ทีมวิจัยฝึกตัวตรวจสอบ (verifier) ที่ แม่นยำและเชื่อถือได้ ที่อาศัย LLM และใช้เป็นโมเดลรางวัลในการฝึก ตัวสร้างคำพิสูจน์ (generator)
    • ช่วยให้ตัวสร้างคำพิสูจน์สามารถค้นหาและแก้ไขข้อผิดพลาดได้ด้วยตัวเอง
  • เมื่อประสิทธิภาพตัวสร้างดีขึ้น ความยากของการตรวจสอบก็เพิ่มขึ้นตามไปด้วย จึง ขยายการคำนวณเพื่อการตรวจสอบ (scale verification compute) เพื่อป้ายกำกับอัตโนมัติสำหรับการพิสูจน์ที่ยากขึ้น
    • ทำให้สามารถพัฒนาคุณภาพตัวตรวจสอบได้อย่างต่อเนื่อง
  • โมเดลผลลัพธ์ DeepSeekMath-V2 ได้รับคะแนนระดับสูงสุดใน IMO 2025 และ CMO 2024 ระดับเหรียญทอง และ Putnam 2024 118/120 คะแนน
    • ผลลัพธ์เหล่านี้แสดงให้เห็นว่า การให้เหตุผลทางคณิตศาสตร์แบบ self-verification เป็นทิศทางการวิจัยที่เป็นไปได้จริง

2. ผลการประเมิน (Evaluation Results)

  • ใช้ IMO-ProofBench ที่พัฒนาขึ้นโดยทีม DeepMind DeepThink IMO-Gold และการแข่งขันคณิตศาสตร์ล่าสุด ได้แก่ IMO 2025, CMO 2024, Putnam 2024
    • รายละเอียดเชิงตัวเลขหรือผลลัพธ์เฉพาะรายตัวไม่ถูกระบุในบทความนี้

3. โครงสร้างและฐานโมเดล (Model Architecture)

  • DeepSeekMath-V2 ถูกสร้างบนพื้นฐานของโมเดล DeepSeek-V3.2-Exp-Base
    • สำหรับการสนับสนุนด้านการอนุมาน/ inference โปรดดูคลังโค้ด GitHub ของ DeepSeek-V3.2-Exp

4. ลิขสิทธิ์ (License)

  • โมเดลและน้ำหนักโมเดลเผยแพร่ภายใต้ Apache License 2.0

5. อ้างอิง (Citation)

  • มีการระบุผู้แต่งและข้อมูลงานวิจัย โดยชื่อเรื่องคือ
    “DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)

6. ข้อมูลเพิ่มเติม

  • จำนวนการดาวน์โหลดในหนึ่งเดือนล่าสุด 4,434 ครั้ง
  • ในการสร้างโครงสร้างต้นไม้ของโมเดล รุ่นพื้นฐานถูกระบุว่าเกิด self-referential loop ทำให้ไม่สามารถสร้างต้นไม้ได้

1 ความคิดเห็น

 
GN⁺ 2025-12-02
ความเห็นบน Hacker News
  • โมเดลที่เปิดตัวครั้งนี้เปิดซอร์สน้ำหนักโมเดลภายใต้ Apache 2.0 license
    ขณะที่โมเดลเหรียญทอง IMO ของ OpenAI และ DeepMind ยังปิดไว้ไม่เปิดเผย

    • ผมคิดว่าเราควรปฏิบัติต่อ ลิขสิทธิ์ของน้ำหนักโมเดล แบบเดียวกับที่บริษัท AI จัดการเรื่องลิขสิทธิ์ของข้อมูลฝึก
    • แต่ถ้าเปิดเผยแค่น้ำหนักโมเดลโดยไม่เปิด โค้ดเทรนหรือข้อมูลฝึก ก็ยังคงเป็นโมเดลแบบปิดอยู่ดี
  • การสนทนาก่อนหน้านี้อยู่ที่ลิงก์นี้

    • ผมพลาดลิงก์นั้นไป ขอบคุณที่แชร์
  • น่าประทับใจที่โมเดลแบบ open weights ไล่ตามได้เร็วใน โดเมนเฉพาะทาง อย่างคณิตศาสตร์หรือการให้เหตุผล
    อยากรู้ว่ามีใครลองทดสอบกับตรรกะซับซ้อนหรือการเขียนโค้ดบ้างไหม โมเดลที่ทำคณิตศาสตร์ได้ดีมักเก่งด้าน debugging หรือการสร้างอัลกอริทึมด้วย

    • โมเดลที่เชี่ยวชาญเฉพาะโดเมนมีมูลค่าทางการค้าต่ำกว่า และการฝึก LLM ขนาดใหญ่ก็มักเน้น ความเป็นอเนกประสงค์ จึงเป็นเรื่องธรรมชาติ
    • kimi-k2 ค่อนข้างดีในงานโค้ด แต่ยังไม่ถึงระดับ SOTA model ของ Anthropic, OpenAI หรือ Google
  • ผมคิดว่าควรมี มุมมองแบบตั้งข้อสงสัย ต่อผลงานของโมเดลนี้ด้วย
    มีการระบุว่าฝึกจากโจทย์ที่รวบรวมมาจากอินเทอร์เน็ตโดยตรง แต่ไม่ได้พูดถึงการ กำจัด benchmark contamination หรือการตัดโจทย์ปี 2024/2025 ออกหรือไม่
    ส่วน OpenAI และ Google ทดสอบโมเดลทดลองโดยไม่มีการเข้าถึงโจทย์ปี 2025 ล่วงหน้า

  • สงสัยว่าทำไมโมเดลเหรียญทองของ OpenAI ถึงยังไม่ถูกปล่อยออกมา

    • นั่นเป็นแค่ งานประชาสัมพันธ์ เท่านั้น และพวกเขาวางแผนนำบทเรียนที่ได้ไปใช้กับโมเดลอเนกประสงค์ตัวถัดไป
  • ประเด็นสำคัญคือครั้งนี้ ไม่ใช่โมเดลอเนกประสงค์ ขณะที่โมเดลของ Google และ OpenAI ใช้โมเดลอเนกประสงค์

    • อันที่จริงทั้ง OpenAI และ Google ต่างก็ใช้ โมเดลวิจัยที่ปรับแต่งเฉพาะทาง สำหรับ IMO
      • OpenAI ระบุในทวีตนี้พร้อมเปรยการเปิดตัว GPT-5 ว่าโมเดล IMO เป็นโมเดลทดลองและยังไม่มีแผนจะเปิดเผยในเร็ว ๆ นี้
      • DeepMind อธิบายในบล็อกทางการว่าได้ฝึก Gemini ด้วย การให้เหตุผลหลายขั้นตอน ที่อิงการเรียนรู้แบบเสริมกำลัง และ ข้อมูลการพิสูจน์ทฤษฎีบท
    • มีการแชร์โพสต์ทางการของ DeepSeekไว้ด้วย
  • สงสัยว่าถ้าจะรันโมเดลนี้ที่บ้านต้องทำอย่างไร
    มีคำถามว่าใช้ CPU เป็นหลักกับ RAM ราว 1TB จะพอไหม

    • แค่ข้อมูลดาวน์โหลดก็ 690GB แล้ว จึงน่าจะต้องใช้ RAM 1TB เครื่อง Strix Halo สองเครื่องของผมก็ยังไม่พอ
    • ใช้ ik_llama.cpp กับ RAM มากพอและ GPU หนึ่งใบก็รันได้แม้จะช้า llama.cpp ปกติก็ได้ แต่ fork ของ ik มีประสิทธิภาพกว่า
    • มีคนบอกว่าใช้ Mac Studio 512GB สองเครื่องต่อผ่าน Thunderbolt 5 ก็ทำได้
  • แอบสงสัยว่าโมเดลนี้อาจ distill เอาผลลัพธ์ของ OpenAI หรือ Google มาโดยตรงหรือไม่

  • สงสัยว่าโมเดลนี้มีแผนจะขึ้น OpenRouter หรือเปล่า

  • ถ้า OpenAI ใส่โฆษณาใน ChatGPT คนจะไม่ย้ายไปใช้โมเดลอื่นทันทีหรือ

    • ผมกลับคิดว่าการมีผู้ให้บริการหลายรายออก โมเดลอเนกประสงค์ที่แข่งขันกันตามราคาตลาด เป็นเรื่องที่ดีกว่า
    • ไม่ว่าจะมีโฆษณาหรือไม่ ผมก็ไม่ไว้ใจ OpenAI อยู่ดี คงเชื่อยากจนกว่าจะเปลี่ยนชื่อเป็น CloseAI
    • ChatGPT ก็เป็นแค่เว็บไซต์ การมีโฆษณาในเว็บไซต์ไม่ใช่เรื่องแปลก Instagram ก็เหมือนกัน
    • พวกเขามีโครงสร้างรายได้จาก GPU datacenter และ API อยู่แล้ว ต่อให้มีการแข่งขันเกิดขึ้นก็คงยังเป็น ตัวเลือกอันดับหนึ่ง ไปอีกสักพัก
    • Google ก็ทำโฆษณามาหลายสิบปีแล้ว แต่ก็ไม่มีใครย้ายไปใช้เสิร์ชเอนจินอื่น