บทวิเคราะห์ R1-Zero และ R1 ของ DeepSeek

(arcprize.org)

5 คะแนน โดย GN⁺ 2025-01-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ARC Prize Foundation มีเป้าหมายในการนิยาม วัดผล และกระตุ้นแนวคิดใหม่เกี่ยวกับ AGI (ปัญญาประดิษฐ์ทั่วไป)
เรายังไม่บรรลุ AGI และมองว่าการขยายการ pre-train ของ LLM (โมเดลภาษาขนาดใหญ่) แบบล้วน ๆ ไม่ใช่คำตอบ
ในช่วงปี 2023-24 มีการลงทุนในสตาร์ตอัป LLM ราว 2 หมื่นล้านดอลลาร์ ขณะที่สตาร์ตอัปด้าน AGI ได้รับเงินลงทุนเพียงราว 200 ล้านดอลลาร์

บทวิเคราะห์ R1-Zero และ R1 ของ DeepSeek

R1-Zero และ R1 ที่ DeepSeek เปิดตัว ได้รับความสนใจอย่างมากจากการที่ระบบทั้งสองแสดงผลลัพธ์ได้ใกล้เคียงระดับของระบบ o1 จาก OpenAI
ทั้ง R1-Zero และ R1 ทำคะแนน ARC-AGI-1 ได้ประมาณ 15~20%
ถือว่าสูงกว่าคะแนน 5% ของ GPT-4o อย่างมาก
แม้ช่วงหลังอุตสาหกรรม AI กระแสหลักจะมุ่งไปที่การขยาย LLM (โมเดลภาษาขนาดใหญ่) แบบตรงไปตรงมา แต่แนวทางนี้ถูกมองว่าไม่ใช่คำตอบโดยตรงสำหรับการทำให้ AGI เป็นจริง
ARC Prize Foundation กำลังส่งเสริมการวิจัยระบบ AI ที่สามารถปรับตัวกับปัญหาใหม่ได้ แม้ยังไม่เคยถูกฝึกกับโจทย์เหล่านั้นมาก่อน ผ่านเบนช์มาร์ก ARC-AGI-1

R1-Zero สำคัญกว่า R1

งานวิจัยของ DeepSeek นำไปสู่การเกิดขึ้นของ R1-Zero และ R1
R1-Zero, R1 และ o1(low compute) ของ OpenAI ต่างทำคะแนนใกล้เคียงกันที่ 15~20% บน ARC-AGI-1
ระบบ o3 ที่ OpenAI เปิดตัวในช่วงปลายปี 2024 ดันคะแนน ARC-AGI-1 ได้สูงสุดถึง 88% แสดงให้เห็นว่าสามารถแก้ปัญหาใหม่แบบปรับตัวได้
อย่างไรก็ตาม o3 ยังมีส่วนที่ไม่เปิดเผยจำนวนมาก ทำให้นักวิจัยยากจะเข้าใจรายละเอียดทางเทคนิค
R1-Zero ถูกมองว่ามีคุณค่าต่ออนาคตมากกว่า R1 เพราะไม่ได้ผ่านการติดป้ายกำกับโดยมนุษย์โดยตรง (SFT)

R1-Zero ขจัดคอขวดจากมนุษย์

โมเดลด้านการให้เหตุผลแบบเดิมเรียนรู้โดยผสานการติดป้ายกำกับของมนุษย์ (SFT) หรือรางวัลจากเครื่อง (RL) เข้ากับกระบวนการแก้ปัญหา (Chain-of-Thought, ต่อไปนี้จะเรียกว่า CoT)
R1-Zero เรียนรู้ CoT ด้วยการเสริมกำลัง (RL) เพียงอย่างเดียวโดยไม่มี SFT หรือฉลากจากผู้เชี่ยวชาญมนุษย์
บน ARC-AGI-1, R1-Zero ได้ 14% และ R1 ได้ 15% ซึ่งถือว่าให้ประสิทธิภาพแทบไม่ต่างกัน
บนเบนช์มาร์กอื่น ๆ เช่น MATH AIME 2024 ผลของ R1-Zero และ R1 ก็ออกมาใกล้เคียงกัน
แม้จะมีความกังวลเรื่องการปะปนของภาษาและปัญหาความอ่านง่าย แต่ในการทดสอบจริงกลับทำงานได้ดีในโดเมนคณิตศาสตร์และการเขียนโค้ดโดยแทบไม่มี incoherence มากนัก
ประเด็นสำคัญที่ได้จากเรื่องนี้มีดังนี้
- แม้ไม่มีการติดป้ายกำกับโดยมนุษย์ ก็ยังสามารถให้เหตุผลได้อย่างแม่นยำและเข้าใจได้ในบางโดเมนเฉพาะ
- R1-Zero สามารถสร้างการแทนโทเคนเฉพาะโดเมน (DSL) ของตนเองได้ด้วยการเสริมกำลังเพียงอย่างเดียว
- SFT อาจยังจำเป็นอยู่เพื่อขยายขอบเขตของการให้เหตุผล
ท้ายที่สุด R1-Zero แสดงให้เห็นความเป็นไปได้ในการขยายแบบ “ไร้คอขวดจากมนุษย์” ที่ระบบสามารถสร้างข้อมูลฝึกได้ด้วยตัวเองโดยไม่ต้องพึ่งมนุษย์
ด้านล่างนี้เป็นคำอธิบายโดยสรุปของคะแนน จำนวนโทเคนเฉลี่ย และต้นทุนการให้เหตุผลของหลายระบบบน ARC-AGI-1
- r1-zero: 14%, ไม่มี SFT, ไม่มีการค้นหาแบบการให้เหตุผลลำดับขั้น, เฉลี่ย 11K โทเคน, ต้นทุนประมาณ $0.11
- r1: 15.8%, ใช้ SFT, ไม่มีการค้นหาแบบการให้เหตุผลลำดับขั้น, เฉลี่ย 6K โทเคน, ต้นทุนประมาณ $0.06
- o1(low): 20.5%, ใช้ SFT, ไม่มีการค้นหาแบบการให้เหตุผลลำดับขั้น, เฉลี่ย 7K โทเคน, ต้นทุนประมาณ $0.43
- o1(med): 31%, ใช้ SFT, ไม่มีการค้นหาแบบการให้เหตุผลลำดับขั้น, เฉลี่ย 13K โทเคน, ต้นทุนประมาณ $0.79
- o1(high): 35%, ใช้ SFT, ไม่มีการค้นหาแบบการให้เหตุผลลำดับขั้น, เฉลี่ย 22K โทเคน, ต้นทุนประมาณ $1.31
- o3(low): 75.7%, ใช้ SFT, ใช้การค้นหาและการสุ่มตัวอย่าง, เฉลี่ย 335K โทเคน, ต้นทุนประมาณ $20
- o3(high): 87.5%, ใช้ SFT, ใช้การค้นหาและการสุ่มตัวอย่าง, เฉลี่ย 57M โทเคน, ต้นทุนประมาณ $3,400

ต้นทุนเพื่อความน่าเชื่อถือ

แนวโน้มสำคัญที่กำลังเปลี่ยนแปลงในตลาด AI ตอนนี้คือ “ยิ่งเพิ่มต้นทุน ก็ยิ่งเพิ่มความแม่นยำและความน่าเชื่อถือได้”
ยิ่งไปกว่านั้น สัดส่วนต้นทุนกำลังย้ายจากต้นทุนการฝึกไปสู่ต้นทุนการให้เหตุผล
หากทุ่มทรัพยากรคอมพิวต์จำนวนมากในขั้นตอนการให้เหตุผล ก็สามารถได้ผลลัพธ์ที่แม่นยำและเสถียรมากขึ้น
ที่ผ่านมา บริษัทส่วนใหญ่ยังไม่สามารถนำระบบอัตโนมัติขนาดใหญ่มาใช้ได้ เพราะปัญหาเรื่องความน่าเชื่อถือของระบบ AI
มีมุมมองว่าความก้าวหน้าในสาย ARC-AGI จะช่วยเพิ่มความน่าเชื่อถือของ AI agent และบริษัทอย่าง Anthropic, OpenAI, Apple ก็เตรียมบริการแนว agent อยู่เช่นกัน
ผู้ใช้มีแนวโน้มจะยอมจ่ายมากขึ้นเพื่อให้ได้ระดับความแม่นยำที่ต้องการ
ดังนั้นจึงคาดว่าความต้องการด้าน AI inference จะเพิ่มขึ้นอย่างมาก และจะนำไปสู่ความต้องการทรัพยากรคอมพิวต์ที่สูงขึ้น

การให้เหตุผลก็คือการเรียนรู้

ในอดีต เรามักรวบรวมข้อมูลขนาดใหญ่ หรือสร้างข้อมูลสังเคราะห์ (synthetic) จาก LLM เดิมเพื่อนำมาใช้ฝึก
ตอนนี้ ในกระบวนการให้เหตุผลเอง ผู้ใช้หรือระบบสามารถสร้างข้อมูลใหม่ที่มีประโยชน์ได้จริง
นี่หมายถึงการเปลี่ยนผ่านทางเศรษฐศาสตร์รูปแบบใหม่ที่ว่า “การให้เหตุผลทำหน้าที่เป็นการเรียนรู้ไปพร้อมกัน”
โมเดล AI ที่มีผู้ใช้จำนวนมากจะเก็บข้อมูลจากการให้เหตุผลได้มากขึ้น และสิ่งนั้นเองจะนำไปสู่การปรับปรุงโมเดล
หากในท้ายที่สุดกระบวนการ SFT (การติดป้ายกำกับโดยมนุษย์) ไม่จำเป็นอีกต่อไป ระบบที่เพียงแค่ทุ่มต้นทุนก้อนใหญ่เพื่อวนซ้ำการค้นหา การสังเคราะห์ และการตรวจสอบ ก็อาจเรียนรู้ได้อย่างมีประสิทธิภาพ

บทสรุป

เมื่อความต้องการด้านการให้เหตุผลของระบบ AI เพิ่มขึ้น ก็น่าจะเกิดการประเมินมูลค่าตลาดใหม่อย่างต่อเนื่อง
การปรากฏของระบบ R1 แบบโอเพนซอร์สที่ผสานแนวทาง CoT กับเทคนิคการค้นหา จะช่วยให้นักวิจัยและนักพัฒนาจำนวนมากขึ้นสามารถทดลองขีดจำกัดและเร่งนวัตกรรมได้
การเปิดเผย R1-Zero และ R1 จะเป็นคุณูปการครั้งใหญ่ต่อความก้าวหน้าด้าน AI ทั่วโลก
หลายทีมแสดงความตั้งใจว่าจะใช้ระบบแบบ R1 เพื่อมุ่งสู่ ARC Prize 2025 ทำให้ผลลัพธ์ในอนาคตน่าจับตามอง
R1 ที่ DeepSeek เปิดเผยได้รับการประเมินเชิงบวกในฐานะผลงานที่มีส่วนช่วยต่อความก้าวหน้าทางวิทยาศาสตร์ ด้วยการชี้เบาะแสสำคัญบนเส้นทางสู่ AGI

1 ความคิดเห็น

GN⁺ 2025-01-30

ความคิดเห็นบน Hacker News

นักพัฒนาระบบ AI อาจทำให้เกิดการเปลี่ยนแปลงทางเศรษฐกิจจากการสร้างข้อมูลรูปแบบใหม่ได้ โดยลูกค้าอาจเป็นผู้รับภาระต้นทุนการสร้างข้อมูลเพื่อยกระดับคุณภาพของโมเดล
- อย่างไรก็ตาม ยังมีมุมมองที่ตั้งข้อสงสัยว่าข้อมูลเหล่านี้มีคุณภาพสูงจริงหรือไม่
- ปัจจุบันโมเดล SOTA ยังอยู่ที่ระดับ GPT4 และมีโอกาสพัฒนาไปได้อีกในช่วง 2-3 ปีข้างหน้า
- การใช้ reasoning model สร้างข้อมูล แล้วนำไปฝึก non-reasoning model เป็นแนวคิดที่มีอนาคต
- แต่ยังไม่แน่ชัดว่าจะถ่ายทอดกระบวนการให้เหตุผลลงในน้ำหนักของโมเดลได้ดีเพียงใด
- มีความเห็นว่า OpenAI ควรได้นำข้อมูลฝึกของ o3 ไปใช้ฝึกโมเดลใหม่แล้ว
อาจไม่จำเป็นต้องพัฒนา base model เพิ่มเติม และโมเดลทั่วไปอาจเพียงพอแล้ว
- สิ่งสำคัญคือการลดราคาของ reasoning model และเพิ่มคุณภาพของมัน
ระบบ o3 แสดงให้เห็นการนำคอมพิวเตอร์ไปใช้งานจริงครั้งแรกที่สามารถปรับตัวเข้ากับปัญหาใหม่ได้
- อย่างไรก็ตาม OpenAI ระบุว่าได้ฝึก o3 ด้วยชุดฝึกสาธารณะ 75% และยังไม่ได้ทดสอบว่าสมรรถนะจากข้อมูล ARC-AGI มีส่วนช่วยมากแค่ไหน
มีการอ้างว่าสามารถขจัดคอขวดของมนุษย์ได้ แต่ในสาขาส่วนใหญ่นอกเหนือจากคณิตศาสตร์และวิทยาการคอมพิวเตอร์ การนิยามรางวัลที่ตรวจสอบได้ยังทำได้ยาก
กำลังเกิดการเปลี่ยนแปลงหลักสองอย่างในเศรษฐกิจ AI
- สามารถจ่ายมากขึ้นเพื่อให้ได้ความแม่นยำและความน่าเชื่อถือที่สูงขึ้น
- ต้นทุนกำลังย้ายจากการฝึกไปสู่การ inference
- สิ่งนี้จะเพิ่มความต้องการด้าน inference และเพิ่มความต้องการด้านคอมพิวต์
o3 ได้ 75% ใน AGI-1 ขณะที่ R1 และ o1 ได้เพียง 25%
การที่งานคอมพิวต์จำนวนมากย้ายไปอยู่ฝั่ง inference ส่งผลกระทบอย่างมากต่อการลงทุน AI ในปัจจุบัน
- นี่เป็นข่าวร้ายสำหรับ NVDA และโซลูชันที่เน้น inference มีความคุ้มค่าทางเศรษฐกิจดีกว่า
Mike จาก Baseten กล่าวว่าภูมิใจที่ได้สนับสนุนงานนี้
R1-Zero แสดงให้เห็นระบอบการขยายศักยภาพที่อาจไม่มีคอขวดจากมนุษย์
- อย่างไรก็ตาม ยังมีคำถามว่าวิธีแบบ RL ยังคงต้องการข้อมูลจากมนุษย์จำนวนมากอยู่หรือไม่
R1 แสดงประสิทธิภาพต่อราคาที่โดดเด่น
- มีความเห็นว่าการใช้ R1 เป็นตัวสร้างข้อมูลสำหรับปัญหาที่ซับซ้อนเป็นแนวทางที่มีอนาคต
มีการคาดการณ์ว่าอนาคตของ LLM จะอยู่ที่แอปแบบเฉพาะบุคคลที่ปรับแต่งได้
- เพียงบอกแอปและความต้องการที่ต้องการกับ AI agent มันก็จะสร้างทุกอย่างตั้งแต่ backend ถึง frontend
- ทดสอบซอฟต์แวร์ แก้ไขข้อผิดพลาด และนำขึ้น production
- แม้ปัจจุบัน LLM จะยังไม่สมบูรณ์แบบ แต่ก็มีระบบและ workflow ที่สามารถรันโค้ด คอมไพล์อัตโนมัติ และป้อนข้อผิดพลาดกลับไปให้ LLM ได้แล้ว

บทวิเคราะห์ R1-Zero และ R1 ของ DeepSeek

บทวิเคราะห์ R1-Zero และ R1 ของ DeepSeek

R1-Zero สำคัญกว่า R1

R1-Zero ขจัดคอขวดจากมนุษย์

ต้นทุนเพื่อความน่าเชื่อถือ

การให้เหตุผลก็คือการเรียนรู้

บทสรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News