บทวิเคราะห์ R1-Zero และ R1 ของ DeepSeek
(arcprize.org)- ARC Prize Foundation มีเป้าหมายในการนิยาม วัดผล และกระตุ้นแนวคิดใหม่เกี่ยวกับ AGI (ปัญญาประดิษฐ์ทั่วไป)
- เรายังไม่บรรลุ AGI และมองว่าการขยายการ pre-train ของ LLM (โมเดลภาษาขนาดใหญ่) แบบล้วน ๆ ไม่ใช่คำตอบ
- ในช่วงปี 2023-24 มีการลงทุนในสตาร์ตอัป LLM ราว 2 หมื่นล้านดอลลาร์ ขณะที่สตาร์ตอัปด้าน AGI ได้รับเงินลงทุนเพียงราว 200 ล้านดอลลาร์
บทวิเคราะห์ R1-Zero และ R1 ของ DeepSeek
- R1-Zero และ R1 ที่ DeepSeek เปิดตัว ได้รับความสนใจอย่างมากจากการที่ระบบทั้งสองแสดงผลลัพธ์ได้ใกล้เคียงระดับของระบบ o1 จาก OpenAI
- ทั้ง R1-Zero และ R1 ทำคะแนน ARC-AGI-1 ได้ประมาณ 15~20%
- ถือว่าสูงกว่าคะแนน 5% ของ GPT-4o อย่างมาก
- แม้ช่วงหลังอุตสาหกรรม AI กระแสหลักจะมุ่งไปที่การขยาย LLM (โมเดลภาษาขนาดใหญ่) แบบตรงไปตรงมา แต่แนวทางนี้ถูกมองว่าไม่ใช่คำตอบโดยตรงสำหรับการทำให้ AGI เป็นจริง
- ARC Prize Foundation กำลังส่งเสริมการวิจัยระบบ AI ที่สามารถปรับตัวกับปัญหาใหม่ได้ แม้ยังไม่เคยถูกฝึกกับโจทย์เหล่านั้นมาก่อน ผ่านเบนช์มาร์ก ARC-AGI-1
R1-Zero สำคัญกว่า R1
- งานวิจัยของ DeepSeek นำไปสู่การเกิดขึ้นของ R1-Zero และ R1
- R1-Zero, R1 และ o1(low compute) ของ OpenAI ต่างทำคะแนนใกล้เคียงกันที่ 15~20% บน ARC-AGI-1
- ระบบ o3 ที่ OpenAI เปิดตัวในช่วงปลายปี 2024 ดันคะแนน ARC-AGI-1 ได้สูงสุดถึง 88% แสดงให้เห็นว่าสามารถแก้ปัญหาใหม่แบบปรับตัวได้
- อย่างไรก็ตาม o3 ยังมีส่วนที่ไม่เปิดเผยจำนวนมาก ทำให้นักวิจัยยากจะเข้าใจรายละเอียดทางเทคนิค
- R1-Zero ถูกมองว่ามีคุณค่าต่ออนาคตมากกว่า R1 เพราะไม่ได้ผ่านการติดป้ายกำกับโดยมนุษย์โดยตรง (SFT)
R1-Zero ขจัดคอขวดจากมนุษย์
-
โมเดลด้านการให้เหตุผลแบบเดิมเรียนรู้โดยผสานการติดป้ายกำกับของมนุษย์ (SFT) หรือรางวัลจากเครื่อง (RL) เข้ากับกระบวนการแก้ปัญหา (Chain-of-Thought, ต่อไปนี้จะเรียกว่า CoT)
-
R1-Zero เรียนรู้ CoT ด้วยการเสริมกำลัง (RL) เพียงอย่างเดียวโดยไม่มี SFT หรือฉลากจากผู้เชี่ยวชาญมนุษย์
-
บน ARC-AGI-1, R1-Zero ได้ 14% และ R1 ได้ 15% ซึ่งถือว่าให้ประสิทธิภาพแทบไม่ต่างกัน
-
บนเบนช์มาร์กอื่น ๆ เช่น MATH AIME 2024 ผลของ R1-Zero และ R1 ก็ออกมาใกล้เคียงกัน
-
แม้จะมีความกังวลเรื่องการปะปนของภาษาและปัญหาความอ่านง่าย แต่ในการทดสอบจริงกลับทำงานได้ดีในโดเมนคณิตศาสตร์และการเขียนโค้ดโดยแทบไม่มี incoherence มากนัก
-
ประเด็นสำคัญที่ได้จากเรื่องนี้มีดังนี้
- แม้ไม่มีการติดป้ายกำกับโดยมนุษย์ ก็ยังสามารถให้เหตุผลได้อย่างแม่นยำและเข้าใจได้ในบางโดเมนเฉพาะ
- R1-Zero สามารถสร้างการแทนโทเคนเฉพาะโดเมน (DSL) ของตนเองได้ด้วยการเสริมกำลังเพียงอย่างเดียว
- SFT อาจยังจำเป็นอยู่เพื่อขยายขอบเขตของการให้เหตุผล
-
ท้ายที่สุด R1-Zero แสดงให้เห็นความเป็นไปได้ในการขยายแบบ “ไร้คอขวดจากมนุษย์” ที่ระบบสามารถสร้างข้อมูลฝึกได้ด้วยตัวเองโดยไม่ต้องพึ่งมนุษย์
-
ด้านล่างนี้เป็นคำอธิบายโดยสรุปของคะแนน จำนวนโทเคนเฉลี่ย และต้นทุนการให้เหตุผลของหลายระบบบน ARC-AGI-1
- r1-zero: 14%, ไม่มี SFT, ไม่มีการค้นหาแบบการให้เหตุผลลำดับขั้น, เฉลี่ย 11K โทเคน, ต้นทุนประมาณ $0.11
- r1: 15.8%, ใช้ SFT, ไม่มีการค้นหาแบบการให้เหตุผลลำดับขั้น, เฉลี่ย 6K โทเคน, ต้นทุนประมาณ $0.06
- o1(low): 20.5%, ใช้ SFT, ไม่มีการค้นหาแบบการให้เหตุผลลำดับขั้น, เฉลี่ย 7K โทเคน, ต้นทุนประมาณ $0.43
- o1(med): 31%, ใช้ SFT, ไม่มีการค้นหาแบบการให้เหตุผลลำดับขั้น, เฉลี่ย 13K โทเคน, ต้นทุนประมาณ $0.79
- o1(high): 35%, ใช้ SFT, ไม่มีการค้นหาแบบการให้เหตุผลลำดับขั้น, เฉลี่ย 22K โทเคน, ต้นทุนประมาณ $1.31
- o3(low): 75.7%, ใช้ SFT, ใช้การค้นหาและการสุ่มตัวอย่าง, เฉลี่ย 335K โทเคน, ต้นทุนประมาณ $20
- o3(high): 87.5%, ใช้ SFT, ใช้การค้นหาและการสุ่มตัวอย่าง, เฉลี่ย 57M โทเคน, ต้นทุนประมาณ $3,400
ต้นทุนเพื่อความน่าเชื่อถือ
- แนวโน้มสำคัญที่กำลังเปลี่ยนแปลงในตลาด AI ตอนนี้คือ “ยิ่งเพิ่มต้นทุน ก็ยิ่งเพิ่มความแม่นยำและความน่าเชื่อถือได้”
- ยิ่งไปกว่านั้น สัดส่วนต้นทุนกำลังย้ายจากต้นทุนการฝึกไปสู่ต้นทุนการให้เหตุผล
- หากทุ่มทรัพยากรคอมพิวต์จำนวนมากในขั้นตอนการให้เหตุผล ก็สามารถได้ผลลัพธ์ที่แม่นยำและเสถียรมากขึ้น
- ที่ผ่านมา บริษัทส่วนใหญ่ยังไม่สามารถนำระบบอัตโนมัติขนาดใหญ่มาใช้ได้ เพราะปัญหาเรื่องความน่าเชื่อถือของระบบ AI
- มีมุมมองว่าความก้าวหน้าในสาย ARC-AGI จะช่วยเพิ่มความน่าเชื่อถือของ AI agent และบริษัทอย่าง Anthropic, OpenAI, Apple ก็เตรียมบริการแนว agent อยู่เช่นกัน
- ผู้ใช้มีแนวโน้มจะยอมจ่ายมากขึ้นเพื่อให้ได้ระดับความแม่นยำที่ต้องการ
- ดังนั้นจึงคาดว่าความต้องการด้าน AI inference จะเพิ่มขึ้นอย่างมาก และจะนำไปสู่ความต้องการทรัพยากรคอมพิวต์ที่สูงขึ้น
การให้เหตุผลก็คือการเรียนรู้
- ในอดีต เรามักรวบรวมข้อมูลขนาดใหญ่ หรือสร้างข้อมูลสังเคราะห์ (synthetic) จาก LLM เดิมเพื่อนำมาใช้ฝึก
- ตอนนี้ ในกระบวนการให้เหตุผลเอง ผู้ใช้หรือระบบสามารถสร้างข้อมูลใหม่ที่มีประโยชน์ได้จริง
- นี่หมายถึงการเปลี่ยนผ่านทางเศรษฐศาสตร์รูปแบบใหม่ที่ว่า “การให้เหตุผลทำหน้าที่เป็นการเรียนรู้ไปพร้อมกัน”
- โมเดล AI ที่มีผู้ใช้จำนวนมากจะเก็บข้อมูลจากการให้เหตุผลได้มากขึ้น และสิ่งนั้นเองจะนำไปสู่การปรับปรุงโมเดล
- หากในท้ายที่สุดกระบวนการ SFT (การติดป้ายกำกับโดยมนุษย์) ไม่จำเป็นอีกต่อไป ระบบที่เพียงแค่ทุ่มต้นทุนก้อนใหญ่เพื่อวนซ้ำการค้นหา การสังเคราะห์ และการตรวจสอบ ก็อาจเรียนรู้ได้อย่างมีประสิทธิภาพ
บทสรุป
- เมื่อความต้องการด้านการให้เหตุผลของระบบ AI เพิ่มขึ้น ก็น่าจะเกิดการประเมินมูลค่าตลาดใหม่อย่างต่อเนื่อง
- การปรากฏของระบบ R1 แบบโอเพนซอร์สที่ผสานแนวทาง CoT กับเทคนิคการค้นหา จะช่วยให้นักวิจัยและนักพัฒนาจำนวนมากขึ้นสามารถทดลองขีดจำกัดและเร่งนวัตกรรมได้
- การเปิดเผย R1-Zero และ R1 จะเป็นคุณูปการครั้งใหญ่ต่อความก้าวหน้าด้าน AI ทั่วโลก
- หลายทีมแสดงความตั้งใจว่าจะใช้ระบบแบบ R1 เพื่อมุ่งสู่ ARC Prize 2025 ทำให้ผลลัพธ์ในอนาคตน่าจับตามอง
- R1 ที่ DeepSeek เปิดเผยได้รับการประเมินเชิงบวกในฐานะผลงานที่มีส่วนช่วยต่อความก้าวหน้าทางวิทยาศาสตร์ ด้วยการชี้เบาะแสสำคัญบนเส้นทางสู่ AGI
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
นักพัฒนาระบบ AI อาจทำให้เกิดการเปลี่ยนแปลงทางเศรษฐกิจจากการสร้างข้อมูลรูปแบบใหม่ได้ โดยลูกค้าอาจเป็นผู้รับภาระต้นทุนการสร้างข้อมูลเพื่อยกระดับคุณภาพของโมเดล
อาจไม่จำเป็นต้องพัฒนา base model เพิ่มเติม และโมเดลทั่วไปอาจเพียงพอแล้ว
ระบบ o3 แสดงให้เห็นการนำคอมพิวเตอร์ไปใช้งานจริงครั้งแรกที่สามารถปรับตัวเข้ากับปัญหาใหม่ได้
มีการอ้างว่าสามารถขจัดคอขวดของมนุษย์ได้ แต่ในสาขาส่วนใหญ่นอกเหนือจากคณิตศาสตร์และวิทยาการคอมพิวเตอร์ การนิยามรางวัลที่ตรวจสอบได้ยังทำได้ยาก
กำลังเกิดการเปลี่ยนแปลงหลักสองอย่างในเศรษฐกิจ AI
o3 ได้ 75% ใน AGI-1 ขณะที่ R1 และ o1 ได้เพียง 25%
การที่งานคอมพิวต์จำนวนมากย้ายไปอยู่ฝั่ง inference ส่งผลกระทบอย่างมากต่อการลงทุน AI ในปัจจุบัน
Mike จาก Baseten กล่าวว่าภูมิใจที่ได้สนับสนุนงานนี้
R1-Zero แสดงให้เห็นระบอบการขยายศักยภาพที่อาจไม่มีคอขวดจากมนุษย์
R1 แสดงประสิทธิภาพต่อราคาที่โดดเด่น
มีการคาดการณ์ว่าอนาคตของ LLM จะอยู่ที่แอปแบบเฉพาะบุคคลที่ปรับแต่งได้