คำอธิบายเกี่ยวกับ R1 และทุกสิ่งรอบตัวมัน

(timkellogg.me)

41 คะแนน โดย GN⁺ 2025-01-27 | 9 ความคิดเห็น | แชร์ทาง WhatsApp

สรุปสถานการณ์ปัจจุบันเพื่อทำความเข้าใจ R1 ที่โผล่มาอย่างกะทันหัน และสิ่งต่าง ๆ ที่เปลี่ยนแปลงอย่างรวดเร็วอย่าง o1 และ o3

ไทม์ไลน์

12 กันยายน 2024: เปิดตัว o1-preview
5 ธันวาคม 2024: เปิดตัว o1 เวอร์ชันทางการและ o1-pro
20 ธันวาคม 2024: ประกาศ o3 (ผ่าน ARC-AGI และได้รับความสนใจในฐานะ “AGI”)
26 ธันวาคม 2024: เปิดตัว DeepSeek V3
20 มกราคม 2025: เปิดตัว DeepSeek R1 (ประสิทธิภาพใกล้เคียง o1 แต่เป็นโอเพนซอร์ส)
25 มกราคม 2025: ทีมนักวิจัยจากมหาวิทยาลัยฮ่องกงทำซ้ำผลลัพธ์ของ R1 สำเร็จ
25 มกราคม 2025: Huggingface ประกาศโครงการ open-r1 แบบโอเพนซอร์สเต็มรูปแบบที่ทำซ้ำ R1
เพื่อความชัดเจน
- o1, o3, R1 ล้วนเป็นโมเดลการให้เหตุผล (Reasoning)
- DeepSeek V3 คือ LLM (โมเดลพื้นฐาน) และโมเดลการให้เหตุผลถูกสร้างขึ้นโดยการ fine-tune จากมัน
- ARC-AGI-1 คือการประเมินที่เรียบง่ายและพื้นฐานที่สุดของ fluid intelligence การไม่ผ่านหมายความว่าแทบไม่มีความสามารถในการปรับตัวหรือแก้ปัญหาในสถานการณ์ที่ไม่คุ้นเคย

# Reasoning & Agents

โมเดลการให้เหตุผล != Agents

โมเดลการให้เหตุผล (Reasoning) คือโมเดลที่ผ่านกระบวนการ “คิด” ก่อนสร้างคำตอบ
- LLM คิดโดยการสร้างโทเค็น
- ดังนั้นเราจึงฝึกโมเดลให้สร้างโทเค็นจำนวนมาก โดยหวังว่าโมเดลจะค้นหาคำตอบที่ถูกต้องได้
AI agent ถูกนิยามด้วย 2 อย่าง
- Autonomy (agency) สำหรับการตัดสินใจและทำงานให้สำเร็จ
- ความสามารถในการโต้ตอบ (Interact) กับโลกภายนอก
LLM หรือแม้แต่โมเดลการให้เหตุผลเพียงอย่างเดียวทำได้แค่สร้างโทเค็น จึงไม่สามารถทำสองอย่างนี้ได้
- จำเป็นต้องมีซอฟต์แวร์เพื่อทำการตัดสินใจจริงและมอบความสามารถในการโต้ตอบ
agent คือระบบของ AI เป็นการผสานหลายโมเดลกับซอฟต์แวร์เข้าด้วยกันเพื่อให้สามารถโต้ตอบกับโลกได้อย่างอิสระ รวมถึงฮาร์ดแวร์ด้วยเช่นกัน

การให้เหตุผลมีความสำคัญ

เหตุที่โมเดลการให้เหตุผลมักถูกสับสนกับ agent เป็นเพราะตอนนี้การให้เหตุผลคือคอขวด
ความสามารถในการให้เหตุผลเป็นสิ่งจำเป็นต่อการวางแผนงาน การกำกับดูแล การตรวจสอบ และการทำให้ฉลาดขึ้น
หากไม่มีความสามารถในการให้เหตุผล ก็สร้าง agent ไม่ได้ แต่เมื่อ benchmark ด้านการให้เหตุผลเริ่มอิ่มตัว ความท้าทายใหม่ก็จะตามมา

การให้เหตุผลต้องมีต้นทุนถูกลง

agent ทำงานได้ตั้งแต่หลายชั่วโมงไปจนหลายวัน หรือแม้แต่ 24/7 โดยไม่หยุดพัก
นี่คือแก่นของการกระทำอย่างอิสระ และทำให้ต้นทุนเพิ่มขึ้นตามไปด้วย
ณ ตอนนี้ R1 มีราคาถูกกว่า o1 ราว 30 เท่า แต่ให้ประสิทธิภาพใกล้เคียงกัน

# ทำไม R1 จึงสำคัญ

มันสำคัญมากเพราะราคาถูก เป็นโอเพนซอร์ส และพิสูจน์แล้วว่ามีประสิทธิภาพใกล้เคียง o1 และ o3
ก่อนหน้านี้มีการคาดเดาบางอย่างเกี่ยวกับวิธีทำงานของ o1 จากเอกสารที่เปิดเผย และงานวิจัยที่เผยแพร่ของ R1 ก็ยืนยันสิ่งเหล่านั้นแทบทั้งหมด ดังนั้นเราจึงเริ่มเข้าใจว่า o1 ขยายไปสู่ o3, o4 ได้อย่างไร
และเพราะมันเป็นโอเพนซอร์ส ใครก็ตามทั่วโลกก็สามารถนำไปทดลองกับไอเดียของตนเองได้
ดูได้จากไทม์ไลน์ของคนที่พยายามนำ R1 ไปทำซ้ำตลอดสัปดาห์ที่ผ่านมา (บางคนบอกว่าทำได้ด้วยเงิน $30)
นวัตกรรมเกิดขึ้นเมื่อสามารถทำซ้ำได้เร็วและถูก และ R1 ได้สร้างสภาพแวดล้อมแบบนั้นขึ้นมา
ที่สำคัญที่สุดคือ R1 แสดงให้เห็นว่า ไม่จำเป็นต้องพึ่งไอเดียซับซ้อนอย่าง DPO หรือ MCTS ก็สามารถบรรลุความสามารถในการให้เหตุผลที่ดีได้ด้วยวิธี RL ที่เรียบง่าย

# แนวโน้มการพัฒนา AI

การขยายขนาดการฝึกล่วงหน้า (Pretraining) กำลังแตะขีดจำกัด

หลังยุค GPT-4 เป็นต้นมา เริ่มเห็นข้อจำกัดของ ‘กฎการขยายขนาด’ แบบเดิมที่อาศัยการเพิ่มข้อมูลและทรัพยากรคอมพิวต์ขนาดใหญ่เพียงอย่างเดียว
มีการประเมินกันว่า จากปัญหาการหา data และวิธีให้เหตุผลแบบใหม่ วิธีเดิมเพียงอย่างเดียวเริ่มให้ผลลัพธ์ที่โดดเด่นได้ยากขึ้น

กฎการขยายขนาดตามเวลาอนุมาน (Inference Time)

โมเดลการให้เหตุผลอย่าง o1 และ r1 มีแนวโน้มว่า ‘ยิ่งคิดนาน ประสิทธิภาพยิ่งดีขึ้น’
แต่เพื่อให้ได้ผลลัพธ์ที่ดีกว่า ยังไม่ชัดเจนว่าควรใช้การคำนวณเพิ่มขึ้นอย่างไรจึงจะเหมาะสมที่สุด
สมมติฐานแบบตรงไปตรงมาคือ chain of thought (CoT) น่าจะใช้ได้ และเพียงฝึกโมเดลให้ทำ CoT ก็พอ
ปัญหาคือจะหาทางที่เร็วที่สุดไปสู่คำตอบได้อย่างมีประสิทธิภาพอย่างไร
- Entropix เป็นหนึ่งในไอเดียที่ใช้สัญญาณภายในของโมเดลเพื่อหาทางที่มีประสิทธิภาพที่สุด
- ยังมีวิธีอย่าง Monte Carlo Tree Search (MCTS) ที่สร้างหลายเส้นทางแล้วเลือกเพียงเส้นทางเดียว
ปรากฏว่า CoT คือแนวทางที่ดีที่สุด
- R1 ใช้ single-line chain of thought (CoT) แบบเรียบง่าย โดยประยุกต์ RL เข้าไป
- จึงพอจะตั้งสมมติฐานได้ว่า o1 ก็น่าจะทำสิ่งเดียวกัน

โมเดลขนาดย่อ (Down-Sized Models)

จุดเริ่มต้นคือ GPT-4-turbo แล้วตามมาด้วย GPT-4o, ซีรีส์ Claude และ LLM อื่น ๆ ทั้งหมดค่อย ๆ เล็กลงและถูกลงตลอดปี 2024
เพราะการให้เหตุผลต้องสร้างโทเค็นจำนวนมาก ยิ่งโมเดลเล็ก ความเร็วคำนวณก็ยิ่งสูงและมีประสิทธิภาพมากขึ้น
“โมเดลที่เล็กกว่า = ฉลาดกว่า”

การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning)

R1 ใช้วิธี RL ที่เรียบง่ายชื่อ GRPO (Group Rewards Policy Optimization) เพื่อฝึกโมเดลให้ทำ CoT ในช่วงการให้เหตุผล
ไม่ต้องใช้ตัวตรวจสอบที่ซับซ้อนหรือ LLM ภายนอก ต้องการเพียง RL ที่มีฟังก์ชันรางวัลพื้นฐานสำหรับความถูกต้องและรูปแบบผลลัพธ์เท่านั้น
R1-Zero คือเวอร์ชันของ R1 จาก DeepSeek ที่มีเพียง GRPO และไม่รองรับส่วนอื่น ๆ
- มันมีความแม่นยำสูงกว่า R1 แต่สลับไปมาระหว่างหลายภาษาอย่างอังกฤษและจีนได้ตามใจ ทำให้โดยทั่วไปไม่เหมาะกับผู้ใช้ทั่วไปที่ไม่ได้ใช้หลายภาษา
ทำไม R1-Zero ถึงกระโดดข้ามภาษา?
- ความเห็นของฉันคือ “เพราะแต่ละภาษาสามารถสื่อแนวคิดคนละแบบได้มีประสิทธิภาพกว่า”
- มีมีมว่า “what’s the german word for [paragraph of text]?”
ณ วันที่ 25 มกราคม 2025 มีคนสาธิตแล้วว่า “RL แบบไหนก็ใช้ได้ทั้งหมด”
- เขาลองทั้ง GRPO, PPO และ PRIME ซึ่งทั้งหมดทำงานได้ดี
- เลขมหัศจรรย์คือ 1.5B เมื่อพารามิเตอร์ของโมเดลมีขนาด 1.5B (1.5 พันล้าน) ขึ้นไป ความสามารถด้านการให้เหตุผลจะเริ่มปรากฏไม่ว่าจะใช้เทคนิค RL แบบใด
แล้วสิ่งนี้จะขยายไปได้ไกลแค่ไหน?

การกลั่นโมเดล (Model Distillation)

R1 ถูกกลั่น (distilled) มาจาก checkpoint ก่อนหน้าของตัวเอง
โดยทั่วไป distillation คือการที่โมเดลครู (teacher) สร้างข้อมูลฝึกให้โมเดลนักเรียน และมักตั้งสมมติฐานว่าโมเดลครูมีขนาดใหญ่กว่านักเรียน
- R1 ใช้ checkpoint ก่อนหน้าของโมเดลเดียวกันเพื่อสร้างข้อมูลฝึกสำหรับ supervised fine-tuning (SFT)
- มันพัฒนาโมเดลด้วยการวนซ้ำระหว่าง SFT และ RL
แล้วสิ่งนี้จะไปได้ไกลแค่ไหน?
เมื่อไม่นานมาก (9 วันก่อน) เคยมีการคาดเดาว่า GPT5 มีอยู่จริง และ GPT4o ก็เป็นเพียงโมเดลที่ถูกกลั่นมาจากมัน
- บทความนี้ เสนอทฤษฎีว่า OpenAI และ Anthropic ฝึกโมเดลใหญ่ จากนั้นกลั่นมัน แล้วใช้โมเดลที่ถูกกลั่นไปสร้างโมเดลที่ใหญ่กว่าในวงจรต่อเนื่อง
- ฉันอยากจะบอกว่างานวิจัย R1 เป็นการยืนยันในภาพรวมว่าสิ่งนี้เป็นไปได้ (ดังนั้นจึงมีโอกาสสูงที่จะเกิดขึ้นจริง)
ถ้าเป็นเช่นนั้น มันก็อาจดำเนินต่อไปได้อีกนานมาก
หมายเหตุ: การทดลองบางส่วนบอกว่าโมเดลนักเรียนอาจเหนือกว่าโมเดลครูก็ได้ แต่ยังไม่แน่ชัดว่าเกิดขึ้นจริงบ่อยแค่ไหน
- ในเชิงสัญชาตญาณ การกลั่นอาจช่วยให้นักเรียนหา signal เจอและลู่เข้าได้เร็วขึ้น
- Model collapse ยังเป็นความกังวลใหญ่ที่สุด แต่ดูเหมือนส่วนมากจะเป็นความกลัวที่เกินความจำเป็น
- การล่มสลายของโมเดลเป็นสิ่งที่เป็นไปได้เสมอ แต่ไม่ได้เกิดขึ้นแน่นอน และยังเป็นไปได้ที่จะเกิดในทิศทางตรงกันข้ามจนโมเดลนักเรียนแซงครูได้ด้วย

# มุมมองปี 2025

สถานการณ์ปัจจุบัน:
- การฝึกล่วงหน้าทำได้ยากขึ้น (แต่ยังไม่ตาย)
- การขยายขนาดด้านการให้เหตุผล
- การย่อขนาดโมเดล
- กฎการขยายขนาดของ RL
- กฎการขยายขนาดผ่านการกลั่นโมเดล
ดูเหมือนว่าความเร็วในการพัฒนา AI จะไม่ได้ชะลอลง กฎการขยายขนาดหนึ่งแบบช้าลง แต่มีอีก 4 แบบโผล่ขึ้นมา
แนวโน้มนี้น่าจะยังเร่งตัวต่อไปอีกระยะหนึ่ง

ประเด็นภูมิรัฐศาสตร์ : Distealing

“Distealing” เป็นคำที่ฉันสร้างขึ้น หมายถึงการ “กลั่นโมเดลโดยไม่ได้รับอนุญาต”
ตอนนี้ซอฟต์แวร์คือการเมือง และ AI อยู่กลางกระแสนั้น
- ดูเหมือนว่า AI จะถูกพิจารณาในแทบทุกแกนของการเมือง และประเด็นที่น่าสนใจที่สุดคือจีนกับสหรัฐฯ
กลยุทธ์
- สหรัฐฯ: อัดฉีดเงินทุนมหาศาล เทเงินเข้าไปในไฟ AI ให้เร็วที่สุดเท่าที่จะทำได้
- จีน: เนื่องจากถูกควบคุมการส่งออกอย่างเข้มงวด จึงระดมวิศวกรและนักวิจัยที่เก่งกว่ามาหาทางออกที่ถูกกว่า
- ยุโรป: จะเป็นกฎระเบียบหรือโอเพนซอร์ส AI ก็ได้สักทาง
มีข้อถกเถียงว่า DeepSeek ได้ “distealing” o1 หรือไม่ แต่เมื่อพิจารณาจากตัวทำซ้ำของ R1 ตอนนี้จึงมีการพูดกันมากขึ้นว่ามันน่าจะพัฒนา R1 ขึ้นมาได้เอง
- แต่การที่ห้องแล็บจากจีนแซงหน้าโมเดลที่ดีที่สุดของ OpenAI ได้อย่างรวดเร็ว ก็ทำให้บรรยากาศเต็มไปด้วยความตึงเครียด
AI ในไม่ช้า (ถ้ายังไม่ใช่ตอนนี้) จะพัฒนาความสามารถแบบทวีคูณ
- ผลกระทบทางการเมืองและภูมิรัฐศาสตร์จะมหาศาลมาก
- คนที่ทำงานด้านปัญญาประดิษฐ์กลับยิ่งควรให้ความสนใจกับการเมืองมากขึ้น และเปิดใจกับคำถามว่านโยบายไหนดีหรือนโยบายไหนไม่ดี

บทสรุป

ประเด็นสำคัญที่สุดคือ R1 ทำให้สิ่งที่ก่อนหน้านี้คลุมเครือเริ่มชัดเจนขึ้น
ดังนั้นอนาคตของ AI จึงชัดเจนยิ่งขึ้น และดูเหมือนว่าความเร็วของมันกำลังเร่งขึ้นอย่างรวดเร็ว

9 ความคิดเห็น

xguru 2025-02-02

mammal 2025-01-27

ตอนนี้จะมาตำหนิว่าเป็น distealing ก็คงช้าไปแล้ว เพราะตั้งแต่ยุคตั้งไข่ของ LLaMA 1 ก็มีโมเดล Alpaca, Vicuna ที่กลั่นจาก GPT อยู่แล้ว และตอนนี้แม้แต่ใน frontier lab ก็แทบไม่มีที่ไหนที่ไม่ฝึกจากเอาต์พุตของโมเดลอื่นกันแล้ว

ในทางปฏิบัติ โมเดล frontier ตอนนี้ส่วนใหญ่ก็คือการเอายีนจากการผสมกันเองแบบเครือญาติที่กลั่นมาจาก GPT แล้วค่อยทำ RLHF เพิ่มตามรสนิยมของแต่ละแล็บ

mammal 2025-01-27

สิ่งที่ควรกังวลที่สุดตอนนี้ไม่ใช่การกลั่นกรองแบบไม่ได้รับอนุญาตหรือการเซ็นเซอร์ของจีน

แต่สิ่งที่น่าตกใจก็คือ MLA, MTP, mixed precision framework และ GRPO ซึ่งเป็นเบื้องหลังประสิทธิภาพสุดบ้าคลั่งของ DeepSeek นั้น ถูกสร้างขึ้นโดยผู้ที่จบจากมหาวิทยาลัยจีนล้วน ๆ แบบ 100%

ในสหรัฐฯ ตอนนี้ถึงขั้นมีคำพูดว่าเป็น Sputnik shock ครั้งที่สองกำลังถูกพูดถึง...

luminance 2025-01-27

distealing น่าจะเป็นการพิมพ์ผิดจาก distilling ใช่ไหม?

grogu 2025-01-27

ดูเหมือนว่าผู้เขียนจะสร้างคำว่า distealing ขึ้นมาเพื่อแยกความหมายของการกลั่นแบบไม่ได้รับอนุญาตออกจาก distilling ที่หมายถึงการกลั่น (โดยเป็นการเล่นคำชนิดหนึ่งเพราะออกเสียงเหมือนกัน) ตามที่มีการกล่าวถึงไว้ในบทความ

luminance 2025-01-27

ขอบคุณสำหรับคำอธิบายครับ

savvykang 2025-01-27

> Geopolitics: Distealing
> ประเด็นทางภูมิรัฐศาสตร์: Distealing

> I coined that term, distealing, unauthorized distillation of models. Go ahead, use it, it’s a fun word.
> "Distealing" เป็นคำที่ฉันบัญญัติขึ้นเอง หมายถึงการ "กลั่นโมเดลโดยไม่ได้รับอนุญาต"

luminance 2025-01-27

อ้อ มีเนื้อหาอยู่ในต้นฉบับนี่เอง ขอบคุณครับ

GN⁺ 2025-01-27

ความคิดเห็นจาก Hacker News

สำหรับข้ออ้างที่ว่า R1 แทนที่แนวคิดที่ซับซ้อนด้วยการเรียนรู้แบบเสริมกำลังอย่างง่าย จริง ๆ แล้วมีการใช้ทั้งการเรียนรู้แบบเสริมกำลังและการเรียนรู้แบบมีผู้สอนร่วมกัน ข้อมูลที่ใช้ในการเรียนรู้แบบมีผู้สอนอาจไม่ใช่ข้อมูลที่โมเดลสร้างขึ้นเอง แต่เป็นข้อมูลที่มนุษย์คัดเลือก
- มีความพยายามที่จะทำซ้ำ R1 และบางคนอ้างว่าสามารถทำได้ด้วยเงิน $30 แต่สิ่งนั้นอาจเป็นการปรับจูนละเอียดของ R1 ไม่ใช่ตัว R1 เอง
- Hugging Face กำลังพยายามทำซ้ำ R1 เช่นกัน แต่นี่เป็นงานขนาดใหญ่มากและไม่ใช่สิ่งที่จะทำได้ด้วยเงิน $30
บทความมีเนื้อหาที่พูดเกินจริงอยู่มาก จึงเชื่อถือได้ยาก
- แม้ว่าเบนช์มาร์กของโมเดลหลายตัวจะเน้นความแม่นยำด้านคณิตศาสตร์และการเขียนโค้ด แต่ในกรณีการใช้งานบางแบบ ความสามารถเหล่านี้ไม่ได้สำคัญนัก และการทำเบนช์มาร์กแนวคิดก็เป็นเรื่องยาก
- มีการตั้งคำถามว่าสามารถใช้การกลั่นเพื่อสร้างโมเดลที่ตัดองค์ประกอบด้านคณิตศาสตร์และการเขียนโค้ดออกไปได้หรือไม่
การที่ R1 ไปปรากฏในข่าวกระแสหลักทำให้เกิดทั้งความสับสนและความตื่นตัว และเป็นเรื่องยากที่จะอธิบายว่าจีนไม่ได้กำลังคุกคามสหรัฐฯ
- สำหรับข้อสรุปที่ว่าความสามารถของ AI จะเพิ่มขึ้นแบบทวีคูณนั้น ปัจจุบันมีเพียงจุดข้อมูลเดียวคือ R1 ซึ่งเป็นโมเดลโอเพนซอร์สที่ไปถึงระดับ o1 และนี่เป็นสองประเด็นที่แทบไม่เกี่ยวข้องกันเลย
มีการตั้งคำถามว่า AI ได้ทำการให้เหตุผลอยู่แล้วหรือไม่
- ARC-AGI เป็นเบนช์มาร์กที่ง่ายสำหรับมนุษย์แต่ยากมากสำหรับ AI และมีความเข้าใจผิดว่าหากแก้สิ่งนี้ได้ AI ก็จะสามารถทำสิ่งเดียวกับมนุษย์ได้
- François Chollet ผู้สร้าง ARC-AGI อธิบายว่า ARC-AGI-1 นั้นเรียบง่ายเพียงใด และการแก้มันได้มีความหมายว่าอย่างไร
- การผ่าน ARC-AGI-1 บ่งชี้ว่าระบบมีสติปัญญาแบบลื่นไหลที่ไม่เป็นศูนย์ แต่ไม่ได้บ่งชี้ถึงระดับสติปัญญาของระบบ หรือความใกล้เคียงกับสติปัญญามนุษย์
ข้อสรุปที่ว่าความสามารถของ AI จะเพิ่มขึ้นแบบทวีคูณในไม่ช้านี้ยังขาดหลักฐานรองรับ และคงจะดีหากรู้ว่าผู้เขียนไปถึงข้อสรุปนี้ได้อย่างไร

คำอธิบายเกี่ยวกับ R1 และทุกสิ่งรอบตัวมัน

ไทม์ไลน์

# Reasoning & Agents

โมเดลการให้เหตุผล != Agents

การให้เหตุผลมีความสำคัญ

การให้เหตุผลต้องมีต้นทุนถูกลง

# ทำไม R1 จึงสำคัญ

# แนวโน้มการพัฒนา AI

การขยายขนาดการฝึกล่วงหน้า (Pretraining) กำลังแตะขีดจำกัด

กฎการขยายขนาดตามเวลาอนุมาน (Inference Time)

โมเดลขนาดย่อ (Down-Sized Models)

การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning)

การกลั่นโมเดล (Model Distillation)

# มุมมองปี 2025

ประเด็นภูมิรัฐศาสตร์ : Distealing

บทสรุป

บทความที่เกี่ยวข้อง

9 ความคิดเห็น

ความคิดเห็นจาก Hacker News