- สรุปสถานการณ์ปัจจุบันเพื่อทำความเข้าใจ R1 ที่โผล่มาอย่างกะทันหัน และสิ่งต่าง ๆ ที่เปลี่ยนแปลงอย่างรวดเร็วอย่าง o1 และ o3
ไทม์ไลน์
- 12 กันยายน 2024: เปิดตัว o1-preview
- 5 ธันวาคม 2024: เปิดตัว o1 เวอร์ชันทางการและ o1-pro
- 20 ธันวาคม 2024: ประกาศ o3 (ผ่าน ARC-AGI และได้รับความสนใจในฐานะ “AGI”)
- 26 ธันวาคม 2024: เปิดตัว DeepSeek V3
- 20 มกราคม 2025: เปิดตัว DeepSeek R1 (ประสิทธิภาพใกล้เคียง o1 แต่เป็นโอเพนซอร์ส)
- 25 มกราคม 2025: ทีมนักวิจัยจากมหาวิทยาลัยฮ่องกงทำซ้ำผลลัพธ์ของ R1 สำเร็จ
- 25 มกราคม 2025: Huggingface ประกาศโครงการ open-r1 แบบโอเพนซอร์สเต็มรูปแบบที่ทำซ้ำ R1
- เพื่อความชัดเจน
- o1, o3, R1 ล้วนเป็นโมเดลการให้เหตุผล (Reasoning)
- DeepSeek V3 คือ LLM (โมเดลพื้นฐาน) และโมเดลการให้เหตุผลถูกสร้างขึ้นโดยการ fine-tune จากมัน
- ARC-AGI-1 คือการประเมินที่เรียบง่ายและพื้นฐานที่สุดของ fluid intelligence การไม่ผ่านหมายความว่าแทบไม่มีความสามารถในการปรับตัวหรือแก้ปัญหาในสถานการณ์ที่ไม่คุ้นเคย
# Reasoning & Agents
โมเดลการให้เหตุผล != Agents
- โมเดลการให้เหตุผล (Reasoning) คือโมเดลที่ผ่านกระบวนการ “คิด” ก่อนสร้างคำตอบ
- LLM คิดโดยการสร้างโทเค็น
- ดังนั้นเราจึงฝึกโมเดลให้สร้างโทเค็นจำนวนมาก โดยหวังว่าโมเดลจะค้นหาคำตอบที่ถูกต้องได้
- AI agent ถูกนิยามด้วย 2 อย่าง
- Autonomy (agency) สำหรับการตัดสินใจและทำงานให้สำเร็จ
- ความสามารถในการโต้ตอบ (Interact) กับโลกภายนอก
- LLM หรือแม้แต่โมเดลการให้เหตุผลเพียงอย่างเดียวทำได้แค่สร้างโทเค็น จึงไม่สามารถทำสองอย่างนี้ได้
- จำเป็นต้องมีซอฟต์แวร์เพื่อทำการตัดสินใจจริงและมอบความสามารถในการโต้ตอบ
- agent คือระบบของ AI เป็นการผสานหลายโมเดลกับซอฟต์แวร์เข้าด้วยกันเพื่อให้สามารถโต้ตอบกับโลกได้อย่างอิสระ รวมถึงฮาร์ดแวร์ด้วยเช่นกัน
การให้เหตุผลมีความสำคัญ
- เหตุที่โมเดลการให้เหตุผลมักถูกสับสนกับ agent เป็นเพราะตอนนี้การให้เหตุผลคือคอขวด
- ความสามารถในการให้เหตุผลเป็นสิ่งจำเป็นต่อการวางแผนงาน การกำกับดูแล การตรวจสอบ และการทำให้ฉลาดขึ้น
- หากไม่มีความสามารถในการให้เหตุผล ก็สร้าง agent ไม่ได้ แต่เมื่อ benchmark ด้านการให้เหตุผลเริ่มอิ่มตัว ความท้าทายใหม่ก็จะตามมา
การให้เหตุผลต้องมีต้นทุนถูกลง
- agent ทำงานได้ตั้งแต่หลายชั่วโมงไปจนหลายวัน หรือแม้แต่ 24/7 โดยไม่หยุดพัก
- นี่คือแก่นของการกระทำอย่างอิสระ และทำให้ต้นทุนเพิ่มขึ้นตามไปด้วย
- ณ ตอนนี้ R1 มีราคาถูกกว่า o1 ราว 30 เท่า แต่ให้ประสิทธิภาพใกล้เคียงกัน
# ทำไม R1 จึงสำคัญ
- มันสำคัญมากเพราะราคาถูก เป็นโอเพนซอร์ส และพิสูจน์แล้วว่ามีประสิทธิภาพใกล้เคียง o1 และ o3
- ก่อนหน้านี้มีการคาดเดาบางอย่างเกี่ยวกับวิธีทำงานของ o1 จากเอกสารที่เปิดเผย และงานวิจัยที่เผยแพร่ของ R1 ก็ยืนยันสิ่งเหล่านั้นแทบทั้งหมด ดังนั้นเราจึงเริ่มเข้าใจว่า o1 ขยายไปสู่ o3, o4 ได้อย่างไร
- และเพราะมันเป็นโอเพนซอร์ส ใครก็ตามทั่วโลกก็สามารถนำไปทดลองกับไอเดียของตนเองได้
- ดูได้จากไทม์ไลน์ของคนที่พยายามนำ R1 ไปทำซ้ำตลอดสัปดาห์ที่ผ่านมา (บางคนบอกว่าทำได้ด้วยเงิน $30)
- นวัตกรรมเกิดขึ้นเมื่อสามารถทำซ้ำได้เร็วและถูก และ R1 ได้สร้างสภาพแวดล้อมแบบนั้นขึ้นมา
- ที่สำคัญที่สุดคือ R1 แสดงให้เห็นว่า ไม่จำเป็นต้องพึ่งไอเดียซับซ้อนอย่าง DPO หรือ MCTS ก็สามารถบรรลุความสามารถในการให้เหตุผลที่ดีได้ด้วยวิธี RL ที่เรียบง่าย
# แนวโน้มการพัฒนา AI
การขยายขนาดการฝึกล่วงหน้า (Pretraining) กำลังแตะขีดจำกัด
- หลังยุค GPT-4 เป็นต้นมา เริ่มเห็นข้อจำกัดของ ‘กฎการขยายขนาด’ แบบเดิมที่อาศัยการเพิ่มข้อมูลและทรัพยากรคอมพิวต์ขนาดใหญ่เพียงอย่างเดียว
- มีการประเมินกันว่า จากปัญหาการหา data และวิธีให้เหตุผลแบบใหม่ วิธีเดิมเพียงอย่างเดียวเริ่มให้ผลลัพธ์ที่โดดเด่นได้ยากขึ้น
กฎการขยายขนาดตามเวลาอนุมาน (Inference Time)
- โมเดลการให้เหตุผลอย่าง o1 และ r1 มีแนวโน้มว่า ‘ยิ่งคิดนาน ประสิทธิภาพยิ่งดีขึ้น’
- แต่เพื่อให้ได้ผลลัพธ์ที่ดีกว่า ยังไม่ชัดเจนว่าควรใช้การคำนวณเพิ่มขึ้นอย่างไรจึงจะเหมาะสมที่สุด
- สมมติฐานแบบตรงไปตรงมาคือ chain of thought (CoT) น่าจะใช้ได้ และเพียงฝึกโมเดลให้ทำ CoT ก็พอ
- ปัญหาคือจะหาทางที่เร็วที่สุดไปสู่คำตอบได้อย่างมีประสิทธิภาพอย่างไร
- Entropix เป็นหนึ่งในไอเดียที่ใช้สัญญาณภายในของโมเดลเพื่อหาทางที่มีประสิทธิภาพที่สุด
- ยังมีวิธีอย่าง Monte Carlo Tree Search (MCTS) ที่สร้างหลายเส้นทางแล้วเลือกเพียงเส้นทางเดียว
- ปรากฏว่า CoT คือแนวทางที่ดีที่สุด
- R1 ใช้ single-line chain of thought (CoT) แบบเรียบง่าย โดยประยุกต์ RL เข้าไป
- จึงพอจะตั้งสมมติฐานได้ว่า o1 ก็น่าจะทำสิ่งเดียวกัน
โมเดลขนาดย่อ (Down-Sized Models)
- จุดเริ่มต้นคือ GPT-4-turbo แล้วตามมาด้วย GPT-4o, ซีรีส์ Claude และ LLM อื่น ๆ ทั้งหมดค่อย ๆ เล็กลงและถูกลงตลอดปี 2024
- เพราะการให้เหตุผลต้องสร้างโทเค็นจำนวนมาก ยิ่งโมเดลเล็ก ความเร็วคำนวณก็ยิ่งสูงและมีประสิทธิภาพมากขึ้น
- “โมเดลที่เล็กกว่า = ฉลาดกว่า”
การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning)
- R1 ใช้วิธี RL ที่เรียบง่ายชื่อ GRPO (Group Rewards Policy Optimization) เพื่อฝึกโมเดลให้ทำ CoT ในช่วงการให้เหตุผล
- ไม่ต้องใช้ตัวตรวจสอบที่ซับซ้อนหรือ LLM ภายนอก ต้องการเพียง RL ที่มีฟังก์ชันรางวัลพื้นฐานสำหรับความถูกต้องและรูปแบบผลลัพธ์เท่านั้น
- R1-Zero คือเวอร์ชันของ R1 จาก DeepSeek ที่มีเพียง GRPO และไม่รองรับส่วนอื่น ๆ
- มันมีความแม่นยำสูงกว่า R1 แต่สลับไปมาระหว่างหลายภาษาอย่างอังกฤษและจีนได้ตามใจ ทำให้โดยทั่วไปไม่เหมาะกับผู้ใช้ทั่วไปที่ไม่ได้ใช้หลายภาษา
- ทำไม R1-Zero ถึงกระโดดข้ามภาษา?
- ความเห็นของฉันคือ “เพราะแต่ละภาษาสามารถสื่อแนวคิดคนละแบบได้มีประสิทธิภาพกว่า”
- มีมีมว่า “what’s the german word for [paragraph of text]?”
- ณ วันที่ 25 มกราคม 2025 มีคนสาธิตแล้วว่า “RL แบบไหนก็ใช้ได้ทั้งหมด”
- เขาลองทั้ง GRPO, PPO และ PRIME ซึ่งทั้งหมดทำงานได้ดี
- เลขมหัศจรรย์คือ 1.5B เมื่อพารามิเตอร์ของโมเดลมีขนาด 1.5B (1.5 พันล้าน) ขึ้นไป ความสามารถด้านการให้เหตุผลจะเริ่มปรากฏไม่ว่าจะใช้เทคนิค RL แบบใด
- แล้วสิ่งนี้จะขยายไปได้ไกลแค่ไหน?
การกลั่นโมเดล (Model Distillation)
- R1 ถูกกลั่น (distilled) มาจาก checkpoint ก่อนหน้าของตัวเอง
- โดยทั่วไป distillation คือการที่โมเดลครู (teacher) สร้างข้อมูลฝึกให้โมเดลนักเรียน และมักตั้งสมมติฐานว่าโมเดลครูมีขนาดใหญ่กว่านักเรียน
- R1 ใช้ checkpoint ก่อนหน้าของโมเดลเดียวกันเพื่อสร้างข้อมูลฝึกสำหรับ supervised fine-tuning (SFT)
- มันพัฒนาโมเดลด้วยการวนซ้ำระหว่าง SFT และ RL
- แล้วสิ่งนี้จะไปได้ไกลแค่ไหน?
- เมื่อไม่นานมาก (9 วันก่อน) เคยมีการคาดเดาว่า GPT5 มีอยู่จริง และ GPT4o ก็เป็นเพียงโมเดลที่ถูกกลั่นมาจากมัน
- บทความนี้ เสนอทฤษฎีว่า OpenAI และ Anthropic ฝึกโมเดลใหญ่ จากนั้นกลั่นมัน แล้วใช้โมเดลที่ถูกกลั่นไปสร้างโมเดลที่ใหญ่กว่าในวงจรต่อเนื่อง
- ฉันอยากจะบอกว่างานวิจัย R1 เป็นการยืนยันในภาพรวมว่าสิ่งนี้เป็นไปได้ (ดังนั้นจึงมีโอกาสสูงที่จะเกิดขึ้นจริง)
- ถ้าเป็นเช่นนั้น มันก็อาจดำเนินต่อไปได้อีกนานมาก
- หมายเหตุ: การทดลองบางส่วนบอกว่าโมเดลนักเรียนอาจเหนือกว่าโมเดลครูก็ได้ แต่ยังไม่แน่ชัดว่าเกิดขึ้นจริงบ่อยแค่ไหน
- ในเชิงสัญชาตญาณ การกลั่นอาจช่วยให้นักเรียนหา signal เจอและลู่เข้าได้เร็วขึ้น
- Model collapse ยังเป็นความกังวลใหญ่ที่สุด แต่ดูเหมือนส่วนมากจะเป็นความกลัวที่เกินความจำเป็น
- การล่มสลายของโมเดลเป็นสิ่งที่เป็นไปได้เสมอ แต่ไม่ได้เกิดขึ้นแน่นอน และยังเป็นไปได้ที่จะเกิดในทิศทางตรงกันข้ามจนโมเดลนักเรียนแซงครูได้ด้วย
# มุมมองปี 2025
- สถานการณ์ปัจจุบัน:
- การฝึกล่วงหน้าทำได้ยากขึ้น (แต่ยังไม่ตาย)
- การขยายขนาดด้านการให้เหตุผล
- การย่อขนาดโมเดล
- กฎการขยายขนาดของ RL
- กฎการขยายขนาดผ่านการกลั่นโมเดล
- ดูเหมือนว่าความเร็วในการพัฒนา AI จะไม่ได้ชะลอลง กฎการขยายขนาดหนึ่งแบบช้าลง แต่มีอีก 4 แบบโผล่ขึ้นมา
- แนวโน้มนี้น่าจะยังเร่งตัวต่อไปอีกระยะหนึ่ง
ประเด็นภูมิรัฐศาสตร์ : Distealing
- “Distealing” เป็นคำที่ฉันสร้างขึ้น หมายถึงการ “กลั่นโมเดลโดยไม่ได้รับอนุญาต”
- ตอนนี้ซอฟต์แวร์คือการเมือง และ AI อยู่กลางกระแสนั้น
- ดูเหมือนว่า AI จะถูกพิจารณาในแทบทุกแกนของการเมือง และประเด็นที่น่าสนใจที่สุดคือจีนกับสหรัฐฯ
- กลยุทธ์
- สหรัฐฯ: อัดฉีดเงินทุนมหาศาล เทเงินเข้าไปในไฟ AI ให้เร็วที่สุดเท่าที่จะทำได้
- จีน: เนื่องจากถูกควบคุมการส่งออกอย่างเข้มงวด จึงระดมวิศวกรและนักวิจัยที่เก่งกว่ามาหาทางออกที่ถูกกว่า
- ยุโรป: จะเป็นกฎระเบียบหรือโอเพนซอร์ส AI ก็ได้สักทาง
- มีข้อถกเถียงว่า DeepSeek ได้ “distealing” o1 หรือไม่ แต่เมื่อพิจารณาจากตัวทำซ้ำของ R1 ตอนนี้จึงมีการพูดกันมากขึ้นว่ามันน่าจะพัฒนา R1 ขึ้นมาได้เอง
- แต่การที่ห้องแล็บจากจีนแซงหน้าโมเดลที่ดีที่สุดของ OpenAI ได้อย่างรวดเร็ว ก็ทำให้บรรยากาศเต็มไปด้วยความตึงเครียด
- AI ในไม่ช้า (ถ้ายังไม่ใช่ตอนนี้) จะพัฒนาความสามารถแบบทวีคูณ
- ผลกระทบทางการเมืองและภูมิรัฐศาสตร์จะมหาศาลมาก
- คนที่ทำงานด้านปัญญาประดิษฐ์กลับยิ่งควรให้ความสนใจกับการเมืองมากขึ้น และเปิดใจกับคำถามว่านโยบายไหนดีหรือนโยบายไหนไม่ดี
บทสรุป
- ประเด็นสำคัญที่สุดคือ R1 ทำให้สิ่งที่ก่อนหน้านี้คลุมเครือเริ่มชัดเจนขึ้น
- ดังนั้นอนาคตของ AI จึงชัดเจนยิ่งขึ้น และดูเหมือนว่าความเร็วของมันกำลังเร่งขึ้นอย่างรวดเร็ว
9 ความคิดเห็น
ตอนนี้จะมาตำหนิว่าเป็น
distealingก็คงช้าไปแล้ว เพราะตั้งแต่ยุคตั้งไข่ของ LLaMA 1 ก็มีโมเดล Alpaca, Vicuna ที่กลั่นจาก GPT อยู่แล้ว และตอนนี้แม้แต่ใน frontier lab ก็แทบไม่มีที่ไหนที่ไม่ฝึกจากเอาต์พุตของโมเดลอื่นกันแล้วในทางปฏิบัติ โมเดล frontier ตอนนี้ส่วนใหญ่ก็คือการเอายีนจากการผสมกันเองแบบเครือญาติที่กลั่นมาจาก GPT แล้วค่อยทำ RLHF เพิ่มตามรสนิยมของแต่ละแล็บ
สิ่งที่ควรกังวลที่สุดตอนนี้ไม่ใช่การกลั่นกรองแบบไม่ได้รับอนุญาตหรือการเซ็นเซอร์ของจีน
แต่สิ่งที่น่าตกใจก็คือ MLA, MTP, mixed precision framework และ GRPO ซึ่งเป็นเบื้องหลังประสิทธิภาพสุดบ้าคลั่งของ DeepSeek นั้น ถูกสร้างขึ้นโดยผู้ที่จบจากมหาวิทยาลัยจีนล้วน ๆ แบบ 100%
ในสหรัฐฯ ตอนนี้ถึงขั้นมีคำพูดว่าเป็น Sputnik shock ครั้งที่สองกำลังถูกพูดถึง...
distealingน่าจะเป็นการพิมพ์ผิดจากdistillingใช่ไหม?ดูเหมือนว่าผู้เขียนจะสร้างคำว่า
distealingขึ้นมาเพื่อแยกความหมายของการกลั่นแบบไม่ได้รับอนุญาตออกจากdistillingที่หมายถึงการกลั่น (โดยเป็นการเล่นคำชนิดหนึ่งเพราะออกเสียงเหมือนกัน) ตามที่มีการกล่าวถึงไว้ในบทความขอบคุณสำหรับคำอธิบายครับ
> Geopolitics: Distealing
> ประเด็นทางภูมิรัฐศาสตร์: Distealing
> I coined that term, distealing, unauthorized distillation of models. Go ahead, use it, it’s a fun word.
> "Distealing" เป็นคำที่ฉันบัญญัติขึ้นเอง หมายถึงการ "กลั่นโมเดลโดยไม่ได้รับอนุญาต"
อ้อ มีเนื้อหาอยู่ในต้นฉบับนี่เอง ขอบคุณครับ
ความคิดเห็นจาก Hacker News
สำหรับข้ออ้างที่ว่า R1 แทนที่แนวคิดที่ซับซ้อนด้วยการเรียนรู้แบบเสริมกำลังอย่างง่าย จริง ๆ แล้วมีการใช้ทั้งการเรียนรู้แบบเสริมกำลังและการเรียนรู้แบบมีผู้สอนร่วมกัน ข้อมูลที่ใช้ในการเรียนรู้แบบมีผู้สอนอาจไม่ใช่ข้อมูลที่โมเดลสร้างขึ้นเอง แต่เป็นข้อมูลที่มนุษย์คัดเลือก
บทความมีเนื้อหาที่พูดเกินจริงอยู่มาก จึงเชื่อถือได้ยาก
การที่ R1 ไปปรากฏในข่าวกระแสหลักทำให้เกิดทั้งความสับสนและความตื่นตัว และเป็นเรื่องยากที่จะอธิบายว่าจีนไม่ได้กำลังคุกคามสหรัฐฯ
มีการตั้งคำถามว่า AI ได้ทำการให้เหตุผลอยู่แล้วหรือไม่
ข้อสรุปที่ว่าความสามารถของ AI จะเพิ่มขึ้นแบบทวีคูณในไม่ช้านี้ยังขาดหลักฐานรองรับ และคงจะดีหากรู้ว่าผู้เขียนไปถึงข้อสรุปนี้ได้อย่างไร