41 คะแนน โดย GN⁺ 2025-01-27 | 9 ความคิดเห็น | แชร์ทาง WhatsApp
  • สรุปสถานการณ์ปัจจุบันเพื่อทำความเข้าใจ R1 ที่โผล่มาอย่างกะทันหัน และสิ่งต่าง ๆ ที่เปลี่ยนแปลงอย่างรวดเร็วอย่าง o1 และ o3

ไทม์ไลน์

  • 12 กันยายน 2024: เปิดตัว o1-preview
  • 5 ธันวาคม 2024: เปิดตัว o1 เวอร์ชันทางการและ o1-pro
  • 20 ธันวาคม 2024: ประกาศ o3 (ผ่าน ARC-AGI และได้รับความสนใจในฐานะ “AGI”)
  • 26 ธันวาคม 2024: เปิดตัว DeepSeek V3
  • 20 มกราคม 2025: เปิดตัว DeepSeek R1 (ประสิทธิภาพใกล้เคียง o1 แต่เป็นโอเพนซอร์ส)
  • 25 มกราคม 2025: ทีมนักวิจัยจากมหาวิทยาลัยฮ่องกงทำซ้ำผลลัพธ์ของ R1 สำเร็จ
  • 25 มกราคม 2025: Huggingface ประกาศโครงการ open-r1 แบบโอเพนซอร์สเต็มรูปแบบที่ทำซ้ำ R1
  • เพื่อความชัดเจน
    • o1, o3, R1 ล้วนเป็นโมเดลการให้เหตุผล (Reasoning)
    • DeepSeek V3 คือ LLM (โมเดลพื้นฐาน) และโมเดลการให้เหตุผลถูกสร้างขึ้นโดยการ fine-tune จากมัน
    • ARC-AGI-1 คือการประเมินที่เรียบง่ายและพื้นฐานที่สุดของ fluid intelligence การไม่ผ่านหมายความว่าแทบไม่มีความสามารถในการปรับตัวหรือแก้ปัญหาในสถานการณ์ที่ไม่คุ้นเคย

# Reasoning & Agents

โมเดลการให้เหตุผล != Agents

  • โมเดลการให้เหตุผล (Reasoning) คือโมเดลที่ผ่านกระบวนการ “คิด” ก่อนสร้างคำตอบ
    • LLM คิดโดยการสร้างโทเค็น
    • ดังนั้นเราจึงฝึกโมเดลให้สร้างโทเค็นจำนวนมาก โดยหวังว่าโมเดลจะค้นหาคำตอบที่ถูกต้องได้
  • AI agent ถูกนิยามด้วย 2 อย่าง
    • Autonomy (agency) สำหรับการตัดสินใจและทำงานให้สำเร็จ
    • ความสามารถในการโต้ตอบ (Interact) กับโลกภายนอก
  • LLM หรือแม้แต่โมเดลการให้เหตุผลเพียงอย่างเดียวทำได้แค่สร้างโทเค็น จึงไม่สามารถทำสองอย่างนี้ได้
    • จำเป็นต้องมีซอฟต์แวร์เพื่อทำการตัดสินใจจริงและมอบความสามารถในการโต้ตอบ
  • agent คือระบบของ AI เป็นการผสานหลายโมเดลกับซอฟต์แวร์เข้าด้วยกันเพื่อให้สามารถโต้ตอบกับโลกได้อย่างอิสระ รวมถึงฮาร์ดแวร์ด้วยเช่นกัน

การให้เหตุผลมีความสำคัญ

  • เหตุที่โมเดลการให้เหตุผลมักถูกสับสนกับ agent เป็นเพราะตอนนี้การให้เหตุผลคือคอขวด
  • ความสามารถในการให้เหตุผลเป็นสิ่งจำเป็นต่อการวางแผนงาน การกำกับดูแล การตรวจสอบ และการทำให้ฉลาดขึ้น
  • หากไม่มีความสามารถในการให้เหตุผล ก็สร้าง agent ไม่ได้ แต่เมื่อ benchmark ด้านการให้เหตุผลเริ่มอิ่มตัว ความท้าทายใหม่ก็จะตามมา

การให้เหตุผลต้องมีต้นทุนถูกลง

  • agent ทำงานได้ตั้งแต่หลายชั่วโมงไปจนหลายวัน หรือแม้แต่ 24/7 โดยไม่หยุดพัก
  • นี่คือแก่นของการกระทำอย่างอิสระ และทำให้ต้นทุนเพิ่มขึ้นตามไปด้วย
  • ณ ตอนนี้ R1 มีราคาถูกกว่า o1 ราว 30 เท่า แต่ให้ประสิทธิภาพใกล้เคียงกัน

# ทำไม R1 จึงสำคัญ

  • มันสำคัญมากเพราะราคาถูก เป็นโอเพนซอร์ส และพิสูจน์แล้วว่ามีประสิทธิภาพใกล้เคียง o1 และ o3
  • ก่อนหน้านี้มีการคาดเดาบางอย่างเกี่ยวกับวิธีทำงานของ o1 จากเอกสารที่เปิดเผย และงานวิจัยที่เผยแพร่ของ R1 ก็ยืนยันสิ่งเหล่านั้นแทบทั้งหมด ดังนั้นเราจึงเริ่มเข้าใจว่า o1 ขยายไปสู่ o3, o4 ได้อย่างไร
  • และเพราะมันเป็นโอเพนซอร์ส ใครก็ตามทั่วโลกก็สามารถนำไปทดลองกับไอเดียของตนเองได้
  • ดูได้จากไทม์ไลน์ของคนที่พยายามนำ R1 ไปทำซ้ำตลอดสัปดาห์ที่ผ่านมา (บางคนบอกว่าทำได้ด้วยเงิน $30)
  • นวัตกรรมเกิดขึ้นเมื่อสามารถทำซ้ำได้เร็วและถูก และ R1 ได้สร้างสภาพแวดล้อมแบบนั้นขึ้นมา
  • ที่สำคัญที่สุดคือ R1 แสดงให้เห็นว่า ไม่จำเป็นต้องพึ่งไอเดียซับซ้อนอย่าง DPO หรือ MCTS ก็สามารถบรรลุความสามารถในการให้เหตุผลที่ดีได้ด้วยวิธี RL ที่เรียบง่าย

# แนวโน้มการพัฒนา AI

การขยายขนาดการฝึกล่วงหน้า (Pretraining) กำลังแตะขีดจำกัด

  • หลังยุค GPT-4 เป็นต้นมา เริ่มเห็นข้อจำกัดของ ‘กฎการขยายขนาด’ แบบเดิมที่อาศัยการเพิ่มข้อมูลและทรัพยากรคอมพิวต์ขนาดใหญ่เพียงอย่างเดียว
  • มีการประเมินกันว่า จากปัญหาการหา data และวิธีให้เหตุผลแบบใหม่ วิธีเดิมเพียงอย่างเดียวเริ่มให้ผลลัพธ์ที่โดดเด่นได้ยากขึ้น

กฎการขยายขนาดตามเวลาอนุมาน (Inference Time)

  • โมเดลการให้เหตุผลอย่าง o1 และ r1 มีแนวโน้มว่า ‘ยิ่งคิดนาน ประสิทธิภาพยิ่งดีขึ้น’
  • แต่เพื่อให้ได้ผลลัพธ์ที่ดีกว่า ยังไม่ชัดเจนว่าควรใช้การคำนวณเพิ่มขึ้นอย่างไรจึงจะเหมาะสมที่สุด
  • สมมติฐานแบบตรงไปตรงมาคือ chain of thought (CoT) น่าจะใช้ได้ และเพียงฝึกโมเดลให้ทำ CoT ก็พอ
  • ปัญหาคือจะหาทางที่เร็วที่สุดไปสู่คำตอบได้อย่างมีประสิทธิภาพอย่างไร
    • Entropix เป็นหนึ่งในไอเดียที่ใช้สัญญาณภายในของโมเดลเพื่อหาทางที่มีประสิทธิภาพที่สุด
    • ยังมีวิธีอย่าง Monte Carlo Tree Search (MCTS) ที่สร้างหลายเส้นทางแล้วเลือกเพียงเส้นทางเดียว
  • ปรากฏว่า CoT คือแนวทางที่ดีที่สุด
    • R1 ใช้ single-line chain of thought (CoT) แบบเรียบง่าย โดยประยุกต์ RL เข้าไป
    • จึงพอจะตั้งสมมติฐานได้ว่า o1 ก็น่าจะทำสิ่งเดียวกัน

โมเดลขนาดย่อ (Down-Sized Models)

  • จุดเริ่มต้นคือ GPT-4-turbo แล้วตามมาด้วย GPT-4o, ซีรีส์ Claude และ LLM อื่น ๆ ทั้งหมดค่อย ๆ เล็กลงและถูกลงตลอดปี 2024
  • เพราะการให้เหตุผลต้องสร้างโทเค็นจำนวนมาก ยิ่งโมเดลเล็ก ความเร็วคำนวณก็ยิ่งสูงและมีประสิทธิภาพมากขึ้น
  • “โมเดลที่เล็กกว่า = ฉลาดกว่า”

การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning)

  • R1 ใช้วิธี RL ที่เรียบง่ายชื่อ GRPO (Group Rewards Policy Optimization) เพื่อฝึกโมเดลให้ทำ CoT ในช่วงการให้เหตุผล
  • ไม่ต้องใช้ตัวตรวจสอบที่ซับซ้อนหรือ LLM ภายนอก ต้องการเพียง RL ที่มีฟังก์ชันรางวัลพื้นฐานสำหรับความถูกต้องและรูปแบบผลลัพธ์เท่านั้น
  • R1-Zero คือเวอร์ชันของ R1 จาก DeepSeek ที่มีเพียง GRPO และไม่รองรับส่วนอื่น ๆ
    • มันมีความแม่นยำสูงกว่า R1 แต่สลับไปมาระหว่างหลายภาษาอย่างอังกฤษและจีนได้ตามใจ ทำให้โดยทั่วไปไม่เหมาะกับผู้ใช้ทั่วไปที่ไม่ได้ใช้หลายภาษา
  • ทำไม R1-Zero ถึงกระโดดข้ามภาษา?
    • ความเห็นของฉันคือ “เพราะแต่ละภาษาสามารถสื่อแนวคิดคนละแบบได้มีประสิทธิภาพกว่า”
    • มีมีมว่า “what’s the german word for [paragraph of text]?”
  • ณ วันที่ 25 มกราคม 2025 มีคนสาธิตแล้วว่า “RL แบบไหนก็ใช้ได้ทั้งหมด”
    • เขาลองทั้ง GRPO, PPO และ PRIME ซึ่งทั้งหมดทำงานได้ดี
    • เลขมหัศจรรย์คือ 1.5B เมื่อพารามิเตอร์ของโมเดลมีขนาด 1.5B (1.5 พันล้าน) ขึ้นไป ความสามารถด้านการให้เหตุผลจะเริ่มปรากฏไม่ว่าจะใช้เทคนิค RL แบบใด
  • แล้วสิ่งนี้จะขยายไปได้ไกลแค่ไหน?

การกลั่นโมเดล (Model Distillation)

  • R1 ถูกกลั่น (distilled) มาจาก checkpoint ก่อนหน้าของตัวเอง
  • โดยทั่วไป distillation คือการที่โมเดลครู (teacher) สร้างข้อมูลฝึกให้โมเดลนักเรียน และมักตั้งสมมติฐานว่าโมเดลครูมีขนาดใหญ่กว่านักเรียน
    • R1 ใช้ checkpoint ก่อนหน้าของโมเดลเดียวกันเพื่อสร้างข้อมูลฝึกสำหรับ supervised fine-tuning (SFT)
    • มันพัฒนาโมเดลด้วยการวนซ้ำระหว่าง SFT และ RL
  • แล้วสิ่งนี้จะไปได้ไกลแค่ไหน?
  • เมื่อไม่นานมาก (9 วันก่อน) เคยมีการคาดเดาว่า GPT5 มีอยู่จริง และ GPT4o ก็เป็นเพียงโมเดลที่ถูกกลั่นมาจากมัน
    • บทความนี้ เสนอทฤษฎีว่า OpenAI และ Anthropic ฝึกโมเดลใหญ่ จากนั้นกลั่นมัน แล้วใช้โมเดลที่ถูกกลั่นไปสร้างโมเดลที่ใหญ่กว่าในวงจรต่อเนื่อง
    • ฉันอยากจะบอกว่างานวิจัย R1 เป็นการยืนยันในภาพรวมว่าสิ่งนี้เป็นไปได้ (ดังนั้นจึงมีโอกาสสูงที่จะเกิดขึ้นจริง)
  • ถ้าเป็นเช่นนั้น มันก็อาจดำเนินต่อไปได้อีกนานมาก
  • หมายเหตุ: การทดลองบางส่วนบอกว่าโมเดลนักเรียนอาจเหนือกว่าโมเดลครูก็ได้ แต่ยังไม่แน่ชัดว่าเกิดขึ้นจริงบ่อยแค่ไหน
    • ในเชิงสัญชาตญาณ การกลั่นอาจช่วยให้นักเรียนหา signal เจอและลู่เข้าได้เร็วขึ้น
    • Model collapse ยังเป็นความกังวลใหญ่ที่สุด แต่ดูเหมือนส่วนมากจะเป็นความกลัวที่เกินความจำเป็น
    • การล่มสลายของโมเดลเป็นสิ่งที่เป็นไปได้เสมอ แต่ไม่ได้เกิดขึ้นแน่นอน และยังเป็นไปได้ที่จะเกิดในทิศทางตรงกันข้ามจนโมเดลนักเรียนแซงครูได้ด้วย

# มุมมองปี 2025

  • สถานการณ์ปัจจุบัน:
    • การฝึกล่วงหน้าทำได้ยากขึ้น (แต่ยังไม่ตาย)
    • การขยายขนาดด้านการให้เหตุผล
    • การย่อขนาดโมเดล
    • กฎการขยายขนาดของ RL
    • กฎการขยายขนาดผ่านการกลั่นโมเดล
  • ดูเหมือนว่าความเร็วในการพัฒนา AI จะไม่ได้ชะลอลง กฎการขยายขนาดหนึ่งแบบช้าลง แต่มีอีก 4 แบบโผล่ขึ้นมา
  • แนวโน้มนี้น่าจะยังเร่งตัวต่อไปอีกระยะหนึ่ง

ประเด็นภูมิรัฐศาสตร์ : Distealing

  • “Distealing” เป็นคำที่ฉันสร้างขึ้น หมายถึงการ “กลั่นโมเดลโดยไม่ได้รับอนุญาต”
  • ตอนนี้ซอฟต์แวร์คือการเมือง และ AI อยู่กลางกระแสนั้น
    • ดูเหมือนว่า AI จะถูกพิจารณาในแทบทุกแกนของการเมือง และประเด็นที่น่าสนใจที่สุดคือจีนกับสหรัฐฯ
  • กลยุทธ์
    • สหรัฐฯ: อัดฉีดเงินทุนมหาศาล เทเงินเข้าไปในไฟ AI ให้เร็วที่สุดเท่าที่จะทำได้
    • จีน: เนื่องจากถูกควบคุมการส่งออกอย่างเข้มงวด จึงระดมวิศวกรและนักวิจัยที่เก่งกว่ามาหาทางออกที่ถูกกว่า
    • ยุโรป: จะเป็นกฎระเบียบหรือโอเพนซอร์ส AI ก็ได้สักทาง
  • มีข้อถกเถียงว่า DeepSeek ได้ “distealing” o1 หรือไม่ แต่เมื่อพิจารณาจากตัวทำซ้ำของ R1 ตอนนี้จึงมีการพูดกันมากขึ้นว่ามันน่าจะพัฒนา R1 ขึ้นมาได้เอง
    • แต่การที่ห้องแล็บจากจีนแซงหน้าโมเดลที่ดีที่สุดของ OpenAI ได้อย่างรวดเร็ว ก็ทำให้บรรยากาศเต็มไปด้วยความตึงเครียด
  • AI ในไม่ช้า (ถ้ายังไม่ใช่ตอนนี้) จะพัฒนาความสามารถแบบทวีคูณ
    • ผลกระทบทางการเมืองและภูมิรัฐศาสตร์จะมหาศาลมาก
    • คนที่ทำงานด้านปัญญาประดิษฐ์กลับยิ่งควรให้ความสนใจกับการเมืองมากขึ้น และเปิดใจกับคำถามว่านโยบายไหนดีหรือนโยบายไหนไม่ดี

บทสรุป

  • ประเด็นสำคัญที่สุดคือ R1 ทำให้สิ่งที่ก่อนหน้านี้คลุมเครือเริ่มชัดเจนขึ้น
  • ดังนั้นอนาคตของ AI จึงชัดเจนยิ่งขึ้น และดูเหมือนว่าความเร็วของมันกำลังเร่งขึ้นอย่างรวดเร็ว

9 ความคิดเห็น

 
xguru 2025-02-02
 
mammal 2025-01-27

ตอนนี้จะมาตำหนิว่าเป็น distealing ก็คงช้าไปแล้ว เพราะตั้งแต่ยุคตั้งไข่ของ LLaMA 1 ก็มีโมเดล Alpaca, Vicuna ที่กลั่นจาก GPT อยู่แล้ว และตอนนี้แม้แต่ใน frontier lab ก็แทบไม่มีที่ไหนที่ไม่ฝึกจากเอาต์พุตของโมเดลอื่นกันแล้ว

ในทางปฏิบัติ โมเดล frontier ตอนนี้ส่วนใหญ่ก็คือการเอายีนจากการผสมกันเองแบบเครือญาติที่กลั่นมาจาก GPT แล้วค่อยทำ RLHF เพิ่มตามรสนิยมของแต่ละแล็บ

 
mammal 2025-01-27

สิ่งที่ควรกังวลที่สุดตอนนี้ไม่ใช่การกลั่นกรองแบบไม่ได้รับอนุญาตหรือการเซ็นเซอร์ของจีน

แต่สิ่งที่น่าตกใจก็คือ MLA, MTP, mixed precision framework และ GRPO ซึ่งเป็นเบื้องหลังประสิทธิภาพสุดบ้าคลั่งของ DeepSeek นั้น ถูกสร้างขึ้นโดยผู้ที่จบจากมหาวิทยาลัยจีนล้วน ๆ แบบ 100%

ในสหรัฐฯ ตอนนี้ถึงขั้นมีคำพูดว่าเป็น Sputnik shock ครั้งที่สองกำลังถูกพูดถึง...

 
luminance 2025-01-27

distealing น่าจะเป็นการพิมพ์ผิดจาก distilling ใช่ไหม?

 
grogu 2025-01-27

ดูเหมือนว่าผู้เขียนจะสร้างคำว่า distealing ขึ้นมาเพื่อแยกความหมายของการกลั่นแบบไม่ได้รับอนุญาตออกจาก distilling ที่หมายถึงการกลั่น (โดยเป็นการเล่นคำชนิดหนึ่งเพราะออกเสียงเหมือนกัน) ตามที่มีการกล่าวถึงไว้ในบทความ

 
luminance 2025-01-27

ขอบคุณสำหรับคำอธิบายครับ

 
savvykang 2025-01-27

> Geopolitics: Distealing
> ประเด็นทางภูมิรัฐศาสตร์: Distealing

> I coined that term, distealing, unauthorized distillation of models. Go ahead, use it, it’s a fun word.
> "Distealing" เป็นคำที่ฉันบัญญัติขึ้นเอง หมายถึงการ "กลั่นโมเดลโดยไม่ได้รับอนุญาต"

 
luminance 2025-01-27

อ้อ มีเนื้อหาอยู่ในต้นฉบับนี่เอง ขอบคุณครับ

 
GN⁺ 2025-01-27
ความคิดเห็นจาก Hacker News
  • สำหรับข้ออ้างที่ว่า R1 แทนที่แนวคิดที่ซับซ้อนด้วยการเรียนรู้แบบเสริมกำลังอย่างง่าย จริง ๆ แล้วมีการใช้ทั้งการเรียนรู้แบบเสริมกำลังและการเรียนรู้แบบมีผู้สอนร่วมกัน ข้อมูลที่ใช้ในการเรียนรู้แบบมีผู้สอนอาจไม่ใช่ข้อมูลที่โมเดลสร้างขึ้นเอง แต่เป็นข้อมูลที่มนุษย์คัดเลือก

    • มีความพยายามที่จะทำซ้ำ R1 และบางคนอ้างว่าสามารถทำได้ด้วยเงิน $30 แต่สิ่งนั้นอาจเป็นการปรับจูนละเอียดของ R1 ไม่ใช่ตัว R1 เอง
    • Hugging Face กำลังพยายามทำซ้ำ R1 เช่นกัน แต่นี่เป็นงานขนาดใหญ่มากและไม่ใช่สิ่งที่จะทำได้ด้วยเงิน $30
  • บทความมีเนื้อหาที่พูดเกินจริงอยู่มาก จึงเชื่อถือได้ยาก

    • แม้ว่าเบนช์มาร์กของโมเดลหลายตัวจะเน้นความแม่นยำด้านคณิตศาสตร์และการเขียนโค้ด แต่ในกรณีการใช้งานบางแบบ ความสามารถเหล่านี้ไม่ได้สำคัญนัก และการทำเบนช์มาร์กแนวคิดก็เป็นเรื่องยาก
    • มีการตั้งคำถามว่าสามารถใช้การกลั่นเพื่อสร้างโมเดลที่ตัดองค์ประกอบด้านคณิตศาสตร์และการเขียนโค้ดออกไปได้หรือไม่
  • การที่ R1 ไปปรากฏในข่าวกระแสหลักทำให้เกิดทั้งความสับสนและความตื่นตัว และเป็นเรื่องยากที่จะอธิบายว่าจีนไม่ได้กำลังคุกคามสหรัฐฯ

    • สำหรับข้อสรุปที่ว่าความสามารถของ AI จะเพิ่มขึ้นแบบทวีคูณนั้น ปัจจุบันมีเพียงจุดข้อมูลเดียวคือ R1 ซึ่งเป็นโมเดลโอเพนซอร์สที่ไปถึงระดับ o1 และนี่เป็นสองประเด็นที่แทบไม่เกี่ยวข้องกันเลย
  • มีการตั้งคำถามว่า AI ได้ทำการให้เหตุผลอยู่แล้วหรือไม่

    • ARC-AGI เป็นเบนช์มาร์กที่ง่ายสำหรับมนุษย์แต่ยากมากสำหรับ AI และมีความเข้าใจผิดว่าหากแก้สิ่งนี้ได้ AI ก็จะสามารถทำสิ่งเดียวกับมนุษย์ได้
    • François Chollet ผู้สร้าง ARC-AGI อธิบายว่า ARC-AGI-1 นั้นเรียบง่ายเพียงใด และการแก้มันได้มีความหมายว่าอย่างไร
    • การผ่าน ARC-AGI-1 บ่งชี้ว่าระบบมีสติปัญญาแบบลื่นไหลที่ไม่เป็นศูนย์ แต่ไม่ได้บ่งชี้ถึงระดับสติปัญญาของระบบ หรือความใกล้เคียงกับสติปัญญามนุษย์
  • ข้อสรุปที่ว่าความสามารถของ AI จะเพิ่มขึ้นแบบทวีคูณในไม่ช้านี้ยังขาดหลักฐานรองรับ และคงจะดีหากรู้ว่าผู้เขียนไปถึงข้อสรุปนี้ได้อย่างไร