5 คะแนน โดย GN⁺ 2025-01-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ARC Prize Foundation มีเป้าหมายในการนิยาม วัดผล และกระตุ้นแนวคิดใหม่เกี่ยวกับ AGI (ปัญญาประดิษฐ์ทั่วไป)
  • เรายังไม่บรรลุ AGI และมองว่าการขยายการ pre-train ของ LLM (โมเดลภาษาขนาดใหญ่) แบบล้วน ๆ ไม่ใช่คำตอบ
  • ในช่วงปี 2023-24 มีการลงทุนในสตาร์ตอัป LLM ราว 2 หมื่นล้านดอลลาร์ ขณะที่สตาร์ตอัปด้าน AGI ได้รับเงินลงทุนเพียงราว 200 ล้านดอลลาร์

บทวิเคราะห์ R1-Zero และ R1 ของ DeepSeek

  • R1-Zero และ R1 ที่ DeepSeek เปิดตัว ได้รับความสนใจอย่างมากจากการที่ระบบทั้งสองแสดงผลลัพธ์ได้ใกล้เคียงระดับของระบบ o1 จาก OpenAI
  • ทั้ง R1-Zero และ R1 ทำคะแนน ARC-AGI-1 ได้ประมาณ 15~20%
  • ถือว่าสูงกว่าคะแนน 5% ของ GPT-4o อย่างมาก
  • แม้ช่วงหลังอุตสาหกรรม AI กระแสหลักจะมุ่งไปที่การขยาย LLM (โมเดลภาษาขนาดใหญ่) แบบตรงไปตรงมา แต่แนวทางนี้ถูกมองว่าไม่ใช่คำตอบโดยตรงสำหรับการทำให้ AGI เป็นจริง
  • ARC Prize Foundation กำลังส่งเสริมการวิจัยระบบ AI ที่สามารถปรับตัวกับปัญหาใหม่ได้ แม้ยังไม่เคยถูกฝึกกับโจทย์เหล่านั้นมาก่อน ผ่านเบนช์มาร์ก ARC-AGI-1

R1-Zero สำคัญกว่า R1

  • งานวิจัยของ DeepSeek นำไปสู่การเกิดขึ้นของ R1-Zero และ R1
  • R1-Zero, R1 และ o1(low compute) ของ OpenAI ต่างทำคะแนนใกล้เคียงกันที่ 15~20% บน ARC-AGI-1
  • ระบบ o3 ที่ OpenAI เปิดตัวในช่วงปลายปี 2024 ดันคะแนน ARC-AGI-1 ได้สูงสุดถึง 88% แสดงให้เห็นว่าสามารถแก้ปัญหาใหม่แบบปรับตัวได้
  • อย่างไรก็ตาม o3 ยังมีส่วนที่ไม่เปิดเผยจำนวนมาก ทำให้นักวิจัยยากจะเข้าใจรายละเอียดทางเทคนิค
  • R1-Zero ถูกมองว่ามีคุณค่าต่ออนาคตมากกว่า R1 เพราะไม่ได้ผ่านการติดป้ายกำกับโดยมนุษย์โดยตรง (SFT)

R1-Zero ขจัดคอขวดจากมนุษย์

  • โมเดลด้านการให้เหตุผลแบบเดิมเรียนรู้โดยผสานการติดป้ายกำกับของมนุษย์ (SFT) หรือรางวัลจากเครื่อง (RL) เข้ากับกระบวนการแก้ปัญหา (Chain-of-Thought, ต่อไปนี้จะเรียกว่า CoT)

  • R1-Zero เรียนรู้ CoT ด้วยการเสริมกำลัง (RL) เพียงอย่างเดียวโดยไม่มี SFT หรือฉลากจากผู้เชี่ยวชาญมนุษย์

  • บน ARC-AGI-1, R1-Zero ได้ 14% และ R1 ได้ 15% ซึ่งถือว่าให้ประสิทธิภาพแทบไม่ต่างกัน

  • บนเบนช์มาร์กอื่น ๆ เช่น MATH AIME 2024 ผลของ R1-Zero และ R1 ก็ออกมาใกล้เคียงกัน

  • แม้จะมีความกังวลเรื่องการปะปนของภาษาและปัญหาความอ่านง่าย แต่ในการทดสอบจริงกลับทำงานได้ดีในโดเมนคณิตศาสตร์และการเขียนโค้ดโดยแทบไม่มี incoherence มากนัก

  • ประเด็นสำคัญที่ได้จากเรื่องนี้มีดังนี้

    • แม้ไม่มีการติดป้ายกำกับโดยมนุษย์ ก็ยังสามารถให้เหตุผลได้อย่างแม่นยำและเข้าใจได้ในบางโดเมนเฉพาะ
    • R1-Zero สามารถสร้างการแทนโทเคนเฉพาะโดเมน (DSL) ของตนเองได้ด้วยการเสริมกำลังเพียงอย่างเดียว
    • SFT อาจยังจำเป็นอยู่เพื่อขยายขอบเขตของการให้เหตุผล
  • ท้ายที่สุด R1-Zero แสดงให้เห็นความเป็นไปได้ในการขยายแบบ “ไร้คอขวดจากมนุษย์” ที่ระบบสามารถสร้างข้อมูลฝึกได้ด้วยตัวเองโดยไม่ต้องพึ่งมนุษย์

  • ด้านล่างนี้เป็นคำอธิบายโดยสรุปของคะแนน จำนวนโทเคนเฉลี่ย และต้นทุนการให้เหตุผลของหลายระบบบน ARC-AGI-1

    • r1-zero: 14%, ไม่มี SFT, ไม่มีการค้นหาแบบการให้เหตุผลลำดับขั้น, เฉลี่ย 11K โทเคน, ต้นทุนประมาณ $0.11
    • r1: 15.8%, ใช้ SFT, ไม่มีการค้นหาแบบการให้เหตุผลลำดับขั้น, เฉลี่ย 6K โทเคน, ต้นทุนประมาณ $0.06
    • o1(low): 20.5%, ใช้ SFT, ไม่มีการค้นหาแบบการให้เหตุผลลำดับขั้น, เฉลี่ย 7K โทเคน, ต้นทุนประมาณ $0.43
    • o1(med): 31%, ใช้ SFT, ไม่มีการค้นหาแบบการให้เหตุผลลำดับขั้น, เฉลี่ย 13K โทเคน, ต้นทุนประมาณ $0.79
    • o1(high): 35%, ใช้ SFT, ไม่มีการค้นหาแบบการให้เหตุผลลำดับขั้น, เฉลี่ย 22K โทเคน, ต้นทุนประมาณ $1.31
    • o3(low): 75.7%, ใช้ SFT, ใช้การค้นหาและการสุ่มตัวอย่าง, เฉลี่ย 335K โทเคน, ต้นทุนประมาณ $20
    • o3(high): 87.5%, ใช้ SFT, ใช้การค้นหาและการสุ่มตัวอย่าง, เฉลี่ย 57M โทเคน, ต้นทุนประมาณ $3,400

ต้นทุนเพื่อความน่าเชื่อถือ

  • แนวโน้มสำคัญที่กำลังเปลี่ยนแปลงในตลาด AI ตอนนี้คือ “ยิ่งเพิ่มต้นทุน ก็ยิ่งเพิ่มความแม่นยำและความน่าเชื่อถือได้”
  • ยิ่งไปกว่านั้น สัดส่วนต้นทุนกำลังย้ายจากต้นทุนการฝึกไปสู่ต้นทุนการให้เหตุผล
  • หากทุ่มทรัพยากรคอมพิวต์จำนวนมากในขั้นตอนการให้เหตุผล ก็สามารถได้ผลลัพธ์ที่แม่นยำและเสถียรมากขึ้น
  • ที่ผ่านมา บริษัทส่วนใหญ่ยังไม่สามารถนำระบบอัตโนมัติขนาดใหญ่มาใช้ได้ เพราะปัญหาเรื่องความน่าเชื่อถือของระบบ AI
  • มีมุมมองว่าความก้าวหน้าในสาย ARC-AGI จะช่วยเพิ่มความน่าเชื่อถือของ AI agent และบริษัทอย่าง Anthropic, OpenAI, Apple ก็เตรียมบริการแนว agent อยู่เช่นกัน
  • ผู้ใช้มีแนวโน้มจะยอมจ่ายมากขึ้นเพื่อให้ได้ระดับความแม่นยำที่ต้องการ
  • ดังนั้นจึงคาดว่าความต้องการด้าน AI inference จะเพิ่มขึ้นอย่างมาก และจะนำไปสู่ความต้องการทรัพยากรคอมพิวต์ที่สูงขึ้น

การให้เหตุผลก็คือการเรียนรู้

  • ในอดีต เรามักรวบรวมข้อมูลขนาดใหญ่ หรือสร้างข้อมูลสังเคราะห์ (synthetic) จาก LLM เดิมเพื่อนำมาใช้ฝึก
  • ตอนนี้ ในกระบวนการให้เหตุผลเอง ผู้ใช้หรือระบบสามารถสร้างข้อมูลใหม่ที่มีประโยชน์ได้จริง
  • นี่หมายถึงการเปลี่ยนผ่านทางเศรษฐศาสตร์รูปแบบใหม่ที่ว่า “การให้เหตุผลทำหน้าที่เป็นการเรียนรู้ไปพร้อมกัน”
  • โมเดล AI ที่มีผู้ใช้จำนวนมากจะเก็บข้อมูลจากการให้เหตุผลได้มากขึ้น และสิ่งนั้นเองจะนำไปสู่การปรับปรุงโมเดล
  • หากในท้ายที่สุดกระบวนการ SFT (การติดป้ายกำกับโดยมนุษย์) ไม่จำเป็นอีกต่อไป ระบบที่เพียงแค่ทุ่มต้นทุนก้อนใหญ่เพื่อวนซ้ำการค้นหา การสังเคราะห์ และการตรวจสอบ ก็อาจเรียนรู้ได้อย่างมีประสิทธิภาพ

บทสรุป

  • เมื่อความต้องการด้านการให้เหตุผลของระบบ AI เพิ่มขึ้น ก็น่าจะเกิดการประเมินมูลค่าตลาดใหม่อย่างต่อเนื่อง
  • การปรากฏของระบบ R1 แบบโอเพนซอร์สที่ผสานแนวทาง CoT กับเทคนิคการค้นหา จะช่วยให้นักวิจัยและนักพัฒนาจำนวนมากขึ้นสามารถทดลองขีดจำกัดและเร่งนวัตกรรมได้
  • การเปิดเผย R1-Zero และ R1 จะเป็นคุณูปการครั้งใหญ่ต่อความก้าวหน้าด้าน AI ทั่วโลก
  • หลายทีมแสดงความตั้งใจว่าจะใช้ระบบแบบ R1 เพื่อมุ่งสู่ ARC Prize 2025 ทำให้ผลลัพธ์ในอนาคตน่าจับตามอง
  • R1 ที่ DeepSeek เปิดเผยได้รับการประเมินเชิงบวกในฐานะผลงานที่มีส่วนช่วยต่อความก้าวหน้าทางวิทยาศาสตร์ ด้วยการชี้เบาะแสสำคัญบนเส้นทางสู่ AGI

1 ความคิดเห็น

 
GN⁺ 2025-01-30
ความคิดเห็นบน Hacker News
  • นักพัฒนาระบบ AI อาจทำให้เกิดการเปลี่ยนแปลงทางเศรษฐกิจจากการสร้างข้อมูลรูปแบบใหม่ได้ โดยลูกค้าอาจเป็นผู้รับภาระต้นทุนการสร้างข้อมูลเพื่อยกระดับคุณภาพของโมเดล

    • อย่างไรก็ตาม ยังมีมุมมองที่ตั้งข้อสงสัยว่าข้อมูลเหล่านี้มีคุณภาพสูงจริงหรือไม่
    • ปัจจุบันโมเดล SOTA ยังอยู่ที่ระดับ GPT4 และมีโอกาสพัฒนาไปได้อีกในช่วง 2-3 ปีข้างหน้า
    • การใช้ reasoning model สร้างข้อมูล แล้วนำไปฝึก non-reasoning model เป็นแนวคิดที่มีอนาคต
    • แต่ยังไม่แน่ชัดว่าจะถ่ายทอดกระบวนการให้เหตุผลลงในน้ำหนักของโมเดลได้ดีเพียงใด
    • มีความเห็นว่า OpenAI ควรได้นำข้อมูลฝึกของ o3 ไปใช้ฝึกโมเดลใหม่แล้ว
  • อาจไม่จำเป็นต้องพัฒนา base model เพิ่มเติม และโมเดลทั่วไปอาจเพียงพอแล้ว

    • สิ่งสำคัญคือการลดราคาของ reasoning model และเพิ่มคุณภาพของมัน
  • ระบบ o3 แสดงให้เห็นการนำคอมพิวเตอร์ไปใช้งานจริงครั้งแรกที่สามารถปรับตัวเข้ากับปัญหาใหม่ได้

    • อย่างไรก็ตาม OpenAI ระบุว่าได้ฝึก o3 ด้วยชุดฝึกสาธารณะ 75% และยังไม่ได้ทดสอบว่าสมรรถนะจากข้อมูล ARC-AGI มีส่วนช่วยมากแค่ไหน
  • มีการอ้างว่าสามารถขจัดคอขวดของมนุษย์ได้ แต่ในสาขาส่วนใหญ่นอกเหนือจากคณิตศาสตร์และวิทยาการคอมพิวเตอร์ การนิยามรางวัลที่ตรวจสอบได้ยังทำได้ยาก

  • กำลังเกิดการเปลี่ยนแปลงหลักสองอย่างในเศรษฐกิจ AI

    • สามารถจ่ายมากขึ้นเพื่อให้ได้ความแม่นยำและความน่าเชื่อถือที่สูงขึ้น
    • ต้นทุนกำลังย้ายจากการฝึกไปสู่การ inference
    • สิ่งนี้จะเพิ่มความต้องการด้าน inference และเพิ่มความต้องการด้านคอมพิวต์
  • o3 ได้ 75% ใน AGI-1 ขณะที่ R1 และ o1 ได้เพียง 25%

  • การที่งานคอมพิวต์จำนวนมากย้ายไปอยู่ฝั่ง inference ส่งผลกระทบอย่างมากต่อการลงทุน AI ในปัจจุบัน

    • นี่เป็นข่าวร้ายสำหรับ NVDA และโซลูชันที่เน้น inference มีความคุ้มค่าทางเศรษฐกิจดีกว่า
  • Mike จาก Baseten กล่าวว่าภูมิใจที่ได้สนับสนุนงานนี้

  • R1-Zero แสดงให้เห็นระบอบการขยายศักยภาพที่อาจไม่มีคอขวดจากมนุษย์

    • อย่างไรก็ตาม ยังมีคำถามว่าวิธีแบบ RL ยังคงต้องการข้อมูลจากมนุษย์จำนวนมากอยู่หรือไม่
  • R1 แสดงประสิทธิภาพต่อราคาที่โดดเด่น

    • มีความเห็นว่าการใช้ R1 เป็นตัวสร้างข้อมูลสำหรับปัญหาที่ซับซ้อนเป็นแนวทางที่มีอนาคต
  • มีการคาดการณ์ว่าอนาคตของ LLM จะอยู่ที่แอปแบบเฉพาะบุคคลที่ปรับแต่งได้

    • เพียงบอกแอปและความต้องการที่ต้องการกับ AI agent มันก็จะสร้างทุกอย่างตั้งแต่ backend ถึง frontend
    • ทดสอบซอฟต์แวร์ แก้ไขข้อผิดพลาด และนำขึ้น production
    • แม้ปัจจุบัน LLM จะยังไม่สมบูรณ์แบบ แต่ก็มีระบบและ workflow ที่สามารถรันโค้ด คอมไพล์อัตโนมัติ และป้อนข้อผิดพลาดกลับไปให้ LLM ได้แล้ว