3 คะแนน โดย GN⁺ 2024-12-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ระบบ o3 ของ OpenAI สร้างสถิติใหม่บนชุดข้อมูลสาธารณะ ARC-AGI-1
    • Semi-Private Evaluation: ทำได้ 75.7% ในโหมดประสิทธิภาพสูง
    • โหมดต้นทุนสูง (ใช้การคำนวณมากกว่า 172 เท่า): ทำได้ 87.5%
  • เป็นพัฒนาการสำคัญที่แสดงให้เห็นความสามารถใหม่ในการจัดการงานและการปรับตัว ซึ่งก้าวข้ามข้อจำกัดของโมเดลตระกูล GPT
  • พัฒนาจาก GPT-3 (ปี 2020) 0% → GPT-4o (ปี 2024) 5% → o3 ไปถึง 75.7%
  • ผลลัพธ์ของ ARC-AGI-1 นำเสนอความเข้าใจเชิงสัญชาตญาณใหม่เกี่ยวกับการยกระดับความสามารถของ AI

อนาคตของ ARC Prize และการวิจัย AGI

  • ARC Prize มีเป้าหมายเพื่อทำหน้าที่เป็นทิศทางนำสำหรับการวิจัย AGI
  • มีแผนเปิดตัว ARC-AGI-2 ในปี 2025:
    • ประกอบด้วยปัญหาที่ง่ายสำหรับมนุษย์แต่ยากสำหรับ AI
    • มุ่งพัฒนาโซลูชันใหม่ที่มีประสิทธิภาพสูงและเป็นโอเพนซอร์ส
  • ผลงานของ o3 ตอกย้ำความจำเป็นในการออกแบบ AGI benchmark แบบใหม่

ผลการทดสอบ ARC-AGI ของ OpenAI o3

ชุดข้อมูลและวิธีการทดสอบ

  • Semi-Private Eval: งานไม่เปิดเผย 100 งานที่ใช้เพื่อป้องกันการ overfitting
  • Public Eval: งานสาธารณะ 400 งาน
  • ทดสอบภายใต้การตั้งค่าปริมาณการคำนวณ 2 แบบ ได้แก่ ประสิทธิภาพสูง (6 samples) และประสิทธิภาพต่ำ (1024 samples)

ผลงานสำคัญ (ประสิทธิภาพสูง vs ประสิทธิภาพต่ำ)

  • Semi-Private Eval:
    • ประสิทธิภาพสูง: 75.7% / ค่าใช้จ่าย $20 / ใช้เวลา 1.3 นาทีต่องาน
    • ประสิทธิภาพต่ำ: 87.5% / ใช้เวลา 13.8 นาทีต่องาน
  • Public Eval:
    • ประสิทธิภาพสูง: 82.8% / ค่าใช้จ่าย $17
    • ประสิทธิภาพต่ำ: 91.5%

ความสัมพันธ์ระหว่างประสิทธิภาพและผลลัพธ์

  • คะแนนในโหมดประสิทธิภาพสูงครองอันดับ 1 ภายใต้เกณฑ์ ARC-AGI-Pub (ต่ำกว่า $10,000)
  • คะแนนในโหมดประสิทธิภาพต่ำชี้ว่าประสิทธิภาพดีขึ้นเมื่อเพิ่มปริมาณการคำนวณ แต่มีต้นทุนสูง
  • ผลงานของ o3 ไม่ได้เกิดจากการเพิ่มปริมาณการคำนวณอย่างเดียว แต่เป็นการปรับปรุงพื้นฐานด้านความสามารถในการปรับตัวของ AI

การอภิปรายเกี่ยวกับ AGI

ความแตกต่างระหว่าง ARC-AGI กับ AGI

  • ARC-AGI เป็นเครื่องมือวิจัยสำหรับประเมินความสามารถในการทำให้เป็นทั่วไปของ AI
  • o3 แม้จะแสดงผลงานโดดเด่นบน ARC-AGI แต่ยังไม่เพียงพอที่จะถือเป็น AGI
    • ยังมีกรณีที่ล้มเหลวกับงานง่าย ๆ
    • ใน ARC-AGI-2 คะแนนอาจลดลงต่ำกว่า 30% ได้ในอนาคต

จุดแตกต่างสำคัญของ o3

  • ปรับปรุงความสามารถในการจัดการและปรับตัวกับงานใหม่เมื่อเทียบกับโมเดล GPT เดิม
  • นำแนวทางการสำรวจและรันโปรแกรมด้วยภาษาธรรมชาติมาใช้:
    • ระหว่างการทดสอบมีการสำรวจ "กระบวนการคิด (Chain of Thought)" เพื่อแก้โจทย์
    • เป็นแนวทางที่คล้ายกับวิธีค้นหาแบบ Monte-Carlo tree search
    • อยู่ในรูปแบบการสร้างและรันคำสั่งด้วยภาษาธรรมชาติให้เป็นโปรแกรม

เปรียบเทียบกับโมเดล GPT เดิม

  • GPT เดิมทำงานในลักษณะ "จัดเก็บ → ค้นคืน → ประยุกต์ใช้"
  • ข้อจำกัดคือการปรับตัวต่อโจทย์ใหม่ยังไม่ดีพอ
  • o3 มีความสามารถในการปรับฟังก์ชันเดิมมาผสมใหม่เพื่อปรับตัวกับงานใหม่

ทิศทางการวิจัยในอนาคต

การวิเคราะห์ o3 แบบโอเพนซอร์ส

  • ARC Prize มุ่งเป้าการพัฒนาโซลูชันที่มีประสิทธิภาพสูงและเป็นโอเพนซอร์ส
  • เปิดเผยข้อมูลการทดสอบ o3 และโจทย์ที่ยังแก้ไม่ได้:
    • เชิญชวนให้ชุมชนช่วยวิเคราะห์ลักษณะของงานที่ยังไม่ถูกแก้ไข
    • สามารถร่วมอภิปรายได้ผ่านช่อง Discord และ GitHub

benchmark รุ่นถัดไป

  • กำลังพัฒนา ARC-AGI-2:
    • มีกำหนดเปิดตัวช่วงปลายไตรมาส 1 ปี 2025
    • เป็นการออกแบบใหม่ทั้งหมดที่แตกต่างจากรูปแบบ ARC-AGI เดิม
  • มูลนิธิ ARC Prize วางแผนพัฒนา benchmark ใหม่สำหรับการวิจัย AGI อย่างต่อเนื่อง

บทสรุป

  • OpenAI o3 เป็นผลงานก้าวกระโดดที่พิสูจน์ความสามารถในการปรับตัวของ AI ซึ่งก้าวข้ามข้อจำกัดของโมเดลตระกูล GPT
  • การนำการสำรวจโปรแกรมด้วยภาษาธรรมชาติที่ขับเคลื่อนด้วย LLM มาใช้ ได้บุกเบิกขอบเขตใหม่
  • จากนี้ยังต้องมีการวิจัยเพื่อสร้างสมดุลระหว่างประสิทธิภาพกับผลลัพธ์ และความร่วมมือผ่านการทำให้เป็นโอเพนซอร์ส

1 ความคิดเห็น

 
GN⁺ 2024-12-21
ความคิดเห็นจาก Hacker News
  • ประสิทธิภาพกลายเป็นเรื่องสำคัญ มีการใช้คำว่า ARC-AGI-TUNED เพื่อสื่อว่ามีการใช้ทรัพยากรคอมพิวต์จำนวนมาก เมื่อเทียบกับต้นทุนที่มนุษย์ใช้ในการแก้ปริศนา ARC-AGI ต้นทุนของการใช้เหตุผลระดับมนุษย์ด้วยคอมพิวต์ในปัจจุบันยังสูงมาก

  • การถอดรหัสรูปแบบภาษาธรรมชาติมีความซับซ้อนกว่าปริศนา หาก AI ถูกฝึกให้แก้ปริศนา การสร้างข้อมูลฝึกสำหรับสื่อภายนอกจะทำได้ยาก การอนุมานคำตอบของรูปแบบบล็อกด้วยการฝึกเพิ่มเติมเพียงเล็กน้อยถือว่าน่าประทับใจ

  • โจทย์การเขียนโปรแกรมของ o3-mini ไม่ได้ยากมากนัก ลองให้ Claude 3.5 Sonnet ทำโจทย์แล้วก็ผ่านได้ตั้งแต่ครั้งแรก

  • ARC ของ Francois Chollet เป็นเบนช์มาร์กสำหรับ LLM ที่น่าสนใจและท้าทายมาก หลายคนวิจารณ์ว่า ARC ไม่ได้สะท้อนการใช้เหตุผลที่แท้จริง แต่ก็พิสูจน์ได้ว่าสิ่งที่ ARC วัดนั้นสำคัญต่อการใช้เหตุผล

  • ประสิทธิภาพของมนุษย์อยู่ที่ 85% และ o3 high อยู่ที่ 87.5% นี่หมายความว่ามีอัลกอริทึมที่สามารถบรรลุประสิทธิภาพระดับมนุษย์ได้ จึงอธิบายได้ว่าทำไมหลายคนจึงรู้สึกว่า AGI ใกล้เข้ามาแล้ว

  • o3 มีองค์ประกอบที่เป็นแก่นแท้ของ AGI การแก้ปัญหา ARC ต้องอาศัยความรู้แกนหลักหลายด้านและการใช้ระดับของนามธรรมที่เหมาะสม

  • ต้นทุนในการรันโมเดล o3 สูงมาก อย่างไรก็ตาม ในระดับรัฐชาติ นี่อาจเป็นความก้าวหน้าที่สำคัญแม้จะไม่คุ้มค่าในเชิงเศรษฐกิจ หากสามารถให้บริการ AI ที่มีสติปัญญาคล้ายมนุษย์ได้ตามความต้องการ ผลกระทบของมันอาจปรากฏเร็วกว่าที่คาดไว้

  • ARC-AGI ไม่ได้แปลว่าบรรลุ AGI แล้ว o3 ยังล้มเหลวกับงานง่าย ๆ อยู่ และเบนช์มาร์ก ARC-AGI-2 ก็ยังคงเป็นความท้าทายสำหรับ o3

  • ไม่ควรสับสนระหว่าง ARC หรือเบนช์มาร์กใด ๆ กับสติปัญญาทั่วไปที่แท้จริง สติปัญญาทั่วไปอาจระบุได้ก็ต่อเมื่อมองย้อนกลับไปแล้วเห็นข้อได้เปรียบอย่างมีนัยสำคัญเท่านั้น