- ระบบ o3 ของ OpenAI สร้างสถิติใหม่บนชุดข้อมูลสาธารณะ ARC-AGI-1
- Semi-Private Evaluation: ทำได้ 75.7% ในโหมดประสิทธิภาพสูง
- โหมดต้นทุนสูง (ใช้การคำนวณมากกว่า 172 เท่า): ทำได้ 87.5%
- เป็นพัฒนาการสำคัญที่แสดงให้เห็นความสามารถใหม่ในการจัดการงานและการปรับตัว ซึ่งก้าวข้ามข้อจำกัดของโมเดลตระกูล GPT
- พัฒนาจาก GPT-3 (ปี 2020) 0% → GPT-4o (ปี 2024) 5% → o3 ไปถึง 75.7%
- ผลลัพธ์ของ ARC-AGI-1 นำเสนอความเข้าใจเชิงสัญชาตญาณใหม่เกี่ยวกับการยกระดับความสามารถของ AI
อนาคตของ ARC Prize และการวิจัย AGI
- ARC Prize มีเป้าหมายเพื่อทำหน้าที่เป็นทิศทางนำสำหรับการวิจัย AGI
- มีแผนเปิดตัว ARC-AGI-2 ในปี 2025:
- ประกอบด้วยปัญหาที่ง่ายสำหรับมนุษย์แต่ยากสำหรับ AI
- มุ่งพัฒนาโซลูชันใหม่ที่มีประสิทธิภาพสูงและเป็นโอเพนซอร์ส
- ผลงานของ o3 ตอกย้ำความจำเป็นในการออกแบบ AGI benchmark แบบใหม่
ผลการทดสอบ ARC-AGI ของ OpenAI o3
ชุดข้อมูลและวิธีการทดสอบ
- Semi-Private Eval: งานไม่เปิดเผย 100 งานที่ใช้เพื่อป้องกันการ overfitting
- Public Eval: งานสาธารณะ 400 งาน
- ทดสอบภายใต้การตั้งค่าปริมาณการคำนวณ 2 แบบ ได้แก่ ประสิทธิภาพสูง (6 samples) และประสิทธิภาพต่ำ (1024 samples)
ผลงานสำคัญ (ประสิทธิภาพสูง vs ประสิทธิภาพต่ำ)
- Semi-Private Eval:
- ประสิทธิภาพสูง: 75.7% / ค่าใช้จ่าย $20 / ใช้เวลา 1.3 นาทีต่องาน
- ประสิทธิภาพต่ำ: 87.5% / ใช้เวลา 13.8 นาทีต่องาน
- Public Eval:
- ประสิทธิภาพสูง: 82.8% / ค่าใช้จ่าย $17
- ประสิทธิภาพต่ำ: 91.5%
ความสัมพันธ์ระหว่างประสิทธิภาพและผลลัพธ์
- คะแนนในโหมดประสิทธิภาพสูงครองอันดับ 1 ภายใต้เกณฑ์ ARC-AGI-Pub (ต่ำกว่า $10,000)
- คะแนนในโหมดประสิทธิภาพต่ำชี้ว่าประสิทธิภาพดีขึ้นเมื่อเพิ่มปริมาณการคำนวณ แต่มีต้นทุนสูง
- ผลงานของ o3 ไม่ได้เกิดจากการเพิ่มปริมาณการคำนวณอย่างเดียว แต่เป็นการปรับปรุงพื้นฐานด้านความสามารถในการปรับตัวของ AI
การอภิปรายเกี่ยวกับ AGI
ความแตกต่างระหว่าง ARC-AGI กับ AGI
- ARC-AGI เป็นเครื่องมือวิจัยสำหรับประเมินความสามารถในการทำให้เป็นทั่วไปของ AI
- o3 แม้จะแสดงผลงานโดดเด่นบน ARC-AGI แต่ยังไม่เพียงพอที่จะถือเป็น AGI
- ยังมีกรณีที่ล้มเหลวกับงานง่าย ๆ
- ใน ARC-AGI-2 คะแนนอาจลดลงต่ำกว่า 30% ได้ในอนาคต
จุดแตกต่างสำคัญของ o3
- ปรับปรุงความสามารถในการจัดการและปรับตัวกับงานใหม่เมื่อเทียบกับโมเดล GPT เดิม
- นำแนวทางการสำรวจและรันโปรแกรมด้วยภาษาธรรมชาติมาใช้:
- ระหว่างการทดสอบมีการสำรวจ "กระบวนการคิด (Chain of Thought)" เพื่อแก้โจทย์
- เป็นแนวทางที่คล้ายกับวิธีค้นหาแบบ Monte-Carlo tree search
- อยู่ในรูปแบบการสร้างและรันคำสั่งด้วยภาษาธรรมชาติให้เป็นโปรแกรม
เปรียบเทียบกับโมเดล GPT เดิม
- GPT เดิมทำงานในลักษณะ "จัดเก็บ → ค้นคืน → ประยุกต์ใช้"
- ข้อจำกัดคือการปรับตัวต่อโจทย์ใหม่ยังไม่ดีพอ
- o3 มีความสามารถในการปรับฟังก์ชันเดิมมาผสมใหม่เพื่อปรับตัวกับงานใหม่
ทิศทางการวิจัยในอนาคต
การวิเคราะห์ o3 แบบโอเพนซอร์ส
- ARC Prize มุ่งเป้าการพัฒนาโซลูชันที่มีประสิทธิภาพสูงและเป็นโอเพนซอร์ส
- เปิดเผยข้อมูลการทดสอบ o3 และโจทย์ที่ยังแก้ไม่ได้:
- เชิญชวนให้ชุมชนช่วยวิเคราะห์ลักษณะของงานที่ยังไม่ถูกแก้ไข
- สามารถร่วมอภิปรายได้ผ่านช่อง Discord และ GitHub
benchmark รุ่นถัดไป
- กำลังพัฒนา ARC-AGI-2:
- มีกำหนดเปิดตัวช่วงปลายไตรมาส 1 ปี 2025
- เป็นการออกแบบใหม่ทั้งหมดที่แตกต่างจากรูปแบบ ARC-AGI เดิม
- มูลนิธิ ARC Prize วางแผนพัฒนา benchmark ใหม่สำหรับการวิจัย AGI อย่างต่อเนื่อง
บทสรุป
- OpenAI o3 เป็นผลงานก้าวกระโดดที่พิสูจน์ความสามารถในการปรับตัวของ AI ซึ่งก้าวข้ามข้อจำกัดของโมเดลตระกูล GPT
- การนำการสำรวจโปรแกรมด้วยภาษาธรรมชาติที่ขับเคลื่อนด้วย LLM มาใช้ ได้บุกเบิกขอบเขตใหม่
- จากนี้ยังต้องมีการวิจัยเพื่อสร้างสมดุลระหว่างประสิทธิภาพกับผลลัพธ์ และความร่วมมือผ่านการทำให้เป็นโอเพนซอร์ส
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ประสิทธิภาพกลายเป็นเรื่องสำคัญ มีการใช้คำว่า ARC-AGI-TUNED เพื่อสื่อว่ามีการใช้ทรัพยากรคอมพิวต์จำนวนมาก เมื่อเทียบกับต้นทุนที่มนุษย์ใช้ในการแก้ปริศนา ARC-AGI ต้นทุนของการใช้เหตุผลระดับมนุษย์ด้วยคอมพิวต์ในปัจจุบันยังสูงมาก
การถอดรหัสรูปแบบภาษาธรรมชาติมีความซับซ้อนกว่าปริศนา หาก AI ถูกฝึกให้แก้ปริศนา การสร้างข้อมูลฝึกสำหรับสื่อภายนอกจะทำได้ยาก การอนุมานคำตอบของรูปแบบบล็อกด้วยการฝึกเพิ่มเติมเพียงเล็กน้อยถือว่าน่าประทับใจ
โจทย์การเขียนโปรแกรมของ o3-mini ไม่ได้ยากมากนัก ลองให้ Claude 3.5 Sonnet ทำโจทย์แล้วก็ผ่านได้ตั้งแต่ครั้งแรก
ARC ของ Francois Chollet เป็นเบนช์มาร์กสำหรับ LLM ที่น่าสนใจและท้าทายมาก หลายคนวิจารณ์ว่า ARC ไม่ได้สะท้อนการใช้เหตุผลที่แท้จริง แต่ก็พิสูจน์ได้ว่าสิ่งที่ ARC วัดนั้นสำคัญต่อการใช้เหตุผล
ประสิทธิภาพของมนุษย์อยู่ที่ 85% และ o3 high อยู่ที่ 87.5% นี่หมายความว่ามีอัลกอริทึมที่สามารถบรรลุประสิทธิภาพระดับมนุษย์ได้ จึงอธิบายได้ว่าทำไมหลายคนจึงรู้สึกว่า AGI ใกล้เข้ามาแล้ว
o3 มีองค์ประกอบที่เป็นแก่นแท้ของ AGI การแก้ปัญหา ARC ต้องอาศัยความรู้แกนหลักหลายด้านและการใช้ระดับของนามธรรมที่เหมาะสม
ต้นทุนในการรันโมเดล o3 สูงมาก อย่างไรก็ตาม ในระดับรัฐชาติ นี่อาจเป็นความก้าวหน้าที่สำคัญแม้จะไม่คุ้มค่าในเชิงเศรษฐกิจ หากสามารถให้บริการ AI ที่มีสติปัญญาคล้ายมนุษย์ได้ตามความต้องการ ผลกระทบของมันอาจปรากฏเร็วกว่าที่คาดไว้
ARC-AGI ไม่ได้แปลว่าบรรลุ AGI แล้ว o3 ยังล้มเหลวกับงานง่าย ๆ อยู่ และเบนช์มาร์ก ARC-AGI-2 ก็ยังคงเป็นความท้าทายสำหรับ o3
ไม่ควรสับสนระหว่าง ARC หรือเบนช์มาร์กใด ๆ กับสติปัญญาทั่วไปที่แท้จริง สติปัญญาทั่วไปอาจระบุได้ก็ต่อเมื่อมองย้อนกลับไปแล้วเห็นข้อได้เปรียบอย่างมีนัยสำคัญเท่านั้น