OpenAI O3 ทำคะแนนได้สูงแบบก้าวกระโดดบน ARC-AGI-PUB

(arcprize.org)

3 คะแนน โดย GN⁺ 2024-12-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ระบบ o3 ของ OpenAI สร้างสถิติใหม่บนชุดข้อมูลสาธารณะ ARC-AGI-1
- Semi-Private Evaluation: ทำได้ 75.7% ในโหมดประสิทธิภาพสูง
- โหมดต้นทุนสูง (ใช้การคำนวณมากกว่า 172 เท่า): ทำได้ 87.5%
เป็นพัฒนาการสำคัญที่แสดงให้เห็นความสามารถใหม่ในการจัดการงานและการปรับตัว ซึ่งก้าวข้ามข้อจำกัดของโมเดลตระกูล GPT
พัฒนาจาก GPT-3 (ปี 2020) 0% → GPT-4o (ปี 2024) 5% → o3 ไปถึง 75.7%
ผลลัพธ์ของ ARC-AGI-1 นำเสนอความเข้าใจเชิงสัญชาตญาณใหม่เกี่ยวกับการยกระดับความสามารถของ AI

อนาคตของ ARC Prize และการวิจัย AGI

ARC Prize มีเป้าหมายเพื่อทำหน้าที่เป็นทิศทางนำสำหรับการวิจัย AGI
มีแผนเปิดตัว ARC-AGI-2 ในปี 2025:
- ประกอบด้วยปัญหาที่ง่ายสำหรับมนุษย์แต่ยากสำหรับ AI
- มุ่งพัฒนาโซลูชันใหม่ที่มีประสิทธิภาพสูงและเป็นโอเพนซอร์ส
ผลงานของ o3 ตอกย้ำความจำเป็นในการออกแบบ AGI benchmark แบบใหม่

ผลการทดสอบ ARC-AGI ของ OpenAI o3

ชุดข้อมูลและวิธีการทดสอบ

Semi-Private Eval: งานไม่เปิดเผย 100 งานที่ใช้เพื่อป้องกันการ overfitting
Public Eval: งานสาธารณะ 400 งาน
ทดสอบภายใต้การตั้งค่าปริมาณการคำนวณ 2 แบบ ได้แก่ ประสิทธิภาพสูง (6 samples) และประสิทธิภาพต่ำ (1024 samples)

ผลงานสำคัญ (ประสิทธิภาพสูง vs ประสิทธิภาพต่ำ)

Semi-Private Eval:
- ประสิทธิภาพสูง: 75.7% / ค่าใช้จ่าย $20 / ใช้เวลา 1.3 นาทีต่องาน
- ประสิทธิภาพต่ำ: 87.5% / ใช้เวลา 13.8 นาทีต่องาน
Public Eval:
- ประสิทธิภาพสูง: 82.8% / ค่าใช้จ่าย $17
- ประสิทธิภาพต่ำ: 91.5%

ความสัมพันธ์ระหว่างประสิทธิภาพและผลลัพธ์

คะแนนในโหมดประสิทธิภาพสูงครองอันดับ 1 ภายใต้เกณฑ์ ARC-AGI-Pub (ต่ำกว่า $10,000)
คะแนนในโหมดประสิทธิภาพต่ำชี้ว่าประสิทธิภาพดีขึ้นเมื่อเพิ่มปริมาณการคำนวณ แต่มีต้นทุนสูง
ผลงานของ o3 ไม่ได้เกิดจากการเพิ่มปริมาณการคำนวณอย่างเดียว แต่เป็นการปรับปรุงพื้นฐานด้านความสามารถในการปรับตัวของ AI

การอภิปรายเกี่ยวกับ AGI

ความแตกต่างระหว่าง ARC-AGI กับ AGI

ARC-AGI เป็นเครื่องมือวิจัยสำหรับประเมินความสามารถในการทำให้เป็นทั่วไปของ AI
o3 แม้จะแสดงผลงานโดดเด่นบน ARC-AGI แต่ยังไม่เพียงพอที่จะถือเป็น AGI
- ยังมีกรณีที่ล้มเหลวกับงานง่าย ๆ
- ใน ARC-AGI-2 คะแนนอาจลดลงต่ำกว่า 30% ได้ในอนาคต

จุดแตกต่างสำคัญของ o3

ปรับปรุงความสามารถในการจัดการและปรับตัวกับงานใหม่เมื่อเทียบกับโมเดล GPT เดิม
นำแนวทางการสำรวจและรันโปรแกรมด้วยภาษาธรรมชาติมาใช้:
- ระหว่างการทดสอบมีการสำรวจ "กระบวนการคิด (Chain of Thought)" เพื่อแก้โจทย์
- เป็นแนวทางที่คล้ายกับวิธีค้นหาแบบ Monte-Carlo tree search
- อยู่ในรูปแบบการสร้างและรันคำสั่งด้วยภาษาธรรมชาติให้เป็นโปรแกรม

เปรียบเทียบกับโมเดล GPT เดิม

GPT เดิมทำงานในลักษณะ "จัดเก็บ → ค้นคืน → ประยุกต์ใช้"
ข้อจำกัดคือการปรับตัวต่อโจทย์ใหม่ยังไม่ดีพอ
o3 มีความสามารถในการปรับฟังก์ชันเดิมมาผสมใหม่เพื่อปรับตัวกับงานใหม่

ทิศทางการวิจัยในอนาคต

การวิเคราะห์ o3 แบบโอเพนซอร์ส

ARC Prize มุ่งเป้าการพัฒนาโซลูชันที่มีประสิทธิภาพสูงและเป็นโอเพนซอร์ส
เปิดเผยข้อมูลการทดสอบ o3 และโจทย์ที่ยังแก้ไม่ได้:
- เชิญชวนให้ชุมชนช่วยวิเคราะห์ลักษณะของงานที่ยังไม่ถูกแก้ไข
- สามารถร่วมอภิปรายได้ผ่านช่อง Discord และ GitHub

benchmark รุ่นถัดไป

กำลังพัฒนา ARC-AGI-2:
- มีกำหนดเปิดตัวช่วงปลายไตรมาส 1 ปี 2025
- เป็นการออกแบบใหม่ทั้งหมดที่แตกต่างจากรูปแบบ ARC-AGI เดิม
มูลนิธิ ARC Prize วางแผนพัฒนา benchmark ใหม่สำหรับการวิจัย AGI อย่างต่อเนื่อง

บทสรุป

OpenAI o3 เป็นผลงานก้าวกระโดดที่พิสูจน์ความสามารถในการปรับตัวของ AI ซึ่งก้าวข้ามข้อจำกัดของโมเดลตระกูล GPT
การนำการสำรวจโปรแกรมด้วยภาษาธรรมชาติที่ขับเคลื่อนด้วย LLM มาใช้ ได้บุกเบิกขอบเขตใหม่
จากนี้ยังต้องมีการวิจัยเพื่อสร้างสมดุลระหว่างประสิทธิภาพกับผลลัพธ์ และความร่วมมือผ่านการทำให้เป็นโอเพนซอร์ส

1 ความคิดเห็น

GN⁺ 2024-12-21

ความคิดเห็นจาก Hacker News

ประสิทธิภาพกลายเป็นเรื่องสำคัญ มีการใช้คำว่า ARC-AGI-TUNED เพื่อสื่อว่ามีการใช้ทรัพยากรคอมพิวต์จำนวนมาก เมื่อเทียบกับต้นทุนที่มนุษย์ใช้ในการแก้ปริศนา ARC-AGI ต้นทุนของการใช้เหตุผลระดับมนุษย์ด้วยคอมพิวต์ในปัจจุบันยังสูงมาก
การถอดรหัสรูปแบบภาษาธรรมชาติมีความซับซ้อนกว่าปริศนา หาก AI ถูกฝึกให้แก้ปริศนา การสร้างข้อมูลฝึกสำหรับสื่อภายนอกจะทำได้ยาก การอนุมานคำตอบของรูปแบบบล็อกด้วยการฝึกเพิ่มเติมเพียงเล็กน้อยถือว่าน่าประทับใจ
โจทย์การเขียนโปรแกรมของ o3-mini ไม่ได้ยากมากนัก ลองให้ Claude 3.5 Sonnet ทำโจทย์แล้วก็ผ่านได้ตั้งแต่ครั้งแรก
ARC ของ Francois Chollet เป็นเบนช์มาร์กสำหรับ LLM ที่น่าสนใจและท้าทายมาก หลายคนวิจารณ์ว่า ARC ไม่ได้สะท้อนการใช้เหตุผลที่แท้จริง แต่ก็พิสูจน์ได้ว่าสิ่งที่ ARC วัดนั้นสำคัญต่อการใช้เหตุผล
ประสิทธิภาพของมนุษย์อยู่ที่ 85% และ o3 high อยู่ที่ 87.5% นี่หมายความว่ามีอัลกอริทึมที่สามารถบรรลุประสิทธิภาพระดับมนุษย์ได้ จึงอธิบายได้ว่าทำไมหลายคนจึงรู้สึกว่า AGI ใกล้เข้ามาแล้ว
o3 มีองค์ประกอบที่เป็นแก่นแท้ของ AGI การแก้ปัญหา ARC ต้องอาศัยความรู้แกนหลักหลายด้านและการใช้ระดับของนามธรรมที่เหมาะสม
ต้นทุนในการรันโมเดล o3 สูงมาก อย่างไรก็ตาม ในระดับรัฐชาติ นี่อาจเป็นความก้าวหน้าที่สำคัญแม้จะไม่คุ้มค่าในเชิงเศรษฐกิจ หากสามารถให้บริการ AI ที่มีสติปัญญาคล้ายมนุษย์ได้ตามความต้องการ ผลกระทบของมันอาจปรากฏเร็วกว่าที่คาดไว้
ARC-AGI ไม่ได้แปลว่าบรรลุ AGI แล้ว o3 ยังล้มเหลวกับงานง่าย ๆ อยู่ และเบนช์มาร์ก ARC-AGI-2 ก็ยังคงเป็นความท้าทายสำหรับ o3
ไม่ควรสับสนระหว่าง ARC หรือเบนช์มาร์กใด ๆ กับสติปัญญาทั่วไปที่แท้จริง สติปัญญาทั่วไปอาจระบุได้ก็ต่อเมื่อมองย้อนกลับไปแล้วเห็นข้อได้เปรียบอย่างมีนัยสำคัญเท่านั้น

OpenAI O3 ทำคะแนนได้สูงแบบก้าวกระโดดบน ARC-AGI-PUB

อนาคตของ ARC Prize และการวิจัย AGI

ผลการทดสอบ ARC-AGI ของ OpenAI o3

ชุดข้อมูลและวิธีการทดสอบ

ผลงานสำคัญ (ประสิทธิภาพสูง vs ประสิทธิภาพต่ำ)

ความสัมพันธ์ระหว่างประสิทธิภาพและผลลัพธ์

การอภิปรายเกี่ยวกับ AGI

ความแตกต่างระหว่าง ARC-AGI กับ AGI

จุดแตกต่างสำคัญของ o3

เปรียบเทียบกับโมเดล GPT เดิม

ทิศทางการวิจัยในอนาคต

การวิเคราะห์ o3 แบบโอเพนซอร์ส

benchmark รุ่นถัดไป

บทสรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News