บรรลุ 50% (SoTA) บน Arc-AGI ด้วย GPT-4o

(redwoodresearch.substack.com)

1 คะแนน โดย GN⁺ 2024-06-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ทำความแม่นยำได้ 50% บน ARC-AGI ด้วย GPT-4

ARC-AGI คืออะไร?

ARC-AGI เป็นชุดข้อมูลที่สร้างขึ้นเพื่อประเมินความสามารถในการให้เหตุผลทั่วไปของ AI
ประกอบด้วยโจทย์ที่ต้องอนุมานกฎการแปลงจากตัวอย่างอินพุต-เอาต์พุตในรูปแบบกริด (grid) ที่ประกอบด้วยเซลล์สี
มนุษย์มีความแม่นยำเฉลี่ย 85% บนชุดฝึก แต่ชุดทดสอบยากกว่ามาก

วิธีการของฉัน

ใช้ GPT-4 เพื่อสร้างโปรแกรม Python ราว 8,000 โปรแกรมต่อโจทย์ แล้วเลือกโปรแกรมที่ให้ผลลัพธ์ถูกต้อง
ปรับปรุงประสิทธิภาพได้อย่างมากด้วยแนวทางและการปรับแต่งเพิ่มเติมหลายอย่าง:
- Few-shot prompts: ใช้พรอมป์ต์สำหรับการให้เหตุผลแบบเป็นขั้นตอน
- การแก้โค้ด: ให้ GPT-4 แก้ไขบางส่วนของการ implement โดยดูจากผลลัพธ์เอาต์พุตตัวอย่าง
- Feature engineering: ให้โมเดลเห็นการแทนกริดที่ดีกว่าเดิม
- พรอมป์ต์เฉพาะทาง: ใช้พรอมป์ต์ต่างกันตามกรณีที่ขนาดกริดเปลี่ยนหรือไม่เปลี่ยน

ผลของการเพิ่มจำนวนการสุ่มตัวอย่าง

ประสิทธิภาพดีขึ้นเมื่อจำนวนตัวอย่างเพิ่มขึ้น
ตัวอย่างเช่น ทำความแม่นยำได้ 25% ด้วยตัวอย่าง 1024 ชุด แต่ทำได้ 34% ด้วยตัวอย่าง 2048 ชุด

ผลของพรอมป์ต์ที่ดีขึ้นและการแก้โค้ด

การปรับปรุงพรอมป์ต์และขั้นตอนการแก้โค้ดมีความสำคัญต่อการเพิ่มความแม่นยำ
ในเวอร์ชันสุดท้าย สามารถทำความแม่นยำได้ 50%

ข้อจำกัดและการคาดการณ์

ความสามารถด้านการรับรู้ภาพและการเขียนโค้ดของ GPT-4 ยังมีข้อจำกัด
ยังต้องการการสุ่มตัวอย่างที่มากขึ้นและพรอมป์ต์ที่ดีกว่าเดิม
มีความเป็นไปได้สูงว่า LLM รุ่นถัดไปจะยกระดับประสิทธิภาพบน ARC-AGI ได้อย่างมาก

ความเห็นของ GN⁺

ความสามารถด้านการรับรู้ภาพ: ความสามารถด้านการรับรู้ภาพของ GPT-4 ยังมีข้อจำกัด จึงจำเป็นต้องมีโมเดลการรับรู้ภาพที่ดีกว่า
ความสามารถด้านการเขียนโค้ด: GPT-4 มักทำผิดพลาดง่าย ๆ ในการเขียนโค้ดบ่อยครั้ง จึงต้องการเครื่องมือดีบักที่ดีกว่าเพื่อปรับปรุงจุดนี้
ต้นทุนของการสุ่มตัวอย่าง: การต้องสุ่มตัวอย่างจำนวนมากอาจมีค่าใช้จ่ายสูง จึงต้องการวิธีการสุ่มตัวอย่างที่มีประสิทธิภาพกว่า
ศักยภาพในอนาคต: มีความเป็นไปได้สูงว่า LLM รุ่นถัดไปจะยกระดับประสิทธิภาพบน ARC-AGI ได้อย่างมาก และอาจกลายเป็นเกณฑ์สำคัญในการประเมินความสามารถในการให้เหตุผลทั่วไปของ AI
การประยุกต์ใช้จริง: ยังต้องมีการวิจัยว่าความสามารถในการแก้ปัญหาแบบ ARC-AGI สามารถนำไปใช้ในงานจริงได้อย่างไร

1 ความคิดเห็น

GN⁺ 2024-06-19

ความคิดเห็นบน Hacker News

ผู้ร่วมก่อตั้ง ARC Prize: งานวิจัยของ Ryan น่าสนใจและเป็นงานวิจัยใหม่ด้าน "การให้เหตุผลของ LLM" โดยใช้ GPT-4o สร้างโปรแกรม Python 8,000 โปรแกรม แล้วเลือกโปรแกรมที่ถูกต้องเพื่อนำไปใช้กับอินพุตทดสอบเพิ่มเติม ผลลัพธ์นี้มาจากชุดประเมินสาธารณะและยังไม่ใช่ผลที่ผ่านการตรวจยืนยัน แต่ก็น่าคาดหวัง ขอแสดงความยินดีและขอบคุณ Ryan สำหรับความพยายามนี้
คำวิจารณ์ต่อบทความ: บทความสรุปข้ามไปว่า "ปัจจุบัน LLM สามารถทำ ARC-AGI ได้ค่อนข้างดี" ทั้งที่จริงใช้ลูกเล่นแบบทำด้วยมือหลายอย่างเพื่อให้ได้ผลลัพธ์ การโจมตี Francois Chollet เป็นสิ่งที่เป็นโทษต่อชุมชน
ความเห็นเกี่ยวกับ GPT-4: GPT-4 เป็น AGI ที่ไม่ดีนัก และแม้แต่ GPT-1 ก็เป็น AGI เช่นกัน เช่นเดียวกับที่สติปัญญาของมนุษย์ค่อย ๆ พัฒนา GPT-4 ก็อาจมองได้ว่าเป็นสมองขนาดเล็กที่เชี่ยวชาญด้านการคิดผ่านข้อความ การอ้างว่า ARC เป็นเกณฑ์สัมบูรณ์ของปัญญาทั่วไปนั้นทำให้มองข้ามภาพใหญ่ของสติปัญญา
ความพยายามช่วงแรกของ GPT-4: GPT-4 เคยทำผลงานกับปริศนาได้ "พอใช้" แต่มีกรณีที่ล้มเหลวในส่วนที่เป็นตรรกะ องค์ประกอบด้านการมองเห็นเชิงพื้นที่มีความสำคัญ และอาจจำเป็นต้องใช้โมเดลหลายโมดัล การสุ่มสร้างโซลูชัน Python เป็นแนวทางที่ "ไม่เหมือนมนุษย์"
ความหมายของการปรับแต่ง LLM: หลายคนมองว่าการปรับแต่ง LLM เพื่อให้ผ่านการทดสอบ AGI ทำให้จุดประสงค์ของการทดสอบ AGI หมดความหมาย อย่างไรก็ตาม การค้นหาว่าการปรับแบบใดได้ผลก็มีประโยชน์ ปัญหาส่วนใหญ่ท้ายที่สุดแล้วลงเอยที่การจับคู่แพตเทิร์น
ประเด็นสำคัญ:
- งานส่วนใหญ่ถูกทำด้วยการค้นหา
- การมีตัวอย่างมากขึ้นช่วยเพิ่มประสิทธิภาพ
- LLM สร้างโปรแกรมที่ดีกว่าโปรแกรมแบบสุ่ม
- ยังไม่มีความมั่นใจว่า GPT-4 จะแก้ปริศนา ARC ได้จริงหรือไม่
ข้อบกพร่องของ ARC-AGI: ARC-AGI ดูเหมือนจะมีข้อบกพร่อง สิ่งที่อธิบายได้ด้วย AGI ก็อาจอธิบายได้ด้วยการมีอยู่ในชุดฝึกเช่นกัน
ระบบ 2 และ AGI: การสร้างและประเมินโปรแกรมจำนวนมากอาจทำหน้าที่เป็นระบบ 2 ของ AGI ได้ ซึ่งคล้ายกับวิธีที่มนุษย์ใช้คิดอย่างมีสติปัญญา
ความสำคัญของความเข้าใจทางกายภาพ: ความท้าทายนี้พึ่งพาความเข้าใจทางกายภาพ การรับรู้เชิงพื้นที่ และขอบเขตของวัตถุอย่างมาก การระบุวัตถุและแมปการแปลงหรือความสัมพันธ์เป็นสิ่งสำคัญ และอาจแก้ได้ด้วยการผสานการค้นหาโปรแกรมเข้ากับ LLM
ความสามารถในการวางแผนของ GPT-4: GPT-4 สามารถสร้างแผนที่คล้ายกับที่อธิบายในบทความได้ ซึ่งรวมถึงการดึงคุณลักษณะ การสังเคราะห์โปรแกรม และการปรับปรุงแบบวนซ้ำ แต่ยังมีจุดอ่อนด้านการเขียนโค้ดและอินพุตภาพ

บรรลุ 50% (SoTA) บน Arc-AGI ด้วย GPT-4o

ทำความแม่นยำได้ 50% บน ARC-AGI ด้วย GPT-4

ARC-AGI คืออะไร?

วิธีการของฉัน

ผลของการเพิ่มจำนวนการสุ่มตัวอย่าง

ผลของพรอมป์ต์ที่ดีขึ้นและการแก้โค้ด

ข้อจำกัดและการคาดการณ์

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News