ทำความแม่นยำได้ 50% บน ARC-AGI ด้วย GPT-4
ARC-AGI คืออะไร?
- ARC-AGI เป็นชุดข้อมูลที่สร้างขึ้นเพื่อประเมินความสามารถในการให้เหตุผลทั่วไปของ AI
- ประกอบด้วยโจทย์ที่ต้องอนุมานกฎการแปลงจากตัวอย่างอินพุต-เอาต์พุตในรูปแบบกริด (grid) ที่ประกอบด้วยเซลล์สี
- มนุษย์มีความแม่นยำเฉลี่ย 85% บนชุดฝึก แต่ชุดทดสอบยากกว่ามาก
วิธีการของฉัน
- ใช้ GPT-4 เพื่อสร้างโปรแกรม Python ราว 8,000 โปรแกรมต่อโจทย์ แล้วเลือกโปรแกรมที่ให้ผลลัพธ์ถูกต้อง
- ปรับปรุงประสิทธิภาพได้อย่างมากด้วยแนวทางและการปรับแต่งเพิ่มเติมหลายอย่าง:
- Few-shot prompts: ใช้พรอมป์ต์สำหรับการให้เหตุผลแบบเป็นขั้นตอน
- การแก้โค้ด: ให้ GPT-4 แก้ไขบางส่วนของการ implement โดยดูจากผลลัพธ์เอาต์พุตตัวอย่าง
- Feature engineering: ให้โมเดลเห็นการแทนกริดที่ดีกว่าเดิม
- พรอมป์ต์เฉพาะทาง: ใช้พรอมป์ต์ต่างกันตามกรณีที่ขนาดกริดเปลี่ยนหรือไม่เปลี่ยน
ผลของการเพิ่มจำนวนการสุ่มตัวอย่าง
- ประสิทธิภาพดีขึ้นเมื่อจำนวนตัวอย่างเพิ่มขึ้น
- ตัวอย่างเช่น ทำความแม่นยำได้ 25% ด้วยตัวอย่าง 1024 ชุด แต่ทำได้ 34% ด้วยตัวอย่าง 2048 ชุด
ผลของพรอมป์ต์ที่ดีขึ้นและการแก้โค้ด
- การปรับปรุงพรอมป์ต์และขั้นตอนการแก้โค้ดมีความสำคัญต่อการเพิ่มความแม่นยำ
- ในเวอร์ชันสุดท้าย สามารถทำความแม่นยำได้ 50%
ข้อจำกัดและการคาดการณ์
- ความสามารถด้านการรับรู้ภาพและการเขียนโค้ดของ GPT-4 ยังมีข้อจำกัด
- ยังต้องการการสุ่มตัวอย่างที่มากขึ้นและพรอมป์ต์ที่ดีกว่าเดิม
- มีความเป็นไปได้สูงว่า LLM รุ่นถัดไปจะยกระดับประสิทธิภาพบน ARC-AGI ได้อย่างมาก
ความเห็นของ GN⁺
- ความสามารถด้านการรับรู้ภาพ: ความสามารถด้านการรับรู้ภาพของ GPT-4 ยังมีข้อจำกัด จึงจำเป็นต้องมีโมเดลการรับรู้ภาพที่ดีกว่า
- ความสามารถด้านการเขียนโค้ด: GPT-4 มักทำผิดพลาดง่าย ๆ ในการเขียนโค้ดบ่อยครั้ง จึงต้องการเครื่องมือดีบักที่ดีกว่าเพื่อปรับปรุงจุดนี้
- ต้นทุนของการสุ่มตัวอย่าง: การต้องสุ่มตัวอย่างจำนวนมากอาจมีค่าใช้จ่ายสูง จึงต้องการวิธีการสุ่มตัวอย่างที่มีประสิทธิภาพกว่า
- ศักยภาพในอนาคต: มีความเป็นไปได้สูงว่า LLM รุ่นถัดไปจะยกระดับประสิทธิภาพบน ARC-AGI ได้อย่างมาก และอาจกลายเป็นเกณฑ์สำคัญในการประเมินความสามารถในการให้เหตุผลทั่วไปของ AI
- การประยุกต์ใช้จริง: ยังต้องมีการวิจัยว่าความสามารถในการแก้ปัญหาแบบ ARC-AGI สามารถนำไปใช้ในงานจริงได้อย่างไร
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
ผู้ร่วมก่อตั้ง ARC Prize: งานวิจัยของ Ryan น่าสนใจและเป็นงานวิจัยใหม่ด้าน "การให้เหตุผลของ LLM" โดยใช้ GPT-4o สร้างโปรแกรม Python 8,000 โปรแกรม แล้วเลือกโปรแกรมที่ถูกต้องเพื่อนำไปใช้กับอินพุตทดสอบเพิ่มเติม ผลลัพธ์นี้มาจากชุดประเมินสาธารณะและยังไม่ใช่ผลที่ผ่านการตรวจยืนยัน แต่ก็น่าคาดหวัง ขอแสดงความยินดีและขอบคุณ Ryan สำหรับความพยายามนี้
คำวิจารณ์ต่อบทความ: บทความสรุปข้ามไปว่า "ปัจจุบัน LLM สามารถทำ ARC-AGI ได้ค่อนข้างดี" ทั้งที่จริงใช้ลูกเล่นแบบทำด้วยมือหลายอย่างเพื่อให้ได้ผลลัพธ์ การโจมตี Francois Chollet เป็นสิ่งที่เป็นโทษต่อชุมชน
ความเห็นเกี่ยวกับ GPT-4: GPT-4 เป็น AGI ที่ไม่ดีนัก และแม้แต่ GPT-1 ก็เป็น AGI เช่นกัน เช่นเดียวกับที่สติปัญญาของมนุษย์ค่อย ๆ พัฒนา GPT-4 ก็อาจมองได้ว่าเป็นสมองขนาดเล็กที่เชี่ยวชาญด้านการคิดผ่านข้อความ การอ้างว่า ARC เป็นเกณฑ์สัมบูรณ์ของปัญญาทั่วไปนั้นทำให้มองข้ามภาพใหญ่ของสติปัญญา
ความพยายามช่วงแรกของ GPT-4: GPT-4 เคยทำผลงานกับปริศนาได้ "พอใช้" แต่มีกรณีที่ล้มเหลวในส่วนที่เป็นตรรกะ องค์ประกอบด้านการมองเห็นเชิงพื้นที่มีความสำคัญ และอาจจำเป็นต้องใช้โมเดลหลายโมดัล การสุ่มสร้างโซลูชัน Python เป็นแนวทางที่ "ไม่เหมือนมนุษย์"
ความหมายของการปรับแต่ง LLM: หลายคนมองว่าการปรับแต่ง LLM เพื่อให้ผ่านการทดสอบ AGI ทำให้จุดประสงค์ของการทดสอบ AGI หมดความหมาย อย่างไรก็ตาม การค้นหาว่าการปรับแบบใดได้ผลก็มีประโยชน์ ปัญหาส่วนใหญ่ท้ายที่สุดแล้วลงเอยที่การจับคู่แพตเทิร์น
ประเด็นสำคัญ:
ข้อบกพร่องของ ARC-AGI: ARC-AGI ดูเหมือนจะมีข้อบกพร่อง สิ่งที่อธิบายได้ด้วย AGI ก็อาจอธิบายได้ด้วยการมีอยู่ในชุดฝึกเช่นกัน
ระบบ 2 และ AGI: การสร้างและประเมินโปรแกรมจำนวนมากอาจทำหน้าที่เป็นระบบ 2 ของ AGI ได้ ซึ่งคล้ายกับวิธีที่มนุษย์ใช้คิดอย่างมีสติปัญญา
ความสำคัญของความเข้าใจทางกายภาพ: ความท้าทายนี้พึ่งพาความเข้าใจทางกายภาพ การรับรู้เชิงพื้นที่ และขอบเขตของวัตถุอย่างมาก การระบุวัตถุและแมปการแปลงหรือความสัมพันธ์เป็นสิ่งสำคัญ และอาจแก้ได้ด้วยการผสานการค้นหาโปรแกรมเข้ากับ LLM
ความสามารถในการวางแผนของ GPT-4: GPT-4 สามารถสร้างแผนที่คล้ายกับที่อธิบายในบทความได้ ซึ่งรวมถึงการดึงคุณลักษณะ การสังเคราะห์โปรแกรม และการปรับปรุงแบบวนซ้ำ แต่ยังมีจุดอ่อนด้านการเขียนโค้ดและอินพุตภาพ