1 คะแนน โดย GN⁺ 2024-06-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ทำความแม่นยำได้ 50% บน ARC-AGI ด้วย GPT-4

ARC-AGI คืออะไร?

  • ARC-AGI เป็นชุดข้อมูลที่สร้างขึ้นเพื่อประเมินความสามารถในการให้เหตุผลทั่วไปของ AI
  • ประกอบด้วยโจทย์ที่ต้องอนุมานกฎการแปลงจากตัวอย่างอินพุต-เอาต์พุตในรูปแบบกริด (grid) ที่ประกอบด้วยเซลล์สี
  • มนุษย์มีความแม่นยำเฉลี่ย 85% บนชุดฝึก แต่ชุดทดสอบยากกว่ามาก

วิธีการของฉัน

  • ใช้ GPT-4 เพื่อสร้างโปรแกรม Python ราว 8,000 โปรแกรมต่อโจทย์ แล้วเลือกโปรแกรมที่ให้ผลลัพธ์ถูกต้อง
  • ปรับปรุงประสิทธิภาพได้อย่างมากด้วยแนวทางและการปรับแต่งเพิ่มเติมหลายอย่าง:
    • Few-shot prompts: ใช้พรอมป์ต์สำหรับการให้เหตุผลแบบเป็นขั้นตอน
    • การแก้โค้ด: ให้ GPT-4 แก้ไขบางส่วนของการ implement โดยดูจากผลลัพธ์เอาต์พุตตัวอย่าง
    • Feature engineering: ให้โมเดลเห็นการแทนกริดที่ดีกว่าเดิม
    • พรอมป์ต์เฉพาะทาง: ใช้พรอมป์ต์ต่างกันตามกรณีที่ขนาดกริดเปลี่ยนหรือไม่เปลี่ยน

ผลของการเพิ่มจำนวนการสุ่มตัวอย่าง

  • ประสิทธิภาพดีขึ้นเมื่อจำนวนตัวอย่างเพิ่มขึ้น
  • ตัวอย่างเช่น ทำความแม่นยำได้ 25% ด้วยตัวอย่าง 1024 ชุด แต่ทำได้ 34% ด้วยตัวอย่าง 2048 ชุด

ผลของพรอมป์ต์ที่ดีขึ้นและการแก้โค้ด

  • การปรับปรุงพรอมป์ต์และขั้นตอนการแก้โค้ดมีความสำคัญต่อการเพิ่มความแม่นยำ
  • ในเวอร์ชันสุดท้าย สามารถทำความแม่นยำได้ 50%

ข้อจำกัดและการคาดการณ์

  • ความสามารถด้านการรับรู้ภาพและการเขียนโค้ดของ GPT-4 ยังมีข้อจำกัด
  • ยังต้องการการสุ่มตัวอย่างที่มากขึ้นและพรอมป์ต์ที่ดีกว่าเดิม
  • มีความเป็นไปได้สูงว่า LLM รุ่นถัดไปจะยกระดับประสิทธิภาพบน ARC-AGI ได้อย่างมาก

ความเห็นของ GN⁺

  • ความสามารถด้านการรับรู้ภาพ: ความสามารถด้านการรับรู้ภาพของ GPT-4 ยังมีข้อจำกัด จึงจำเป็นต้องมีโมเดลการรับรู้ภาพที่ดีกว่า
  • ความสามารถด้านการเขียนโค้ด: GPT-4 มักทำผิดพลาดง่าย ๆ ในการเขียนโค้ดบ่อยครั้ง จึงต้องการเครื่องมือดีบักที่ดีกว่าเพื่อปรับปรุงจุดนี้
  • ต้นทุนของการสุ่มตัวอย่าง: การต้องสุ่มตัวอย่างจำนวนมากอาจมีค่าใช้จ่ายสูง จึงต้องการวิธีการสุ่มตัวอย่างที่มีประสิทธิภาพกว่า
  • ศักยภาพในอนาคต: มีความเป็นไปได้สูงว่า LLM รุ่นถัดไปจะยกระดับประสิทธิภาพบน ARC-AGI ได้อย่างมาก และอาจกลายเป็นเกณฑ์สำคัญในการประเมินความสามารถในการให้เหตุผลทั่วไปของ AI
  • การประยุกต์ใช้จริง: ยังต้องมีการวิจัยว่าความสามารถในการแก้ปัญหาแบบ ARC-AGI สามารถนำไปใช้ในงานจริงได้อย่างไร

1 ความคิดเห็น

 
GN⁺ 2024-06-19
ความคิดเห็นบน Hacker News
  • ผู้ร่วมก่อตั้ง ARC Prize: งานวิจัยของ Ryan น่าสนใจและเป็นงานวิจัยใหม่ด้าน "การให้เหตุผลของ LLM" โดยใช้ GPT-4o สร้างโปรแกรม Python 8,000 โปรแกรม แล้วเลือกโปรแกรมที่ถูกต้องเพื่อนำไปใช้กับอินพุตทดสอบเพิ่มเติม ผลลัพธ์นี้มาจากชุดประเมินสาธารณะและยังไม่ใช่ผลที่ผ่านการตรวจยืนยัน แต่ก็น่าคาดหวัง ขอแสดงความยินดีและขอบคุณ Ryan สำหรับความพยายามนี้

  • คำวิจารณ์ต่อบทความ: บทความสรุปข้ามไปว่า "ปัจจุบัน LLM สามารถทำ ARC-AGI ได้ค่อนข้างดี" ทั้งที่จริงใช้ลูกเล่นแบบทำด้วยมือหลายอย่างเพื่อให้ได้ผลลัพธ์ การโจมตี Francois Chollet เป็นสิ่งที่เป็นโทษต่อชุมชน

  • ความเห็นเกี่ยวกับ GPT-4: GPT-4 เป็น AGI ที่ไม่ดีนัก และแม้แต่ GPT-1 ก็เป็น AGI เช่นกัน เช่นเดียวกับที่สติปัญญาของมนุษย์ค่อย ๆ พัฒนา GPT-4 ก็อาจมองได้ว่าเป็นสมองขนาดเล็กที่เชี่ยวชาญด้านการคิดผ่านข้อความ การอ้างว่า ARC เป็นเกณฑ์สัมบูรณ์ของปัญญาทั่วไปนั้นทำให้มองข้ามภาพใหญ่ของสติปัญญา

  • ความพยายามช่วงแรกของ GPT-4: GPT-4 เคยทำผลงานกับปริศนาได้ "พอใช้" แต่มีกรณีที่ล้มเหลวในส่วนที่เป็นตรรกะ องค์ประกอบด้านการมองเห็นเชิงพื้นที่มีความสำคัญ และอาจจำเป็นต้องใช้โมเดลหลายโมดัล การสุ่มสร้างโซลูชัน Python เป็นแนวทางที่ "ไม่เหมือนมนุษย์"

  • ความหมายของการปรับแต่ง LLM: หลายคนมองว่าการปรับแต่ง LLM เพื่อให้ผ่านการทดสอบ AGI ทำให้จุดประสงค์ของการทดสอบ AGI หมดความหมาย อย่างไรก็ตาม การค้นหาว่าการปรับแบบใดได้ผลก็มีประโยชน์ ปัญหาส่วนใหญ่ท้ายที่สุดแล้วลงเอยที่การจับคู่แพตเทิร์น

  • ประเด็นสำคัญ:

    • งานส่วนใหญ่ถูกทำด้วยการค้นหา
    • การมีตัวอย่างมากขึ้นช่วยเพิ่มประสิทธิภาพ
    • LLM สร้างโปรแกรมที่ดีกว่าโปรแกรมแบบสุ่ม
    • ยังไม่มีความมั่นใจว่า GPT-4 จะแก้ปริศนา ARC ได้จริงหรือไม่
  • ข้อบกพร่องของ ARC-AGI: ARC-AGI ดูเหมือนจะมีข้อบกพร่อง สิ่งที่อธิบายได้ด้วย AGI ก็อาจอธิบายได้ด้วยการมีอยู่ในชุดฝึกเช่นกัน

  • ระบบ 2 และ AGI: การสร้างและประเมินโปรแกรมจำนวนมากอาจทำหน้าที่เป็นระบบ 2 ของ AGI ได้ ซึ่งคล้ายกับวิธีที่มนุษย์ใช้คิดอย่างมีสติปัญญา

  • ความสำคัญของความเข้าใจทางกายภาพ: ความท้าทายนี้พึ่งพาความเข้าใจทางกายภาพ การรับรู้เชิงพื้นที่ และขอบเขตของวัตถุอย่างมาก การระบุวัตถุและแมปการแปลงหรือความสัมพันธ์เป็นสิ่งสำคัญ และอาจแก้ได้ด้วยการผสานการค้นหาโปรแกรมเข้ากับ LLM

  • ความสามารถในการวางแผนของ GPT-4: GPT-4 สามารถสร้างแผนที่คล้ายกับที่อธิบายในบทความได้ ซึ่งรวมถึงการดึงคุณลักษณะ การสังเคราะห์โปรแกรม และการปรับปรุงแบบวนซ้ำ แต่ยังมีจุดอ่อนด้านการเขียนโค้ดและอินพุตภาพ