- ARC-AGI-3 คือ เบนช์มาร์กการให้เหตุผลแบบโต้ตอบตัวแรกสำหรับวัดสติปัญญาระดับมนุษย์ของ AI เอเจนต์ โดยประเมินความสามารถในการสำรวจสภาพแวดล้อมและการเรียนรู้แบบปรับตัว
- งานทุกชิ้นถูกออกแบบเป็น สภาพแวดล้อมที่มนุษย์สามารถแก้ได้ และวัด ประสิทธิภาพในการเรียนรู้ทักษะตามเวลาและความสามารถในการวางแผนระยะยาว
- มีการให้ เป้าหมายและฟีดแบ็กที่ชัดเจนโดยไม่ต้องมีความรู้ล่วงหน้า พร้อมคงไว้ซึ่ง โครงสร้างงานที่แปลกใหม่ เพื่อป้องกันการใช้วิธีแบบท่องจำ
- สามารถตรวจสอบพฤติกรรมและกระบวนการให้เหตุผลของเอเจนต์ได้อย่างโปร่งใสผ่าน การแสดงภาพรีเพลย์ ชุดเครื่องมือสำหรับนักพัฒนา และ UI สำหรับการประเมินผล
- รองรับ การเข้าร่วมการแข่งขัน ARC Prize 2026 และการทดสอบเอเจนต์ ผ่านชุดเกมสาธารณะ เอกสาร SDK และช่องทางคอมมูนิตี้
ภาพรวมของ ARC-AGI-3
- ARC-AGI-3 ถูกออกแบบมาเป็น เบนช์มาร์กการให้เหตุผลแบบโต้ตอบสำหรับวัดสติปัญญาระดับมนุษย์ของ AI เอเจนต์
- ประเมินความสามารถของเอเจนต์ในการสำรวจสภาพแวดล้อมใหม่ ทำความเข้าใจเป้าหมาย สร้าง world model ที่ปรับตัวได้ และเรียนรู้อย่างต่อเนื่อง
- คะแนน 100% หมายความว่า AI สามารถแก้ทุกเกมได้อย่างมีประสิทธิภาพเทียบเท่ามนุษย์
- ไม่ใช่การแก้ปริศนาแบบคงที่ แต่ต้องเรียนรู้ผ่านประสบการณ์ภายในสภาพแวดล้อมและปรับกลยุทธ์
- ต้องทำ การรับรู้ การเลือกการกระทำ และการปรับกลยุทธ์ โดยไม่มีคำสั่งภาษาธรรมชาติ
ฟีเจอร์หลัก
- มีทั้ง รัน (run) ที่เล่นซ้ำได้, ชุดเครื่องมือสำหรับนักพัฒนาเพื่อการรวมเอเจนต์, และ UI สำหรับการประเมินผลที่โปร่งใส
-
รีเพลย์และการประเมินผล
- แสดงพฤติกรรมของเอเจนต์ในรูปแบบ รีเพลย์ เพื่อให้ติดตามกระบวนการตัดสินใจ การกระทำ และการให้เหตุผลตามลำดับเวลาได้
- มี ตัวอย่างรีเพลย์
-
เครื่องมือและ UI
- สามารถ รวมเอเจนต์ผ่าน ARC-AGI-3 toolkit และทดสอบกับทำซ้ำได้ผ่าน UI แบบอินเทอร์แอ็กทีฟ
- สามารถลองใช้งานได้โดยตรงผ่านลิงก์ Play and test
-
เอกสาร
- มีเอกสารที่จำเป็นต่อการสร้างเอเจนต์ เช่น การตั้งค่าสภาพแวดล้อม วิธีใช้ API และคู่มือการรวมระบบ
- เข้าถึงได้จาก หน้ารวมเอกสาร
แหล่งข้อมูลที่เกี่ยวข้องและคอมมูนิตี้
- Public Game Set: ชุดเกมสาธารณะ
- Docs + SDK: เอกสารสำหรับนักพัฒนาและ SDK
- ARC Prize 2026 Track: แทร็กการแข่งขันปี 2026
- Technical Paper: รายงานทางเทคนิค
- ผู้เข้าร่วมสามารถเลือกสภาพแวดล้อมเกมที่หลากหลาย (ar25, bp35, ls20 เป็นต้น) เพื่อ ทดสอบเอเจนต์ของตนเอง ได้
- มีช่องทางคอมมูนิตี้อย่างเป็นทางการบน Discord, Twitter, YouTube, GitHub
- สามารถติดตามการแข่งขันอย่างเป็นทางการและข่าวอัปเดตได้ผ่าน ARC Prize 2026
1 ความคิดเห็น
ความเห็นจาก Hacker News
เมื่อดู ทวีตของ scaling01 จะเห็นว่ามีการชี้ปัญหาเกี่ยวกับ วิธีประเมินผลหลายอย่าง ของ ARC-AGI-3
เกณฑ์อ้างอิงของมนุษย์ถูกกำหนดเป็น ‘มนุษย์ที่เร็วเป็นอันดับสอง’ และคะแนนก็ไม่ได้คำนวณจากอัตราความสำเร็จอย่างเดียว แต่คำนวณจาก ค่าประสิทธิภาพยกกำลังสอง
กล่าวคือ ถ้ามนุษย์แก้ปัญหาได้ใน 10 ขั้นตอน แต่โมเดลใช้ 100 ขั้นตอน ก็จะได้เพียง 1% ของคะแนน
อีกทั้ง 100% หมายถึงแค่แก้ผ่านได้ทุกเลเวล ไม่ได้หมายความว่าอยู่ในระดับมนุษย์
การออกแบบแบบนี้ทำให้ต่อให้โมเดลอยู่ระดับมนุษย์ก็ไม่ได้ 100%
พรอมป์ต์เรียบง่าย และโมเดลก็ไม่สามารถใช้จำนวนสเต็ปได้มากกว่ามนุษย์เกิน 5 เท่า
การให้น้ำหนักกับเลเวลช่วงท้ายมากกว่า ก็เพื่อพยายามตรวจจับ การเรียนรู้อย่างต่อเนื่อง
พอเห็นคำกล่าวว่า “ตราบใดที่ยังมีช่องว่างระหว่างการเรียนรู้ของ AI กับมนุษย์ ก็ยังไม่ใช่ AGI” ก็ทำให้นึกถึงอุปมาในยุค Deep Blue ช่วงทศวรรษ 90
คล้ายกับประโยคที่ว่า “เครื่องบินไม่ได้บินโดยกระพือปีกเหมือนนก แต่ก็ไม่ได้แปลว่ามันบินไม่ได้” กล่าวคือ การเรียนรู้ต่างจากมนุษย์ไม่ได้หมายความว่า จะปฏิเสธความเป็นปัญญาได้
คิดว่าแนวทางของ ARC เป็น วิธีประเมิน AGI ที่ยอดเยี่ยมมาก
โครงสร้างเรียบง่าย คือให้ข้อมูลนำเข้าแบบเดียวกันกับทั้งมนุษย์และ AI แล้วเปรียบเทียบผลลัพธ์
คำว่า ‘General’ คือหัวใจสำคัญ และ ARC ก็เป็นความพยายามที่จะวัด ความเป็นทั่วไป นั้นโดยตรง
ว่า AI มีประโยชน์หรือไม่เป็นเรื่องรอง แบบทดสอบนี้เป็นความพยายามที่น่าเชื่อถือที่สุดเท่าที่เคยมีมา
อีกทั้งถ้าลองถาม AI ในเรื่องที่เป็นความเชี่ยวชาญของตัวเอง ก็มักเห็นว่ามันตอบผิดได้บ่อย เรามีแนวโน้มจะ สับสนระหว่างความรู้กับความฉลาด
เวลาเห็นเบนช์มาร์กแบบนี้ สิ่งที่สงสัยคือจะมีวิธีไหน กันไม่ให้ OpenAI จ้างคนมาสร้างชุดข้อมูล หรือไม่
พอลองเล่นหลายเลเวลด้วยตัวเอง ก็ยิ่งมั่นใจว่าฉัน ไม่ใช่ AGI แน่ ๆ
ฉันค่อนข้างสงสัยอยู่บ้าง
คนที่คุ้นกับเกมน่าจะผ่านได้ 100% แต่ คุณย่าที่เพิ่งใช้คอมพิวเตอร์ครั้งแรก คงล้มเหลวทั้งหมด LLM ก็เช่นกัน
สุดท้ายโมเดลที่ฝึกด้วยข้อมูลเกมลักษณะนี้ก็จะปรับตัวได้ง่าย ซึ่งนั่นไม่ใช่ AGI
ฉันได้เห็นโปรเจกต์นี้ด้วยตัวเองในงานเปิดตัวของ YC และรู้สึก ได้แรงบันดาลใจ มากในรอบนาน
ยังได้ยินมาด้วยว่าคนที่ทดลอง ARC2 ค้นพบวิธีขยับแขนหุ่นยนต์ให้มีประสิทธิภาพมากขึ้น
เท่ากับว่ากระบวนการเพิ่มคะแนนอย่างเดียวก็เชื่อมไปสู่ นวัตกรรมด้านหุ่นยนต์จริง ได้
เขาบอกว่าจะมี ARC-4, 5, 6 ออกมาอีก และต่อไปก็คาดหวังโมเดลที่แก้ปัญหาได้ในสภาวะ zero context
ไม่แน่ใจว่า ARC-AGI เกี่ยวข้องกับ AGI โดยตรงแค่ไหน
ท้ายที่สุดมันก็เป็นเพียงการวัดประสิทธิภาพของ LLM ในเกมประเภทหนึ่ง
ไม่ว่ามนุษย์จะเก่งหรือไม่เก่งเกมนี้ เราก็มีเกมมากมายที่คอมพิวเตอร์เหนือกว่ามนุษย์ไปแล้ว
ดังนั้นประเด็นสำคัญคือ เกมเหล่านี้ เป็นตัวแทนของความฉลาดได้หรือไม่
ฉันเป็น ผู้ทดสอบมนุษย์ ของเกมนี้
ฉันแก้ไป 25 เกมใน 90 นาที และแม้ในคำชี้แจงจะบอกให้ลดจำนวนการกระทำให้น้อยที่สุด แต่ในความเป็นจริงฉันโฟกัสที่การแก้ให้เร็วเพราะมี รางวัลตามความเร็ว ($5/เกม)
ดังนั้นข้อมูลเกณฑ์ของมนุษย์อาจถูกบันทึกว่ามี จำนวนการกระทำมากกว่าความเป็นจริง
สิ่งที่ชอบที่สุดในลีดเดอร์บอร์ด ARC-AGI คือ กราฟประสิทธิภาพต่อค่าใช้จ่าย
ช่วงหลัง ๆ การพัฒนาประสิทธิภาพของ AI ส่วนใหญ่มาพร้อมกับ การใช้พลังงานที่เพิ่มขึ้น สุดท้ายแล้วถ้าใช้ไฟมากขึ้น ก็ได้ผลลัพธ์ที่ดีกว่า