ARC-AGI-3 - เบนช์มาร์กการให้เหตุผลแบบโต้ตอบตัวแรก

(arcprize.org)

1 คะแนน โดย GN⁺ 2026-03-27 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ARC-AGI-3 คือ เบนช์มาร์กการให้เหตุผลแบบโต้ตอบตัวแรกสำหรับวัดสติปัญญาระดับมนุษย์ของ AI เอเจนต์ โดยประเมินความสามารถในการสำรวจสภาพแวดล้อมและการเรียนรู้แบบปรับตัว
งานทุกชิ้นถูกออกแบบเป็น สภาพแวดล้อมที่มนุษย์สามารถแก้ได้ และวัด ประสิทธิภาพในการเรียนรู้ทักษะตามเวลาและความสามารถในการวางแผนระยะยาว
มีการให้ เป้าหมายและฟีดแบ็กที่ชัดเจนโดยไม่ต้องมีความรู้ล่วงหน้า พร้อมคงไว้ซึ่ง โครงสร้างงานที่แปลกใหม่ เพื่อป้องกันการใช้วิธีแบบท่องจำ
สามารถตรวจสอบพฤติกรรมและกระบวนการให้เหตุผลของเอเจนต์ได้อย่างโปร่งใสผ่าน การแสดงภาพรีเพลย์ ชุดเครื่องมือสำหรับนักพัฒนา และ UI สำหรับการประเมินผล
รองรับ การเข้าร่วมการแข่งขัน ARC Prize 2026 และการทดสอบเอเจนต์ ผ่านชุดเกมสาธารณะ เอกสาร SDK และช่องทางคอมมูนิตี้

ภาพรวมของ ARC-AGI-3

ARC-AGI-3 ถูกออกแบบมาเป็น เบนช์มาร์กการให้เหตุผลแบบโต้ตอบสำหรับวัดสติปัญญาระดับมนุษย์ของ AI เอเจนต์
- ประเมินความสามารถของเอเจนต์ในการสำรวจสภาพแวดล้อมใหม่ ทำความเข้าใจเป้าหมาย สร้าง world model ที่ปรับตัวได้ และเรียนรู้อย่างต่อเนื่อง
- คะแนน 100% หมายความว่า AI สามารถแก้ทุกเกมได้อย่างมีประสิทธิภาพเทียบเท่ามนุษย์
- ไม่ใช่การแก้ปริศนาแบบคงที่ แต่ต้องเรียนรู้ผ่านประสบการณ์ภายในสภาพแวดล้อมและปรับกลยุทธ์
- ต้องทำ การรับรู้ การเลือกการกระทำ และการปรับกลยุทธ์ โดยไม่มีคำสั่งภาษาธรรมชาติ

ฟีเจอร์หลัก

มีทั้ง รัน (run) ที่เล่นซ้ำได้, ชุดเครื่องมือสำหรับนักพัฒนาเพื่อการรวมเอเจนต์, และ UI สำหรับการประเมินผลที่โปร่งใส
รีเพลย์และการประเมินผล
- แสดงพฤติกรรมของเอเจนต์ในรูปแบบ รีเพลย์ เพื่อให้ติดตามกระบวนการตัดสินใจ การกระทำ และการให้เหตุผลตามลำดับเวลาได้
- มี ตัวอย่างรีเพลย์
เครื่องมือและ UI
- สามารถ รวมเอเจนต์ผ่าน ARC-AGI-3 toolkit และทดสอบกับทำซ้ำได้ผ่าน UI แบบอินเทอร์แอ็กทีฟ
- สามารถลองใช้งานได้โดยตรงผ่านลิงก์ Play and test
เอกสาร
- มีเอกสารที่จำเป็นต่อการสร้างเอเจนต์ เช่น การตั้งค่าสภาพแวดล้อม วิธีใช้ API และคู่มือการรวมระบบ
- เข้าถึงได้จาก หน้ารวมเอกสาร

แหล่งข้อมูลที่เกี่ยวข้องและคอมมูนิตี้

Public Game Set: ชุดเกมสาธารณะ
Docs + SDK: เอกสารสำหรับนักพัฒนาและ SDK
ARC Prize 2026 Track: แทร็กการแข่งขันปี 2026
Technical Paper: รายงานทางเทคนิค
ผู้เข้าร่วมสามารถเลือกสภาพแวดล้อมเกมที่หลากหลาย (ar25, bp35, ls20 เป็นต้น) เพื่อ ทดสอบเอเจนต์ของตนเอง ได้
มีช่องทางคอมมูนิตี้อย่างเป็นทางการบน Discord, Twitter, YouTube, GitHub
สามารถติดตามการแข่งขันอย่างเป็นทางการและข่าวอัปเดตได้ผ่าน ARC Prize 2026

1 ความคิดเห็น

GN⁺ 2026-03-27

ความเห็นจาก Hacker News

เมื่อดู ทวีตของ scaling01 จะเห็นว่ามีการชี้ปัญหาเกี่ยวกับ วิธีประเมินผลหลายอย่าง ของ ARC-AGI-3
เกณฑ์อ้างอิงของมนุษย์ถูกกำหนดเป็น ‘มนุษย์ที่เร็วเป็นอันดับสอง’ และคะแนนก็ไม่ได้คำนวณจากอัตราความสำเร็จอย่างเดียว แต่คำนวณจาก ค่าประสิทธิภาพยกกำลังสอง
กล่าวคือ ถ้ามนุษย์แก้ปัญหาได้ใน 10 ขั้นตอน แต่โมเดลใช้ 100 ขั้นตอน ก็จะได้เพียง 1% ของคะแนน
อีกทั้ง 100% หมายถึงแค่แก้ผ่านได้ทุกเลเวล ไม่ได้หมายความว่าอยู่ในระดับมนุษย์
การออกแบบแบบนี้ทำให้ต่อให้โมเดลอยู่ระดับมนุษย์ก็ไม่ได้ 100%
พรอมป์ต์เรียบง่าย และโมเดลก็ไม่สามารถใช้จำนวนสเต็ปได้มากกว่ามนุษย์เกิน 5 เท่า
การให้น้ำหนักกับเลเวลช่วงท้ายมากกว่า ก็เพื่อพยายามตรวจจับ การเรียนรู้อย่างต่อเนื่อง
- แทนที่จะเป็นปัญหา กลับรู้สึกว่านี่คือ แนวทางที่ถูกต้อง มากกว่า ทำให้มุมมองต่อ ARC-AGI ดีขึ้นด้วยซ้ำ
- ที่พรอมป์ต์เรียบง่ายเป็นเรื่องที่ควรไปแก้ในแข่งขัน Kaggle ถ้าเชื่อม LLM รุ่นล่าสุดเข้าไป ก็น่าจะทำได้ดีกว่าผู้เข้าแข่งที่มีข้อจำกัดด้าน GPU มาก
- การนิยามเกณฑ์มนุษย์เดิมทีก็ เป็นเรื่องตามอำเภอใจ อยู่แล้ว ยังไงเสีย ‘มนุษย์โดยเฉลี่ย’ ก็อาจไม่รู้หนังสือหรือเสียชีวิตไปแล้ว
- จริง ๆ แล้วการออกแบบแบบนี้สมเหตุสมผล การทำผลงานให้เหนือกว่าคนส่วนใหญ่จนอยู่ระดับบน 80% นั้นง่าย และแม้แต่เกิน 95% ก็ยังทำได้ถ้ามี แรงจูงใจ
- กลับกัน วิธีนี้ทำให้เกิด บททดสอบที่ยากกว่าเดิมมาก สำหรับ LLM จนคะแนนปัจจุบันดูน่าประทับใจยิ่งขึ้น
พอเห็นคำกล่าวว่า “ตราบใดที่ยังมีช่องว่างระหว่างการเรียนรู้ของ AI กับมนุษย์ ก็ยังไม่ใช่ AGI” ก็ทำให้นึกถึงอุปมาในยุค Deep Blue ช่วงทศวรรษ 90
คล้ายกับประโยคที่ว่า “เครื่องบินไม่ได้บินโดยกระพือปีกเหมือนนก แต่ก็ไม่ได้แปลว่ามันบินไม่ได้” กล่าวคือ การเรียนรู้ต่างจากมนุษย์ไม่ได้หมายความว่า จะปฏิเสธความเป็นปัญญาได้
- ช่องว่างนี้ไม่ใช่แค่ประเด็นเชิงปรัชญา แต่เป็นเรื่องของ ผลกระทบทางเศรษฐกิจ ถ้าช่องว่างเป็นศูนย์ แรงงานความรู้ของมนุษย์จะถูกแทนที่ทั้งหมด ต่อให้ยังไม่มี AGI สมบูรณ์ เศรษฐกิจก็อาจพังได้
- ทำให้นึกถึงงานเขียนของ Dijkstra (EWD867) ที่เปรียบว่า “คอมพิวเตอร์คิดได้ไหม?” เป็นคำถามที่ไร้สาระพอ ๆ กับ “เรือดำน้ำว่ายน้ำได้ไหม?”
- ‘G’ ใน AGI หมายถึง General แต่มนุษย์เองก็ไม่ได้เป็นแบบทั่วไปครอบจักรวาล เครื่องบินอาจไม่ได้รอบด้านกว่านก แต่ก็ขยายขอบเขตการเคลื่อนที่ได้
- สำหรับฉัน การถกเถียงเรื่อง AGI จบไปแล้ว เครื่องมือทุกวันนี้ก็ มีประโยชน์ มากพออยู่แล้ว และยังเริ่มเห็นสัญญาณของ ASI (ปัญญาที่พัฒนาตัวเองได้) แล้วด้วย การแข่งขัน ARC-AGI เป็นแค่การทดลองที่น่าสนใจเพื่อวัดสถานะปัจจุบัน
- ปัญญาไม่ได้มีแค่รูปแบบมนุษย์ สิ่งสำคัญคือ ความมีประโยชน์ของผลลัพธ์ ส่วนเรื่องมีสติสัมปชัญญะหรือไม่เป็นประเด็นทางศีลธรรม ซึ่งพิสูจน์ไม่ได้ จึงควรตั้งสมมติฐานไว้ก่อนว่ามันมี
คิดว่าแนวทางของ ARC เป็น วิธีประเมิน AGI ที่ยอดเยี่ยมมาก
โครงสร้างเรียบง่าย คือให้ข้อมูลนำเข้าแบบเดียวกันกับทั้งมนุษย์และ AI แล้วเปรียบเทียบผลลัพธ์
คำว่า ‘General’ คือหัวใจสำคัญ และ ARC ก็เป็นความพยายามที่จะวัด ความเป็นทั่วไป นั้นโดยตรง
ว่า AI มีประโยชน์หรือไม่เป็นเรื่องรอง แบบทดสอบนี้เป็นความพยายามที่น่าเชื่อถือที่สุดเท่าที่เคยมีมา
อีกทั้งถ้าลองถาม AI ในเรื่องที่เป็นความเชี่ยวชาญของตัวเอง ก็มักเห็นว่ามันตอบผิดได้บ่อย เรามีแนวโน้มจะ สับสนระหว่างความรู้กับความฉลาด
- คิดว่าคำว่า ‘General’ นี่แหละที่ไม่ถูกต้อง มนุษย์เองก็ไม่ได้รอบด้าน และมี ความสามารถที่ไม่สม่ำเสมอ กันไป ตอนนี้ LLM ก็เหนือกว่ามนุษย์ในด้านภาษาแล้ว
- แบบทดสอบนี้เป็นเกมที่ต้องใช้การรับรู้ทางภาพ จึงคล้ายกับ ให้คนตาบอดไปสอบใบขับขี่ ถ้าแปลงเกมนี้เป็นข้อความ LLM อาจทำได้ดีกว่ามนุษย์ก็ได้
- ARC-AGI รุ่นก่อนหน้านี้คล้ายแบบทดสอบ IQ แต่เวอร์ชันนี้ง่ายเกินไป ที่ LLM ยังแก้ไม่ได้อาจเป็นเพราะรูปแบบอินพุตไม่ตรงกัน แค่ฝึกกับเกมแบบข้อความก็น่าจะแก้ได้ในไม่ช้า
เวลาเห็นเบนช์มาร์กแบบนี้ สิ่งที่สงสัยคือจะมีวิธีไหน กันไม่ให้ OpenAI จ้างคนมาสร้างชุดข้อมูล หรือไม่
- แต่คำถามสำคัญไม่ใช่เรื่องนั้น คำถามคือ “โมเดล ทำให้เป็นทั่วไปได้หรือไม่” ต่างหาก ดูเหมือน ARC-AGI ถูกออกแบบมาเพื่อประเมินการแก้ปัญหาเชิงภาพที่มีบริบทยาวและ ความเป็นเอเจนต์
พอลองเล่นหลายเลเวลด้วยตัวเอง ก็ยิ่งมั่นใจว่าฉัน ไม่ใช่ AGI แน่ ๆ
- คงต้องเรียกว่า NGI หรือ Natural General Intelligence แทน
- แต่ AI เข้าถึงอินเทอร์เน็ตทั้งโลกได้ ไม่มีข้อจำกัดเวลา และก็ไม่ต้องอายถ้าส่งคำตอบผิดเป็นจำนวนมาก เงื่อนไขแบบนี้ต่างจากการทดสอบมนุษย์โดยสิ้นเชิง
- ยังมีมุกว่า “ขอบคุณที่ลดเกณฑ์ AGI ลงมาให้”
ฉันค่อนข้างสงสัยอยู่บ้าง
คนที่คุ้นกับเกมน่าจะผ่านได้ 100% แต่ คุณย่าที่เพิ่งใช้คอมพิวเตอร์ครั้งแรก คงล้มเหลวทั้งหมด LLM ก็เช่นกัน
สุดท้ายโมเดลที่ฝึกด้วยข้อมูลเกมลักษณะนี้ก็จะปรับตัวได้ง่าย ซึ่งนั่นไม่ใช่ AGI
- แต่มนุษย์เองก็เก่งเกมขึ้นได้ผ่านการเรียนรู้ ดังนั้นถ้าไม่อนุญาตให้มี การเรียนรู้ออนไลน์ แบบทดสอบนี้ก็ไม่สะท้อนการเรียนรู้แบบมนุษย์
- ฉันเองในฐานะเกมเมอร์มา 40 ปี มองว่าปริศนาแบบนี้ง่ายเกินไป แค่จับกฎได้ก็แก้ได้ทันที ปัญหาแนวนี้เป็น ขอบเขตความเชี่ยวชาญ ของฉัน
ฉันได้เห็นโปรเจกต์นี้ด้วยตัวเองในงานเปิดตัวของ YC และรู้สึก ได้แรงบันดาลใจ มากในรอบนาน
ยังได้ยินมาด้วยว่าคนที่ทดลอง ARC2 ค้นพบวิธีขยับแขนหุ่นยนต์ให้มีประสิทธิภาพมากขึ้น
เท่ากับว่ากระบวนการเพิ่มคะแนนอย่างเดียวก็เชื่อมไปสู่ นวัตกรรมด้านหุ่นยนต์จริง ได้
เขาบอกว่าจะมี ARC-4, 5, 6 ออกมาอีก และต่อไปก็คาดหวังโมเดลที่แก้ปัญหาได้ในสภาวะ zero context
- แต่การขยายแบบนี้ก็ดูคล้าย การเลื่อนเส้นชัยไปเรื่อย ๆ (goalpost moving) อยู่เหมือนกัน
ไม่แน่ใจว่า ARC-AGI เกี่ยวข้องกับ AGI โดยตรงแค่ไหน
ท้ายที่สุดมันก็เป็นเพียงการวัดประสิทธิภาพของ LLM ในเกมประเภทหนึ่ง
ไม่ว่ามนุษย์จะเก่งหรือไม่เก่งเกมนี้ เราก็มีเกมมากมายที่คอมพิวเตอร์เหนือกว่ามนุษย์ไปแล้ว
ดังนั้นประเด็นสำคัญคือ เกมเหล่านี้ เป็นตัวแทนของความฉลาดได้หรือไม่
- ผู้สร้าง ARC-AGI อย่าง Chollet นิยามความฉลาดว่า “ทำงานได้ดีแค่ไหนในสถานการณ์ที่ไม่เคยเจอมาก่อน” และ ARC-AGI ก็วัดความสามารถนั้นโดยตรง
- แต่ ‘AGI’ ก็ใกล้เคียงกับ คำทางการตลาด มากกว่า และเบนช์มาร์กแบบนี้ก็ดูเหมือนทำเพื่อการประชาสัมพันธ์มากกว่าประสิทธิภาพการทำงานจริง
ฉันเป็น ผู้ทดสอบมนุษย์ ของเกมนี้
ฉันแก้ไป 25 เกมใน 90 นาที และแม้ในคำชี้แจงจะบอกให้ลดจำนวนการกระทำให้น้อยที่สุด แต่ในความเป็นจริงฉันโฟกัสที่การแก้ให้เร็วเพราะมี รางวัลตามความเร็ว ($5/เกม)
ดังนั้นข้อมูลเกณฑ์ของมนุษย์อาจถูกบันทึกว่ามี จำนวนการกระทำมากกว่าความเป็นจริง
สิ่งที่ชอบที่สุดในลีดเดอร์บอร์ด ARC-AGI คือ กราฟประสิทธิภาพต่อค่าใช้จ่าย
ช่วงหลัง ๆ การพัฒนาประสิทธิภาพของ AI ส่วนใหญ่มาพร้อมกับ การใช้พลังงานที่เพิ่มขึ้น สุดท้ายแล้วถ้าใช้ไฟมากขึ้น ก็ได้ผลลัพธ์ที่ดีกว่า

ARC-AGI-3 - เบนช์มาร์กการให้เหตุผลแบบโต้ตอบตัวแรก

ภาพรวมของ ARC-AGI-3

ฟีเจอร์หลัก

รีเพลย์และการประเมินผล

เครื่องมือและ UI

เอกสาร

แหล่งข้อมูลที่เกี่ยวข้องและคอมมูนิตี้

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News