1 คะแนน โดย GN⁺ 2026-03-27 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ARC-AGI-3 คือ เบนช์มาร์กการให้เหตุผลแบบโต้ตอบตัวแรกสำหรับวัดสติปัญญาระดับมนุษย์ของ AI เอเจนต์ โดยประเมินความสามารถในการสำรวจสภาพแวดล้อมและการเรียนรู้แบบปรับตัว
  • งานทุกชิ้นถูกออกแบบเป็น สภาพแวดล้อมที่มนุษย์สามารถแก้ได้ และวัด ประสิทธิภาพในการเรียนรู้ทักษะตามเวลาและความสามารถในการวางแผนระยะยาว
  • มีการให้ เป้าหมายและฟีดแบ็กที่ชัดเจนโดยไม่ต้องมีความรู้ล่วงหน้า พร้อมคงไว้ซึ่ง โครงสร้างงานที่แปลกใหม่ เพื่อป้องกันการใช้วิธีแบบท่องจำ
  • สามารถตรวจสอบพฤติกรรมและกระบวนการให้เหตุผลของเอเจนต์ได้อย่างโปร่งใสผ่าน การแสดงภาพรีเพลย์ ชุดเครื่องมือสำหรับนักพัฒนา และ UI สำหรับการประเมินผล
  • รองรับ การเข้าร่วมการแข่งขัน ARC Prize 2026 และการทดสอบเอเจนต์ ผ่านชุดเกมสาธารณะ เอกสาร SDK และช่องทางคอมมูนิตี้

ภาพรวมของ ARC-AGI-3

  • ARC-AGI-3 ถูกออกแบบมาเป็น เบนช์มาร์กการให้เหตุผลแบบโต้ตอบสำหรับวัดสติปัญญาระดับมนุษย์ของ AI เอเจนต์
    • ประเมินความสามารถของเอเจนต์ในการสำรวจสภาพแวดล้อมใหม่ ทำความเข้าใจเป้าหมาย สร้าง world model ที่ปรับตัวได้ และเรียนรู้อย่างต่อเนื่อง
    • คะแนน 100% หมายความว่า AI สามารถแก้ทุกเกมได้อย่างมีประสิทธิภาพเทียบเท่ามนุษย์
    • ไม่ใช่การแก้ปริศนาแบบคงที่ แต่ต้องเรียนรู้ผ่านประสบการณ์ภายในสภาพแวดล้อมและปรับกลยุทธ์
    • ต้องทำ การรับรู้ การเลือกการกระทำ และการปรับกลยุทธ์ โดยไม่มีคำสั่งภาษาธรรมชาติ

ฟีเจอร์หลัก

  • มีทั้ง รัน (run) ที่เล่นซ้ำได้, ชุดเครื่องมือสำหรับนักพัฒนาเพื่อการรวมเอเจนต์, และ UI สำหรับการประเมินผลที่โปร่งใส
  • รีเพลย์และการประเมินผล

    • แสดงพฤติกรรมของเอเจนต์ในรูปแบบ รีเพลย์ เพื่อให้ติดตามกระบวนการตัดสินใจ การกระทำ และการให้เหตุผลตามลำดับเวลาได้
    • มี ตัวอย่างรีเพลย์
  • เครื่องมือและ UI

    • สามารถ รวมเอเจนต์ผ่าน ARC-AGI-3 toolkit และทดสอบกับทำซ้ำได้ผ่าน UI แบบอินเทอร์แอ็กทีฟ
    • สามารถลองใช้งานได้โดยตรงผ่านลิงก์ Play and test
  • เอกสาร

    • มีเอกสารที่จำเป็นต่อการสร้างเอเจนต์ เช่น การตั้งค่าสภาพแวดล้อม วิธีใช้ API และคู่มือการรวมระบบ
    • เข้าถึงได้จาก หน้ารวมเอกสาร

แหล่งข้อมูลที่เกี่ยวข้องและคอมมูนิตี้

  • Public Game Set: ชุดเกมสาธารณะ
  • Docs + SDK: เอกสารสำหรับนักพัฒนาและ SDK
  • ARC Prize 2026 Track: แทร็กการแข่งขันปี 2026
  • Technical Paper: รายงานทางเทคนิค
  • ผู้เข้าร่วมสามารถเลือกสภาพแวดล้อมเกมที่หลากหลาย (ar25, bp35, ls20 เป็นต้น) เพื่อ ทดสอบเอเจนต์ของตนเอง ได้
  • มีช่องทางคอมมูนิตี้อย่างเป็นทางการบน Discord, Twitter, YouTube, GitHub
  • สามารถติดตามการแข่งขันอย่างเป็นทางการและข่าวอัปเดตได้ผ่าน ARC Prize 2026

1 ความคิดเห็น

 
GN⁺ 2026-03-27
ความเห็นจาก Hacker News
  • เมื่อดู ทวีตของ scaling01 จะเห็นว่ามีการชี้ปัญหาเกี่ยวกับ วิธีประเมินผลหลายอย่าง ของ ARC-AGI-3
    เกณฑ์อ้างอิงของมนุษย์ถูกกำหนดเป็น ‘มนุษย์ที่เร็วเป็นอันดับสอง’ และคะแนนก็ไม่ได้คำนวณจากอัตราความสำเร็จอย่างเดียว แต่คำนวณจาก ค่าประสิทธิภาพยกกำลังสอง
    กล่าวคือ ถ้ามนุษย์แก้ปัญหาได้ใน 10 ขั้นตอน แต่โมเดลใช้ 100 ขั้นตอน ก็จะได้เพียง 1% ของคะแนน
    อีกทั้ง 100% หมายถึงแค่แก้ผ่านได้ทุกเลเวล ไม่ได้หมายความว่าอยู่ในระดับมนุษย์
    การออกแบบแบบนี้ทำให้ต่อให้โมเดลอยู่ระดับมนุษย์ก็ไม่ได้ 100%
    พรอมป์ต์เรียบง่าย และโมเดลก็ไม่สามารถใช้จำนวนสเต็ปได้มากกว่ามนุษย์เกิน 5 เท่า
    การให้น้ำหนักกับเลเวลช่วงท้ายมากกว่า ก็เพื่อพยายามตรวจจับ การเรียนรู้อย่างต่อเนื่อง

    • แทนที่จะเป็นปัญหา กลับรู้สึกว่านี่คือ แนวทางที่ถูกต้อง มากกว่า ทำให้มุมมองต่อ ARC-AGI ดีขึ้นด้วยซ้ำ
    • ที่พรอมป์ต์เรียบง่ายเป็นเรื่องที่ควรไปแก้ในแข่งขัน Kaggle ถ้าเชื่อม LLM รุ่นล่าสุดเข้าไป ก็น่าจะทำได้ดีกว่าผู้เข้าแข่งที่มีข้อจำกัดด้าน GPU มาก
    • การนิยามเกณฑ์มนุษย์เดิมทีก็ เป็นเรื่องตามอำเภอใจ อยู่แล้ว ยังไงเสีย ‘มนุษย์โดยเฉลี่ย’ ก็อาจไม่รู้หนังสือหรือเสียชีวิตไปแล้ว
    • จริง ๆ แล้วการออกแบบแบบนี้สมเหตุสมผล การทำผลงานให้เหนือกว่าคนส่วนใหญ่จนอยู่ระดับบน 80% นั้นง่าย และแม้แต่เกิน 95% ก็ยังทำได้ถ้ามี แรงจูงใจ
    • กลับกัน วิธีนี้ทำให้เกิด บททดสอบที่ยากกว่าเดิมมาก สำหรับ LLM จนคะแนนปัจจุบันดูน่าประทับใจยิ่งขึ้น
  • พอเห็นคำกล่าวว่า “ตราบใดที่ยังมีช่องว่างระหว่างการเรียนรู้ของ AI กับมนุษย์ ก็ยังไม่ใช่ AGI” ก็ทำให้นึกถึงอุปมาในยุค Deep Blue ช่วงทศวรรษ 90
    คล้ายกับประโยคที่ว่า “เครื่องบินไม่ได้บินโดยกระพือปีกเหมือนนก แต่ก็ไม่ได้แปลว่ามันบินไม่ได้” กล่าวคือ การเรียนรู้ต่างจากมนุษย์ไม่ได้หมายความว่า จะปฏิเสธความเป็นปัญญาได้

    • ช่องว่างนี้ไม่ใช่แค่ประเด็นเชิงปรัชญา แต่เป็นเรื่องของ ผลกระทบทางเศรษฐกิจ ถ้าช่องว่างเป็นศูนย์ แรงงานความรู้ของมนุษย์จะถูกแทนที่ทั้งหมด ต่อให้ยังไม่มี AGI สมบูรณ์ เศรษฐกิจก็อาจพังได้
    • ทำให้นึกถึงงานเขียนของ Dijkstra (EWD867) ที่เปรียบว่า “คอมพิวเตอร์คิดได้ไหม?” เป็นคำถามที่ไร้สาระพอ ๆ กับ “เรือดำน้ำว่ายน้ำได้ไหม?”
    • ‘G’ ใน AGI หมายถึง General แต่มนุษย์เองก็ไม่ได้เป็นแบบทั่วไปครอบจักรวาล เครื่องบินอาจไม่ได้รอบด้านกว่านก แต่ก็ขยายขอบเขตการเคลื่อนที่ได้
    • สำหรับฉัน การถกเถียงเรื่อง AGI จบไปแล้ว เครื่องมือทุกวันนี้ก็ มีประโยชน์ มากพออยู่แล้ว และยังเริ่มเห็นสัญญาณของ ASI (ปัญญาที่พัฒนาตัวเองได้) แล้วด้วย การแข่งขัน ARC-AGI เป็นแค่การทดลองที่น่าสนใจเพื่อวัดสถานะปัจจุบัน
    • ปัญญาไม่ได้มีแค่รูปแบบมนุษย์ สิ่งสำคัญคือ ความมีประโยชน์ของผลลัพธ์ ส่วนเรื่องมีสติสัมปชัญญะหรือไม่เป็นประเด็นทางศีลธรรม ซึ่งพิสูจน์ไม่ได้ จึงควรตั้งสมมติฐานไว้ก่อนว่ามันมี
  • คิดว่าแนวทางของ ARC เป็น วิธีประเมิน AGI ที่ยอดเยี่ยมมาก
    โครงสร้างเรียบง่าย คือให้ข้อมูลนำเข้าแบบเดียวกันกับทั้งมนุษย์และ AI แล้วเปรียบเทียบผลลัพธ์
    คำว่า ‘General’ คือหัวใจสำคัญ และ ARC ก็เป็นความพยายามที่จะวัด ความเป็นทั่วไป นั้นโดยตรง
    ว่า AI มีประโยชน์หรือไม่เป็นเรื่องรอง แบบทดสอบนี้เป็นความพยายามที่น่าเชื่อถือที่สุดเท่าที่เคยมีมา
    อีกทั้งถ้าลองถาม AI ในเรื่องที่เป็นความเชี่ยวชาญของตัวเอง ก็มักเห็นว่ามันตอบผิดได้บ่อย เรามีแนวโน้มจะ สับสนระหว่างความรู้กับความฉลาด

    • คิดว่าคำว่า ‘General’ นี่แหละที่ไม่ถูกต้อง มนุษย์เองก็ไม่ได้รอบด้าน และมี ความสามารถที่ไม่สม่ำเสมอ กันไป ตอนนี้ LLM ก็เหนือกว่ามนุษย์ในด้านภาษาแล้ว
    • แบบทดสอบนี้เป็นเกมที่ต้องใช้การรับรู้ทางภาพ จึงคล้ายกับ ให้คนตาบอดไปสอบใบขับขี่ ถ้าแปลงเกมนี้เป็นข้อความ LLM อาจทำได้ดีกว่ามนุษย์ก็ได้
    • ARC-AGI รุ่นก่อนหน้านี้คล้ายแบบทดสอบ IQ แต่เวอร์ชันนี้ง่ายเกินไป ที่ LLM ยังแก้ไม่ได้อาจเป็นเพราะรูปแบบอินพุตไม่ตรงกัน แค่ฝึกกับเกมแบบข้อความก็น่าจะแก้ได้ในไม่ช้า
  • เวลาเห็นเบนช์มาร์กแบบนี้ สิ่งที่สงสัยคือจะมีวิธีไหน กันไม่ให้ OpenAI จ้างคนมาสร้างชุดข้อมูล หรือไม่

    • แต่คำถามสำคัญไม่ใช่เรื่องนั้น คำถามคือ “โมเดล ทำให้เป็นทั่วไปได้หรือไม่” ต่างหาก ดูเหมือน ARC-AGI ถูกออกแบบมาเพื่อประเมินการแก้ปัญหาเชิงภาพที่มีบริบทยาวและ ความเป็นเอเจนต์
  • พอลองเล่นหลายเลเวลด้วยตัวเอง ก็ยิ่งมั่นใจว่าฉัน ไม่ใช่ AGI แน่ ๆ

    • คงต้องเรียกว่า NGI หรือ Natural General Intelligence แทน
    • แต่ AI เข้าถึงอินเทอร์เน็ตทั้งโลกได้ ไม่มีข้อจำกัดเวลา และก็ไม่ต้องอายถ้าส่งคำตอบผิดเป็นจำนวนมาก เงื่อนไขแบบนี้ต่างจากการทดสอบมนุษย์โดยสิ้นเชิง
    • ยังมีมุกว่า “ขอบคุณที่ลดเกณฑ์ AGI ลงมาให้”
  • ฉันค่อนข้างสงสัยอยู่บ้าง
    คนที่คุ้นกับเกมน่าจะผ่านได้ 100% แต่ คุณย่าที่เพิ่งใช้คอมพิวเตอร์ครั้งแรก คงล้มเหลวทั้งหมด LLM ก็เช่นกัน
    สุดท้ายโมเดลที่ฝึกด้วยข้อมูลเกมลักษณะนี้ก็จะปรับตัวได้ง่าย ซึ่งนั่นไม่ใช่ AGI

    • แต่มนุษย์เองก็เก่งเกมขึ้นได้ผ่านการเรียนรู้ ดังนั้นถ้าไม่อนุญาตให้มี การเรียนรู้ออนไลน์ แบบทดสอบนี้ก็ไม่สะท้อนการเรียนรู้แบบมนุษย์
    • ฉันเองในฐานะเกมเมอร์มา 40 ปี มองว่าปริศนาแบบนี้ง่ายเกินไป แค่จับกฎได้ก็แก้ได้ทันที ปัญหาแนวนี้เป็น ขอบเขตความเชี่ยวชาญ ของฉัน
  • ฉันได้เห็นโปรเจกต์นี้ด้วยตัวเองในงานเปิดตัวของ YC และรู้สึก ได้แรงบันดาลใจ มากในรอบนาน
    ยังได้ยินมาด้วยว่าคนที่ทดลอง ARC2 ค้นพบวิธีขยับแขนหุ่นยนต์ให้มีประสิทธิภาพมากขึ้น
    เท่ากับว่ากระบวนการเพิ่มคะแนนอย่างเดียวก็เชื่อมไปสู่ นวัตกรรมด้านหุ่นยนต์จริง ได้
    เขาบอกว่าจะมี ARC-4, 5, 6 ออกมาอีก และต่อไปก็คาดหวังโมเดลที่แก้ปัญหาได้ในสภาวะ zero context

    • แต่การขยายแบบนี้ก็ดูคล้าย การเลื่อนเส้นชัยไปเรื่อย ๆ (goalpost moving) อยู่เหมือนกัน
  • ไม่แน่ใจว่า ARC-AGI เกี่ยวข้องกับ AGI โดยตรงแค่ไหน
    ท้ายที่สุดมันก็เป็นเพียงการวัดประสิทธิภาพของ LLM ในเกมประเภทหนึ่ง
    ไม่ว่ามนุษย์จะเก่งหรือไม่เก่งเกมนี้ เราก็มีเกมมากมายที่คอมพิวเตอร์เหนือกว่ามนุษย์ไปแล้ว
    ดังนั้นประเด็นสำคัญคือ เกมเหล่านี้ เป็นตัวแทนของความฉลาดได้หรือไม่

    • ผู้สร้าง ARC-AGI อย่าง Chollet นิยามความฉลาดว่า “ทำงานได้ดีแค่ไหนในสถานการณ์ที่ไม่เคยเจอมาก่อน” และ ARC-AGI ก็วัดความสามารถนั้นโดยตรง
    • แต่ ‘AGI’ ก็ใกล้เคียงกับ คำทางการตลาด มากกว่า และเบนช์มาร์กแบบนี้ก็ดูเหมือนทำเพื่อการประชาสัมพันธ์มากกว่าประสิทธิภาพการทำงานจริง
  • ฉันเป็น ผู้ทดสอบมนุษย์ ของเกมนี้
    ฉันแก้ไป 25 เกมใน 90 นาที และแม้ในคำชี้แจงจะบอกให้ลดจำนวนการกระทำให้น้อยที่สุด แต่ในความเป็นจริงฉันโฟกัสที่การแก้ให้เร็วเพราะมี รางวัลตามความเร็ว ($5/เกม)
    ดังนั้นข้อมูลเกณฑ์ของมนุษย์อาจถูกบันทึกว่ามี จำนวนการกระทำมากกว่าความเป็นจริง

  • สิ่งที่ชอบที่สุดในลีดเดอร์บอร์ด ARC-AGI คือ กราฟประสิทธิภาพต่อค่าใช้จ่าย
    ช่วงหลัง ๆ การพัฒนาประสิทธิภาพของ AI ส่วนใหญ่มาพร้อมกับ การใช้พลังงานที่เพิ่มขึ้น สุดท้ายแล้วถ้าใช้ไฟมากขึ้น ก็ได้ผลลัพธ์ที่ดีกว่า