AI ที่เรียนรู้ได้ไกลกว่าเกมสู่โลกจริง: ความท้าทายของ John Carmack กับการเสริมกำลังเรียนรู้บนโลกจริง

(twitter.com/ID_AA_Carmack)

17 คะแนน โดย GN⁺ 2025-05-24 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

สรุปโน้ตเตรียมบรรยายและสไลด์ของ John Carmack สำหรับ "Upper Bound 2025"
John Carmack ผ่านงานที่ Id Software, Oculus, Keen Technologies และปัจจุบันกำลัง โฟกัสการวิจัย AGI ที่อิงกับ reinforcement learning
เขา ไม่ได้มุ่งไปที่ LLM แต่สนใจ การเรียนรู้อย่างต่อเนื่องและมีประสิทธิภาพ แบบที่สัตว์เรียนรู้ผ่านการโต้ตอบกับสภาพแวดล้อม
สร้าง ระบบ RL เชิงกายภาพ ที่เรียนรู้จาก อินพุตกล้องและจอยสติ๊กแบบเรียลไทม์ โดยอิงจาก เกม Atari แบบคลาสสิก
นำเสนอประเด็นทางเทคนิคอย่างกว้างขวางที่ RL ต้องแก้เพื่อให้ใกล้เคียงโลกจริงมากขึ้น เช่น ความเร็ว, ความหน่วง, การเรียนรู้ต่อเนื่อง, การป้องกันการลืม
แบ่งปันมุมมองเฉียบคมจากประสบการณ์ตรงเกี่ยวกับ โครงสร้าง CNN, การแทนค่ารางวัล, กลยุทธ์การสำรวจ และ ตั้งคำถามกับแนวปฏิบัติเดิม

สไลด์: https://docs.google.com/presentation/d/…
โน้ตเตรียมบรรยาย: https://docs.google.com/document/d/…

Quick Background

ในฐานะ ผู้ก่อตั้ง Id Software เกม Quake มีส่วนผลักดันพัฒนาการของ GPU และส่งอิทธิพลทางอ้อมต่อวงการ AI
ที่ Armadillo Aerospace เขาทำวิจัย จรวดขึ้นลงแนวดิ่ง นาน 10 ปี
ที่ Oculus เขา วางรากฐานให้เทคโนโลยี VR สมัยใหม่
ก่อตั้ง Keen Technologies และกำลังทุ่มเทกับการวิจัย AI โดย มุ่งเน้น reinforcement learning
กำลังทำวิจัยร่วมกับ Richard Sutton และ มีปรัชญาร่วมกันเกี่ยวกับ reinforcement learning

Where I thought I was going

Not LLMs

LLM คือ "ความรู้ที่ไม่มีการเรียนรู้" ซึ่งมีปรัชญาต่างจากแนวทางการเรียนรู้ผ่านปฏิสัมพันธ์ที่เขาต้องการ
แม้ยังเปิดความเป็นไปได้ว่า LLM อาจมาแทน RL ได้ แต่เขา รู้สึกดึงดูดกับวิธีเรียนรู้จากสภาพแวดล้อมแบบสัตว์มากกว่า

Games

จากประสบการณ์พัฒนาเกมที่ยาวนาน เขาจึง ใช้เกมเป็นสภาพแวดล้อมสำหรับการทดลอง
เช่นเดียวกับงาน Atari ของ DeepMind เขาทดสอบว่า จะเรียนรู้ได้หรือไม่จากอินพุตระดับพิกเซลเพียงอย่างเดียว
อย่างไรก็ตาม จำนวนเฟรมสำหรับการฝึกที่มหาศาล และ ปัญหาด้านประสิทธิภาพ ยังเป็นโจทย์สำคัญ
การเรียนรู้หลายงาน, แบบออนไลน์, และอย่างมีประสิทธิภาพ ยังไม่ถูกแก้ไข

Video

เดิมทีเขาเคยคิดถึง การเรียนรู้จากวิดีโอแบบรับอย่างเดียว คล้ายทีวี แต่สุดท้ายตัดสินใจ โฟกัสที่การเรียนรู้จากเกมโดยตรง

Missteps

เริ่มต้นลึกเกินไปในระดับ low-level (C++ CUDA) ก่อนจะย้ายมาใช้ PyTorch เพื่อเร่งความเร็วในการทดลอง
เดิมเริ่มจาก Sega Master System แทน Atari แต่ย้ายเพราะขาดข้อมูลสำหรับเปรียบเทียบ
พักเรื่องการเรียนรู้จากวิดีโอไว้ก่อน เพราะแค่การเรียนรู้ในเกมก็มีโจทย์ให้แก้มากพอแล้ว

Settling in with Atari

ความหลากหลายของเกมเชิงพาณิชย์ มีข้อดีคือช่วยลดอคติในการวิจัย
แนะนำให้ใช้ ALE โดยตรง (wrapper อย่าง Gym อาจก่อปัญหาได้)
แม้โมเดลล่าสุดจะแก้เกมส่วนใหญ่ได้ด้วยคะแนนสูง แต่ การเรียนรู้อย่างมีประสิทธิภาพด้านข้อมูลแบบ “Atari 100k” สำคัญกว่า
พฤติกรรมแบบกำหนดแน่นอนของสภาพแวดล้อม ต้องรับมือด้วยวิธีอย่าง sticky action

Reality is not a turn based game

โลกจริงไม่ได้หยุดรอเอเจนต์ → ต้องคำนึงถึงการประมวลผลแบบอะซิงโครนัสและความหน่วง
การล้มเหลวในการเรียนรู้ในสภาพแวดล้อมเดียว อาจบ่งชี้ปัญหาที่ตัวอัลกอริทึมเอง
ความเร็ว: ต้องมีนโยบายที่ประเมินได้เร็วมาก (เช่น ใช้ CUDA graph)
ความหน่วง: อัลกอริทึม RL ส่วนใหญ่เปราะบางต่อความหน่วง → ต้องมีโครงสร้างที่สะท้อนความหน่วงในการใช้นโยบาย

Physical Atari

สร้าง ระบบการเรียนรู้ Atari ในสภาพแวดล้อมเชิงกายภาพ
มีการควบคุมจอยสติ๊กจริง กล้องที่มองหน้าจอ และ RL agent ที่ทำงานแบบเรียลไทม์
ทดสอบหลายเกมพร้อมคำนึงถึงปัญหาโลกจริง เช่น การรู้จำคะแนน, ความหน่วงของการกระทำ, ความผิดพลาดในการควบคุม
การทำงานของจอยสติ๊กยังไม่เสถียร และการรู้จำคะแนนเป็นส่วนที่ยากที่สุด
บางเกมถูกตัดออกเพราะมองเห็นคะแนนได้ไม่ชัด

Sparse rewards / Curiosity

RL อ่อนแอต่อสภาพแวดล้อมที่รางวัลเบาบาง → ใช้ intrinsic reward และความอยากรู้อยากเห็นของปัญญาประดิษฐ์
ยังสำรวจด้วยว่า จะใช้คะแนนของเกมเองแทนรางวัลได้หรือไม่
พยายามจำลองรูปแบบพฤติกรรมมนุษย์ เช่น การสลับเกม และ การรักษาความสนใจต่อเกมใหม่

Sequential multi-task learning

ปัญหาการลืมอย่างรุนแรง (catastrophic forgetting) ในสภาพแวดล้อมการเรียนรู้ต่อเนื่องยังคงร้ายแรง
มนุษย์จำทักษะเก่าได้ แต่ โมเดลปัจจุบันมักมีประสิทธิภาพตกฮวบเมื่อกลับไปเล่นเกมเก่า
พยายามปรับปรุงด้วย การคงความจำ, การปรับ learning rate, sparsity ของน้ำหนัก เป็นต้น
การใช้ Task ID ถือเป็น การโกง จึงควรสลับงานแบบ implicit

Transfer Learning

การเรียนรู้จากเกมจำนวนมากควรช่วยให้เรียนเกมใหม่ได้เร็วขึ้น
Sonic challenge ของ OpenAI ลงท้ายก็ยังกลับไปเรียนแบบ from scratch
งานอย่าง GATO มีปัญหา negative transfer
อาจต้องใช้กลยุทธ์แบบ "เรียนช้าเพื่อเรียนเร็ว"
ข้อเสนอ benchmark ใหม่: ประเมินคะแนนโดยวนหลายเกมแบบลำดับซ้ำไปมา

Plasticity vs generalization

generalization คือการมองข้ามรายละเอียด ขณะที่ plasticity คือการรับรู้รูปแบบใหม่ → ทั้งสองอย่างอาจขัดแย้งกัน
generalization ยังอิงกับทฤษฎีที่ไม่แข็งแรงนัก เช่น inductive bias ของ CNN
value function ของ reinforcement learning เป็นผลผลิตของการ generalize และมีความไวสูงมาก

Exploration

ข้อจำกัดของการเลือกแอ็กชันแบบสุ่ม → ความผิดพลาดเพียงครั้งเดียวอาจชี้เป็นชี้ตายต่อการอยู่รอด
มีความพยายามอย่าง การจัดโครงสร้าง action space และนโยบายที่อิง confidence
ยังต้องคิดเรื่อง แอ็กชันตามหน่วยเวลา ด้วย → การเรียนรู้ที่ 60fps เป็นโจทย์ยากมาก

Recurrence vs frame stacks

ใน Atari วิธี frame stack ได้ผลดี แต่ โครงสร้าง recurrent คล้ายสมองมากกว่า
Transformer เด่นในงานฝึกแบบ batch แต่ การเรียนรู้ออนไลน์แบบ recurrent ทั่วไปยังไม่สมบูรณ์

การเรียนรู้ที่มีฟังก์ชันประมาณค่าเป็นศูนย์กลาง

NN ทำทั้งการประมาณค่า, generalization, การเฉลี่ยเชิงความน่าจะเป็น, และการปรับปรุงนโยบายไปพร้อมกัน
การอัปเดตน้ำหนักทุกครั้ง ส่งผลต่อค่าผลลัพธ์ทั้งหมด
การตั้งค่าเริ่มต้น, activation function, optimizer ที่จับคู่กันมีผลอย่างมากต่อประสิทธิภาพ

Value representation

reward clamping แบบ DQN คลาสสิก มีประโยชน์ต่อการทำให้การเรียนรู้เสถียร
มีหลายแนวทาง เช่น การแทนค่าแบบ categorical, การใช้ MSE, การบีบอัด value แบบ MuZero
ช่วงคะแนนของแต่ละเกมต่างกัน จึงเป็นปัญหาในการเรียนรู้หลายงาน

Conv Nets

CNN ยังเป็นโครงสร้างพื้นฐานของ RL
เครือข่ายภาพขนาดใหญ่กลับให้ผลงานแย่ลงใน RL (เช่น ConvNeXT)
มีการทดลองกับ การเปลี่ยนโครงสร้าง kernel, การแชร์พารามิเตอร์, Isotropic CNN
มุ่งไปที่ การไหลของข้อมูลที่มีประสิทธิภาพ เช่น DenseNet และ Dilated CNN
พยายามปรับปรุง CNN ให้ คล้ายโครงสร้างทางชีววิทยามากขึ้น

1 ความคิดเห็น

GN⁺ 2025-05-24

ความคิดเห็นจาก Hacker News

ทุกครั้งที่ได้ดูบรรยายหรืออ่านงานเขียนของ Carmack ก็อยากย้ำว่าเป็นประสบการณ์ที่น่าสนใจเสมอ ในโน้ตครั้งนี้ก็ประทับใจกับวิธีที่เขาบันทึกกระบวนการคิดอย่างละเอียดในฐานะวิศวกร มีความสงสัยเกี่ยวกับส่วนที่มุ่งเน้นการเรียนรู้แบบเรียลไทม์ในทิศทางงานวิจัย เข้าใจว่า Carmack กำลังทำ online learning แบบเรียลไทม์อยู่ เป็นความท้าทายที่น่าสนุกและใช้ประโยชน์จากเดโมเจ๋ง ๆ กับประสบการณ์ด้านการปรับแต่งประสิทธิภาพได้ดี แต่ถ้ามองจากบทเรียนและแนวโน้มงานวิจัยช่วงหลัง ๆ ก็คิดว่าในสถานการณ์ที่ยังไม่มีทรัพยากรคอมพิวต์ที่รองรับการอนุมานและการเรียนรู้แบบเรียลไทม์ ผลลัพธ์อาจชนเพดานได้ สมองเป็นตัวอย่างเดียวที่แก้เกม Atari ได้ และแม้แต่พลังการคำนวณของสมองมนุษย์เองก็ยังไม่เคยถูกคำนวณอย่างชัดเจน ในบริบทนี้จึงเป็นคำถามอย่างจริงใจว่าทำไมไม่โฟกัสที่ประสิทธิภาพการเรียนรู้แทนที่จะตั้งข้อจำกัดเรื่องเรียลไทม์ แน่นอนว่าการทำงานภายใต้ข้อจำกัดให้คุณค่าหลายอย่าง แต่แมงมุมกระโดดก็ยังแก้ปัญหาซับซ้อนได้ด้วยเซลล์ประสาทเพียง 100,000 ตัว จึงคาดเดาได้ยาก
- ตอนที่ Carmack ทำงานวิจัยด้านกราฟิก 3D ยุคแรกและการเรนเดอร์แบบเรียลไทม์ในช่วงต้นทศวรรษ 90 ผู้เชี่ยวชาญสายออฟไลน์ที่ใช้เวิร์กสเตชันก็คงคิดคล้าย ๆ กัน จุดแข็งที่สุดของ Carmack คือความสามารถในการดึงผลงานระดับสุดขีดจากทรัพยากรที่จำกัดเสมอมา (id Software, Oculus, Armadillo Aerospace ฯลฯ) กลับกันเมื่อถูกผูกติดกับองค์กรใหญ่หรือเทคโนโลยีเดิม ๆ ก็ดูเหมือนผลงานจะลดลงเสียมากกว่า (คิดว่าเหตุผลที่ออกจาก Bethesda-id และ Meta ก็น่าจะคล้ายกัน) จึงเข้าใจสไตล์ของ Carmack ที่โฟกัสกับเรียลไทม์ และคิดว่าเขาคงไม่ชอบแนวทางในกระแส AI ปัจจุบันที่อาศัยแต่พลังคอมพิวต์ถาโถมเข้าใส่มากนัก ก็ดีแล้วที่เขาไม่ได้หมกมุ่นกับการเทเงินนักลงทุนไปกับการฝึก LLM ถ้าเป็นในอุดมคติ ก็อยากให้เขาสร้างนวัตกรรมแบบเมื่อก่อน คือร่วมกับเพื่อนร่วมงานเก่ง ๆ แล้วทำให้เทคโนโลยีล้ำสมัยเข้าถึงคนทั่วไปได้ (เช่น การทำให้กราฟิก 3D แพร่หลาย)
- หากอ้างประโยคหนึ่งจากโน้ตประกอบการนำเสนอที่ว่า "ถ้าคุณคิดว่าอีกไม่นาน AI จะกลายเป็น AGI ที่มีร่างกาย ก็ลองยื่นจอยสติ๊กให้หุ่นยนต์ฮิวแมนนอยด์เต้นได้ของคุณ แล้วให้มันเรียนรู้วิดีโอเกมที่ไม่เคยเห็นมาก่อนเลยดู" ก็เป็นข้อเสนอว่าควรมีการตรวจสอบข้อเท็จจริง
- อยากเน้นว่ามนุษย์และสัตว์มีความสามารถโดยกำเนิดและความรู้ตั้งต้นมหาศาล จึงมีโครงสร้างที่ทำให้เรียนรู้สิ่งใหม่ได้ง่ายกว่ามาก นี่ไม่ใช่แค่ความต่างด้านกำลังคำนวณ แต่เป็นความต่างของจุดเริ่มต้นในการเรียนรู้เอง
- สำหรับความเห็นที่ว่าความจุเชิงคำนวณของสมองมนุษย์ยังไม่ชัดเจน จริง ๆ แล้วถ้าวัดความเร็วการส่งสัญญาณของเซลล์ประสาท จะพบว่ามีขีดจำกัดของจำนวนเซลล์ประสาทที่ต่อกันต่อเนื่องได้ (ราว 100 ขั้น) และจากตรงนี้ก็คาดเดาได้ว่ากระบวนการรับรู้ของมนุษย์อาจไม่ได้ซับซ้อนอย่างที่คิด แน่นอนว่ายังมีความขนานและลูปป้อนกลับอีกมาก แต่สุดท้ายถ้าค้นพบอัลกอริทึม AGI ได้ ก็น่าจะมีเวอร์ชัน ‘มินิ’ ที่รันแบบเรียลไทม์บนฮาร์ดแวร์ทั่วไปในปี 2025 ได้เช่นกัน
รวมลิงก์ตรงที่เกี่ยวข้อง:
- สไลด์พรีเซนเทชัน
- เอกสารข้อความ
อยากแชร์ว่ามีคำตอบที่น่าสนใจจากคนวงในของ OpenAI: ลิงก์ X
- ที่จริงเป็นปฏิกิริยาที่ไม่น่าสนใจนัก ท่าทีคลุมเครือที่เมินความเห็นคนนอกเป็นภาพแบบฉบับที่มาจากความไม่มั่นคงทางวิชาการ ไม่มีคำอธิบายหรือหลักฐานที่เป็นรูปธรรมจึงไม่ช่วยให้การถกเถียงคืบหน้า ถ้าเป็น ‘คนวงใน OpenAI’ เทียบกับ ‘John Carmack และ Richard Sutton’ ก็ชัดเจนว่าจะอยู่ฝั่งไหน
- Carmack เข้ามาตอบโพสต์นั้นโดยตรง: คำตอบของ Carmack
- บางคนกำลังดูทั้งเธรดบน Twitter แล้วค่อยตัดสิน แต่คนที่ไม่ได้ล็อกอินจะเห็นแค่ทวีตแรก เลยอาจรู้สึกเหมือนเป็นการเมินเฉยง่าย ๆ
- ตลกดีที่บอกว่า “ได้เรียนรู้บทเรียนบางอย่าง” แต่กลับไม่บอกว่าบทเรียนนั้นคืออะไร
- พอเห็นทวีตที่ว่า "they will learn the same lesson I did" ก็อยากแซวว่า ‘หมายถึงว่าอย่าเชื่อ Altman งั้นเหรอ?’
พอได้ยินข่าวว่า Carmack จะโฟกัสกับ AI ก็รู้สึกตื่นเต้นมาก กำลังรอวิดีโอขึ้นอยู่ แต่ดูจากสไลด์แล้วเหมือนเขาสร้างระบบที่เล่นเกม Atari ได้ คิดว่าเป็นโปรเจกต์ที่สนุก แต่ก็สงสัยว่าจะมีงานวิจัยหรือผลลัพธ์อื่นออกมาอีกไหม
- เกม Atari ถูกใช้เป็น benchmark มาตรฐานอย่างแพร่หลายในงานวิจัย RL (reinforcement learning) ดูข้อมูลอ้างอิงได้ที่ Arcade Learning Environment เป้าหมายคือพัฒนาอัลกอริทึมที่สามารถทำให้ทั่วไปได้กับหลายภารกิจ
- ตอนนี้มีเอเจนต์ที่เล่นเกม Atari จบหรือทำคะแนนสูงได้แล้วมากมาย แต่สาขานี้ยังอีกไกลมาก เคยทำวิทยานิพนธ์ปริญญาโทเกี่ยวกับวิธีเรียนรู้จากปฏิสัมพันธ์เพียงเล็กน้อย และถ้านำไปใช้กับหุ่นยนต์จริง ก็จะช่วยไม่ให้หุ่นยนต์ต้องเดินล้มอยู่หลายร้อยปีเพื่อเรียนรู้พฤติกรรม เรายังขาดงานที่ศึกษาการทำให้ทั่วไปในระดับสูงกว่า เช่น หลักการที่ทำให้ระบบเรียนรู้หลายวิดีโอเกมและเข้าใจเกมใหม่ได้อย่างเป็นธรรมชาติ
- เป้าหมายของโปรเจกต์นี้ไม่ใช่แค่ ‘เล่นเกม Atari ให้จบ’ แต่คือวิธีวิทยาทั่วไปที่อาจนำไปใช้กับเกมที่ซับซ้อนกว่าหรือโลกกายภาพจริงได้ อย่างไรก็ดี หากดูจากแง่มุมเชิงอินไซต์ด้านวิจัย ในระยะนี้การแก้ไขสภาพแวดล้อม Atari ให้ทดสอบเรื่องอย่างเรียลไทม์น่าจะมีประสิทธิภาพกว่าการใส่เกมที่ซับซ้อนกว่าตั้งแต่ตอนนี้
- น่าชื่นชมที่ตั้งใจจะเปิดเป็นโอเพนซอร์ส การเล่นแบบเรียลไทม์บน GPU ของแล็ปท็อปด้วยคอนโทรลเลอร์จริงและกล้องเป็นอะไรที่สดใหม่ แต่ก็ยังไม่แน่ใจว่านับเป็นนวัตกรรมในตัวเองหรือไม่ ถ้ามันเหนือกว่างานเดิมอย่างชัดเจนในแง่ sample efficiency หรือการทำให้ทั่วไปได้ แบบนั้นคงน่าทึ่งมากจริง ๆ
- สิ่งที่หวังก็คืออยากให้ NPC ในเกมฉลาดขึ้นกว่านี้
อย่างที่สไลด์ช่วงต้นพูดไว้ ก็อดเสียดายไม่ได้ว่าถ้าไปทำวิจัยแบบนี้ในสภาพแวดล้อม VR จะเป็นอย่างไร ถ้ามีฝีมือพอจะสร้าง JPEG camera filter, การจำลองฟิสิกส์, noise และสภาพแวดล้อมจำลองหุ่นยนต์ได้ดีใน VR คนที่เหมาะที่สุดก็คือ Carmack การใช้หุ่นยนต์จริงเป็นคอขวดมหาศาลในแง่เวลาเรียนรู้
ทำให้นึกถามว่าจริง ๆ แล้ว AGI จำเป็นต้องมีร่างกายทางกายภาพไปเพื่ออะไร และทำไมเมื่อเราสร้างสติปัญญาที่ยอดเยี่ยมได้ เราถึงอยากให้มันมาขับรถของเรา ทำความสะอาดบ้านให้เรา เสียมากกว่าเสียอีกว่าสถานการณ์แบบในนิยาย Hyperion ของ Dan Simmons ซึ่ง AGI หายไปอยู่บนคลาวด์และแทบไม่สนใจมนุษย์ น่าจะสมจริงกว่า
- ไม่จำเป็นต้องเป็นสภาพถาวร และมนุษย์เองถ้าสลัดร่างกายออกได้ก็คงอยากทำเช่นกัน การถูกขังอยู่กับอินเทอร์เฟซทางกายภาพตลอดไปมีข้อเสียอยู่
- คิดว่าเหตุผลที่มักถูกพูดถึงในงาน SF ก็เพื่อ ‘ไม่ให้ AGI มากดปุ่มปิดเครื่องร่างกายของฉัน’ ด้วยเหมือนกัน
รู้สึกว่าหากจะคุยเรื่อง AGI เรายังไม่ชัดเจนแม้แต่เรื่องที่ว่า ‘แนวคิด’ คืออะไร กระบวนการคิดที่เอาแนวคิดจากสาขาหนึ่งไปใช้ในอีกสาขาหนึ่ง หรือกระบวนการที่สมองผสมและนามธรรมไอเดียขึ้นมา เรายังไม่รู้จริง ๆ
- เมื่อสิ่งของปรากฏซ้ำ ๆ เราก็ตั้งชื่อให้มัน และแนวคิดก็คือรูปแบบความคิดที่เกิดซ้ำ ๆ การนามธรรม ความสัมพันธ์ และอุปมา คือเครื่องมือสำหรับย้ายรูปแบบข้ามโดเมน
ในฐานะตัวอย่างการทดลองหนึ่ง ถ้า OpenAI AGI ใกล้จะมาจริง ก็อยากถามว่าทำไมถึงเสียเวลาและค่าใช้จ่ายไปกับการซื้อกิจการสตาร์ตอัปฮาร์ดแวร์ที่ Ive ทำอยู่ ทำไมไม่ไปลุยโรโบติกส์ หรือถ้าเป็น AGI ระดับสุดยอดจริง บริษัทนับไม่ถ้วนก็น่าจะแห่มาขอไลเซนส์ทั้งฮาร์ดแวร์และซอฟต์แวร์เอง ซึ่งแค่นั้นก็สร้างรายได้ไม่สิ้นสุดแล้ว
- AGI อย่างเดียวไม่พอ ต่อให้ใส่ AGI ลงในอินเทอร์เฟซของ ChatGPT ถ้าจะให้มีผลกับโลกจริง AGI ก็ต้อง ‘อยู่ทุกที่’
- ถ้าบริษัทไหนกำลังเข้าใกล้การพัฒนา AGI จริง ก็มีโอกาสสูงที่จะจงใจไม่เปิดเผยข้อมูลบางอย่างเพื่อหลบสายตาการกำกับดูแลจากรัฐบาลหรือกองทัพ การไปถึง AGI ก่อนคนอื่นมีความเสี่ยงสูง
- อยากเสนอทิศทางว่า AGI อาจสามารถออกแบบผลิตภัณฑ์ได้ด้วย
คิดว่างานวิจัยที่ Carmack เลือกนั้นถูกต้องแล้ว ตอนนี้เราต้องก้าวข้ามการฝึกด้วยภาษาอย่างเดียว AI ต้องมีความเป็นกายภาพ
- ที่จริงการฝึก AI ด้วยข้อมูลหลากหลายนอกเหนือจากภาษาเริ่มทำกันมาหลายปีแล้ว โมเดล frontier รุ่นใหม่กำลังฝึกแบบ multimodal ภายในโมเดลเดียว ทั้งข้อความ เสียง วิดีโอ และภาพ (Gemini, GPT-4o, Grok 3, Claude 3, Llama 4 ฯลฯ) อินพุตทั้งหมดถูกแปลงเป็นโทเค็นและประมวลผลใน shared embedding space ร่วมกัน
- ในมุมมองที่ว่า AI ต้องมีความเป็นกายภาพ ก็น่าสนใจที่จริง ๆ แล้ว Carmack เองในอดีตก็เคยย้ำว่าสภาพแวดล้อมแบบจำลองเหมาะกับการพัฒนา AI มากกว่า และสภาพแวดล้อมทางกายภาพนั้นไม่มีประสิทธิภาพในทางปฏิบัติ
- Nvidia ก็มีมุมมองคล้ายกัน Jim Fan พูดถึง “physical Turing test” และอนาคตของ embodied AI ไว้ วิดีโอบรรยายของ Jim Fan ซึ่งในนั้นก็ย้ำเช่นกันว่าการรันสภาพแวดล้อมจำลองที่แข็งแรงต้องใช้ทรัพยากรคอมพิวต์มหาศาล
จากประโยคที่ว่า "ฉันใส่ใจเรื่องนี้เพราะยังเป็นน้องใหม่ในชุมชนนักวิจัย" ดูเหมือนจะเป็นการส่งสัญญาณว่าอาจมีการส่งบทความวิจัย
- เขากำลังบอกว่าโปรเจกต์นี้เป็นความพยายามเพื่อการวิจัย ไม่ใช่บริษัทผลิตภัณฑ์

AI ที่เรียนรู้ได้ไกลกว่าเกมสู่โลกจริง: ความท้าทายของ John Carmack กับการเสริมกำลังเรียนรู้บนโลกจริง

Quick Background

Where I thought I was going

Not LLMs

Games

Video

Missteps

Settling in with Atari

Reality is not a turn based game

Physical Atari

Sparse rewards / Curiosity

Sequential multi-task learning

Transfer Learning

Plasticity vs generalization

Exploration

Recurrence vs frame stacks

การเรียนรู้ที่มีฟังก์ชันประมาณค่าเป็นศูนย์กลาง

Value representation

Conv Nets

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News