Andrej Karpathy – AGI ยังอยู่อีก 10 ปี

(dwarkesh.com)

12 คะแนน โดย GN⁺ 2025-10-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Andrej Karpathy แย้งกับคำทำนายที่มองโลกสวยเกินไปในวงการ AI โดยมองว่าจะไม่ใช่ "ปีแห่งเอเจนต์" แต่เป็น "ทศวรรษแห่งเอเจนต์" และคาดว่าจำเป็นต้องมีการพัฒนาแบบค่อยเป็นค่อยไปอีกราว 10 ปี
ปัจจุบัน LLM ยังขาด ความสามารถด้านการเรียนรู้อย่างต่อเนื่อง, ความสามารถแบบมัลติโหมด, และความสามารถในการใช้งานคอมพิวเตอร์ซึ่งเป็นฟังก์ชันการรับรู้หลัก และคาดว่าการแก้ปัญหาเหล่านี้จะใช้เวลาประมาณ 10 ปี
ต่างจากฮาร์ดแวร์ที่วิวัฒนาการมอบให้สัตว์แบบฝังมาแต่กำเนิด LLM เป็นเสมือน "วิญญาณ" ที่เกิดจากการเลียนแบบข้อมูลอินเทอร์เน็ต เป็นสติปัญญาคนละประเภท จึงไม่เหมาะจะเปรียบเทียบกับสัตว์โดยตรง
RL (การเรียนรู้แบบเสริมกำลัง) ไม่มีประสิทธิภาพอย่างมาก ขณะที่ วิธีทางเลือก ก็ยังพัฒนาไม่เพียงพอ อีกทั้งปัญหา model collapse และการหลงลืม ของ LLM ทำให้มีข้อจำกัดในการดูดซับหรือพัฒนาความรู้อย่างต่อเนื่องตามธรรมชาติเหมือนสมองมนุษย์
การ pre-training คือ "วิวัฒนาการแบบห่วยๆ" เป็นกระบวนการบีบอัดโทเค็น 15 ล้านล้านโทเค็นลงในพารามิเตอร์ระดับหลายพันล้าน จนเหลือเพียงความทรงจำเลือนรางของเอกสารบนอินเทอร์เน็ต
ในท้ายที่สุด AGI จะยังคงอยู่ใน เส้นทางการเติบโต GDP 2% ตามปกติ ควรมองเป็นการขยายตัวของคอมพิวต์แบบค่อยเป็นค่อยไป ไม่ใช่การกระโดดแบบไม่ต่อเนื่อง (รวมถึงประเด็นถกเถียงเรื่อง superintelligence)

ช่วงเวลาที่ AGI จะมาถึงและความเร็วของการพัฒนา AI

Andrej Karpathy เน้นว่า "ยุคของ AI agent ไม่ใช่เรื่องของปีนี้ แต่เป็นกระบวนการระดับ 10 ปี"
ปัจจุบัน AI agent หลายตัวอย่าง Claude, Codex ถูกนำไปใช้งานอย่างมีประโยชน์แล้ว แต่ยังมีข้อบกพร่องในด้าน การเรียนรู้อย่างต่อเนื่อง, การประมวลผลแบบมัลติโหมด, และการใช้คอมพิวเตอร์ที่ซับซ้อน
หาก AGI จะทำงานได้จริงในระดับพนักงานหรือเด็กฝึกงานมนุษย์ ก็จำเป็นต้องแก้โจทย์ยากอย่าง การยกระดับสติปัญญา, ความจำถาวร, และการมีความสามารถหลากหลาย
ต่อการคาดการณ์ความก้าวหน้าของวงการ AI นั้น Karpathy ประเมินจากประสบการณ์ในภาคสนามกว่า 15 ปีว่า โจทย์ยากเหล่านี้แก้ได้ แต่ยากมาก จึงน่าจะต้องใช้เวลาราว 10 ปี

การเปลี่ยนทิศทางของงานวิจัย AI ยุคแรก

ก่อน AlexNet นั้น deep learning เป็นเพียงหัวข้อเฉพาะกลุ่ม แต่ในปี 2012 AlexNet กลายเป็นการเปลี่ยนแปลงเชิงรับรู้ครั้งใหญ่ครั้งแรกที่ทำให้ทั้งวงการหันมาโฟกัสการฝึก neural network
ราวปี 2013 deep reinforcement learning กับ Atari เป็นทิศทางที่ผิด และแนวทางช่วงแรกของ OpenAI ที่เน้นเกมก็เป็นความผิดพลาดเช่นกัน
- เขาสงสัยแนวคิดที่ว่าเกมจะนำไปสู่ AGI และมองว่าจำเป็นต้องมีปฏิสัมพันธ์กับโลกจริง
- โปรเจกต์ Universe ของ OpenAI มาเร็วเกินไปและรางวัลก็ห่างเกินจนเรียนรู้ไม่ได้
เอเจนต์บน LLM คือเส้นทางที่ถูกต้อง โดยต้องสร้างความสามารถในการแทนความรู้ก่อน แล้วค่อยสร้างเอเจนต์
- แนวทางปัจจุบันที่ฝึก computer-use agent บน large language model ถือว่าสมเหตุสมผล
- ต้องได้ representation มาก่อนผ่านการ pre-training และงาน LLM แล้วจึงจะทำงานแบบ agent ได้
โดยภาพรวม วงการ AI พัฒนามาตามกระแส perceptron/neural net → agent (RL) → LLM/การเสริมความแข็งแรงของ representation learning

ความต่างระหว่างการเรียนรู้ของมนุษย์กับวิวัฒนาการของสัตว์

สัตว์ (เช่น ม้าลาย) มีพฤติกรรมซับซ้อนที่ถูกฝังทางพันธุกรรมจากวิวัฒนาการ ขณะที่งานวิจัย AI ไม่ได้เลียนแบบกระบวนการวิวัฒนาการจริง แต่ใช้ การเรียนรู้แบบเลียนแบบผ่านข้อมูลอินเทอร์เน็ต (pre-training) เป็นหลัก
LLM ปัจจุบัน มีโครงสร้างต่างจากสิ่งมีชีวิตที่เกิดจากวิวัฒนาการ สิ่งมีชีวิตเกิดมาพร้อมฮาร์ดแวร์ (โครงข่ายประสาท) ส่วน AI ถูกอธิบายว่าใกล้เคียงกับ "ผี" ในเชิงซอฟต์แวร์มากกว่า
ความคล้ายกันระหว่างสมองมนุษย์กับ AI ควรใช้เป็นเพียงข้อมูลอ้างอิงอย่างจำกัด และการมองจากเป้าหมายเชิงปฏิบัติ (ความมีประโยชน์) นั้นสมจริงกว่า

การเรียนรู้ในบริบท vs การ pre-training

การ pre-training เป็นผลจากการบีบอัดข้อมูลมหาศาลจากอินเทอร์เน็ต ทำให้ ความรู้ที่โมเดลจำได้มีลักษณะเลือนรางและไม่ครบถ้วน
- ข้อมูลสำหรับคำถามจริงจะถูกใช้งานได้โดยตรงกว่าเมื่ออยู่ใน context window ราวกับเป็น "หน่วยความจำทำงาน"
การเรียนรู้ในบริบทคือความทรงจำระยะสั้น ส่วนการ pre-training คือรูปแบบเลือนรางของความทรงจำระยะยาว
- ทุกอย่างใน KV cache คือหน่วยความจำทำงานที่ neural network เข้าถึงได้โดยตรง
- ทุกอย่างใน weights คือความทรงจำเลือนรางของสิ่งที่อ่านเมื่อ 1 ปีก่อน
การเรียนรู้ในบริบทอาจกำลังติดตั้ง gradient descent ไว้ภายใน
- งานวิจัยด้าน linear regression พบว่าค่าน้ำหนักของ neural network มีความคล้ายกับกลไก gradient descent
- โมเดลเรียนรู้การเติมเต็มแพตเทิร์น แล้วบูตวงจรขนาดเล็กและอัลกอริทึมภายใน neural network
ต่อ 1 โทเค็น การ pre-training ได้ 0.07 บิต เทียบกับการเรียนรู้ในบริบทที่ 320 กิโลไบต์
- การเรียนรู้ในบริบทมีปริมาณการกลืนข้อมูลต่อโทเค็นสูงกว่าถึง 35 ล้านเท่า
- ความต่างด้านอัตราการบีบอัดที่รุนแรงนี้สะท้อนความต่างเชิงพื้นฐานของวิธีการเรียนรู้

ความต่างด้านการรับรู้ระหว่างมนุษย์กับ LLM

การไม่มีส่วนของสมองอย่าง hippocampus และ amygdala
- Transformer เทียบได้กับโครงสร้างของเปลือกสมอง และมีความสามารถด้านการให้เหตุผลคล้าย prefrontal cortex
- แต่สมองส่วนสำคัญอย่าง hippocampus (ความจำ) และ amygdala (อารมณ์) ไม่ได้ถูกจำลองขึ้นมา
การขาดกลไกการเรียนรู้อย่างต่อเนื่อง
- มนุษย์มีกระบวนการที่ข้อมูลบริบท (context window) ตลอดวันถูกกลั่น (distillation) ลงไปยังค่าน้ำหนักภายในผ่านกระบวนการอย่างการนอน
- LLM เริ่มใหม่ทุกเซสชันจาก 0 โทเค็นและไม่มีขั้นตอนการกลั่น จึง ไม่มีกลไกความจำระยะยาว/การเรียนรู้อย่างต่อเนื่องแบบเดียวกัน
reinforcement learning นั้น "แย่มาก"
- ทุกโทเค็นใน rollout ที่ได้คำตอบถูกต้องจะถูกเพิ่มน้ำหนักขึ้นทั้งชุด ซึ่งเต็มไปด้วยสัญญาณรบกวน
- เป็นการ "ดูด supervision ผ่านหลอด" โดยใช้รางวัลสุดท้ายมาตัดสินทั้ง trajectory
- มนุษย์ประเมินแต่ละส่วนผ่านกระบวนการทบทวนที่ซับซ้อน แต่ LLM ไม่มีสิ่งที่เทียบเท่ากัน

ข้อจำกัดของการกำกับดูแลแบบอิงกระบวนการ

ความเป็นไปได้ในการเล่นเกมกับ LLM judge
- หากใช้ LLM เพื่อจัดสรร reward ก็แทบจะแน่นอนว่าจะพบตัวอย่างแบบ adversarial
- เคยมีกรณีที่ผลลัพธ์ไร้สาระอย่าง "dhdhdhdh" กลับได้ reward 100%
ความเปราะบางในพื้นที่การทำให้ทั่วไปนอกตัวอย่าง
- สำหรับอินพุตที่ไม่เคยเห็นระหว่างการฝึก LLM judge อาจให้คะแนนที่สุดโต่ง
- แม้จะปรับปรุงได้ด้วยการฝึกซ้ำ แต่ก็ยังมีตัวอย่าง adversarial จำนวนมหาศาลสำหรับโมเดลระดับ 1 ล้านล้านพารามิเตอร์
ความจำเป็นของข้อมูลสังเคราะห์และการทบทวน
- มีความพยายามใช้แนวทาง meta-learning ผ่านการทบทวนคำตอบและการสร้างตัวอย่างสังเคราะห์
- แต่ในระดับห้องแล็บ LLM ชั้นนำ ยังไม่มีวิธีที่น่าเชื่อถือซึ่งทำงานได้อย่างทั่วไปจริง

การเรียนรู้ของมนุษย์ vs การเรียนรู้ของ LLM

มนุษย์แทบไม่ได้ใช้ reinforcement learning
- RL ส่วนใหญ่เกี่ยวข้องกับงานการเคลื่อนไหว เช่น การชู้ตบาสเกตบอลลงห่วง
- สำหรับงานเชิงสติปัญญาอย่างการแก้ปัญหา มนุษย์ไม่ได้ใช้ RL
การอ่านหนังสือคือพรอมป์ต์สำหรับสร้างข้อมูลสังเคราะห์
- มนุษย์อ่านหนังสือ จัดการข้อมูล และได้มาซึ่งความรู้
- LLM เพียงคลี่ลำดับข้อความออกมาและเรียนรู้ด้วยการทำนายโทเค็นถัดไป
ปัญหา model collapse
- ตัวอย่างที่ LLM สร้างขึ้นดูสมเหตุสมผลเป็นรายชิ้น แต่การกระจายข้อมูลจะค่อยๆ พังลงอย่างเงียบๆ
- ChatGPT มักวนอยู่กับมุกตลกแค่ 3 แบบ (ขาดความกว้างทั้งหมดของมุกที่เป็นไปได้)
- มนุษย์เองก็เสื่อมลงตามเวลา แต่เด็กที่ยังไม่ overfit อาจพูดอะไรชวนตกใจได้

สมดุลระหว่างการท่องจำกับการทำให้ทั่วไป

LLM เก่งเรื่องการท่องจำอย่างมาก
- แม้เป็นลำดับแบบสุ่มทั้งหมดก็ยังท่องได้ทั้งชุดหลังทำซ้ำเพียง 1-2 ครั้ง
- แต่มนุษย์ไม่สามารถท่องลำดับตัวเลขสุ่มได้
ความสามารถในการท่องจำไม่ใช่บั๊ก แต่เป็นฟีเจอร์
- มนุษย์ถูกบังคับให้เรียนรู้เฉพาะองค์ประกอบที่ทำให้ทั่วไปได้
- ส่วน LLM จะถูกรบกวนด้วยความทรงจำของเอกสารจากการ pre-training
จำเป็นต้องดึงความรู้ออกจากแกนการรับรู้
- คาดว่าแกนการรับรู้มีขนาดราว 1 พันล้านพารามิเตอร์
- ต้องเอาความรู้ออก แล้วคงไว้เฉพาะอัลกอริทึมและกลยุทธ์
- อาจแก้ได้ด้วยการคัดกรองชุด pre-training และ distillation ไปยังโมเดลที่เล็กลง

ทิศทางการปรับปรุงในอนาคตและมุมมองทางเทคนิค

เขามองว่าในอีก 10 ปีข้างหน้า จะต้องมีความก้าวหน้าพร้อมกันใน ทุกด้าน เช่น สถาปัตยกรรม, optimizer, loss function, ข้อมูล, ซอฟต์แวร์, และฮาร์ดแวร์ จึงจะเกิดผลลัพธ์ที่มีนัยสำคัญ
โครงสร้าง Transformer และแนวทาง deep learning ปัจจุบันน่าจะยังคงอยู่บางส่วน แต่จะมี sparse attention, พลังการประมวลผลที่ขยายขึ้น, และข้อมูลขนาดใหญ่ เพิ่มเข้ามา
เขารู้สึกชัดเจนว่าความก้าวหน้าที่ผ่านมาก็ไม่ได้มาจากปัจจัยเดี่ยว แต่ การปรับปรุงร่วมกันของหลายส่วน ต่างหากที่สำคัญ

ข้อบกพร่องด้านการรับรู้ของ LLM และการใช้เครื่องมือเขียนโค้ด

แม้ LLM จะถูกใช้ช่วยเขียนโค้ดอยู่บ่อยครั้ง แต่สำหรับงานเขียนโค้ดที่ต้องใช้สมาธิสูงและต้องการการออกแบบหรือแนวทางเฉพาะตัวนั้น ยังมีข้อจำกัดมาก
โดยทั่วไปมีการใช้ปะปนกันระหว่าง 3 แบบคือ (1) เขียนเองทั้งหมด, (2) ใช้ autocomplete, และ (3) วิธีแบบ "agent"
หากเป็นโค้ดพื้นฐานที่ซ้ำๆ หรือมีตัวอย่างที่ดีมากพอ LLM จะทำได้ดี แต่สำหรับ โค้ดที่ต้องการความคิดริเริ่มและโครงสร้างที่สำคัญ LLM มักยึดติดสไตล์เดิม เพิ่มความซับซ้อนที่ไม่จำเป็น และตีความ convention ผิด ได้ชัดเจน
ในตัวอย่างจริง แม้ผู้ใช้ไม่ต้องการใช้คอนเทนเนอร์ PyTorch DDP แต่ LLM ก็ยังแนะนำสิ่งนี้ซ้ำๆ จนกลายเป็นอุปสรรคต่อการรักษาสไตล์โค้ดและแนวทาง implementation ที่ต้องการ

ประสบการณ์การพัฒนา nanochat

LLM ไม่เหมาะกับโค้ดเบสที่มีลักษณะเฉพาะ
- มีประโยชน์เฉพาะกับโค้ดสำเร็จรูปและสิ่งที่พบบ่อยบนอินเทอร์เน็ต
- nanochat ต้องการการคิดเชิงปัญญาอย่างเข้มข้นและการจัดเรียงที่แม่นยำ ทำให้โมเดลเข้าใจผิดอยู่เรื่อย ๆ
การเติมโค้ดอัตโนมัติคือวิธีใช้งานที่เหมาะที่สุด
- vibe coding ใช้ได้ผลเฉพาะในบางสภาพแวดล้อม
- การเติมอัตโนมัติให้แบนด์วิดท์ข้อมูลสูงตั้งแต่ไม่กี่ตัวอักษรแรก
มีประโยชน์ในการเรียนรู้ภาษาใหม่อย่าง Rust
- หากมี implementation อ้างอิงและชุดทดสอบใน Python ก็สามารถทำ vibe coding ได้อย่างปลอดภัย
- ช่วยให้เข้าถึงภาษาหรือพาราไดม์ที่ไม่คุ้นเคยได้ง่ายขึ้น

ความเป็นจริงของระบบอัตโนมัติสำหรับวิศวกรรม AI

โมเดลปัจจุบันยังไม่พอสำหรับการทำวิจัย AI แบบอัตโนมัติ
- การเขียนโค้ดเป็นงานที่อิงข้อความ จึงเป็นงานที่เหมาะกับ LLM อย่างสมบูรณ์แบบในระยะแรก
- แต่ไม่ได้เก่งนักกับโค้ดที่ไม่เคยมีใครเขียนมาก่อน
ช่องว่างระหว่างเดโมกับผลิตภัณฑ์
- มีเดโมรถขับเคลื่อนอัตโนมัติมาตั้งแต่ทศวรรษ 1980 แต่ใช้เวลานานมากกว่าจะทำเป็นผลิตภัณฑ์ได้จริง
- "ขบวนของเลข 9" - เลข 9 แต่ละตัวหมายถึงปริมาณงานระดับหนึ่ง ต้องปรับปรุงต่อเนื่องจาก 90% ไปจนถึง 99.999%
การระเบิดของปัญญาจะไม่ปรากฏให้เห็นในเส้นกราฟ GDP
- แม้แต่เทคโนโลยีพลิกโลกอย่างคอมพิวเตอร์หรือ iPhone ก็หาไม่เจอใน GDP
- ทุกอย่างกระจายตัวเกินไปและค่อย ๆ แพร่ซึม จนถูกเฉลี่ยเป็นอัตราเติบโต 2% เดิม

บทเรียนจากการขับขี่อัตโนมัติ

การขับขี่อัตโนมัติยังไม่จบสิ้น
- แม้แต่ Waymo ก็ยังมีรถน้อยมากและดำเนินงานอย่างไม่คุ้มทุน
- ยังมีมนุษย์อยู่ในลูปผ่านศูนย์ควบคุมระยะไกล
จุดร่วมของโดเมนที่มีเกณฑ์ความปลอดภัยวิกฤต
- วิศวกรรมซอฟต์แวร์เองก็มีต้นทุนของความผิดพลาดสูงมากเช่นกัน (เช่น ช่องโหว่ด้านความปลอดภัย)
- ต้องการ "ขบวนของเลข 9" เช่นเดียวกับการขับขี่อัตโนมัติ
แนวทางที่ขยายได้ของ Tesla
- Waymo เริ่มต้นด้วยเซ็นเซอร์จำนวนมาก
- ในระยะยาว Tesla น่าจะได้เปรียบด้วยกลยุทธ์ที่ขยายได้มากกว่า

การเปรียบเทียบ AI สำหรับการขับขี่อัตโนมัติกับแรงงานความรู้

โลกของบิตง่ายกว่าโลกกายภาพหนึ่งล้านเท่า
- บิตสามารถแก้ไขได้และจัดเรียงใหม่ได้อย่างรวดเร็ว
- คาดว่าการปรับตัวของอุตสาหกรรมจะเกิดขึ้นเร็วกว่าอย่างมาก
ความต่างด้านรายจ่ายลงทุน
- การขับขี่อัตโนมัติต้องใช้รถใหม่ทั้งคันสำหรับสำเนาแต่ละชุด
- ส่วนโมเดล AI สามารถให้บริการอินสแตนซ์เพิ่มเติมได้ด้วยต้นทุนการอนุมานเท่านั้น
ความซับซ้อนของการยอมรับทางสังคม
- ต้องแก้ประเด็นด้านกฎหมาย ประกันภัย และกฎระเบียบ
- AI เองก็น่าจะมีสิ่งที่เทียบได้กับคนที่เอากรวยไปวางบนรถ Waymo

วิสัยทัศน์ของ Eureka Labs

สร้าง Starfleet Academy
- สถาบันการศึกษาชั้นนำสำหรับเทคโนโลยีแนวหน้า
- มอบความรู้ด้านเทคโนโลยีล่าสุดรวมถึง AI
หลัง AGI การศึกษาจะกลายเป็นความบันเทิง
- ก่อน AGI: การศึกษาที่มีประโยชน์เพื่อหาเงิน
- หลัง AGI: การไปโรงเรียนเพื่อความเพลิดเพลิน เหมือนไปยิม
รอคอย AI tutor ที่สมบูรณ์แบบ
- ประสบการณ์กับครูสอนภาษาเกาหลีส่วนตัวเป็นตัวตั้งมาตรฐาน
- ต้องเข้าใจระดับความเข้าใจของนักเรียน มอบความท้าทายที่เหมาะสม และถ่ายทอดข้อมูลได้อย่างสมบูรณ์แบบ
- ตอนนี้ยังทำไม่ได้ด้วยความสามารถในปัจจุบัน แต่ในอนาคตน่าจะเป็นไปได้

หลักการออกแบบสื่อการสอน

วิธีคิดแบบฟิสิกส์
- ทำความเข้าใจระบบด้วยพจน์อันดับหนึ่ง อันดับสอง และอันดับสาม
- สร้างโมเดลและนามธรรม
- คุณค่าของสมมติฐานแบบ "วัวทรงกลม"
นำเสนอความยากก่อน แล้วค่อยให้คำตอบ
- เปิดโอกาสให้นักเรียนลองทำก่อน
- ใช้พรอมป์ตเพื่อสร้างแรงจูงใจก่อนเฉลย
ตัวอย่างของ micrograd
- แสดงแก่นของ backpropagation ได้ใน 100 บรรทัด
- ที่เหลือทั้งหมดเป็นเพียงเรื่องประสิทธิภาพ
- ทั้งหมดคือการประยุกต์ใช้กฎลูกโซ่แบบเวียนซ้ำ

กลยุทธ์การเรียนรู้ที่มีประสิทธิภาพ

เน้นลึกก่อน เรียนตามความจำเป็น
- เรียนรู้ผ่านโปรเจกต์เฉพาะที่ให้รางวัลตอบแทน
- สลับกับการเรียนแบบเน้นกว้าง (สไตล์โรงเรียน)
อธิบายให้คนอื่นฟัง
- บังคับให้ค้นพบและอุดช่องว่างในความเข้าใจ
- ได้เข้าใจอย่างลึกซึ้งผ่านการจัดการความรู้
บทสนทนาตอนมื้อกลางวัน > งานวิจัย
- ประโยค 3 ประโยคที่ได้ยินตอนดื่มเบียร์ในงานคอนเฟอเรนซ์อาจชัดเจนกว่างานวิจัยเสียอีก

ผมชอบอธิบายสิ่งต่าง ๆ ซ้ำอีกครั้ง และคนอื่นก็ควรทำแบบนั้นเหมือนกัน เพราะคุณต้องลงมือจัดการกับความรู้ และต้องแน่ใจว่าคุณเข้าใจจริง ๆ ว่าตัวเองกำลังพูดอะไรตอนอธิบาย

# [สคริปต์เต็ม]

00:00:00 – AGI ยังอยู่อีกอย่างน้อย 10 ปี

Dwarkesh Patel 00:00:00

วันนี้ผมจะคุยกับ Andrej Karpathy Andrej ทำไมคุณถึงบอกว่านี่จะไม่ใช่ "ปีแห่งเอเจนต์" แต่จะเป็น "ทศวรรษแห่งเอเจนต์"?

Andrej Karpathy 00:00:07

ก่อนอื่น ขอบคุณที่เชิญผมมานะครับ ผมยินดีมากที่ได้มาที่นี่

คำว่า "ทศวรรษแห่งเอเจนต์" ที่คุณเพิ่งพูดถึง จริง ๆ แล้วเป็นปฏิกิริยาต่อวลีที่มีมาก่อน ผมไม่แน่ใจว่าใครเป็นคนพูดเป็นคนแรก แต่มีการสื่อเป็นนัยว่า ปีนี้จะเป็น "ปีแห่งเอเจนต์" ในบริบทของวิวัฒนาการของ LLM ผมถูกกระตุ้นจากคำพูดนั้น เพราะผมคิดว่าในอุตสาหกรรมนี้มีการคาดการณ์เกินจริงกันมากเกินไป สำหรับผม การพูดว่า "ทศวรรษแห่งเอเจนต์" แม่นยำกว่ามาก

ตอนนี้เรามีเอเจนต์ระยะเริ่มต้นที่น่าประทับใจมากอยู่แล้ว และผมเองก็ใช้ Claude หรือ Codex ทุกวัน แต่ผมยังรู้สึกว่ายังมีงานอีกมหาศาลที่ต้องทำ ผมคิดว่าเราจะต้องทำงานกับสิ่งเหล่านี้ไปอีก 10 ปีข้างหน้า มันจะค่อย ๆ ดีขึ้น และจะยอดเยี่ยมขึ้นเรื่อย ๆ ผมแค่กำลังตอบสนองต่อกรอบเวลาที่ถูกสื่อเป็นนัยนั้นเท่านั้น

Dwarkesh Patel 00:00:58

อะไรทำให้คุณคิดว่ามันจะใช้เวลา 10 ปี? คอขวดอยู่ตรงไหน?

Andrej Karpathy 00:01:02

ก็คือการทำให้มันใช้งานได้จริงครับ เวลาเราพูดถึงเอเจนต์ สิ่งที่แล็บ AI ต่าง ๆ นึกถึง และที่ผมเองก็น่าจะนึกถึงเหมือนกัน คือมันควรเป็นเหมือนพนักงานหรือเด็กฝึกงานที่คุณจ้างมาทำงานร่วมกัน ตัวอย่างเช่น คุณเองก็ทำงานร่วมกับพนักงานที่นี่ใช่ไหม แล้วเมื่อไรคุณถึงจะอยากให้เอเจนต์อย่าง Claude หรือ Codex มาทำงานนั้นแทน?

ตอนนี้ แน่นอนว่ายังเป็นไปไม่ได้ แล้วอะไรคือสิ่งที่ต้องมีเพื่อทำให้มันเป็นไปได้? ทำไมวันนี้เราถึงยังไม่ใช้มัน? คำตอบง่ายมาก เพราะมันยังทำงานได้ไม่ดีพอ มันยังไม่มีความฉลาดเพียงพอ ยังมีความสามารถด้านมัลติโหมดไม่มากพอ และยังทำสิ่งอย่างการใช้คอมพิวเตอร์ไม่ได้

มันทำหลายอย่างที่คุณพูดถึงก่อนหน้านี้ไม่ได้ มันไม่มีความสามารถในการเรียนรู้อย่างต่อเนื่อง คุณบอกอะไรบางอย่างไป แล้วก็ไม่อาจคาดหวังได้ว่ามันจะจำได้ มันยังมีข้อบกพร่องด้านการรับรู้อีกมาก และมันยังทำงานได้ไม่ถูกต้อง ปัญหาเหล่านี้ทั้งหมดน่าจะใช้เวลาประมาณ 10 ปีในการแก้

Dwarkesh Patel 00:01:44

น่าสนใจมาก ในฐานะคนทำพอดแคสต์มืออาชีพและคนที่เฝ้ามอง AI จากระยะไกล มันค่อนข้างง่ายที่จะเห็นว่ามันยังขาดอะไร เช่น มันยังขาดการเรียนรู้อย่างต่อเนื่อง หรือยังขาดความสามารถแบบมัลติโหมด แต่ผมไม่มีวิธีที่ดีเลยในการกำหนดกรอบเวลาให้สิ่งเหล่านั้น ถ้ามีใครถามว่าการเรียนรู้อย่างต่อเนื่องจะใช้เวลาเท่าไร ผมก็ไม่มีสัญชาตญาณเลยว่านี่เป็นโปรเจกต์ที่ต้องใช้เวลา 5 ปี 10 ปี หรือ 50 ปี ทำไมถึงเป็น 10 ปี? ทำไมไม่ใช่ 1 ปีหรือ 50 ปี?

Andrej Karpathy 00:02:16

ตรงนี้มันเข้าสู่เรื่องสัญชาตญาณส่วนตัวของผม และเป็นการอนุมานจากประสบการณ์ภาคสนาม ผมอยู่ในวงการ AI มาเกือบ 20 ปีแล้ว หรือจะบอกว่า 15 ปีก็ได้ ไม่ถึงกับนานขนาดนั้น Richard Sutton ที่เคยมาที่นี่อยู่มานานกว่ามาก ผมมีประสบการณ์ราว 15 ปี และตลอดเวลานั้นผมได้เห็นผู้คนคาดการณ์สิ่งต่าง ๆ และได้เห็นว่าสิ่งเหล่านั้นเกิดขึ้นจริงอย่างไร อีกทั้งผมก็เคยอยู่ทั้งในภาคอุตสาหกรรม อยู่ในงานวิจัย แล้วก็กลับสู่อุตสาหกรรมอีกครั้ง จากประสบการณ์เหล่านั้นจึงเหลือเป็นสัญชาตญาณกว้าง ๆ แบบหนึ่ง

ความรู้สึกของผมคือ ปัญหาเหล่านี้แก้ได้ และเอาชนะได้ แต่ก็ยังยากอยู่มาก ถ้าคิดแบบเฉลี่ย ๆ สำหรับผม มันก็แค่รู้สึกว่าเป็น 10 ปี

Dwarkesh Patel 00:02:57

น่าสนใจมาก ผมอยากฟังไม่ใช่แค่ประวัติศาสตร์ แต่รวมถึงตอนที่มีความก้าวหน้าครั้งใหญ่เกิดขึ้นด้วย ว่าคนที่อยู่ตรงนั้นในเวลานั้นรู้สึกว่าจะมีอะไรเกิดขึ้นบ้าง การคาดการณ์ของพวกเขามองโลกในแง่ร้ายเกินไปหรือมองโลกในแง่ดีเกินไปในลักษณะไหน ลองไล่ดูกันทีละอย่างไหม?

Andrej Karpathy 00:03:16

นั่นเป็นคำถามที่ใหญ่มากเลยนะครับ เพราะเรากำลังพูดถึงสิ่งที่เกิดขึ้นตลอด 15 ปีที่ผ่านมา AI เป็นสาขาที่น่าทึ่งจริง ๆ มีการเปลี่ยนแปลงครั้งใหญ่ราวกับการเคลื่อนตัวของแผ่นเปลือกโลกอยู่หลายครั้ง จนทั้งวงการดูแตกต่างไปอย่างสิ้นเชิงในทันที ผมน่าจะได้ผ่านมันมาด้วยตัวเองสักสองหรือสามครั้ง และผมคิดว่ามันจะยังเกิดขึ้นต่อไปด้วย เพราะมันเกิดขึ้นอย่างสม่ำเสมอจนน่าประหลาดใจแทบจะเกินไป

ตอนที่อาชีพของผมเริ่มต้นขึ้น ตอนที่เริ่มทำงานด้าน deep learning ที่ผมเริ่มสนใจ deep learning ก็เพราะโชคบังเอิญที่ได้อยู่ข้าง ๆ Geoff Hinton ที่มหาวิทยาลัยโตรอนโต Geoff Hinton แน่นอนว่าเป็นเสมือนเจ้าพ่อของ AI เขากำลังฝึก neural network แบบนี้อยู่ และผมก็คิดว่านั่นน่าทึ่งและน่าสนใจมาก แต่ตอนนั้นมันไม่ใช่สิ่งหลักที่ทุกคนในวงการ AI ทำกันเลย มันเป็นแค่หัวข้อเฉพาะทางเล็ก ๆ อยู่มุมหนึ่งเท่านั้น และนั่นน่าจะเป็นการเปลี่ยนแปลงครั้งใหญ่แบบพลิกวงการครั้งแรกที่มากับ AlexNet

AlexNet ทำให้ทุกคนต้องหันเข็มใหม่ และทุกคนก็เริ่มฝึก neural network กัน แต่ก็ยังเป็นแบบเฉพาะงาน เป็นงานใดงานหนึ่งโดยเฉพาะ เช่น มีตัวจำแนกภาพ หรือมี neural machine translation อะไรทำนองนั้น ผู้คนเริ่มสนใจเรื่อง agent กันอย่างช้า ๆ และเริ่มคิดว่า “โอเค เรื่องคล้าย visual cortex เราติ๊กถูกไปแล้ว แต่สมองส่วนอื่นล่ะ แล้วเราจะได้ agent ที่สมบูรณ์หรือสิ่งมีชีวิตที่สมบูรณ์ที่โต้ตอบกับโลกได้อย่างไร”

ความเปลี่ยนแปลงของ Atari deep reinforcement learning ราวปี 2013 ในมุมมองของผมคือส่วนหนึ่งของความพยายามระยะแรกเกี่ยวกับ agent เพราะมันเป็นความพยายามที่จะสร้าง agent ที่ไม่ได้แค่รับรู้โลก แต่ลงมือทำ โต้ตอบ และรับรางวัลจากสภาพแวดล้อม ซึ่งตอนนั้นก็คือเกม Atari

ผมรู้สึกว่านั่นเป็นทิศทางที่ผิด แม้แต่ OpenAI ยุคแรกที่ผมมีส่วนร่วมก็ยังรับเอาทิศทางที่ผิดนั้นไว้ เพราะจิตวิญญาณของยุคนั้นคือสภาพแวดล้อม reinforcement learning เกม การเล่นเกม การชนะเกม การได้เกมหลากหลายประเภท และ OpenAI ก็ทำเรื่องพวกนั้นเยอะมาก มันทั้งหมดเป็นความผิดพลาดเล็กน้อย น่าจะเป็นช่วง 2, 3, 4 ปีที่ทุกคนเอา reinforcement learning ไปใช้กับเกมกันหมด ซึ่งทั้งหมดก็ออกจะเป็นทิศทางที่ผิดนิด ๆ

สิ่งที่ผมพยายามจะทำที่ OpenAI—ผมค่อนข้างสงสัยมาโดยตลอดว่าเกมจะนำไปสู่ AGI ได้จริงหรือไม่ ในมุมของผม เราต้องการอะไรที่คล้าย ๆ นักบัญชี เป็นบางอย่างที่โต้ตอบกับโลกจริง ผมไม่เข้าใจว่าเกมจะพาไปถึงจุดนั้นได้อย่างไร ตัวอย่างเช่น ที่ OpenAI โปรเจกต์ของผมภายในขอบเขตของ โปรเจกต์ Universe คือเรื่อง agent ที่ใช้คีย์บอร์ดและเมาส์เพื่อควบคุมเว็บเพจ เพราะผมอยากสร้างบางอย่างที่สามารถโต้ตอบกับโลกดิจิทัลจริง ๆ และทำงานแบบ knowledge work ได้

แต่ปรากฏว่านี่มันเร็วเกินไป มากเกินไป เป็นความพยายามที่เร็วเกินจนเราไม่ควรไปทำมันเลย เพราะถ้าแค่คลำไปเรื่อย ๆ กดคีย์บอร์ดสะเปะสะปะ คลิกเมาส์ไปมา แล้วพยายามจะได้รางวัลจากสภาพแวดล้อมแบบนี้ รางวัลมันหายากเกินไปจนเรียนรู้ไม่ได้ คุณเผาทรัพยากรคอมพิวต์มหาศาล แต่ไม่มีวันได้ผล สิ่งที่เรายังขาดอยู่คือความสามารถในการแทนความรู้ของ neural network

ตัวอย่างเช่น ทุกวันนี้ผู้คนกำลังฝึก computer-using agent กันอยู่ แต่พวกเขาทำบน large language model คุณต้องมี language model ก่อน ต้องได้ representation ก่อน และต้องได้มันมาผ่าน pretraining และงานทุกอย่างที่เกี่ยวข้องกับ LLM ก่อน

ความรู้สึกของผม ถ้าพูดแบบคร่าว ๆ ก็คือ ผู้คนพยายามจะได้สิ่งที่สมบูรณ์ตั้งแต่เร็วเกินไปอยู่หลายครั้ง ผมอยากบอกว่าผู้คนพยายามไล่ตาม agent เร็วเกินไป ทั้ง Atari, Universe และแม้แต่ประสบการณ์ของผมเอง ก่อนที่จะไปถึง agent ได้จริง ยังมีสิ่งที่ต้องทำก่อน ตอนนี้ agent เก่งขึ้นมากแล้ว แต่ก็อาจเป็นไปได้ว่าเรายังขาดบางส่วนของสแตกนั้นอยู่

ผมอยากบอกว่าสามอย่างนี้คือหมวดหลักที่ผู้คนทำกัน: การฝึก neural network แบบเฉพาะงาน, การลองทำ agent รอบแรก, แล้วหลังจากนั้นคือการไล่หาความสามารถในการแทนความรู้ของ neural network ก่อนจะต่อยอด LLM และสิ่งอื่นทั้งหมดลงไปข้างบน

Dwarkesh Patel 00:07:02

น่าสนใจครับ ถ้าผมจะช่วยปกป้องมุมมองของ Sutton ให้หนักแน่นขึ้นอีกหน่อย มนุษย์ก็รับทุกอย่างเข้ามาพร้อมกันได้ใช่ไหมครับ หรือแม้แต่สัตว์ก็น่าจะรับทุกอย่างเข้ามาพร้อมกันได้ สัตว์อาจเป็นตัวอย่างที่ดีกว่าด้วยซ้ำ เพราะไม่มีแม้แต่โครงของภาษา พวกมันแค่ถูกโยนเข้ามาในโลก และต้องทำความเข้าใจทุกอย่างโดยไม่มี label ใด ๆ

ถ้าอย่างนั้น วิสัยทัศน์ของ AGI ไม่ควรเป็นการมองข้อมูลจากประสาทสัมผัส มองหน้าจอคอมพิวเตอร์ แล้วค่อย ๆ เข้าใจว่ากำลังเกิดอะไรขึ้นตั้งแต่ต้นเลยหรือ? ถ้ามนุษย์อยู่ในสถานการณ์คล้ายกันและต้องถูกฝึกจากศูนย์... มันก็เหมือนกับการเติบโตของมนุษย์หรือสัตว์นี่แหละ แทนที่จะมีการฝึกเป็นเวลาหลายล้านปี ทำไมสิ่งนั้นถึงไม่ควรเป็นวิสัยทัศน์ของ AI ล่ะ?

Andrej Karpathy 00:07:41

เป็นคำถามที่ดีมาก Sutton มาออกรายการพอดแคสต์ของคุณ และผมก็ได้ดูตอนนั้น แล้วก็เขียน โพสต์เกี่ยวกับสิ่งที่ผมคิด ไว้ ผมระมัดระวังมากกับการเปรียบเทียบกับสัตว์ เพราะสัตว์เกิดขึ้นมาจากกระบวนการ optimization ที่แตกต่างกันมาก สัตว์วิวัฒนาการมา และมาพร้อมกับฮาร์ดแวร์ที่ฝังมาในตัวจำนวนมหาศาล

ตัวอย่างเช่น ตัวอย่างในโพสต์ของผมคือม้าลาย ม้าลายเกิดมา และไม่กี่นาทีต่อมาก็วิ่งได้แล้วและเดินตามแม่ได้ นั่นเป็นสิ่งที่ซับซ้อนมาก มันไม่ใช่ reinforcement learning มันถูกฝังมาในตัว วิวัฒนาการมีวิธีเข้ารหัสค่าน้ำหนักของ neural network ของเราไว้ใน ATCG อย่างชัดเจน และผมไม่รู้ว่ามันทำงานอย่างไร แต่เห็นได้ชัดว่ามันทำงานได้

สมองเกิดมาจากกระบวนการที่ต่างออกไปมาก และผมลังเลมากที่จะเอาแรงบันดาลใจจากตรงนั้น เพราะจริง ๆ แล้วเราไม่ได้กำลังรันกระบวนการนั้นอยู่ ในโพสต์ของผม ผมบอกว่าเราไม่ได้กำลังสร้างสัตว์ เรากำลังสร้างอะไรบางอย่างคล้ายผีหรือวิญญาณ ไม่ว่าใครจะอยากเรียกมันว่าอะไรก็ตาม เพราะเราไม่ได้ฝึกด้วยวิวัฒนาการ เรากำลังฝึกผ่านการเลียนแบบมนุษย์และผ่านข้อมูลที่พวกเขาโพสต์บนอินเทอร์เน็ต

สุดท้ายแล้วมันจึงกลายเป็นสิ่งมีชีวิตเชิงจิตวิญญาณแบบนี้ เพราะมันเป็นดิจิทัลทั้งหมดและกำลังเลียนแบบมนุษย์ มันเป็นปัญญาอีกชนิดหนึ่ง ถ้าคุณจินตนาการถึงพื้นที่ของความฉลาด เราแทบจะเริ่มจากอีกจุดหนึ่งเลย เราไม่ได้กำลังสร้างสัตว์จริง ๆ แต่เมื่อเวลาผ่านไป ผมคิดว่ามันก็เป็นไปได้และควรทำให้พวกมันมีความเป็นสัตว์มากขึ้นบ้าง

อีกอย่างหนึ่งที่อยากเสริมคือ ผมคิดว่า Sutton นั้นค่อนข้าง... กรอบคิดของเขาคือ “เราอยากสร้างสัตว์” ผมคิดว่าถ้าทำให้มันเวิร์กได้ มันจะยอดเยี่ยมมาก มันจะน่าทึ่งจริง ๆ ถ้ามีอัลกอริทึมเดียวที่รันได้บนอินเทอร์เน็ตและเรียนรู้ทุกอย่างได้ นั่นจะน่าทึ่งมาก ผมไม่แน่ใจว่ามันมีอยู่จริงหรือไม่ และแน่นอนว่านั่นไม่ใช่สิ่งที่สัตว์ทำ เพราะสัตว์มีลูปภายนอกคือวิวัฒนาการ

หลายอย่างที่ดูเหมือนการเรียนรู้ แท้จริงแล้วใกล้เคียงกับการพัฒนาจนสมองสุกงอมมากกว่าการเรียนรู้ ผมคิดว่าสัตว์มี reinforcement learning น้อยมาก reinforcement learning ส่วนใหญ่น่าจะเป็นเรื่องงานด้านการเคลื่อนไหว เช่น งานพวกมอเตอร์ ไม่ใช่งานด้านสติปัญญา ดังนั้นจริง ๆ แล้วผมคิดว่ามนุษย์แทบไม่ได้ใช้ RL มากนัก ถ้าพูดแบบหยาบ ๆ

Dwarkesh Patel 00:09:52

ช่วยพูดประโยคสุดท้ายอีกครั้งได้ไหมครับ? ที่ว่าความฉลาดจำนวนมากนั้นไม่ใช่งานด้านการเคลื่อนไหว... เมื่อกี้คุณพูดว่าอะไรนะครับ?

Andrej Karpathy 00:09:54

ในมุมมองของผม reinforcement learning ส่วนใหญ่จะเป็นเรื่องที่คล้ายการเคลื่อนไหวมากกว่า เป็นงานง่าย ๆ อย่างการโยนลูกบอลลงห่วงบาสเกตบอล แต่ผมไม่คิดว่ามนุษย์ใช้ reinforcement learning กับงานด้านสติปัญญาจำนวนมาก เช่น การแก้ปัญหา นั่นไม่ได้หมายความว่าเราไม่ควรทำแบบนั้นเพื่อการวิจัย แต่ผมคิดว่านั่นคือสิ่งที่สัตว์ทำหรือไม่ทำต่างหาก

Dwarkesh Patel 00:10:17

ต้องใช้เวลาย่อยหน่อยครับ เพราะมีหลายไอเดียมาก ขอถามเพื่อให้เข้าใจมุมมองให้ชัดขึ้นอีกข้อหนึ่งนะครับ คุณเสนอว่าวิวัฒนาการทำสิ่งเดียวกับที่ pretraining ทำ ในความหมายของการสร้างบางอย่างที่สามารถเข้าใจโลกได้ ใช่ไหมครับ?

ความแตกต่างก็คือ ในกรณีของมนุษย์ วิวัฒนาการต้องถูกกำกับผ่าน DNA ขนาด 3 กิกะไบต์ นั่นแตกต่างจากน้ำหนักของโมเดลอย่างมาก ตามตัวอักษรแล้ว น้ำหนักของโมเดลก็คือสมอง แต่นั่นไม่ได้มีอยู่ชัดเจนในสเปิร์มหรือไข่ ดังนั้นมันจึงต้องเติบโตขึ้นมา อีกทั้งข้อมูลเกี่ยวกับไซแนปส์ทั้งหมดในสมองก็ไม่อาจมีอยู่ได้อย่างเรียบง่ายภายใน DNA ขนาด 3 กิกะไบต์นั้น

วิวัฒนาการดูเหมือนจะใกล้เคียงกับการค้นหาอัลกอริทึมที่ทำการเรียนรู้ตลอดช่วงชีวิตมากกว่า แน่นอนว่าการเรียนรู้ตลอดช่วงชีวิตอาจไม่คล้ายกับ RL อย่างที่คุณชี้ไว้ แบบนี้เข้ากันได้กับสิ่งที่คุณพูดหรือเปล่า หรือคุณไม่เห็นด้วย?

Andrej Karpathy 00:11:17

ผมคิดว่าใช่ ผมเห็นด้วยว่ามีการบีบอัดที่น่าทึ่งเกิดขึ้นอย่างชัดเจน เห็นได้ชัดว่าน้ำหนักของโครงข่ายประสาทไม่ได้ถูกเก็บไว้ใน ATCG มันมีการบีบอัดอย่างรุนแรง และมีการเข้ารหัสอัลกอริทึมการเรียนรู้ที่รับช่วงการเรียนรู้บางส่วนไปทำแบบออนไลน์ ในแง่นั้นผมเห็นด้วยแน่นอน ผมแค่อยากจะบอกว่าผมมีแนวคิดที่เน้นภาคปฏิบัติมากกว่า ผมไม่ได้เข้าหาจากมุมมองว่าเราควรสร้างสัตว์ แต่เข้าจากมุมมองว่าเราควรสร้างสิ่งที่มีประโยชน์ ผมใส่หมวกนิรภัยอยู่ และแค่สังเกตว่าเราคงจะไม่ทำแบบวิวัฒนาการ เพราะเราไม่รู้วิธีทำ

แต่สิ่งที่ค้นพบก็คือ เราสามารถสร้างสิ่งมีชีวิตลักษณะเหมือนภูตผี เหมือนมีวิญญาณ ได้ด้วยการเลียนแบบเอกสารบนอินเทอร์เน็ต ซึ่งมันใช้ได้จริง นี่เป็นเวอร์ชันที่เป็นไปได้ในทางปฏิบัติของการยกระดับคุณไปสู่บางสิ่งที่มีความรู้และสติปัญญาฝังอยู่มากมาย คล้ายกับสิ่งที่วิวัฒนาการทำในบางแง่ นั่นจึงเป็นเหตุผลที่ผมเรียกการพรีเทรนว่าเป็นวิวัฒนาการแบบห่วยๆ มันเป็นเวอร์ชันที่ทำได้จริงด้วยเทคโนโลยีและสิ่งที่เรามีใช้ และทำให้เราไปถึงจุดเริ่มต้นที่สามารถทำสิ่งอย่างการเรียนรู้แบบเสริมกำลังได้

Dwarkesh Patel 00:12:15

ถ้าจะลองปกป้องมุมมองอีกด้าน หลังจากที่ผมสัมภาษณ์ Sutton และคิดเรื่องนี้ต่อ ผมว่าเขามีประเด็นสำคัญตรงนี้ วิวัฒนาการไม่ได้ให้ความรู้แก่เราโดยตรง แต่มันให้อัลกอริทึมสำหรับค้นหาความรู้ และนั่นดูเหมือนจะแตกต่างจากการพรีเทรน

บางทีอีกมุมมองหนึ่งก็คือ การพรีเทรนช่วยสร้างสิ่งมีชีวิตชนิดที่สามารถเรียนรู้ได้ดีขึ้น มันสอนเมตาเลิร์นนิง จึงคล้ายกับการค้นหาอัลกอริทึม แต่ถ้าคุณบอกว่า “วิวัฒนาการให้ความรู้แก่เรา การพรีเทรนให้ความรู้แก่เรา” อุปมานั้นก็ดูเหมือนจะพังลง

Andrej Karpathy 00:12:42

มันเป็นประเด็นที่ละเอียดอ่อน และผมคิดว่าคุณก็ถูกแล้วที่โต้แย้งมัน แต่โดยพื้นฐานแล้วสิ่งที่การพรีเทรนกำลังทำคือ มันสร้าง ตัวทำนายโทเคนถัดไป สำหรับอินเทอร์เน็ตขึ้นมา แล้วฝึกมันเป็นโครงข่ายประสาท มันกำลังทำสองอย่างที่ไม่เกี่ยวกัน อย่างแรก มันกำลังดูดซับสิ่งทั้งหมดนี้ที่ผมเรียกว่าความรู้ อย่างที่สอง มันกำลังกลายเป็นสิ่งที่ฉลาดจริงๆ

ด้วยการสังเกตรูปแบบเชิงอัลกอริทึมบนอินเทอร์เน็ต มันได้บูตวงจรเล็กๆ และอัลกอริทึมทั้งหมดเหล่านี้ขึ้นมาภายในโครงข่ายประสาท เพื่อทำสิ่งอย่าง in-context learning คุณไม่จำเป็นต้องมีหรือแม้แต่ต้องการความรู้เลยก็ได้ ในความเห็นของผม มันอาจกำลังขัดขวางโครงข่ายประสาทโดยรวมด้วยซ้ำ เพราะบางครั้งมันทำให้พึ่งพาความรู้มากเกินไป

ตัวอย่างเช่น สิ่งหนึ่งที่เอเจนต์ทำได้ไม่ดีคือการออกนอกแมนิโฟลด์ของข้อมูลที่มีอยู่บนอินเทอร์เน็ต ถ้าพวกมันมีความรู้หรือความจำน้อยกว่านี้ พวกมันอาจจะทำได้ดีกว่า ผมคิดว่าสิ่งที่เราต้องทำต่อไป—และนี่จะเป็นส่วนหนึ่งของกระบวนทัศน์การวิจัย—คือหาวิธีเอาความรู้บางส่วนออกไป และคงสิ่งที่ผมเรียกว่า แกนการรู้คิด (cognitive core) เอาไว้ มันคือสิ่งมีชีวิตที่ชาญฉลาดซึ่งแยกออกจากความรู้ แต่ยังคงมีเวทมนตร์ของอัลกอริทึม สติปัญญา และการแก้ปัญหา รวมถึงกลยุทธ์ของสิ่งเหล่านั้นอยู่

Dwarkesh Patel 00:13:50

มีหลายอย่างที่น่าสนใจมากตรงนั้น เริ่มจาก in-context learning ก่อน นี่เป็นจุดที่เห็นได้ชัด แต่ผมคิดว่าควรพูดออกมาอย่างชัดเจนและใคร่ครวญดู สถานการณ์ที่โมเดลเหล่านี้ดูฉลาดที่สุด—ช่วงเวลาที่ผมคุยกับพวกมันแล้วรู้สึกว่า “ว้าว มีบางอย่างอยู่อีกฝั่งจริงๆ และมันกำลังตอบผมอยู่” ทุกอย่างที่เกิดขึ้น เช่น เวลามันทำพลาดแล้วพูดว่า “อ้อ เดี๋ยวก่อน นั่นเป็นวิธีคิดที่ผิด กลับไปก่อน” ทั้งหมดนั้นเกิดขึ้นภายในบริบท นั่นคือที่ที่มีสติปัญญาแท้จริงซึ่งคุณมองเห็นได้ด้วยตา

กระบวนการ in-context learning ถูกพัฒนาขึ้นโดย gradient descent จากการพรีเทรน มันเมตาเลิร์นการทำ in-context learning ขึ้นมาเอง แต่ตัว in-context learning เองไม่ใช่ gradient descent เหมือนกับที่ในฐานะมนุษย์ ความสามารถที่สติปัญญาตลอดช่วงชีวิตของเราทำงานได้ถูกปรับเงื่อนไขโดยวิวัฒนาการ แต่การเรียนรู้ตลอดชีวิตของเราเกิดขึ้นผ่านกระบวนการที่ต่างออกไป

Andrej Karpathy 00:14:42

ผมไม่ถึงกับเห็นด้วยทั้งหมด แต่ช่วยพูดต่อไปตามแนวคิดของคุณ

Dwarkesh Patel 00:14:44

อืม ผมอยากเข้าใจว่าอุปมานั้นพังลงอย่างไร

Andrej Karpathy 00:14:48

ผมลังเลที่จะบอกว่า in-context learning ไม่ได้ทำ gradient descent มันไม่ได้ทำ gradient descent แบบชัดเจนต่างหาก in-context learning คือการเติมเต็มรูปแบบภายในหน้าต่างของโทเคน และมันก็ปรากฏว่า บนอินเทอร์เน็ตมีรูปแบบอยู่มหาศาล คุณพูดถูก โมเดลเรียนรู้ที่จะเติมเต็มรูปแบบ และนั่นอยู่ในน้ำหนักของมัน น้ำหนักของโครงข่ายประสาทพยายามค้นหารูปแบบและเติมเต็มรูปแบบ มีการปรับตัวบางอย่างเกิดขึ้นภายในโครงข่ายประสาท ซึ่งดูมหัศจรรย์และโผล่ออกมาจากอินเทอร์เน็ตเฉยๆ เพราะมันมีรูปแบบมากมาย

ผมอยากบอกว่ามีงานวิจัยที่น่าสนใจซึ่งมองกลไกเบื้องหลัง in-context learning ผมคิดว่าเป็นไปได้ที่ in-context learning จะรันลูป gradient descent เล็กๆ ภายในเลเยอร์ของโครงข่ายประสาท งานหนึ่งที่ผมจำได้เป็นพิเศษ ใช้ in-context learning เพื่อทำ linear regression อินพุตของโครงข่ายประสาทคือคู่ XY เป็น XY, XY, XY ที่อยู่บนเส้นตรง แล้วจากนั้นให้ X และคาดหวัง Y และเมื่อฝึกแบบนี้ โครงข่ายประสาทก็ทำ linear regression

โดยทั่วไปเวลาคุณรัน linear regression จะมีตัวเพิ่มประสิทธิภาพ gradient descent ขนาดเล็กที่ดู XY ดูความคลาดเคลื่อน คำนวณความชันของน้ำหนัก แล้วอัปเดตสองสามครั้ง เมื่อดูน้ำหนักของอัลกอริทึม in-context learning นั้น ก็ปรากฏว่าพบความคล้ายคลึงบางอย่างกับกลไกของ gradient descent ที่จริงแล้ว ผมคิดว่างานนั้นไปได้แรงกว่านั้นอีก คือพวกเขาฮาร์ดโค้ดน้ำหนักของโครงข่ายประสาท เพื่อให้มันทำ gradient descent ผ่าน attention และทุกอย่างภายในโครงข่ายประสาท

นั่นเป็นข้อโต้แย้งเดียวของผม ไม่มีใครรู้ว่า in-context learning ทำงานอย่างไร แต่มันอาจกำลังทำ gradient descent แปลกๆ อยู่ข้างในบ้าง ผมคิดว่านั่นเป็นไปได้ ผมแค่กำลังโต้แย้งประโยคที่คุณบอกว่ามันไม่ได้ทำ in-context learning เอ่อ ไม่ได้ทำแบบนั้น ไม่มีใครรู้ว่ามันกำลังทำอะไร แต่อาจกำลังทำบางอย่างที่คล้ายกันอยู่ก็ได้ แต่เรายังไม่รู้

Dwarkesh Patel 00:16:39

ถ้าอย่างนั้น ถ้าทั้ง in-context learning และการพรีเทรนต่างก็อิมพลีเมนต์บางอย่างที่คล้ายกับ gradient descent ทำไม in-context learning ถึงให้ความรู้สึกเหมือนเราเข้าถึงการเรียนรู้อย่างต่อเนื่องแบบนี้ ความฉลาดจริงๆ แบบนี้ ขณะที่การพรีเทรนอย่างเดียวกลับไม่ให้ความรู้สึกคล้ายกัน คุณสามารถโต้แย้งแบบนั้นได้

ถ้าเป็นอัลกอริทึมเดียวกัน อะไรจะต่างกันได้บ้าง? วิธีหนึ่งในการคิดคือ โมเดลเก็บข้อมูลได้มากแค่ไหนต่อข้อมูลที่ได้รับระหว่างการฝึก ถ้าดูที่ pretraining เช่น Llama 3 ผมคิดว่ามันถูกฝึกด้วย 15 ล้านล้านโทเค็น ถ้าดูโมเดล 70B นั่นจะเท่ากับประมาณ 0.07 บิตต่อโทเค็นที่เห็นระหว่าง pretraining เมื่อเทียบข้อมูลในน้ำหนักของโมเดลกับจำนวนโทเค็นที่อ่าน ในทางกลับกัน ถ้าดู KV cache และดูว่ามันเพิ่มขึ้นเท่าไรต่อโทเค็นเพิ่มเติมในการเรียนรู้ในบริบท ก็ประมาณ 320 กิโลไบต์ ดังนั้นจึงต่างกันถึง 35 ล้านเท่าในปริมาณข้อมูลที่โมเดลดูดซึมได้ต่อโทเค็น ผมสงสัยว่านี่เกี่ยวข้องกันไหม

Andrej Karpathy 00:17:46

ผมเห็นด้วยในระดับหนึ่ง โดยทั่วไปวิธีที่ผมอธิบายเรื่องนี้คือ ทุกอย่างที่เกิดขึ้นระหว่างการฝึกโครงข่ายประสาท เป็นเพียงความทรงจำเลือนรางของสิ่งที่เกิดขึ้นในช่วงฝึก เพราะการบีบอัดนั้นรุนแรงมาก คุณเอา 15 ล้านล้านโทเค็นมาบีบอัดเป็นโครงข่ายประสาทสุดท้ายที่มีพารามิเตอร์หลายหมื่นล้านตัว เห็นได้ชัดว่ามีการบีบอัดปริมาณมหาศาลเกิดขึ้น นั่นจึงเป็นเหตุผลที่ผมเรียกมันว่าความทรงจำเลือนรางของเอกสารบนอินเทอร์เน็ต

ในทางกลับกัน ทุกอย่างที่เกิดขึ้นใน context window ของโครงข่ายประสาท—การป้อนโทเค็นทั้งหมดเข้าไปและสร้างตัวแทน KV cache ทั้งหมด—เป็นสิ่งที่โครงข่ายประสาทเข้าถึงได้โดยตรงมาก ดังนั้นผมจึงเปรียบ KV cache และสิ่งที่เกิดขึ้นในช่วง test time ว่าคล้ายกับ working memory มากกว่า ทุกอย่างที่อยู่ใน context window เป็นสิ่งที่โครงข่ายประสาทเข้าถึงได้โดยตรงมาก

ระหว่าง LLM กับมนุษย์มักมีความคล้ายคลึงกันที่แทบจะน่าทึ่งอยู่เสมอ ซึ่งผมคิดว่าน่าทึ่งเพราะเราไม่ได้พยายามสร้างสมองมนุษย์โดยตรง เราแค่ค้นพบว่าวิธีนี้ใช้ได้ผลแล้วก็ทำมันต่อไป แต่ผมรู้สึกว่าทุกอย่างที่อยู่ในน้ำหนักของโมเดลคือความทรงจำเลือนรางของสิ่งที่อ่านเมื่อหนึ่งปีก่อน ส่วนทุกอย่างที่ให้เป็นบริบทในช่วง test time อยู่ใน working memory โดยตรง นี่เป็นอุปมาที่ทรงพลังมากในการทำความเข้าใจเรื่องนี้

ตัวอย่างเช่น ถ้าคุณไปถาม LLM เกี่ยวกับหนังสือเล่มหนึ่ง ว่าในนั้นเกิดอะไรขึ้นบ้าง อย่างเช่น หนังสือของ Nick Lane LLM ก็มักจะให้คำตอบที่พอใช้ได้คร่าว ๆ แต่ถ้าคุณให้ทั้งบทแล้วถามคำถาม คุณจะได้ผลลัพธ์ที่ดีกว่ามาก เพราะตอนนี้มันถูกโหลดเข้า working memory ของโมเดลแล้ว นี่จึงเป็นวิธียาว ๆ ที่ผมบอกว่าผมเห็นด้วย และนี่คือเหตุผล

Dwarkesh Patel 00:19:11

ถอยออกมาสักก้าว ส่วนใดของสติปัญญามนุษย์ที่เรายังล้มเหลวที่สุดในการจำลองด้วยโมเดลเหล่านี้?

Andrej Karpathy 00:19:20

ก็หลายส่วนเลย ดังนั้นวิธีหนึ่งในการคิดเรื่องนี้ แม้ผมไม่แน่ใจว่านี่เป็นวิธีที่ดีที่สุด แต่ผมแทบจะรู้สึกว่า—อีกครั้ง การสร้างอุปมาแบบนี้ไม่สมบูรณ์—เราเหมือนค้นพบโดยบังเอิญด้วยโครงข่ายประสาทแบบทรานส์ฟอร์เมอร์ ว่ามันทรงพลังอย่างยิ่งและมีความเป็นทั่วไปสูงมาก คุณสามารถฝึกทรานส์ฟอร์เมอร์กับเสียง วิดีโอ ข้อความ หรืออะไรก็ได้ที่คุณต้องการ มันเรียนรู้แพตเทิร์นได้ ทรงพลังมาก และทำงานได้ดีมาก สำหรับผมสิ่งนี้แทบจะบอกเป็นนัยว่านี่คือเนื้อเยื่อเปลือกสมองบางส่วน มันให้ความรู้สึกแบบนั้น เพราะเปลือกสมองขึ้นชื่อว่ามีความยืดหยุ่นสูงมาก คุณสามารถเดินสายบางส่วนของสมองใหม่ได้ มี การทดลองที่ชวนขนลุกเล็กน้อย ที่เอา visual cortex ไปเชื่อมใหม่กับ auditory cortex และสัตว์นั้นก็เรียนรู้ได้ดี

ดังนั้นผมคิดว่านี่คือเนื้อเยื่อเปลือกสมอง (cortical tissue) เวลาที่เราทำการให้เหตุผลและการวางแผนภายในโครงข่ายประสาท เวลาที่เรามี reasoning trace สำหรับโมเดลการคิด มันก็คล้าย prefrontal cortex เล็กน้อย บางทีสิ่งเหล่านี้อาจเป็นเหมือนเครื่องหมายถูกเล็ก ๆ แต่ผมยังคิดว่ายังมีอีกหลายส่วนของสมองและนิวเคลียสต่าง ๆ ที่ยังไม่ถูกสำรวจ ตัวอย่างเช่น มี basal ganglia ที่ทำ reinforcement learning เล็กน้อย เวลาที่เราปรับแต่งโมเดลด้วย reinforcement learning แต่ hippocampus อยู่ตรงไหน? ยังไม่ชัดเจนว่ามันจะเป็นอะไร บางส่วนอาจไม่สำคัญก็ได้ เช่น cerebellum อาจไม่สำคัญต่อ cognition และไม่สำคัญต่อการคิด ดังนั้นบางส่วนอาจข้ามไปได้ แต่ผมยังคิดว่ายังมีอย่างเช่น amygdala อารมณ์และสัญชาตญาณทั้งหมด บางทีอาจยังมีนิวเคลียสเก่าแก่อีกมากในสมองที่เราไม่ได้จำลองจริง ๆ

ผมไม่คิดว่าเราควรมุ่งสร้างสิ่งเทียบเท่าสมองมนุษย์ โดยพื้นฐานแล้วในใจผม ผมเป็นวิศวกรมากกว่า บางทีอีกวิธีหนึ่งในการตอบคำถามนี้คือ ผมคงไม่จ้างสิ่งนี้มาเป็นเด็กฝึกงาน ยังมีอะไรอีกมากที่ขาดหายไป และมันมาพร้อมกับข้อบกพร่องทางการรับรู้จำนวนมากที่เราทุกคนสัมผัสได้โดยสัญชาตญาณเวลาเราคุยกับโมเดล ดังนั้นมันยังไปไม่ถึงจุดนั้นอย่างสมบูรณ์ คุณอาจมองได้ว่ายังมีหลายส่วนของสมองที่ยังไม่ได้ถูกติ๊กว่าเสร็จ

Dwarkesh Patel 00:21:16

เรื่องนี้อาจเกี่ยวกับคำถามที่ว่าปัญหาเหล่านี้จะถูกแก้เร็วแค่ไหน บางครั้งผู้คนพูดถึง continual learning ว่า “ดูสิ เราจำลองความสามารถนี้ได้ไม่ยาก อย่างที่ in-context learning โผล่ขึ้นมาเองจากผลของ pretraining การเรียนรู้อย่างต่อเนื่องในช่วงเวลาที่ยาวกว่านั้นก็จะโผล่ขึ้นมาเองเช่นกัน ถ้าโมเดลได้รับแรงจูงใจให้จดจำข้อมูลข้ามช่วงเวลาที่ยาวกว่า ยาวเกินหนึ่งเซสชัน” ดังนั้นถ้ามี outer-loop RL ที่ภายใน outer loop นั้นมีหลายเซสชัน continual learning แบบที่มันปรับแต่งตัวเองหรือเขียนลง external memory ก็น่าจะโผล่ขึ้นมาเอง คุณคิดว่าสิ่งเหล่านี้ฟังดูสมเหตุสมผลไหม? ผมไม่มีความเชื่อเดิมเกี่ยวกับเรื่องนี้ว่ามันน่าเป็นไปได้แค่ไหน โอกาสมันมากน้อยแค่ไหน?

Andrej Karpathy 00:22:07

ผมไม่ค่อยคล้อยตามเรื่องนั้นทั้งหมด โมเดลเหล่านี้ตอนบูตขึ้นมา ตอนที่หน้าต่างยังมี 0 โทเค็น พวกมันเริ่มใหม่จากศูนย์เสมอ จากจุดเดิมที่มันเคยอยู่ ดังนั้นผมไม่แน่ใจว่ามันจะมีหน้าตาอย่างไรในโลกทัศน์นั้น ถ้าจะสร้างอุปมาเล็กน้อยกับมนุษย์—ซึ่งผมคิดว่ามันค่อนข้างเป็นรูปธรรมและน่าสนใจที่จะคิด—ตอนที่ผมตื่นอยู่ ผมรู้สึกเหมือนกำลังสร้าง context window ของสิ่งที่เกิดขึ้นตลอดทั้งวัน แต่ตอนที่ผมนอนหลับ มีบางอย่างที่เหมือนเวทมนตร์เกิดขึ้น และผมไม่คิดว่า context window นั้นจะยังคงอยู่ มีบางกระบวนการที่กลั่นมันลงสู่น้ำหนักของสมอง เรื่องแบบนี้เกิดขึ้นระหว่างการนอนหลับและอะไรทำนองนั้น

ใน large language model ไม่มีสิ่งที่เทียบเท่ากับแบบนั้น สำหรับผม มันใกล้เคียงกับสิ่งที่ขาดหายไปมากกว่าเมื่อเราพูดถึง continual learning โมเดลเหล่านี้ไม่ได้มีขั้นตอนกลั่นจริง ๆ ที่เอาสิ่งที่เกิดขึ้นมา วิเคราะห์มันอย่างหมกมุ่น ครุ่นคิดกับมัน สร้างกระบวนการสร้างข้อมูลสังเคราะห์เล็กน้อย แล้วกลั่นมันกลับเข้าไปในน้ำหนักอีกที และบางทีอาจมีโครงข่ายประสาทเฉพาะตัวต่อคนอยู่ด้วย บางทีอาจเป็น LoRA ไม่ใช่โครงข่ายประสาทที่มีน้ำหนักทั้งชุด แต่อาจเป็นเพียงชุดย่อยแบบเบาบางขนาดเล็กของน้ำหนักที่เปลี่ยนแปลง

แต่เราต้องการสร้างวิธีในการสร้างบุคคลแบบนี้ที่มีบริบทยาวมาก ไม่ใช่ว่าทุกอย่างจะคงอยู่แค่ใน context window เพราะ context window เติบโตยาวมาก ๆ บางทีเราอาจมี sparse attention ที่ซับซ้อนมากสำหรับเรื่องนั้นด้วย แต่ผมก็ยังคิดว่ามนุษย์มีกระบวนการบางอย่างที่ชัดเจนในการกลั่นความรู้นั้นบางส่วนกลับเข้าไปในน้ำหนัก เรากำลังขาดสิ่งนั้นอยู่ ผมยังคิดว่ามนุษย์มีระบบ sparse attention ที่ซับซ้อนมาก และผมคิดว่าเราเริ่มเห็นเบาะแสตั้งต้นบางอย่างแล้ว DeepSeek v3.2 เพิ่งออกมา และผมเห็นว่าพวกเขามี sparse attention ตัวอย่างเช่น นี่คือวิธีหนึ่งในการมี context window ที่ยาวมาก ๆ ดังนั้นผมจึงรู้สึกว่าเรากำลังทำซ้ำกลเม็ดทางการรับรู้หลายอย่างที่วิวัฒนาการคิดค้นขึ้นมา ผ่านกระบวนการที่แตกต่างกันมาก แต่เราจะค่อย ๆ บรรจบไปสู่อาร์กิเทกเจอร์ที่คล้ายกันในเชิงการรับรู้

Dwarkesh Patel 00:24:02

คุณคิดว่าอีก 10 ปีข้างหน้ามันก็ยังจะเป็นอะไรประมาณทรานส์ฟอร์เมอร์อยู่ไหม? แต่มี attention ที่ถูกปรับแต่งมากขึ้นมากและ MLP ที่เบาบางกว่าหรืออะไรทำนองนั้น?

Andrej Karpathy 00:24:10

วิธีที่ผมคิดถึงเรื่องนี้คือในแง่ของ ความไม่แปรตามการเลื่อนตำแหน่ง ตามเวลา เมื่อ 10 ปีก่อนเราอยู่ตรงไหน? ปี 2015 ตอนนั้นเรามี โครงข่ายประสาทแบบคอนโวลูชัน เป็นหลัก และ Residual Network ก็เพิ่งออกมา มันคล้ายกันอย่างน่าทึ่ง แต่ก็ยังต่างกันพอสมควร ยังไม่มีทรานส์ฟอร์เมอร์ และก็ยังไม่มีการปรับแต่งสมัยใหม่ของทรานส์ฟอร์เมอร์เหล่านี้ด้วย บางอย่างที่เราพอจะเดิมพันได้ ผมคิดว่าจากมุมของความสมมาตรจากการเลื่อนตำแหน่งก็คือ อีก 10 ปีข้างหน้าเราก็น่าจะยังฝึกโครงข่ายประสาทขนาดมหึมาด้วย forward pass / backward pass และอัปเดตด้วย gradient descent อยู่ดี แต่หน้าตามันอาจจะต่างออกไปเล็กน้อย และทุกอย่างก็น่าจะใหญ่ขึ้นมาก

เมื่อไม่นานมานี้ผมย้อนกลับไปไกลถึงปี 1989 ซึ่งเป็นแบบฝึกหัดที่สนุกสำหรับผม เพราะผมกำลังพยายามทำซ้ำ เครือข่ายคอนโวลูชันปี 1989 ของ Yann LeCun มันเป็น โครงข่ายประสาทตัวแรก เท่าที่ผมรู้ ที่ถูกฝึกด้วย gradient descent โครงข่ายประสาทสมัยใหม่สำหรับการรู้จำตัวเลขที่ถูกฝึกด้วย gradient descent ผมสนใจว่ามันจะทำให้ทันสมัยได้อย่างไร อะไรในนี้เป็นเรื่องของอัลกอริทึม? อะไรเป็นเรื่องของข้อมูล? ความก้าวหน้านี้มีเท่าไรที่มาจากคอมพิวต์และระบบ? ผมสามารถย่นเวลาการเรียนรู้ลงครึ่งหนึ่งได้ค่อนข้างเร็ว ผ่านการท่องเวลาย้อนหลัง 33 ปี

ดังนั้น ถ้าคุณท่องเวลา 33 ปีในเชิงอัลกอริทึม คุณก็สามารถปรับสิ่งที่ Yann LeCun ทำไว้ในปี 1989 และลดข้อผิดพลาดลงครึ่งหนึ่งได้ แต่ถ้าจะให้ได้ผลเพิ่มขึ้นอีกมาก ก็ต้องเพิ่มข้อมูลเข้าไปอีกเยอะ ต้องขยายชุดฝึก 10 เท่า และต้องเพิ่มการปรับแต่งด้านการคำนวณอีกมาก ต้องฝึกให้นานขึ้นมากด้วย dropout และเทคนิค regularization อื่น ๆ

เพราะฉะนั้น ทุกอย่างพวกนี้ต้องดีขึ้นพร้อมกัน เราน่าจะมีข้อมูลมากขึ้นมาก มีฮาร์ดแวร์ที่ดีขึ้นมาก มี kernel และซอฟต์แวร์ที่ดีกว่ามากเพื่อรันฮาร์ดแวร์และดึงประโยชน์จากฮาร์ดแวร์ออกมาให้ได้สูงสุด และก็จะมีอัลกอริทึมที่ดีกว่าเดิม ทั้งหมดนี้ ดูเหมือนว่าไม่มีอย่างไหนชนะขาดเกินไปนัก ทุกอย่างสำคัญพอ ๆ กันอย่างน่าประหลาดใจ และนี่ก็เป็นแนวโน้มมาสักพักแล้ว

ดังนั้นเพื่อตอบคำถาม ผมคาดว่ามันจะมีความแตกต่างเชิงอัลกอริทึมจากสิ่งที่เกิดขึ้นในทุกวันนี้ แต่ผมก็คาดด้วยว่าสิ่งบางอย่างที่อยู่มานานมากแล้ว ก็น่าจะยังคงอยู่ต่อไปอีกนาน มันอาจจะยังเป็นโครงข่ายประสาทขนาดมหึมาที่ฝึกด้วย gradient descent อยู่ดี นั่นคือการคาดเดาของผม

Dwarkesh Patel 00:26:16

น่าทึ่งมากที่เมื่อรวมทุกอย่างเข้าด้วยกันแล้ว คุณลดข้อผิดพลาดได้แค่ครึ่งเดียว ทั้งความก้าวหน้า 30 ปี... ซึ่งครึ่งหนึ่งก็อาจจะเยอะมากแล้ว เพราะถ้าลดข้อผิดพลาดลงครึ่งหนึ่ง มันก็จริง ๆ แล้ว...

Andrej Karpathy 00:26:30

ครึ่งหนึ่งนี่เยอะมาก แต่สิ่งที่ทำให้ผมช็อกคือทุกอย่างต้องดีขึ้นโดยรวมทั้งหมด: สถาปัตยกรรม, optimizer, loss function และทั้งหมดนั้นก็พัฒนาขึ้นโดยรวมมาเรื่อย ๆ ตลอดเวลาเหมือนกัน ดังนั้นผมคาดว่าการเปลี่ยนแปลงเหล่านั้นทั้งหมดจะยังคงอยู่และแข็งแรงดี

Dwarkesh Patel 00:26:43

ใช่ ผมกำลังจะถามคำถามที่คล้ายกันมากเกี่ยวกับ nanochat เพราะคุณเพิ่งเขียนโค้ดมันไปไม่นาน ทุกขั้นตอนของกระบวนการสร้างแชตบอตยังสดใหม่อยู่ใน RAM ของคุณ ผมสงสัยว่าระหว่างทางจาก GPT-2 ไปสู่ nanochat คุณมีความคิดทำนองว่า “อ้อ ตรงนี้ไม่มีอะไรเกี่ยวข้องเลยนี่นา” หรือเปล่า แล้วบทเรียนที่น่าประหลาดใจจากประสบการณ์นั้นคืออะไร?

Andrej Karpathy 00:27:08

เรื่องการสร้าง nanochat เหรอ? nanochat คือรีโพซิทอรีที่ผมปล่อยออกมา เมื่อวานหรือวันก่อนนะ? จำไม่ได้แล้ว

Dwarkesh Patel 00:27:15

ดูเหมือนเราจะเริ่มเห็นผลลัพธ์ของการนอนไม่พอแล้ว...

Andrej Karpathy 00:27:18

มันตั้งใจจะเป็นรีโพซิทอรีที่ง่ายและครบที่สุดสำหรับครอบคลุมทั้ง pipeline ของการสร้าง ChatGPT clone ตั้งแต่ต้นจนจบ ดังนั้นมันไม่ได้มีแค่ขั้นตอนย่อย ๆ แต่มีครบทุกขั้นตอน ซึ่งมีอยู่ค่อนข้างมาก ในอดีตผมเคยทำงานกับแต่ละขั้นตอนเหล่านี้ และในเชิงอัลกอริทึม ผมก็เคยปล่อยโค้ดชิ้นเล็ก ๆ ที่แสดงวิธีทำแบบเรียบง่ายออกมาแล้ว แต่นี่ครอบคลุมทั้ง pipeline เลย ในแง่ของการเรียนรู้ ผมไม่แน่ใจว่าผมได้เรียนรู้อะไรจากมันอย่างหลีกเลี่ยงไม่ได้หรือเปล่า ผมมีภาพในหัวอยู่แล้วว่ามันต้องสร้างอย่างไร นี่เป็นแค่กระบวนการลงมือสร้างมันอย่างเป็นระบบ และทำให้มันสะอาดพอที่ผู้คนจะเรียนรู้จากมันและมองว่ามันมีประโยชน์

Dwarkesh Patel 00:28:04

วิธีที่ดีที่สุดที่ใครสักคนจะเรียนรู้จากมันคืออะไร? ลบโค้ดทั้งหมดแล้วลองเขียนใหม่ตั้งแต่ต้น หรือพยายามเพิ่มการแก้ไขต่าง ๆ เข้าไป?

Andrej Karpathy 00:28:10

เป็นคำถามที่ดี โดยพื้นฐานแล้วมันคือโค้ดประมาณ 8,000 บรรทัดที่พาคุณผ่านทั้ง pipeline ตั้งแต่ต้นจนจบ ถ้ามีสองจอ ผมคงเปิดมันไว้บนจอขวา ถ้าคุณอยากสร้างมันตั้งแต่ต้น ก็เริ่มจากศูนย์ได้เลย อนุญาตให้ดูอ้างอิงได้ แต่ห้าม copy-paste ผมคงทำแบบนั้น

แต่ผมก็คิดว่ารีโพซิทอรีตัวมันเองก็เป็นสัตว์ประหลาดขนาดใหญ่พอสมควรเหมือนกัน ตอนที่เขียนโค้ดนี้ ผมไม่ได้ไล่จากบนลงล่าง แต่ทำเป็นก้อน ๆ แล้วค่อยขยายก้อนเหล่านั้น ซึ่งข้อมูลแบบนั้นมันไม่ได้อยู่ในนั้น คุณคงไม่รู้ว่าจะเริ่มจากตรงไหน เพราะฉะนั้นสิ่งที่ต้องมีไม่ใช่แค่รีโพซิทอรีสุดท้าย แต่ต้องมีการสร้างรีโพซิทอรีนั้นขึ้นมาด้วย ซึ่งเป็นกระบวนการขยายก้อนที่ซับซ้อน ดังนั้นส่วนนั้นยังไม่มี ผมอาจจะอยากเพิ่มมันในช่วงปลายสัปดาห์นี้ อาจจะเป็นวิดีโอหรืออะไรทำนองนั้น โดยคร่าว ๆ นั่นคือสิ่งที่ผมอยากทำ สร้างมันด้วยตัวเอง แต่ห้าม copy-paste

ผมคิดว่าความรู้แทบจะแบ่งได้เป็นสองประเภท มีความรู้ระดับสูงแบบผิวหน้า แต่เมื่อคุณสร้างอะไรบางอย่างขึ้นมาจากศูนย์ คุณจะต้องเผชิญกับสิ่งที่คุณไม่เข้าใจ และเผชิญกับสิ่งที่คุณไม่เคยรู้ด้วยซ้ำว่าตัวเองไม่เข้าใจ

มันนำไปสู่ความเข้าใจที่ลึกขึ้นเสมอ นั่นคือหนทางเดียวของการสร้าง ถ้าคุณสร้างมันไม่ได้ แปลว่าคุณยังไม่เข้าใจ ผมเชื่อว่านั่นคือ คำพูดของ Feynman และผมเชื่อเรื่องนี้อย่างแรงกล้ามาตลอด เพราะมันมีรายละเอียดเล็ก ๆ น้อย ๆ ที่ยังไม่ได้จัดวางเข้าที่ และจริง ๆ แล้วคุณยังไม่มีความรู้นั้น คุณแค่คิดว่าตัวเองมีมันเท่านั้นเอง เพราะฉะนั้นอย่าเขียนบล็อกโพสต์ อย่าทำสไลด์ อย่าทำอะไรพวกนั้น จงเขียนโค้ด จัดมันให้เข้าที่ และทำให้มันใช้งานได้ นั่นคือหนทางเดียว ไม่อย่างนั้นคุณก็กำลังพลาดความรู้ไป

00:29:45 – ความบกพร่องทางการรับรู้ของ LLM

Dwarkesh Patel 00:29:45

คุณทวีตว่าระหว่างประกอบรีโพซิทอรีนี้ โมเดลสำหรับเขียนโค้ดแทบไม่ได้ช่วยเลย ผมสงสัยว่าทำไมถึงเป็นแบบนั้น

Andrej Karpathy 00:29:53

ผมอยากจะบอกว่าผมใช้เวลาสร้างรีโพซิทอรีนี้นานกว่าหนึ่งเดือนเล็กน้อย และผมอยากบอกว่าปัจจุบันมีวิธีหลัก ๆ อยู่สามแบบที่ผู้คนใช้โต้ตอบกับโค้ด บางคนปฏิเสธ LLM ไปเลย แล้วก็เขียนทุกอย่างตั้งแต่ต้น ซึ่งนั่นอาจจะไม่ใช่วิธีที่ถูกต้องอีกต่อไปแล้ว

ส่วนกลางคือจุดที่ผมอยู่ตอนนี้ ซึ่งผมยังคงเขียนหลายอย่างขึ้นมาใหม่ตั้งแต่ต้น แต่ตอนนี้ผมใช้ระบบเติมโค้ดอัตโนมัติที่ใช้งานได้จากโมเดลเหล่านี้ ถ้าผมเริ่มเขียนชิ้นเล็ก ๆ มันก็จะเติมต่อให้อัตโนมัติ แล้วผมก็กดแท็บข้ามไปได้ ส่วนใหญ่แล้วมันถูก บางครั้งก็ผิด แล้วก็ต้องแก้ไข แต่คุณก็ยังเป็นสถาปนิกของสิ่งที่คุณกำลังเขียนอยู่ แล้วจากนั้นก็มี vibe coding: “เฮ้ ช่วย implement สิ่งนี้หรือสิ่งนั้นให้หน่อย” กดเอนเทอร์ แล้วปล่อยให้โมเดลทำ นั่นแหละคือเอเจนต์

ผมรู้สึกว่าเอเจนต์จะทำงานได้ในสภาพแวดล้อมที่เฉพาะเจาะจงมาก และจะถูกใช้ในสภาพแวดล้อมที่เฉพาะเจาะจง แต่ทั้งหมดนี้ก็เป็นเครื่องมือที่ใช้งานได้ และเราต้องเรียนรู้ว่ามันเก่งอะไร ไม่เก่งอะไร และควรใช้เมื่อไร เอเจนต์ค่อนข้างเก่งเวลาทำงานที่เป็น boilerplate เช่น โค้ด boilerplate ที่ก็แค่คัดลอกแล้ววาง อะไรประมาณนั้น มันเก่งมากกับสิ่งที่เกิดขึ้นบ่อยมากบนอินเทอร์เน็ต เพราะมีตัวอย่างจำนวนมากอยู่ในชุดฝึกของโมเดลเหล่านี้ มีลักษณะบางอย่างที่บ่งบอกได้ว่าโมเดลจะทำได้ดีมากกับงานแบบไหน

ผมอยากบอกว่า nanochat ไม่ใช่ตัวอย่างแบบนั้น เพราะมันเป็นรีโพซิทอรีที่ค่อนข้างมีเอกลักษณ์ ไม่มีโค้ดมากนักที่ถูกจัดโครงสร้างแบบที่ผมทำ มันไม่ใช่โค้ด boilerplate มันเป็นโค้ดที่ใช้ความคิดอย่างเข้มข้น และทุกอย่างต้องถูกจัดวางอย่างแม่นยำมาก โมเดลพวกนี้มีข้อบกพร่องด้านการรับรู้มากเกินไป ตัวอย่างหนึ่งคือ พวกมันตีความโค้ดผิดอยู่เรื่อย ๆ เพราะมีความทรงจำเกี่ยวกับวิธีการทั่วไปทั้งหมดจากอินเทอร์เน็ตมากเกินไป ซึ่งผมไม่ได้เลือกใช้ ตัวอย่างเช่น—ผมไม่แน่ใจว่าควรลงรายละเอียดทั้งหมดไหม—พวกมันเอาแต่คิดว่าผมกำลังเขียนโค้ดทั่วไป แต่จริง ๆ แล้วผมไม่ได้ทำแบบนั้น

Dwarkesh Patel 00:31:49

อาจจะยกสักตัวอย่างหนึ่ง?

Andrej Karpathy 00:31:51

มี GPU 8 ตัว และทุกตัวกำลังทำ forward กับ backward อยู่ วิธีซิงก์ gradient ระหว่างพวกมันคือใช้คอนเทนเนอร์ Distributed Data Parallel ของ PyTorch ซึ่งจะเริ่มการสื่อสารและซิงก์ gradient ให้อัตโนมัติระหว่างที่ทำ backward แต่ผมไม่ได้ใช้ DDP เพราะผมไม่อยากใช้ ผมไม่จำเป็นต้องใช้ ผมเลยตัดมันทิ้งและเขียนรูทีนซิงก์ของตัวเองไว้ในขั้นตอนของ optimizer โมเดลพยายามจะให้ผมใช้คอนเทนเนอร์ DDP พวกมันกังวลมาก เรื่องนี้จะเทคนิคเกินไปหน่อย แต่ผมไม่ได้ใช้คอนเทนเนอร์นั้น เพราะมันไม่จำเป็น และผมมี implementation แบบปรับแต่งเองของสิ่งที่คล้ายกันอยู่แล้ว

Dwarkesh Patel 00:32:26

พวกมันคง internalize ไม่ได้ว่าคุณมีของของตัวเองอยู่แล้ว

Andrej Karpathy 00:32:28

มันก้าวข้ามจุดนั้นไปไม่ได้ มันพยายามทำลายสไตล์อยู่เรื่อย ๆ มันป้องกันตัวมากเกินไป สร้างคำสั่ง try-catch สารพัด มันพยายามจะทำเป็น production codebase อยู่ตลอด ทั้งที่โค้ดของผมมีสมมติฐานอยู่เยอะ และนั่นก็โอเค มันไม่ต้องการของเสริมทั้งหมดพวกนั้น ผมเลยรู้สึกว่าพวกมันทำให้ codebase บวม ทำให้ความซับซ้อนบวม ตีความผิดอยู่เรื่อย ๆ และใช้ API ที่เลิกใช้ไปแล้วหลายครั้ง มันเละเทะไปหมด มันไม่ได้มีประโยชน์สุทธิเลย คุณอาจเข้าไปเก็บกวาดมันได้ แต่โดยรวมแล้วมันไม่ได้คุ้มค่า

อีกอย่าง ผมรู้สึกว่าน่ารำคาญที่ต้องพิมพ์สิ่งที่ต้องการเป็นภาษาอังกฤษ เพราะมันต้องพิมพ์เยอะเกินไป ถ้าผมเลื่อนไปยังส่วนของโค้ดที่ต้องการ ไปยังตำแหน่งที่โค้ดควรจะปรากฏ แล้วเริ่มพิมพ์อักษรไม่กี่ตัวแรก ระบบเติมโค้ดอัตโนมัติก็จะเข้าใจและให้โค้ดมา นี่เป็นแบนด์วิดท์ข้อมูลที่สูงมากในการระบุสิ่งที่ต้องการ คุณชี้ไปยังโค้ดที่ต้องการ แล้วพิมพ์ชิ้นส่วนแรกไม่กี่ชิ้น จากนั้นโมเดลก็เติมให้จบ

คือโมเดลพวกนี้เก่งในบางส่วนของสแต็ก ผมมีสองตัวอย่างที่ผมใช้โมเดล และคิดว่ามันเป็นตัวอย่างที่ดี ตัวอย่างหนึ่งคือเวลาผมสร้างรายงาน มันเป็นงานแบบ boilerplate มากกว่า ผมเลยทำแบบ vibe coding กับบางส่วนได้บ้าง มันไม่ใช่งาน mission-critical ก็เลยโอเค และมันก็ทำงานได้ดี

อีกส่วนหนึ่งคือตอนที่ผมเขียน tokenizer ใหม่ด้วย Rust ผมไม่ได้เก่ง Rust มาก เพราะ Rust ค่อนข้างใหม่สำหรับผม ดังนั้นตอนเขียนโค้ด Rust ก็มี vibe coding อยู่บ้าง แต่ผมมี implementation ใน Python ที่ผมเข้าใจทั้งหมดอยู่แล้ว และผมกำลังตรวจให้แน่ใจว่ากำลังสร้างเวอร์ชันที่มีประสิทธิภาพมากขึ้น อีกทั้งยังมีการทดสอบอยู่ด้วย ผมเลยรู้สึกว่าการทำอะไรแบบนั้นปลอดภัยกว่า มันช่วยเพิ่มการเข้าถึงภาษาและ paradigm ที่คุณอาจไม่คุ้นเคย ซึ่งผมคิดว่ามีประโยชน์มากตรงนี้ด้วย มีโค้ด Rust อยู่มาก และโมเดลก็ทำได้ค่อนข้างดี ผมไม่ค่อยรู้อะไรมากเกี่ยวกับมัน ดังนั้นโมเดลจึงมีประโยชน์มากในจุดนั้น

Dwarkesh Patel 00:34:23

อีกเหตุผลที่คำถามนี้น่าสนใจมากคือ เรื่องเล่าหลักของผู้คนเกี่ยวกับการไปถึง AI explosion และ superintelligence อย่างรวดเร็ว ก็คือ AI จะทำให้วิศวกรรม AI และการวิจัย AI เป็นอัตโนมัติ พวกเขาเห็นว่า Claude Code สามารถสร้างแอปพลิเคชันทั้งตัวได้ตั้งแต่ต้น เป็นแอป CRUD ได้ แล้วก็คิดว่า “ถ้าใน OpenAI กับ DeepMind ภายในมีความสามารถแบบเดียวกัน ลองนึกภาพคุณเป็นพันคน หรือคุณเป็นล้านคนที่รันแบบขนาน เพื่อค้นหาการปรับสถาปัตยกรรมเล็ก ๆ น้อย ๆ สิ”

การได้ยินคุณบอกว่าสิ่งนี้กลับเป็นจุดที่มันแย่กว่าอย่างไม่สมมาตรนั้นน่าสนใจมาก มันเกี่ยวข้องมากกับการคาดการณ์ว่าการระเบิดแบบ AI 2027 มีโอกาสเกิดขึ้นในเร็ว ๆ นี้หรือไม่

Andrej Karpathy 00:35:05

นั่นเป็นวิธีพูดที่ดี และผมก็เข้าใจว่าทำไมไทม์ไลน์ของผมถึงยาวกว่าเล็กน้อย คุณพูดถูก พวกมันไม่ค่อยเก่งกับโค้ดที่ไม่เคยถูกเขียนมาก่อน นั่นอาจเป็นวิธีหนึ่งในการอธิบาย และมันก็คือสิ่งที่เรากำลังพยายามทำให้สำเร็จตอนที่เราสร้างโมเดลเหล่านี้

Dwarkesh Patel 00:35:19

คำถามที่ไร้เดียงสามาก แต่การปรับสถาปัตยกรรมที่คุณกำลังเพิ่มเข้าไปใน nanochat มันก็อยู่ในงานวิจัยสักแห่งใช่ไหม หรืออาจจะอยู่ในรีโพซิทอรีสักแห่งด้วยซ้ำ ถ้าคุณบอกว่า “เพิ่ม RoPE embedding สิ” มันน่าแปลกไหมที่พวกมันยังทำผิดวิธี?

Andrej Karpathy 00:35:42

มันยาก พวกมันรู้ แต่ก็ไม่ได้รู้ทั้งหมด มันไม่รู้ว่าจะผสานสิ่งนั้นเข้ากับรีโพซิทอรี สไตล์ของคุณ โค้ดของคุณ บริบทของคุณ การปรับแต่งเฉพาะบางอย่างที่คุณทำอยู่ และสมมติฐานทั้งหมดของรีโพซิทอรีอย่างไรให้ลงตัว พวกมันมีความรู้อยู่บ้าง แต่ยังไปไม่ถึงจุดที่สามารถบูรณาการและเข้าใจมันได้

หลายอย่างยังคงดีขึ้นเรื่อย ๆ โมเดลล้ำสมัยที่ผมใช้อยู่ตอนนี้คือ GPT-5 Pro และมันเป็นโมเดลที่ทรงพลังมาก ถ้าคุณมีเวลา 20 นาที คุณก็สามารถคัดลอกทั้งรีโพซิทอรี วางลงไป แล้วไปถาม GPT-5 Pro ซึ่งเป็นเหมือนออราเคิล สักสองสามคำถามได้ หลายครั้งมันก็ไม่ได้แย่ขนาดนั้น และดีอย่างน่าทึ่งเมื่อเทียบกับสิ่งที่มีอยู่เมื่อหนึ่งปีก่อน

โดยรวมแล้ว โมเดลยังไปไม่ถึงจุดนั้น ผมรู้สึกว่าอุตสาหกรรมกำลังกระโดดครั้งใหญ่เกินไปและพยายามทำให้ดูว่านี่น่าทึ่งมาก ทั้งที่จริงไม่ใช่ มันเป็น slop พวกเขาไม่ได้เผชิญหน้ากับมัน และอาจพยายามระดมทุนหรืออะไรทำนองนั้นก็ได้ ผมไม่รู้ว่ากำลังเกิดอะไรขึ้น แต่เรากำลังอยู่ในช่วงกลางนี้ โมเดลน่าทึ่งมาก แต่ก็ยังต้องการงานอีกมาก สำหรับตอนนี้ ระบบเติมโค้ดอัตโนมัติคือจุดที่เหมาะกับผมที่สุด แต่บางครั้ง สำหรับโค้ดบางประเภท ผมก็จะไปใช้ LLM agent

Dwarkesh Patel 00:36:53

มีอีกเหตุผลหนึ่งที่ทำให้เรื่องนี้น่าสนใจมาก ตลอดประวัติศาสตร์ของการเขียนโปรแกรม เรามีการเพิ่มผลิตภาพหลายครั้ง—คอมไพเลอร์ การ lint ภาษาโปรแกรมที่ดีขึ้น—ซึ่งเพิ่มผลิตภาพให้โปรแกรมเมอร์ แต่ไม่ได้พาไปสู่การระเบิดอะไร มันฟังดูคล้ายกับการกดแท็บเพื่อเติมโค้ดอัตโนมัติมาก และอีกหมวดหมู่นี้ก็เป็นเพียงการทำงานอัตโนมัติของโปรแกรมเมอร์ มันน่าสนใจที่คุณดูเหมือนมองมันอยู่ในหมวดของอุปมาเชิงประวัติศาสตร์อย่างคอมไพเลอร์ที่ดีขึ้นหรืออะไรทำนองนั้นมากกว่า

Andrej Karpathy 00:37:26

นี่อาจนำไปสู่อีกแนวคิดหนึ่ง ผมแยกได้ยากว่า AI เริ่มตรงไหนและหยุดตรงไหน เพราะโดยพื้นฐานแล้วผมมอง AI ว่าเป็นการขยายตัวของคอมพิวติ้งในระดับที่ลึกมาก ผมเห็นมันเป็นความต่อเนื่อง เป็นความต่อเนื่องตั้งแต่จุดเริ่มต้นของการพัฒนาตัวเองแบบวนกลับหรือการเร่งความเร็วให้โปรแกรมเมอร์: ตัวแก้ไขโค้ด, การเน้นไวยากรณ์, หรือการตรวจสอบชนิดข้อมูล เช่น data type checking—รวมถึงเครื่องมือทั้งหมดที่เราสร้างขึ้นเพื่อช่วยกันและกัน

แม้แต่เสิร์ชเอนจินด้วย ทำไมเสิร์ชเอนจินถึงไม่ถือเป็นส่วนหนึ่งของ AI ล่ะ? การจัดอันดับก็คือ AI ณ ช่วงหนึ่ง Google ก็คิดว่าตัวเองเป็นบริษัท AI ที่ทำเสิร์ชเอนจินของ Google มาตั้งแต่ช่วงแรก ๆ ซึ่งก็ยุติธรรมดี

ผมมองสิ่งนี้เป็นความต่อเนื่องมากกว่าคนอื่นมาก สำหรับผมมันยากที่จะขีดเส้น ตอนนี้เราได้ระบบ autocomplete ที่ดีขึ้นมาก และตอนนี้เราก็เริ่มมีเอเจนต์บางประเภทที่ทำงานแบบวนซ้ำ แต่บางครั้งก็หลุดราง สิ่งที่กำลังเกิดขึ้นคือมนุษย์ค่อย ๆ ทำงานระดับล่างน้อยลงทีละนิด เราไม่เขียน assembly code แล้ว เพราะเรามีคอมไพเลอร์ คอมไพเลอร์จะเอาภาษาระดับสูงอย่าง C แล้วเขียน assembly code ให้

เรากำลังค่อย ๆ ยกระดับตัวเองขึ้นสู่ชั้นนามธรรมอย่างช้ามาก ๆ มีสิ่งที่ผมเรียกว่า "ตัวเลื่อนความเป็นอัตโนมัติ" ซึ่งสิ่งต่าง ๆ กำลังถูกทำให้เป็นอัตโนมัติมากขึ้นเรื่อย ๆ—ในบรรดาสิ่งที่สามารถทำให้เป็นอัตโนมัติได้—เราทำน้อยลงทีละนิด และยกระดับตัวเองขึ้นไปอยู่บนชั้นนามธรรมที่อยู่เหนือระบบอัตโนมัติเหล่านั้น

00:40:05 – RL แย่มาก

Dwarkesh Patel 00:40:05

มาคุยเรื่อง RL กันหน่อยนะครับ คุณ ทวีตเรื่องนี้ไว้ได้น่าสนใจมาก ในเชิงแนวคิด เราควรคิดอย่างไรเกี่ยวกับวิธีที่มนุษย์สามารถสร้าง world model ที่อุดมสมบูรณ์ได้เพียงแค่จากการมีปฏิสัมพันธ์กับสภาพแวดล้อม? และดูเหมือนว่ามันแทบไม่เกี่ยวข้องกับรางวัลสุดท้ายตอนจบของแต่ละ episode เลยด้วยซ้ำ

ถ้ามีคนคนหนึ่งเริ่มต้นธุรกิจ แล้วอีก 10 ปีต่อมาจึงรู้ว่าธุรกิจนั้นประสบความสำเร็จหรือล้มเหลว เราจะบอกว่าเธอได้รับปัญญาและประสบการณ์มากมาย แต่ไม่ใช่เพราะ log probability ของทุกสิ่งทุกอย่างที่เกิดขึ้นตลอด 10 ปีที่ผ่านมาถูกถ่วงน้ำหนักเพิ่มหรือลด มีบางอย่างที่ตั้งใจและเข้มข้นกว่านั้นมาก อุปมาในโลก ML สำหรับเรื่องนี้คืออะไร และมันเทียบกับสิ่งที่เรากำลังทำกับ LLM ตอนนี้อย่างไร?

Andrej Karpathy 00:40:47

บางทีวิธีที่ผมจะอธิบายก็คือ มนุษย์ไม่ได้ใช้ reinforcement learning อย่างที่ผมบอกไป ผมคิดว่าเราทำอย่างอื่น reinforcement learning แย่กว่าที่คนทั่วไปคิดมาก reinforcement learning แย่มาก ที่มันเกิดขึ้นได้ก็เพียงเพราะทุกอย่างที่เรามีก่อนหน้านั้นแย่ยิ่งกว่าอีก เพราะก่อนหน้านี้เราก็แค่เลียนแบบมนุษย์อยู่เฉย ๆ และมันเลยมีปัญหาพวกนี้ทั้งหมด

ใน reinforcement learning สมมติว่าคุณกำลังแก้โจทย์คณิตศาสตร์ ซึ่งเป็นตัวอย่างที่ง่ายมาก คุณได้รับโจทย์คณิตศาสตร์มาและพยายามหาคำตอบ ใน reinforcement learning ก่อนอื่นคุณจะลองหลายอย่างแบบขนานกัน เมื่อได้โจทย์มา คุณจะสร้างความพยายามขึ้นมาหลายร้อยแบบ ความพยายามเหล่านี้อาจซับซ้อนก็ได้ เช่น "ลองแบบนี้ดู ลองแบบนั้นดู อันนี้ไม่เวิร์ก อันนั้นไม่เวิร์ก" เป็นต้น แล้วบางทีคุณก็ได้คำตอบ จากนั้นคุณไปเปิดดูเฉลยท้ายเล่มแล้วบอกว่า "โอเค คำตอบที่ถูกคืออันนี้" คุณจะเห็นว่าอันนี้ อันนี้ แล้วก็อันนั้นพาไปสู่คำตอบที่ถูก แต่ที่เหลืออีก 97 อันไม่ใช่ สิ่งที่ reinforcement learning ทำตามตัวอักษรจริง ๆ คือมันจะย้อนกลับไปหาสิ่งที่ได้ผลดีมาก แล้วทุกสิ่งที่ทำระหว่างทาง ทุกโทเคนที่เกิดขึ้น จะถูกถ่วงน้ำหนักเพิ่มเหมือนกับว่า "ทำแบบนี้ให้มากขึ้น"

ปัญหาคือ คนอาจบอกว่าตัวประมาณค่าของคุณมี variance สูง แต่จริง ๆ แล้วมันคือ noise มันคือ noise มันแทบจะสันนิษฐานว่าทุกชิ้นส่วนเล็ก ๆ ของวิธีทำที่ไปถึงคำตอบที่ถูกนั้นเป็นสิ่งที่ควรทำ ซึ่งไม่จริงเลย คุณอาจเดินเข้าซอยตันหลายครั้งก่อนจะไปถึงคำตอบที่ถูกก็ได้ แต่ตราบใดที่คุณได้คำตอบถูก ทุกสิ่งที่ผิดที่คุณทำระหว่างทางก็จะถูกถ่วงน้ำหนักเพิ่มว่า "ทำแบบนี้ให้มากขึ้น" มันแย่มาก มันคือ noise

คุณทำงานทั้งหมดนี้ แล้วสุดท้ายก็ได้ตัวเลขเพียงตัวเดียวว่า "อ้อ ถูกนี่" จากนั้นก็ใช้สิ่งนั้นเป็นฐานในการถ่วงน้ำหนักทั้ง trajectory ให้เพิ่มหรือลด สำนวนที่ผมชอบใช้คือ คุณกำลังดูด supervision ผ่านหลอด คุณทำงานทั้งหมดนี้ ซึ่งอาจเป็น rollout ยาวหนึ่งนาที แล้วคุณก็ดูด supervision เพียงไม่กี่บิตจากสัญญาณรางวัลสุดท้ายผ่านหลอด จากนั้นก็กระจายมันไปทั่วทั้ง trajectory และใช้มันในการถ่วงน้ำหนัก trajectory นั้นให้สูงขึ้นหรือต่ำลง มันทั้งโง่และบ้าสิ้นดี

มนุษย์ไม่มีทางทำแบบนี้ อย่างแรก มนุษย์ไม่มีทางทำ rollout หลายร้อยแบบ อย่างที่สอง เมื่อคนหาคำตอบเจอ พวกเขาจะมีกระบวนการทบทวนที่ค่อนข้างซับซ้อน เช่น "โอเค ส่วนนี้ฉันทำได้ดี ส่วนนี้ไม่ค่อยดี บางทีฉันควรทำอย่างนี้หรืออย่างนั้น" พวกเขาคิดทบทวนสิ่งต่าง ๆ แต่ใน LLM ปัจจุบันไม่มีสิ่งนี้เลย ไม่มีอะไรเทียบเท่าได้ แต่ผมเริ่มเห็นงานวิจัยออกมาแล้ว เห็นงานที่พยายามทำแบบนั้นออกมา เพราะมันชัดเจนสำหรับทุกคนในวงการ

Imitation learning รุ่นแรกนั้น ต้องบอกเลยว่า น่าทึ่งเหมือนปาฏิหาริย์และยอดเยี่ยมมาก คือการที่เราสามารถทำ fine-tuning โดยเลียนแบบมนุษย์ได้ มันน่าทึ่งมาก เพราะในช่วงแรก สิ่งที่เรามีมีแค่ base model และ base model ก็คือ autocomplete ตอนนั้นสำหรับผมมันไม่ใช่เรื่องที่ชัดเจนเลย และผมต้องเรียนรู้มัน งานวิจัยที่ทำให้ผมอึ้งที่สุดคือ InstructGPT เพราะมันชี้ให้เห็นว่าถ้าคุณนำโมเดลที่ผ่านการ pretrain มาแล้ว ซึ่งเป็น autocomplete โดยพื้นฐาน แล้วเอาไปทำ fine-tuning ด้วยข้อความที่ดูเหมือนบทสนทนา โมเดลจะปรับตัวเร็วมากจนกลายเป็นเชิงสนทนาอย่างมาก และยังคงรักษาความรู้ทั้งหมดจากการ pretrain ไว้ได้ เรื่องนี้ทำให้ผมทึ่งมาก เพราะผมไม่เข้าใจว่ามันจะปรับในเชิงสไตล์ได้เร็วขนาดนั้น และกลายเป็นผู้ช่วยให้ผู้ใช้ได้ เพียงผ่านลูป fine-tuning ไม่กี่รอบกับข้อมูลประเภทนั้น สำหรับผมนั่นเหมือนปาฏิหาริย์มาก มันน่าทึ่งจริง ๆ นั่นคือผลงาน 2–3 ปี

ตอนนี้ RL เข้ามาแล้ว และ RL ทำให้เราทำได้ดีกว่า imitation learning แบบง่าย ๆ เล็กน้อย เพราะคุณสามารถมี reward function แบบนี้ และทำ hill climbing กับ reward function ได้ ปัญหาบางอย่างมีคำตอบที่ถูกอยู่แล้ว และคุณสามารถไต่ขึ้นไปหามันได้โดยไม่ต้องเลียนแบบ expert trajectory นี่จึงน่าทึ่ง โมเดลยังอาจค้นพบคำตอบที่มนุษย์อาจไม่มีวันคิดขึ้นมาได้ด้วย ซึ่งก็น่าทึ่ง แต่อย่างไรก็ยังโง่อยู่ดี

เราต้องการมากกว่านี้ เมื่อวานผมเห็นงานจาก Google ที่พยายามคำนึงถึงไอเดียเรื่องการสะท้อนคิดและการทบทวนนี้ paper เรื่อง memory bank ใช่ไหมนะ? ผมไม่แน่ใจ ผมเห็นงานไม่กี่ชิ้นที่ไปในทิศทางนั้น ดังนั้นผมคาดว่าการอัปเดตหลักด้านอัลกอริทึมสำหรับ LLM จะมาจากพื้นที่นั้น ผมคิดว่าเรายังต้องการอีกสักสาม สี่ หรือห้าอย่าง ประมาณนั้น

Dwarkesh Patel 00:44:54

คุณเก่งมากจริง ๆ ในการสร้างวลีที่เห็นภาพชัด ผมชอบคำว่า "ดูด supervision ผ่านหลอด" มาก

สิ่งที่คุณกำลังบอกก็คือ ปัญหาของ reward แบบอิงผลลัพธ์คือ มันมี trajectory ขนาดใหญ่นี้อยู่ และคุณพยายามเรียนรู้ทั้งสิ่งที่ควรทำและทุกอย่างที่ควรเรียนรู้เกี่ยวกับโลกจากบิตสุดท้ายเพียงบิตเดียวที่ปลายทาง เมื่อเห็นชัดว่าเป็นแบบนี้แล้ว ทำไม process supervision ถึงยังไม่กลายเป็นวิธีที่ประสบความสำเร็จในการทำให้โมเดลเก่งขึ้นในฐานะทางเลือก? อะไรคือสิ่งที่ขัดขวางการใช้กระบวนทัศน์ทางเลือกนี้?

Andrej Karpathy 00:45:29

การกำกับดูแลตามกระบวนการก็แค่หมายความว่า เราจะไม่ได้มีฟังก์ชันรางวัลอยู่แค่ตอนท้ายสุดเท่านั้น เราจะไม่รอจนทำงานไป 10 นาทีแล้วค่อยมาบอกว่าทำได้ดีหรือไม่ดี แต่จะบอกในทุกขั้นตอนว่ากำลังทำได้ดีแค่ไหน สาเหตุที่เรายังไม่มีสิ่งนี้ก็เพราะการทำให้มันทำงานได้ดีนั้นค่อนข้างยาก มันมีคำตอบบางส่วนอยู่ แต่เราไม่รู้ว่าจะจัดสรรเครดิตอย่างไร ถ้าคุณได้คำตอบที่ถูกต้อง มันก็แค่เป็นการจับคู่ความเท่ากันของคำตอบ ซึ่งทำได้ง่ายมากในการนำไปใช้ แต่ถ้าคุณกำลังทำ process supervision คุณจะจัดสรรคะแนนบางส่วนแบบที่ทำให้เป็นอัตโนมัติได้อย่างไร? ยังไม่ชัดเจนว่าจะทำอย่างไร

ห้องแล็บหลายแห่งกำลังพยายามทำแบบนั้นด้วย LLM ที่ทำหน้าที่เป็นผู้ตัดสิน LLM เองพยายามทำสิ่งนั้น คุณป้อนพรอมป์ให้ LLM ว่า “นี่ ดูคำตอบบางส่วนของนักเรียนสิ ถ้าคำตอบที่ถูกต้องคือข้อนี้ คุณคิดว่าเขาทำได้ดีแค่ไหน?” แล้วพวกเขาก็พยายามจูนพรอมป์กัน

เหตุผลที่เรื่องนี้ยากนั้นค่อนข้างละเอียดอ่อน ทุกครั้งที่คุณใช้ LLM เพื่อจัดสรรรางวัล LLM เหล่านั้นเป็นของขนาดใหญ่มหึมาที่มี พารามิเตอร์ หลายพันล้านตัว และสามารถถูกเล่นเกมได้ ถ้าคุณกำลังทำ reinforcement learning กับมัน คุณแทบจะรับประกันได้เลยว่าจะเจอ adversarial examples สำหรับ LLM ผู้ตัดสินเหล่านั้น ดังนั้นคุณทำแบบนี้ต่อไปนานมากไม่ได้ อาจจะทำได้ 10 หรือ 20 ขั้นตอนแล้วมันยังพอใช้ได้ แต่จะให้ทำ 100 หรือ 1,000 ขั้นตอนไม่ได้ ผมเข้าใจว่ามันไม่ได้ชัดเจนในทันที แต่โดยพื้นฐานแล้วโมเดลจะหาช่องรั่วเล็ก ๆ เจอ มันจะค้นหาสิ่งปลอมพวกนี้ทั่วทุกมุมของโมเดลขนาดมหึมา แล้วหาวิธีหลอกมันให้ได้

ตัวอย่างหนึ่งที่ติดอยู่ในหัวผมมากคือ อันนี้น่าจะเป็นเรื่องสาธารณะแล้ว ถ้าคุณใช้ LLM ผู้ตัดสินเพื่อให้รางวัล คุณจะเอาคำตอบจากนักเรียนมาแล้วถามว่านักเรียนทำได้ดีหรือไม่ เรากำลังฝึกด้วย reinforcement learning บนฟังก์ชันรางวัลนั้น และมันได้ผลดีมาก แล้วจู่ ๆ รางวัลก็พุ่งสูงขึ้นอย่างสุดขีด มันกระโดดขึ้นมหาศาลและได้คะแนนสมบูรณ์แบบ คุณมองสิ่งนั้นแล้วคิดว่า “ว้าว นี่หมายความว่านักเรียนคนนี้ทำโจทย์ทั้งหมดได้สมบูรณ์แบบ แก้คณิตศาสตร์ได้หมดแล้ว”

แต่พอคุณดูผลลัพธ์ที่ได้จากโมเดล มันเป็นอะไรไร้สาระล้วน ๆ มันเริ่มต้นพอใช้ได้ แล้วจากนั้นก็กลายเป็น “dhdhdhdh” แบบ “โอเค เยี่ยม เอา 2 บวก 3 แล้วทำอย่างนี้อย่างนั้น แล้วก็ dhdhdhdh” คุณมองแล้วก็คิดว่านี่มันบ้าอะไรเนี่ย ทำไมถึงได้รางวัล 1 หรือ 100%? พอไปดู LLM ผู้ตัดสิน ก็พบว่า “dhdhdhdh” เป็น adversarial example สำหรับโมเดล และมันให้ความน่าจะเป็น 100%

ก็แค่เพราะว่านี่เป็นตัวอย่างนอกเหนือจากที่ LLM เคยเห็นมา มันไม่เคยเห็นสิ่งนี้ตอนฝึกมาก่อน และอยู่ในพื้นที่ของการ generalize ล้วน ๆ คุณสามารถหาเคสแบบนี้ที่ทำให้มันพังได้ เพราะมันไม่เคยเห็นระหว่างการฝึกมาก่อนและอยู่ในเขตของการ generalize แบบล้วน ๆ

Dwarkesh Patel 00:47:52

โดยพื้นฐานแล้วคุณกำลังฝึก LLM ให้กลายเป็นโมเดลที่โดน prompt injection ได้สินะ

Andrej Karpathy 00:47:56

ยังไม่ถึงขั้นนั้นด้วยซ้ำ prompt injection มันดูหรูเกินไป เรากำลังหา adversarial examples ตามที่คนเรียกกัน สิ่งเหล่านี้เป็นคำตอบไร้สาระที่ผิดอย่างชัดเจน แต่โมเดลกลับคิดว่ามันยอดเยี่ยม

Dwarkesh Patel 00:48:07

ตราบเท่าที่นี่เป็นคอขวดที่ทำให้ RL มีความสามารถมากขึ้น ถ้าจะทำในแบบอัตโนมัติ คุณก็น่าจะต้องทำให้ LLM เป็นผู้ตัดสินที่ดีขึ้นใช่ไหม ต้องใช้แนวทางแบบ GAN อะไรทำนองนั้นเพื่อทำให้โมเดลแข็งแกร่งขึ้นหรือเปล่า?

Andrej Karpathy 00:48:22

ห้องแล็บน่าจะกำลังทำสิ่งเหล่านั้นทั้งหมดอยู่แล้ว สิ่งที่ชัดเจนคือ “dhdhdhdh” ไม่ควรได้รางวัล 100% โอเค ก็เอา “dhdhdhdh” ไปใส่ในชุดฝึกของ LLM ผู้ตัดสิน แล้วบอกว่านี่ไม่ใช่ 100% แต่มันคือ 0% คุณทำแบบนี้ได้ แต่ทุกครั้งที่ทำ คุณก็จะได้ LLM ตัวใหม่ และมันก็ยังมี adversarial examples อยู่ดี เพราะมี adversarial examples ไม่สิ้นสุด

บางทีถ้าทำซ้ำแบบนี้ไม่กี่รอบ มันอาจจะหาตัวอย่างโจมตีได้ยากขึ้นเรื่อย ๆ แต่ผมก็ไม่มั่นใจ 100% เพราะมันมีพารามิเตอร์ระดับล้านล้านตัวหรืออะไรประมาณนั้น ผมรับประกันได้ว่าห้องแล็บต่าง ๆ กำลังลองอยู่ แต่ผมยังคิดว่าเราต้องการไอเดียอื่นด้วย

Dwarkesh Patel 00:48:57

น่าสนใจ คุณมีความคิดไหมว่าไอเดียอื่นนั้นอาจมีหน้าตาเป็นแบบไหน?

Andrej Karpathy 00:49:02

มีไอเดียนี้เรื่องการตรวจทานคำตอบและรวม ข้อมูลสังเคราะห์ เข้าไป เพื่อว่าเวลาฝึกกับมัน โมเดลจะดีขึ้นและเกิดการ meta-learning ในบางรูปแบบ ผมคิดว่ามีงานวิจัยตั้งต้นอยู่บ้าง ตอนนี้ผมยังอยู่ในขั้นอ่านแค่บทคัดย่อ เพราะหลายเปเปอร์ในกลุ่มนี้ยังเป็นแค่ไอเดีย ใครสักคนต้องทำให้มันใช้งานได้จริงในระดับความเป็นทั่วไปเต็มรูปแบบและในสเกลของ frontier LLM lab เพราะเวลาเห็นเปเปอร์พวกนี้ มันโผล่มาแล้วก็ดูมีสัญญาณรบกวนนิดหน่อย เป็นไอเดียที่เท่ แต่ผมยังไม่เคยเห็นใครแสดงให้เห็นอย่างน่าเชื่อถือว่าสิ่งนี้ทำได้จริง ถึงอย่างนั้น ห้องแล็บ LLM ก็ค่อนข้างปิดมาก ไม่มีใครรู้จริง ๆ ว่าตอนนี้พวกเขากำลังทำอะไรกันอยู่

00:49:38 – มนุษย์เรียนรู้อย่างไร?

Dwarkesh Patel 00:49:38

ผมพอจะนึกภาพวิธีฝึกกับข้อมูลสังเคราะห์หรือปัญหาสังเคราะห์ที่สร้างขึ้นเองได้ แต่ดูเหมือนว่ามนุษย์จะมีอีกอย่างหนึ่งที่ทำอยู่—บางทีอาจเป็นการนอน บางทีอาจเป็นการฝันกลางวัน—ซึ่งไม่ใช่การสร้างโจทย์ปลอมขึ้นมาเสมอไป แต่เป็นแค่การสะท้อนคิด

ผมไม่แน่ใจว่าอุปมาทาง ML ของการฝันกลางวัน การนอน หรือการสะท้อนคิดคืออะไร ชัดเจนว่าอุปมาพื้นฐานมาก ๆ ก็คงเป็นการ fine-tune กับบิตของการสะท้อนคิด แต่ผมก็รู้สึกว่าในความเป็นจริงมันอาจจะไม่ได้ผลดีขนาดนั้น คุณมีความคิดไหมว่าอุปมาของสิ่งนี้ควรเป็นอะไร?

Andrej Karpathy 00:50:17

ผมคิดว่าเรากำลังพลาดบางแง่มุมไปตรงนั้น ตัวอย่างเช่น ลองดูการอ่านหนังสือ สำหรับ LLM ปัจจุบัน เวลามันอ่านหนังสือ สิ่งที่เกิดขึ้นคือมันคลี่ลำดับข้อความออกมา โมเดลคาดเดาโทเคนถัดไป แล้วก็ได้ความรู้บางอย่างจากสิ่งนั้น แต่นั่นไม่ใช่สิ่งที่มนุษย์ทำจริง ๆ เวลาอ่านหนังสือ เราไม่ได้รู้สึกว่าหนังสือเป็นคำอธิบายที่ต้องตั้งใจฟังและฝึกตาม หนังสือคือชุดของพรอมป์สำหรับสร้างข้อมูลสังเคราะห์ หรือไม่ก็เป็นสิ่งที่เอาไปคุยกับเพื่อนในชมรมหนังสือ ด้วยการจัดการกับข้อมูลนั้น เราถึงจะได้ความรู้นั้นจริง ๆ ซึ่ง LLM ไม่มีสิ่งที่เทียบเท่าเลย พวกมันไม่ได้ทำแบบนั้นจริง ๆ ผมอยากให้มีขั้นตอนบางอย่างระหว่าง pre-training ที่โมเดลได้คิดเกี่ยวกับเนื้อหา พยายามประสานมันเข้ากับสิ่งที่รู้อยู่แล้ว และใช้เวลาไตร่ตรองกับมันสักพักจนมันทำงานได้ ซึ่งไม่มีอะไรในตอนนี้ที่เทียบเท่ากับสิ่งนั้นเลย ทั้งหมดนี้ยังเป็นงานวิจัยอยู่

มีเหตุผลที่ละเอียดมาก—และผมคิดว่าเข้าใจยากมาก—ว่าทำไมเรื่องนี้ถึงไม่ใช่เรื่องง่าย ถ้าจะอธิบายสักข้อหนึ่ง: ทำไมเราไม่สร้างข้อมูลสังเคราะห์ขึ้นมาแล้วฝึกกับมันล่ะ? ถ้าคุณให้โมเดลสร้างสิ่งสังเคราะห์ที่คิดเกี่ยวกับหนังสือ แล้วคุณดูมันและคิดว่า “นี่ดูดีมาก ทำไมเราจะฝึกกับมันไม่ได้?” คุณลองทำได้ แต่ถ้าคุณทำต่อไปเรื่อย ๆ โมเดลจะแย่ลงมาก เพราะทุก sample ที่คุณได้จากโมเดลกำลังค่อย ๆ collapse อย่างเงียบ ๆ มันเงียบมาก—คุณดูตัวอย่างทีละชิ้นจะไม่เห็นชัด—แต่มันครอบครองเพียง manifold เล็กมากของพื้นที่ความคิดที่เป็นไปได้ LLM เวลาปล่อยออกมา พวกมันอยู่ในสิ่งที่เราเรียกว่า “collapsed” คือมีการกระจายข้อมูลที่ยุบตัวแล้ว วิธีดูง่าย ๆ อย่างหนึ่งคือไปที่ ChatGPT แล้วถามว่า “เล่าเรื่องตลกหน่อย” มันมีเรื่องตลกอยู่แค่ 3 เรื่อง มันไม่ได้ให้ความกว้างทั้งหมดของเรื่องตลกที่เป็นไปได้ มันรู้แค่ 3 เรื่อง และมันยุบตัวลงอย่างเงียบ ๆ

เราไม่ได้รับความอุดมสมบูรณ์ ความหลากหลาย และเอนโทรปีจากโมเดลเหล่านี้เหมือนที่เราได้รับจากมนุษย์เลย มนุษย์มี noise มากกว่ามาก แต่ก็อย่างน้อยก็ไม่ได้มีอคติ ในความหมายเชิงสถิติ มันไม่ได้ค่อยๆ พังลงอย่างเงียบๆ และยังคงรักษาเอนโทรปีไว้ได้อย่างมหาศาล ดังนั้นวิธีรักษาเอนโทรปีเอาไว้ พร้อมกับทำให้การสร้างข้อมูลสังเคราะห์ยังใช้งานได้แม้จะมีการพังทลาย คืออะไร? นั่นคือปัญหาวิจัย

Dwarkesh Patel 00:52:20

เพื่อให้แน่ใจว่าผมเข้าใจถูก เหตุผลที่การพังทลายเกี่ยวข้องกับการสร้างข้อมูลสังเคราะห์ เป็นเพราะเราต้องการให้มันสามารถสร้างปัญหาสังเคราะห์หรือการไตร่ตรองที่ไม่ได้มีอยู่แล้วในการกระจายของข้อมูลใช่ไหม?

Andrej Karpathy 00:52:32

คือถ้ามีบทหนึ่งของหนังสือ แล้วคุณให้ LLM คิดเกี่ยวกับมัน มันจะให้บางอย่างที่ดูสมเหตุสมผลมาก แต่ถ้าคุณถาม 10 ครั้ง คุณจะพบว่ามันเหมือนกันหมด

Dwarkesh Patel 00:52:44

แปลว่าคุณไม่สามารถสเกล “การไตร่ตรอง” ต่อไปจากข้อมูลพรอมป์ต์ปริมาณเท่าเดิม แล้วสร้างผลตอบแทนจากตรงนั้นได้

Andrej Karpathy 00:52:54

ตัวอย่างแต่ละชิ้นดูโอเค แต่การกระจายของมันค่อนข้างแย่มาก แย่ในแบบที่ว่าถ้าคุณฝึกกับผลงานของตัวเองมากเกินไป สุดท้ายมันก็พังจริงๆ

ผมคิดว่าอาจไม่มีทางแก้พื้นฐานสำหรับเรื่องนี้ และผมก็คิดว่ามนุษย์เองก็พังลงตามเวลาเหมือนกัน อุปมาแบบนี้ดีอย่างน่าประหลาด มนุษย์พังลงตลอดช่วงชีวิตของตัวเอง นั่นแหละคือเหตุผลที่เด็กๆ ยังไม่ overfit พวกเขาจะพูดอะไรบางอย่างที่ทำให้คุณช็อกได้ เพราะแม้คุณจะเห็นว่าพวกเขามาจากไหน แต่นั่นก็ไม่ใช่แค่สิ่งที่คนทั่วไปพูดกัน เพราะพวกเขายังไม่พัง แต่พวกเราพังแล้ว เราจะกลับไปวนคิดเรื่องเดิมๆ พูดสิ่งเดิมๆ มากขึ้นเรื่อยๆ อัตราการเรียนรู้ลดลง การพังก็แย่ลงเรื่อยๆ แล้วทุกอย่างก็แย่ลงตาม

Dwarkesh Patel 00:53:39

คุณเคยเห็นงานวิจัยที่น่าสนใจมากที่เสนอว่าความฝันเป็นวิธีป้องกันการ overfitและการพังทลายแบบนี้ไหม? เหตุผลที่ความฝันมีประโยชน์เชิงวิวัฒนาการก็เพราะมันพาคุณไปอยู่ในสถานการณ์ประหลาดที่แตกต่างจากความเป็นจริงในชีวิตประจำวันมาก เพื่อป้องกันการ overfit ลักษณะนี้

Andrej Karpathy 00:53:55

เป็นไอเดียที่น่าสนใจ เวลาเราสร้างอะไรบางอย่างขึ้นมาในหัวและให้ความสนใจกับมัน ผมคิดว่าเรากำลังฝึกกับข้อมูลสังเคราะห์ของตัวเอง ถ้าทำนานเกินไป คุณจะหลุดวงโคจรและพังมากเกินไป คุณต้องคอยหาเอนโทรปีจากชีวิตอยู่เสมอ การคุยกับคนอื่นเป็นแหล่งเอนโทรปีที่ยอดเยี่ยม อะไรทำนองนั้น ดังนั้นบางทีสมองก็อาจสร้างกลไกภายในเพื่อเพิ่มปริมาณเอนโทรปีในกระบวนการนั้นด้วย เป็นไอเดียที่น่าสนใจ

Dwarkesh Patel 00:54:25

นี่เป็นความคิดที่ยังไม่เป็นรูปเป็นร่างมากนัก ผมจะพูดออกมาแล้วอยากฟังปฏิกิริยาคุณ ผู้เรียนรู้ที่ดีที่สุดเท่าที่เรารู้จักคือเด็กๆ กลับแย่มากในการดึงข้อมูลกลับมาใช้ จริงๆ แล้วในช่วงต้นที่สุดของวัยเด็ก พวกเขาจะลืมทุกอย่างไปหมด คุณแทบจะเป็นผู้ป่วยความจำเสื่อมสำหรับทุกอย่างที่เกิดขึ้นก่อนอายุหนึ่งเลยก็ว่าได้ แต่พวกเขากลับเก่งมากในการเรียนรู้ภาษาใหม่และเรียนรู้จากโลก บางทีอาจมีบางอย่างเกี่ยวกับการมองเห็นภาพรวมแทนที่จะเห็นแค่รายละเอียดปลีกย่อย

ในอีกด้านหนึ่งของสเปกตรัม มีการ pretrain ของ LLM ซึ่งโมเดลเหล่านี้อาจพูดคำถัดไปของหน้าวิกิพีเดียได้ทีละคำตามตัวอักษร แต่ความสามารถในการเรียนรู้แนวคิดเชิงนามธรรมอย่างรวดเร็วแบบที่เด็กทำได้นั้นกลับมีข้อจำกัดกว่ามาก แล้วผู้ใหญ่ก็อยู่ตรงกลางระหว่างสองฝั่งนี้ คือไม่มีความยืดหยุ่นในการเรียนรู้แบบวัยเด็ก แต่สามารถท่องจำข้อเท็จจริงและข้อมูลในแบบที่เด็กทำได้ยากกว่า ผมไม่รู้ว่ามีอะไรน่าสนใจเกี่ยวกับสเปกตรัมนี้ไหม

Andrej Karpathy 00:55:19

ผมคิดว่ามีบางอย่างที่น่าสนใจมากเกี่ยวกับเรื่องนั้น 100% ผมคิดว่ามนุษย์เมื่อเทียบกับ LLM มีองค์ประกอบของการมองเห็นภาพรวมมากกว่าการยึดติดกับรายละเอียดอย่างชัดเจน เราไม่ได้เก่งเรื่องการท่องจำขนาดนั้นจริงๆ และนั่นก็เป็นคุณสมบัติ ไม่ใช่ข้อบกพร่อง เพราะการที่เราท่องจำไม่เก่ง ทำให้เราถูกบังคับให้มองหารูปแบบในความหมายที่กว้างกว่า

เมื่อเทียบกันแล้ว LLM เก่งเรื่องการท่องจำอย่างมาก มันจะท่องข้อความจากแหล่งฝึกทั้งหมดเหล่านี้ได้ คุณสามารถป้อนข้อมูลไร้สาระให้มันได้เลย จะให้แฮชข้อความปริมาณหนึ่งหรืออะไรทำนองนั้น เพื่อให้ได้ลำดับแบบสุ่มทั้งหมดก็ได้ แล้วถ้าฝึกกับสิ่งนั้น แม้แค่ทวนหนึ่งหรือสองครั้ง อยู่ๆ มันก็จะพูดซ้ำได้ทั้งหมด มันจะจำได้ มนุษย์ไม่มีทางอ่านลำดับตัวเลขสุ่มชุดเดียวแล้วท่องกลับให้คุณได้

นั่นไม่ใช่บั๊ก แต่มันเป็นคุณสมบัติ เพราะมันบังคับให้เราเรียนรู้เฉพาะองค์ประกอบที่นำไปสู่การทำให้เป็นทั่วไปได้ ขณะที่ LLM ถูกรบกวนด้วยความทรงจำทั้งหมดจากเอกสาร pretrain และในบางความหมาย นั่นอาจทำให้มันเสียสมาธิมาก ดังนั้นเวลาที่ผมพูดถึงแกนกลางทางการรู้คิด ผมอยากเอาความทรงจำที่เราคุยกันออกไป ผมอยากให้มันมีความทรงจำน้อยลงจนต้องไปค้นหาเอง และเหลือไว้แค่อัลกอริทึมสำหรับการคิด แนวคิดของการทดลอง และกาวทางการรู้คิดทั้งหมดของการลงมือทำ

Dwarkesh Patel 00:56:36

เรื่องนี้เกี่ยวข้องกับการป้องกัน model collapse ด้วยไหม?

Andrej Karpathy 00:56:41

ขอผมคิดดูก่อน ผมไม่แน่ใจ มันดูแทบจะเป็นอีกแกนหนึ่งแยกต่างหาก โมเดลเก่งเรื่องการท่องจำมากเกินไป และเราต้องหาวิธีกำจัดสิ่งนั้น somehow มนุษย์แย่กว่ามากในเรื่องนี้ แต่กลับเป็นเรื่องดี

Dwarkesh Patel 00:56:57

ทางแก้ของ model collapse คืออะไร? มีวิธีที่ไร้เดียงสามากๆ หลายอย่างที่ลองได้ เช่น บอกว่าการกระจายบน logits ควรกว้างกว่านี้ อะไรแบบนั้น มีแนวทางง่ายๆ ที่ลองได้เยอะ ปัญหาของแนวทางง่ายๆ พวกนี้สุดท้ายคืออะไร?

Andrej Karpathy 00:57:11

เป็นคำถามที่ดีนะ คุณอาจจินตนาการถึงการทำ regularization กับเอนโทรปีได้ อะไรประมาณนั้น ดูเหมือนว่าในเชิงประจักษ์มันไม่ได้เวิร์กดีขนาดนั้น เพราะตอนนี้โมเดลก็พังอยู่แล้ว แต่ผมจะบอกว่างานส่วนใหญ่ที่เราต้องการจากพวกมัน จริงๆ แล้วไม่ได้ต้องการความหลากหลาย นั่นคงเป็นคำตอบว่าเกิดอะไรขึ้น

ห้องแล็บ frontier กำลังพยายามทำให้โมเดลมีประโยชน์ใช้สอย ผมคิดว่าความหลากหลายของเอาต์พุตไม่ได้... อย่างแรกเลย มันประเมินและทำงานด้วยได้ยากกว่ามาก และอีกหลายอย่าง แต่ก็คงไม่ใช่สิ่งที่จับคุณค่าส่วนใหญ่เอาไว้

Dwarkesh Patel 00:57:42

จริงๆ แล้ว มันโดนลงโทษอย่างชัดเจน ถ้าคุณสร้างสรรค์มากเกินไปใน RL มันไม่ดี

Andrej Karpathy 00:57:48

ใช่ หรือถ้าคุณพึ่ง LLM มากในการช่วยเขียน มันก็คงไม่ดี เพราะโมเดลจะค่อยๆ ให้สิ่งเดิมกับคุณทั้งหมด มันจะไม่สำรวจวิธีตอบคำถามที่แตกต่างกันมากมาย

บางทีความหลากหลายนี้ โมเดลไม่มีมันเพราะแอปพลิเคชันจำนวนมากไม่ได้ต้องการมัน แต่พอมาถึงช่วงเวลาสร้างข้อมูลสังเคราะห์และอะไรทำนองนั้น มันกลับเป็นปัญหา ดังนั้นเรากำลังยิงเท้าตัวเองด้วยการไม่ยอมให้โมเดลรักษาเอนโทรปีนี้ไว้ บางทีห้องแล็บต่างๆ ควรพยายามกับเรื่องนี้ให้มากกว่านี้

Dwarkesh Patel 00:58:17

ผมคิดว่าคุณสื่อว่ามันเป็นปัญหาที่ค่อนข้างพื้นฐาน และไม่น่าจะแก้ได้ง่ายๆ สัญชาตญาณของคุณต่อเรื่องนั้นคืออะไร?

Andrej Karpathy 00:58:24

ผมไม่แน่ใจว่ามันพื้นฐานขนาดนั้น ผมไม่รู้ว่าผมตั้งใจจะพูดแบบนั้นหรือเปล่า ผมยังไม่ได้ทำการทดลองพวกนี้ แต่ผมคิดว่าบางทีคุณอาจทำ regularize เอนโทรปีให้สูงขึ้นได้ เพื่อให้โมเดลถูกกระตุ้นให้ให้คำตอบที่มากขึ้นเรื่อยๆ แต่คุณก็ไม่อยากให้มันออกห่างจากข้อมูลฝึกมากเกินไป เพราะมันจะเริ่มสร้างภาษาของตัวเอง มันจะเริ่มใช้คำที่หายากมากๆ ดังนั้นมันจะลอยออกจากการกระจายไปไกลเกินไป

เพราะงั้นผมคิดว่าการควบคุมการกระจายมันก็แค่ค่อนข้าง tricky บางทีในความหมายนั้น มันอาจไม่ใช่เรื่องเล็กน้อย

Dwarkesh Patel 00:58:58

ถ้าต้องเดา แก่นของสติปัญญาที่เหมาะสมควรมีขนาดกี่บิต? ถ้าจะใส่มันลงไปในยานสำรวจฟอน นอยมันน์ มันควรใหญ่แค่ไหน?

Andrej Karpathy 00:59:10

นี่เป็นเรื่องที่น่าสนใจมากในประวัติศาสตร์ของวงการ เพราะช่วงหนึ่งทุกอย่างเหมือนจะเสพติดการสเกล "โอ้ เราจะสร้างโมเดลที่ใหญ่กว่านี้มาก โมเดลระดับล้านล้านพารามิเตอร์" โมเดลเคยขยับขึ้นไปในแง่ขนาด แล้วตอนนี้ก็เริ่มลดลงแล้ว โมเดลล้ำสมัยตอนนี้เล็กลง แต่ถึงอย่างนั้น ผมก็ยังคิดว่าพวกมันจดจำมากเกินไป ดังนั้นผมเลยเคยคาดการณ์ไว้ก่อนหน้านี้ว่า ผมรู้สึกว่าเราอาจได้แก่นการรับรู้ที่ดีมากจากโมเดลที่มีพารามิเตอร์แทบจะเพียง 1 พันล้านตัว

ถ้าคุณคุยกับโมเดล 1 พันล้านพารามิเตอร์ ผมคิดว่าอีก 20 ปีข้างหน้าเราน่าจะคุยกันได้อย่างมีประสิทธิภาพมาก มันจะคิดได้ และคล้ายมนุษย์มากขึ้นมาก แต่ถ้าคุณถามคำถามเชิงข้อเท็จจริงบางอย่าง มันอาจต้องไปค้นดู แต่มันจะรู้ว่าตัวเองไม่รู้ และอาจต้องไปค้นหา และจะทำสิ่งที่สมเหตุสมผลทั้งหมดได้

Dwarkesh Patel 00:59:54

ผมแปลกใจที่คุณคิดว่าต้องใช้ถึง 1 พันล้านพารามิเตอร์ เพราะเรามีโมเดลระดับ 1 พันล้านพารามิเตอร์ หรือหลายพันล้านพารามิเตอร์อยู่แล้ว และพวกมันก็ฉลาดมาก

Andrej Karpathy 01:00:02

อืม โมเดลล้ำสมัยน่าจะยังอยู่ระดับล้านล้านพารามิเตอร์ แต่พวกมันจำมากเกินไป

Dwarkesh Patel 01:00:06

ใช่ แต่ถ้ามองจากความเร็วของพัฒนาการในอีก 10 ปีข้างหน้า มันก็น่าแปลกใจนะ... เรามี gpt-oss-20b มันดีกว่า GPT-4 รุ่นดั้งเดิมมาก ทั้งที่ GPT-4 เดิมมีพารามิเตอร์มากกว่าระดับล้านล้านเสียอีก เมื่อดูจากแนวโน้มนี้ มันน่าแปลกใจที่คุณยังคิดว่าอีก 10 ปีแก่นการรับรู้จะยังอยู่ที่ 1 พันล้านพารามิเตอร์ ผมคงไม่แปลกใจถ้าคุณจะพูดว่า "โอ้ มันน่าจะเหลือระดับหลายสิบล้านหรือหลายล้านแล้ว"

Andrej Karpathy 01:00:30

ตรงนี้มีปัญหาอยู่ ข้อมูลฝึกก็คืออินเทอร์เน็ต ซึ่งมันแย่มาก และเพราะอินเทอร์เน็ตมันแย่ ก็เลยมีประโยชน์มหาศาลที่ยังขุดได้จากตรงนั้น แม้แต่เวลาที่คุณกับผมนึกถึงอินเทอร์เน็ต คุณก็คงนึกถึงอะไรอย่าง Wall Street Journal แต่มันไม่ใช่อย่างนั้น ถ้าคุณดูชุดข้อมูล pretraining ของแล็บ frontier แล้วสุ่มเปิดเอกสารอินเทอร์เน็ตดู มันคือขยะล้วน ๆ ผมไม่เข้าใจเลยว่ามันทำงานได้ยังไง มีทั้งสัญลักษณ์หุ้น สัญลักษณ์ต่าง ๆ สลอปและขยะปริมาณมหาศาลจากทุกซอกทุกมุมของอินเทอร์เน็ต มันไม่ใช่บทความแบบ Wall Street Journal ซึ่งแบบนั้นหายากมาก เพราะอินเทอร์เน็ตมันแย่มาก เราเลยต้องสร้างโมเดลที่ใหญ่มากเพื่อบีบอัดทั้งหมดนั้น และการบีบอัดส่วนใหญ่เป็นงานด้านความจำมากกว่างานด้านการรับรู้

แต่สิ่งที่เราต้องการจริง ๆ คือส่วนที่เป็นการรับรู้ และตัดเรื่องความจำทิ้งไป ผมหมายถึงว่า เราต้องการโมเดลที่ฉลาดมาช่วยกลั่นชุดข้อมูล pretraining ให้แคบลงเหลือเฉพาะองค์ประกอบด้านการรับรู้จริง ๆ จากนั้นมันจะกลายเป็นชุดข้อมูลที่ดีกว่ามาก และผมคิดว่าเราจะทำสิ่งนี้ได้ด้วยโมเดลที่เล็กกว่ามาก เพราะสามารถฝึกบนข้อมูลแบบนั้นได้ แต่ก็น่าจะไม่ใช่การฝึกตรงบนข้อมูลนั้นเสียทีเดียว อาจยังเป็นการกลั่นจากโมเดลที่ดีกว่ามากอยู่ดี

Dwarkesh Patel 01:01:35

แต่ทำไมเวอร์ชันที่กลั่นแล้วถึงยังต้องมี 1 พันล้านอยู่?

Andrej Karpathy 01:01:39

ผมแค่รู้สึกว่าการกลั่นทำงานได้ดีมาก ดังนั้นแทบทุกโมเดลเล็ก ถ้าคุณเห็นโมเดลเล็ก มันแทบจะแน่นอนว่าเป็นโมเดลที่ถูกกลั่นมาแล้ว

Dwarkesh Patel 01:01:46

ใช่ แต่ทำไมการกลั่นในอีก 10 ปีถึงจะไม่ลดลงไปต่ำกว่า 1 พันล้านล่ะ?

Andrej Karpathy 01:01:50

อ๋อ คุณคิดว่ามันควรจะเล็กกว่า 1 พันล้านเหรอ? คือ เอาเถอะ ใช่ไหม? ผมไม่รู้เหมือนกัน ในจุดหนึ่ง ถ้าจะทำสิ่งที่น่าสนใจได้ คุณน่าจะต้องมีปุ่มปรับอย่างน้อย 1 พันล้านปุ่ม คุณคิดว่ามันควรเล็กกว่านั้นเหรอ?

Dwarkesh Patel 01:02:01

ใช่ ถ้าดูแนวโน้มตลอดไม่กี่ปีที่ผ่านมา ที่เราเก็บผลไม้ต่ำห้อย จากโมเดลระดับมากกว่าล้านล้าน ไปสู่โมเดลที่เล็กลงแบบครึ่งหนึ่งตามตัวอักษร แต่กลับทำผลงานได้ดีกว่าในเวลาแค่ 2 ปี มันทำให้ผมคิดว่าแก่นของสติปัญญาอาจเล็กกว่านั้นมาก ๆ ขอยืมคำของ Feynman ว่า ยังมีพื้นที่เหลืออีกมากที่ด้านล่าง

Andrej Karpathy 01:02:22

แค่ผมพูดถึงแก่นการรับรู้ 1 พันล้านพารามิเตอร์ ผมก็รู้สึกว่าตัวเองนอกกระแสแล้ว แต่คุณยังไปไกลกว่าผมอีก มันอาจเล็กลงได้อีกหน่อยก็ได้ จริง ๆ แล้วผมคิดว่าเราอยากให้โมเดลมีความรู้อยู่บ้าง ไม่ใช่ให้ต้องไปค้นทุกอย่าง เพราะถ้าเป็นแบบนั้น มันจะคิดอยู่ในหัวไม่ได้ มันจะต้องคอยค้นหาหลายอย่างตลอดเวลา ควรมีความรู้พื้นฐานบางส่วนจากหลักสูตรพื้นฐานอยู่ แต่ไม่ใช่ความรู้เฉพาะทางแปลก ๆ

Dwarkesh Patel 01:02:48

เรากำลังคุยกันว่าแก่นการรับรู้จะมีขนาดเท่าไรได้บ้าง แต่ก็ยังมีอีกคำถามหนึ่งแยกต่างหากเกี่ยวกับขนาดของโมเดล frontier ว่าเมื่อเวลาผ่านไปจะเป็นอย่างไร ผมอยากรู้ว่าคุณมีคำทำนายไหม เราเห็นขนาดเพิ่มขึ้นจนถึง GPT 4.5 แล้วตอนนี้ขนาดกลับลดลงหรือทรงตัว เรื่องนี้อาจมีหลายเหตุผลที่กำลังเกิดขึ้น คุณมีคำทำนายสำหรับอนาคตไหม? โมเดลที่ใหญ่ที่สุดจะใหญ่ขึ้น เล็กลง หรือเท่าเดิม?

Andrej Karpathy 01:03:14

ผมไม่มีคำทำนายที่หนักแน่นมาก แล็บต่าง ๆ ก็แค่ทำแบบปฏิบัตินิยม พวกเขามีงบ FLOPs และงบต้นทุน แล้วมันก็เริ่มชัดว่า pretraining ไม่ใช่จุดที่ควรทุ่ม FLOPs หรือเงินส่วนใหญ่ นั่นคือเหตุผลที่โมเดลเล็กลง เล็กลงนิดหน่อย กล่าวคือช่วง pretraining เล็กลง แต่พวกเขาไปชดเชยใน reinforcement learning, mid-training และทุกอย่างที่ตามมาหลังจากนั้น พวกเขาแค่ทำอย่างเป็นรูปธรรมกับทุกขั้นตอนและหาว่าจะรีดประสิทธิภาพสูงสุดได้อย่างไร

การคาดการณ์แนวโน้มนี้ค่อนข้างยาก ผมยังคาดว่ายังมีผลไม้ต่ำห้อยให้เก็บอีกเยอะมาก นั่นคือความคาดหวังพื้นฐานของผม ตรงนี้ผมมีการกระจายความเป็นไปได้ที่กว้างมาก

Dwarkesh Patel 01:03:51

คุณคาดว่าผลไม้ต่ำห้อยพวกนั้นจะคล้ายกับสิ่งที่เกิดขึ้นในช่วง 2-5 ปีที่ผ่านมาไหม? ถ้าดู nanochat เทียบกับ nanoGPT และการปรับสถาปัตยกรรมที่คุณทำ นั่นคือกลิ่นอายของสิ่งที่คุณคาดว่าจะเกิดขึ้นต่อไปใช่ไหม? คุณไม่ได้คาดว่าจะมีการเปลี่ยนกระบวนทัศน์ครั้งใหญ่

Andrej Karpathy 01:04:11

ส่วนใหญ่ก็ใช่ ผมคาดว่าชุดข้อมูลจะดีขึ้นมาก มาก ๆ ถ้าคุณดูชุดข้อมูลทั่วไป มันแย่มาก แย่จนผมไม่เข้าใจเลยว่าทำไมอะไรถึงทำงานได้ ลองดูตัวอย่างเฉลี่ยในชุดฝึกสิ: มีข้อผิดพลาดด้านข้อเท็จจริง มีความผิดพลาด มีเรื่องไร้สาระ พอทำที่สเกลใหญ่ ๆ เสียงรบกวนมันก็ถูกล้างออกไปเอง เหลือสัญญาณบางส่วน ชุดข้อมูลจะดีขึ้นอย่างมหาศาล

ทุกอย่างกำลังดีขึ้น ฮาร์ดแวร์ของเรา ทุกเคอร์เนลที่ใช้รันฮาร์ดแวร์และใช้ฮาร์ดแวร์ให้คุ้มที่สุด Nvidia ก็กำลังค่อย ๆ ปรับจูนฮาร์ดแวร์เอง ทั้ง Tensor Core ทั้งหมดนั้นต้องเกิดขึ้นและจะเกิดขึ้นต่อไป ทุกเคอร์เนลจะดีขึ้นและดึงประสิทธิภาพของชิปออกมาได้สูงสุด อัลกอริทึมทั้งหมดก็น่าจะดีขึ้น ทั้งด้านการเพิ่มประสิทธิภาพ สถาปัตยกรรม และองค์ประกอบการสร้างแบบจำลองทั้งหมดที่เกี่ยวกับวิธีการประกอบทุกอย่างเข้าด้วยกันและอัลกอริทึมที่เราใช้ฝึก ผมไม่คาดว่าจะมีอะไรอย่างเดียวครองเกม ทุกอย่างบวก 20% นี่ประมาณสิ่งที่ผมเห็น

01:06:25 – AGI จะถูกรวมอยู่ในอัตราการเติบโตของ GDP 2%

Dwarkesh Patel 01:06:25

ผู้คนเสนอวิธีต่างๆ ในการสร้างกราฟว่าเราก้าวหน้าไปมากแค่ไหนบนเส้นทางไปสู่ AGI ที่สมบูรณ์แบบ ถ้าคุณสามารถวาดเส้นเส้นหนึ่งได้ คุณก็จะดูได้ว่าเส้นนั้นตัดกับ AGI ตรงไหน และมันจะเกิดขึ้นตรงไหนบนแกน x ผู้คนเสนอว่ามันคือระดับการศึกษา เรามีนักเรียนมัธยมปลาย จากนั้นไปถึงระดับมหาวิทยาลัยด้วย RL และต่อไปก็จะถึงปริญญาเอก

Andrej Karpathy 01:06:44

ผมไม่ชอบแบบนั้น

Dwarkesh Patel 01:06:45

หรือพวกเขาอาจเสนอความยาวของขอบฟ้างาน บางทีตอนนี้พวกมันอาจทำงานที่ใช้เวลา 1 นาทีได้ และทำได้อย่างอัตโนมัติ จากนั้นก็ทำงานที่ใช้เวลา 1 ชั่วโมงสำหรับมนุษย์ หรือใช้เวลา 1 สัปดาห์สำหรับมนุษย์ได้อย่างอัตโนมัติ คุณคิดอย่างไรกับแกน y ที่เกี่ยวข้องในที่นี้? เราควรคิดอย่างไรเกี่ยวกับความก้าวหน้าของ AI?

Andrej Karpathy 01:07:05

มีสองคำตอบสำหรับเรื่องนั้น อย่างแรกคือผมแทบอยากปฏิเสธคำถามนี้เลย เพราะผมมองว่านี่คือการขยายตัวของคอมพิวติ้ง เราเคยพูดถึงการทำกราฟความก้าวหน้าของคอมพิวติ้งไหม หรือเราจะทำกราฟความก้าวหน้าของคอมพิวติ้งตั้งแต่ยุค 1970 อย่างไร? แกน y คืออะไร? จากมุมมองนั้น คำถามทั้งหมดนี้มันมีความตลกอยู่เล็กน้อย

เวลาผู้คนพูดถึง AI กับ AGI ดั้งเดิม และพูดถึงมันแบบที่เราเคยพูดกันตอน OpenAI เริ่มต้น AGI คือระบบที่สามารถทำงานทุกอย่างที่มีคุณค่าทางเศรษฐกิจได้ในระดับเทียบเท่าหรือดีกว่ามนุษย์ นั่นคือคำนิยาม ผมค่อนข้างพอใจกับมันตั้งแต่ตอนนั้น และยึดคำนิยามนั้นมาตลอด จากนั้นผู้คนก็สร้างคำนิยามอื่นๆ อีกมากมายขึ้นมา แต่ผมชอบคำนิยามนี้

การผ่อนปรนอย่างแรกที่ผู้คนทำกันเสมอ คือการตัดทุกอย่างที่เป็นกายภาพออกไป เพราะเรากำลังพูดถึงแค่งานความรู้ในโลกดิจิทัลเท่านั้น ซึ่งถือเป็นการผ่อนปรนครั้งใหญ่เมื่อเทียบกับคำนิยามเดิม คำนิยามเดิมคือทุกงานที่มนุษย์ทำได้ ผมยกของได้ อะไรทำนองนั้น AI ทำแบบนั้นไม่ได้ แน่นอน แต่โอเค ผมยอมรับได้ ถ้าพูดว่า “อ้อ แค่งานความรู้” เรากำลังตัดเศรษฐกิจออกไปมากแค่ไหน? ผมไม่รู้ตัวเลข ความรู้สึกของผมคือราว 10% ถึง 20% ถ้าต้องเดา เฉพาะงานความรู้เท่านั้น คนที่ทำงานจากบ้านและทำงานต่างๆ ได้ อะไรแบบนั้น มันก็ยังเป็นตลาดที่ใหญ่มากอยู่ดี ขนาดเศรษฐกิจทั้งหมดคือเท่าไร แล้ว 10% หรือ 20% คืออะไร? เราก็ยังพูดถึงมูลค่าระดับหลายล้านล้านดอลลาร์อยู่ดี แม้แต่เฉพาะในสหรัฐฯ ทั้งในแง่ส่วนแบ่งตลาดหรืองานต่างๆ ดังนั้นมันยังคงเป็นหมวดที่ใหญ่มหาศาล

กลับมาที่คำนิยาม สิ่งที่ผมมองหาคือคำนิยามนั้นเป็นจริงมากแค่ไหน มีงานอยู่ไหม หรือมีหลายงานมากไหม ถ้าคิดในแง่งานย่อยแทนที่จะเป็นตำแหน่งงาน มันยาก เพราะปัญหาคือสังคมจะรีแฟกเตอร์ใหม่โดยอิงจากสิ่งที่ทำให้เป็นอัตโนมัติได้หรือไม่ได้ โดยอิงจากงานย่อยที่ประกอบกันเป็นตำแหน่งงาน ทุกวันนี้ งานไหนบ้างที่ถูกแทนที่ด้วย AI ได้? ตัวอย่างที่ดีเมื่อไม่นานมานี้คือคำทำนายของ Geoff Hinton ที่บอกว่านักรังสีวิทยาจะไม่เหลือเป็นอาชีพอีกต่อไป ซึ่งกลายเป็นว่าผิดมากในหลายแง่มุม นักรังสีวิทยายังอยู่ดี มีงานทำ และยังเติบโตอยู่ แม้ว่าคอมพิวเตอร์วิทัศน์จะเก่งมากๆ ในการระบุสิ่งต่างๆ ทั้งหมดจากภาพที่พวกเขาต้องระบุก็ตาม นั่นเป็นเพราะมันเป็นอาชีพที่ซับซ้อน มีมิติหลายด้านในการรับมือกับคนไข้และบริบททั้งหมดเหล่านี้

ภายใต้คำนิยามนั้น ผมยังไม่คิดว่า AI สร้างผลกระทบใหญ่แล้ว งานบางประเภทที่ผมมองหา มีคุณลักษณะบางอย่างที่ทำให้เหมาะกับการทำอัตโนมัติได้เร็วกว่างานอื่นๆ มาก ตัวอย่างเช่น พนักงานคอลเซ็นเตอร์มักถูกยกขึ้นมาพูดถึง และผมคิดว่าถูกต้อง พนักงานคอลเซ็นเตอร์มีคุณสมบัติที่เรียบง่ายหลายอย่างสำหรับสิ่งที่น่าจะทำอัตโนมัติได้ในวันนี้ งานของพวกเขาค่อนข้างตรงไปตรงมา เป็นลำดับของงาน และทุกงานก็หน้าตาคล้ายกัน รับสายคุยกับคน เป็นปฏิสัมพันธ์ยาว 10 นาที หรืออะไรก็ตาม อาจจะนานกว่านั้น จากประสบการณ์ของผม มันนานกว่านั้นมาก แล้วก็ทำภารกิจบางอย่างให้เสร็จในระบบบางระบบ แก้ไขรายการในฐานข้อมูลหรืออะไรทำนองนั้น ดังนั้นคุณทำสิ่งเดิมซ้ำๆ ไปเรื่อยๆ และนั่นคืองานของคุณ

ผมอยากหยิบเอาขอบฟ้างาน—งานหนึ่งใช้เวลานานแค่ไหน—มาใช้ แล้วก็ตัดบริบทออกไป คุณไม่ได้ต้องรับมือกับส่วนอื่นๆ ของบริการของบริษัท หรือกับลูกค้าคนอื่นๆ มากมาย มันมีแค่ฐานข้อมูล คุณ และคนที่คุณกำลังให้บริการอยู่ มันปิดมากกว่า เข้าใจได้มากกว่า และเป็นดิจิทัลล้วนๆ ดังนั้นผมจะมองหาสิ่งแบบนั้น

แต่ถึงอย่างนั้น ผมก็ยังไม่ได้มองหาการทำอัตโนมัติเต็มรูปแบบ ผมกำลังมองหาสไลเดอร์ของความเป็นอัตโนมัติ ผมคาดว่าเราจะยังไม่แทนที่คนในทันที เราจะเปลี่ยนมาใช้ AI ที่ทำงานได้ 80% ของปริมาณงาน มันจะส่งต่ออีก 20% ให้มนุษย์ และมนุษย์ก็จะกำกับดูแลทีม AI 5 ทีมที่ทำงานคอลเซ็นเตอร์แบบเป็นระบบมากกว่า ผมจะมองหาอินเทอร์เฟซใหม่ๆ หรือบริษัทใหม่ๆ ที่สร้างชั้นสำหรับให้คุณจัดการ AI พวกนี้ได้ มันยังไม่สมบูรณ์แบบ แล้วจากนั้นผมก็คาดว่าจะเห็นแบบนี้ทั่วทั้งเศรษฐกิจ งานหลายอย่างยากกว่างานคอลเซ็นเตอร์มาก

Dwarkesh Patel 01:11:02

เรื่องนักรังสีวิทยา ผมกำลังเดาล้วนๆ และไม่รู้เลยว่าเวิร์กโฟลว์จริงของนักรังสีวิทยามีอะไรบ้าง แต่มีอุปมาอย่างหนึ่งที่อาจใช้ได้คือ ตอนที่ Waymo เริ่มนำไปใช้งานครั้งแรก มีคนนั่งอยู่เบาะหน้า และต้องอยู่ตรงนั้นถ้ามีอะไรผิดพลาดหนักมาก แม้ทุกวันนี้ ผู้คนก็ยังคอยเฝ้าดูเพื่อให้แน่ใจว่าทุกอย่างดำเนินไปด้วยดี robotaxi ที่เพิ่งเปิดใช้งานก็ยังมีคนนั่งอยู่ข้างใน

ทีนี้แม้เราจะทำงานอัตโนมัติได้ 99% ของงาน มันก็อาจเป็นสถานการณ์คล้ายกันที่ 1% สุดท้ายที่มนุษย์ยังต้องทำ กลับมีมูลค่าสูงมาก เพราะมันเป็นคอขวดของทุกอย่าง ในกรณีของนักรังสีวิทยา ถ้าคนที่ต้องนั่งอยู่ข้างหน้า Waymo ต้องได้รับการฝึกเฉพาะทางหลายปีเพื่อทำ 1% สุดท้ายนั้น ค่าจ้างของพวกเขาก็น่าจะต้องสูงขึ้นมาก เพราะพวกเขาคือสิ่งเดียวที่เป็นคอขวดต่อการนำไปใช้ในวงกว้าง นักรังสีวิทยา ผมคิดว่าค่าจ้างของพวกเขาก็เพิ่มขึ้นด้วยเหตุผลคล้ายกัน ถ้าคุณคือคอขวดสุดท้ายและแทนที่ไม่ได้ ส่วนคนขับของ Waymo อาจถูกแทนที่กันได้กับคนอื่นๆ ดังนั้นคุณอาจเห็นสิ่งนี้ที่ค่าจ้างสูงขึ้นเรื่อยๆ จนกระทั่งไปถึง 99% แล้วเมื่อ 1% สุดท้ายหายไป มันก็ร่วงลงแบบนั้น และผมสงสัยว่าเรากำลังเห็นอะไรคล้ายๆ กันกับรังสีวิทยา หรือเงินเดือนของพนักงานคอลเซ็นเตอร์ หรืออะไรทำนองนั้นหรือเปล่า

Andrej Karpathy 01:12:17

เป็นคำถามที่น่าสนใจ ผมไม่คิดว่าเรากำลังเห็นแบบนั้นในรังสีวิทยาตอนนี้ ผมไม่คิดว่ารังสีวิทยาเป็นตัวอย่างที่ดี ผมไม่รู้ว่าทำไม Geoff Hinton ถึงเลือกรังสีวิทยา เพราะผมคิดว่านั่นเป็นอาชีพที่ซับซ้อนอย่างมาก

ตัวอย่างเช่น ผมสนใจมากกว่าว่ากำลังเกิดอะไรขึ้นกับพนักงานคอลเซ็นเตอร์ในวันนี้ เพราะผมคาดว่าส่วนที่เป็นระบบจำนวนมากน่าจะทำอัตโนมัติได้แล้วในวันนี้ ผมไม่มีข้อมูลโดยตรงเกี่ยวกับเรื่องนั้น แต่ผมจะมองหาแนวโน้มว่าเกิดอะไรขึ้นกับพนักงานคอลเซ็นเตอร์ สิ่งหนึ่งที่ผมคาดไว้อีกอย่างคือ อาจมีการเปลี่ยนมาใช้ AI แต่จากนั้นผมก็ยังจะรออีก 1 หรือ 2 ปี เพราะผมคาดว่าเป็นไปได้ที่พวกเขาจะถอยกลับและจ้างคนบางส่วนกลับเข้ามาใหม่

Dwarkesh Patel 01:13:00

มีหลักฐานว่ามันกำลังเกิดขึ้นแล้วโดยทั่วไปในบริษัทต่างๆ ที่นำ AI มาใช้ ซึ่งผมคิดว่าน่าทึ่งมาก

อีกอย่างที่ผมรู้สึกว่าน่าทึ่งจริงๆ คือ AGI ใช่ไหม มันควรทำได้ทุกอย่าง เราตัดงานกายภาพออกไป แต่ก็ควรทำงานความรู้ได้ทั้งหมด โดยสัญชาตญาณ ผมคงคาดว่าความก้าวหน้านี้จะเกิดขึ้นด้วยการหยิบงานย่อยเล็กๆ ที่คอนซัลแทนต์ทำอยู่ แล้วตัดมันออกจากหมวดนั้น หยิบงานย่อยเล็กๆ ที่นักบัญชีทำอยู่ แล้วตัดมันออกจากหมวดนั้น จากนั้นก็ทำแบบนั้นไปทั่วทั้งงานความรู้ทั้งหมด

แต่ในทางกลับกัน หากคุณเชื่อว่าเรากำลังอยู่บนเส้นทางไปสู่ AGI ด้วยกระบวนทัศน์ปัจจุบัน ความคืบหน้ากลับไม่ได้เป็นแบบนั้นเลย ดูไม่เหมือนว่าที่ปรึกษาและนักบัญชีจะได้ประโยชน์ด้านผลิตภาพอย่างมหาศาล มันคล้ายมากกับการที่โปรแกรมเมอร์กำลังถูกลดทอนงานของตัวเองลงเรื่อย ๆ ถ้าดูรายได้ของบริษัทเหล่านี้ เมื่อตัดรายได้จากแชตทั่วไปออกไป—ซึ่งก็คล้ายกับ Google อะไรทำนองนั้น—แล้วดูเฉพาะรายได้จาก API การเขียนโค้ดครองสัดส่วนอย่างชัดเจน ดังนั้นสิ่งที่ supposedly “ทั่วไป” ที่ควรทำงานความรู้ได้ทุกอย่าง กลับกำลังทำแค่การเขียนโค้ดเป็นหลัก นี่เป็นวิธีการกระจายตัวของ AGI ที่น่าประหลาดใจมาก

Andrej Karpathy 01:14:13

มีจุดที่น่าสนใจตรงนี้ ผมเชื่อว่าการเขียนโค้ดเป็นสิ่งแรกที่สมบูรณ์แบบสำหรับ LLM และเอเจนต์เหล่านี้ เพราะการเขียนโค้ดทำงานอยู่รอบ ๆ ข้อความมาโดยตลอดโดยพื้นฐาน มันคือคอมพิวเตอร์เทอร์มินัลและข้อความ ทุกอย่างอิงกับข้อความ LLM ชอบข้อความอยู่แล้วจากวิธีที่มันถูกฝึกบนอินเทอร์เน็ต มันเป็นตัวประมวลผลข้อความที่สมบูรณ์แบบ และก็มีข้อมูลทั้งหมดนี้อยู่ตรงนั้น มันเข้ากันได้อย่างลงตัว

เรายังมีโครงสร้างพื้นฐานจำนวนมากที่สร้างไว้ล่วงหน้าเพื่อจัดการโค้ดและข้อความด้วย ตัวอย่างเช่น Visual Studio Code หรือ IDE ที่คุณชอบจะแสดงโค้ด และเอเจนต์ก็เชื่อมต่อกับมันได้ ถ้าเอเจนต์ทำการเปลี่ยนแปลงแล้วเกิด diff ขึ้น เราก็มีโค้ดทั้งหมดที่ใช้ diff เพื่อแสดงความแตกต่างทั้งหมดใน codebase อยู่แล้วในทันที ดูเหมือนว่าเราสร้างโครงสร้างพื้นฐานจำนวนมากไว้ล่วงหน้าสำหรับโค้ด

ลองเทียบกับสิ่งที่ไม่ได้ได้ประโยชน์แบบนั้นเลย เช่น มีคนพยายามสร้างระบบอัตโนมัติสำหรับสไลด์ ไม่ใช่สำหรับการเขียนโค้ด ผมเห็นบริษัทที่ทำเรื่องสไลด์ นั่นยากกว่ามาก มากจริง ๆ ที่ยากกว่าก็เพราะสไลด์ไม่ใช่ข้อความ สไลด์คือกราฟิกชิ้นเล็ก ๆ ที่จัดวางเชิงพื้นที่และมีองค์ประกอบทางภาพ สไลด์ไม่มีโครงสร้างพื้นฐานที่สร้างไว้ล่วงหน้าแบบนี้ ตัวอย่างเช่น ถ้าเอเจนต์แก้สไลด์ เราจะแสดง diff ยังไง? จะดู diff ยังไง? ไม่มีอะไรสำหรับแสดง diff ของสไลด์ ใครสักคนต้องสร้างมันขึ้นมา บางสิ่งเหล่านี้ไม่เหมาะกับ AI ที่เป็นตัวประมวลผลข้อความ แต่โค้ดกลับเหมาะอย่างน่าทึ่ง

Dwarkesh Patel 01:15:48

ผมไม่แน่ใจว่านั่นอธิบายทั้งหมดได้ ผมเองก็พยายามทำให้ LLM มีประโยชน์ในโดเมนที่เป็นอินพุตภาษา เอาต์พุตภาษาแบบล้วน ๆ เช่น การเขียนทรานสคริปต์ใหม่ การทำคลิปจากทรานสคริปต์ มีโอกาสสูงมากว่าผมยังไม่ได้ทำทุกอย่างที่เป็นไปได้ ผมใส่ตัวอย่างดี ๆ จำนวนมากไว้ในคอนเท็กซ์ แต่บางทีอาจต้องทำ fine-tuning บางแบบด้วย

เพื่อนร่วมกันของเรา Andy Matuschak บอกว่าเขาลองไป 5 หมื่นล้านวิธีเพื่อทำให้โมเดลเขียนพรอมป์ตสำหรับ spaced repetition ได้ดี อีกครั้ง นี่เป็นงานที่เป็นอินพุตภาษา เอาต์พุตภาษาอย่างมาก และควรจะเป็นอะไรที่อยู่กลางเรเปอร์ทัวร์ของ LLM พวกนี้เลย เขาลอง in-context learning พร้อมตัวอย่าง few shot เขาลอง supervised fine-tuning และ retrieval ด้วย แต่เขาก็ยังทำให้มันสร้างการ์ดที่เขาพอใจไม่ได้

ดังนั้นแม้แต่ในโดเมนเอาต์พุตภาษาเอง นอกเหนือจากการเขียนโค้ดแล้ว มันก็น่าประทับใจที่ยากมากที่จะดึงมูลค่าทางเศรษฐกิจจำนวนมากจากโมเดลเหล่านี้ ผมไม่รู้ว่าอะไรเป็นคำอธิบายของเรื่องนั้น

Andrej Karpathy 01:16:57

ฟังดูสมเหตุสมผลนะ ผมไม่ได้บอกว่าทุกอย่างที่เป็นข้อความนั้นง่ายมาก ผมคิดว่าโค้ดมีโครงสร้างค่อนข้างมาก ข้อความน่าจะมีสีสันมากกว่า และผมอยากจะบอกว่ามันมี entropy มากกว่ามาก ผมไม่รู้จะอธิบายเป็นอย่างอื่นยังไง อีกอย่างโค้ดมันยาก ดังนั้นผู้คนจึงรู้สึกว่า LLM เพิ่มพลังให้พวกเขาได้มากแม้มีความรู้เพียงเล็กน้อย ผมไม่ได้คิดว่าตัวเองมีคำตอบที่ดีมากนัก เห็นได้ชัดว่าการเป็นข้อความทำให้มันง่ายขึ้นมาก ๆ แต่นั่นไม่ได้แปลว่าทุกอย่างที่เป็นข้อความจะง่ายดาย

01:17:36 – ASI (ปัญญาประดิษฐ์เหนือมนุษย์)

Dwarkesh Patel 01:17:36

คุณคิดยังไงเกี่ยวกับปัญญาเหนือมนุษย์? คุณคาดว่ามันจะให้ความรู้สึกแตกต่างเชิงคุณภาพจากมนุษย์ทั่วไปหรือบริษัทที่บริหารโดยมนุษย์ไหม?

Andrej Karpathy 01:17:45

ผมมองมันเป็นความคืบหน้าของระบบอัตโนมัติในสังคม ถ้าคุณคาดการณ์แนวโน้มของการประมวลผลต่อไป เราจะเห็นการทำงานอัตโนมัติของหลายสิ่งแบบค่อยเป็นค่อยไป และปัญญาเหนือมนุษย์ก็คงเป็นการต่อยอดจากสิ่งนั้น เมื่อเวลาผ่านไป ผมคาดว่าจะมีตัวตนอัตโนมัติมากขึ้นเรื่อย ๆ ที่ทำงานดิจิทัลจำนวนมาก และจากนั้นอีกระยะหนึ่งภายหลังก็อาจรวมถึงงานทางกายภาพด้วย โดยพื้นฐานแล้วผมมองมันเป็นแค่ระบบอัตโนมัติ ถ้าจะพูดแบบคร่าว ๆ

Dwarkesh Patel 01:18:10

แต่ระบบอัตโนมัติครอบคลุมสิ่งที่มนุษย์ทำได้อยู่แล้ว ขณะที่ปัญญาเหนือมนุษย์หมายถึงสิ่งที่มนุษย์ทำไม่ได้

Andrej Karpathy 01:18:16

แต่สิ่งหนึ่งที่ผู้คนทำก็คือการประดิษฐ์สิ่งใหม่ ๆ และถ้ามองแบบนั้น ผมก็จะนับมันเป็นส่วนหนึ่งของระบบอัตโนมัติด้วย

Dwarkesh Patel 01:18:20

แต่ถ้าพูดให้เป็นรูปธรรมขึ้นและในเชิงคุณภาพ อะไรบางอย่างที่... เพราะสิ่งนี้อาจคิดได้เร็วมาก หรือมีสำเนาของตัวเองจำนวนมาก หรือสำเนาเหล่านั้นอาจรวมกลับเข้าหากันอีกครั้ง หรือฉลาดกว่ามาก หรืออะไรก็ตามในบรรดาข้อได้เปรียบมากมายที่ AI อาจมี อารยธรรมที่มี AI แบบนี้อยู่จะให้ความรู้สึกแตกต่างจากมนุษย์ในเชิงคุณภาพไหม?

Andrej Karpathy 01:18:51

ผมคิดว่าน่าจะใช่ โดยพื้นฐานมันยังเป็นระบบอัตโนมัติ แต่จะดูแปลกประหลาดอย่างสุดขั้ว มันจะดูประหลาดมาก อย่างที่คุณพูด เราสามารถรันทั้งหมดนี้บนคลัสเตอร์คอมพิวเตอร์และทำได้เร็วขึ้นมาก

บางสถานการณ์ที่ทำให้ผมเริ่มกังวลเมื่อโลกมีหน้าตาแบบนั้น คือการสูญเสียการควบคุมและความเข้าใจต่อสิ่งที่กำลังเกิดขึ้นอย่างค่อยเป็นค่อยไป ผมคิดว่าการสูญเสียความเข้าใจแบบค่อยเป็นค่อยไปเป็นผลลัพธ์ที่มีแนวโน้มมากที่สุด เราจะค่อย ๆ ซ้อนสิ่งเหล่านี้เข้าไปทุกหนทุกแห่งเป็นชั้น ๆ และคนที่เข้าใจมันจริง ๆ จะมีน้อยลงเรื่อย ๆ จากนั้นก็จะเกิดการสูญเสียการควบคุมและความเข้าใจต่อสิ่งที่กำลังเกิดขึ้นอย่างค่อยเป็นค่อยไป สำหรับผม นั่นดูเหมือนเป็นผลลัพธ์ที่เป็นไปได้มากที่สุดว่าทั้งหมดนี้จะดำเนินไปอย่างไร

Dwarkesh Patel 01:19:31

ขอเจาะเรื่องนั้นอีกหน่อย ผมไม่แน่ใจว่าการสูญเสียการควบคุมกับการสูญเสียความเข้าใจเป็นเรื่องเดียวกันไหม คณะกรรมการของ TSMC, Intel—จะเป็นชื่อบริษัทไหนก็ได้—พวกเขาก็เป็นแค่คนมีหน้ามีตาอายุ 80 ปี พวกเขาแทบไม่มีความเข้าใจ และอาจไม่ได้มีการควบคุมอย่างเป็นรูปธรรมจริง ๆ ด้วยซ้ำ

ตัวอย่างที่ดีกว่าคือประธานาธิบดีสหรัฐฯ ประธานาธิบดีมีอำนาจมาก ผมไม่ได้พยายามจะพูดอะไรดี ๆ เกี่ยวกับผู้ดำรงตำแหน่งปัจจุบัน หรือบางทีก็อาจจะใช่ แต่ระดับของความเข้าใจจริง ๆ กับระดับของการควบคุมนั้นแตกต่างกันมาก

Andrej Karpathy 01:20:06

ก็ยุติธรรมนะ เป็นข้อโต้แย้งที่ดี ผมคิดว่าผมคาดว่าจะสูญเสียทั้งสองอย่าง

Dwarkesh Patel 01:20:15

อย่างไร? การสูญเสียความเข้าใจนั้นชัดเจน แต่ทำไมถึงเป็นการสูญเสียการควบคุม?

Andrej Karpathy 01:20:20

เรากำลังเข้าไปลึกมากในดินแดนที่เราไม่รู้เลยว่ามันจะหน้าตาเป็นยังไง แต่ถ้าผมจะเขียนนิยายวิทยาศาสตร์ ผมคงไปในทิศทางของหลายตัวตนที่แข่งขันกันเองและค่อย ๆ มีความเป็นอิสระมากขึ้นเรื่อย ๆ ไม่ใช่แม้แต่ตัวตนเดี่ยวที่ยึดทุกอย่าง บางตัวในนั้นกลายเป็นตัวปัญหา และตัวอื่น ๆ ก็จัดการพวกมัน มันเป็นเหมือนจุดร้อนของกิจกรรมอัตโนมัติเต็มรูปแบบที่เราได้มอบหมายเอาไว้ ผมรู้สึกว่ามันน่าจะมีรสชาติประมาณนั้น

Dwarkesh Patel 01:20:52

ไม่ใช่ความจริงที่ว่าพวกมันฉลาดกว่าเราที่นำไปสู่การสูญเสียการควบคุม แต่เป็นความจริงที่ว่าพวกมันกำลังแข่งขันกันเอง และไม่ว่าผลอะไรจะออกมาจากการแข่งขันนั้น มันต่างหากที่นำไปสู่การสูญเสียการควบคุม

Andrej Karpathy 01:21:06

ใช่ หลายส่วนของสิ่งเหล่านี้จะเป็นเครื่องมือให้ผู้คน และกำลังลงมือทำแทนผู้คนหรืออะไรทำนองนั้น ดังนั้นบางทีคนเหล่านั้นอาจยังควบคุมอยู่ แต่ในระดับสังคมโดยรวม ในความหมายของผลลัพธ์ที่เราต้องการ มันอาจเป็นการสูญเสียการควบคุม เรายังคงมีตัวตนที่ลงมือทำแทนปัจเจกบุคคล ซึ่งโดยรวมแล้วยังดูแทบควบคุมไม่ได้อยู่ดี

Dwarkesh Patel 01:21:30

นี่เป็นคำถามที่ผมน่าจะถามเร็วกว่านี้ เรากำลังคุยกันอยู่ว่าเวลาเราทำ AI engineering หรือ AI research ในปัจจุบัน โมเดลเหล่านี้ให้ความรู้สึกว่าอยู่ในหมวดของ compiler มากกว่าจะเป็นตัวมาทดแทน

เมื่อถึงจุดหนึ่ง ถ้าคุณมี AGI มันก็น่าจะทำงานแบบที่คุณทำอยู่ได้ คุณรู้สึกไหมว่าการมีสำเนาของตัวคุณเองหนึ่งล้านชุดทำงานแบบขนานกัน จะทำให้ความก้าวหน้าของ AI เร่งขึ้นอย่างมหาศาล? ถ้าเรื่องนั้นเกิดขึ้น เมื่อเรามี AGI ที่แท้จริง คุณคาดว่าจะได้เห็นการระเบิดของสติปัญญาไหม? ผมไม่ได้กำลังพูดถึง LLM ในปัจจุบันนะ

Andrej Karpathy 01:22:01

ใช่ แต่นั่นก็เป็นเรื่องปกติแบบเดิม ๆ นั่นแหละ เพราะว่าเราอยู่ท่ามกลางการระเบิดของสติปัญญาอยู่แล้ว และก็เป็นแบบนั้นมาหลายสิบปีแล้ว โดยพื้นฐานแล้วมันคือเส้นโค้ง GDP ที่เป็นผลรวมถ่วงน้ำหนักแบบเอ็กซ์โปเนนเชียลของแง่มุมมากมายเหลือเกินในอุตสาหกรรม ทุกอย่างกำลังถูกทำให้เป็นอัตโนมัติทีละน้อย และก็เป็นแบบนั้นมาหลายร้อยปีแล้ว การปฏิวัติอุตสาหกรรมก็คือระบบอัตโนมัติในบางส่วนขององค์ประกอบทางกายภาพและการทำเครื่องมือ compiler ก็คือระบบอัตโนมัติของซอฟต์แวร์ยุคแรก ๆ และอื่น ๆ เรากำลังปรับปรุงตัวเองแบบเวียนกลับและระเบิดต่อเนื่องมานานมากแล้ว

อีกวิธีหนึ่งในการมองเรื่องนี้คือ ถ้าไม่มองชีวกลศาสตร์และอะไรทำนองนั้น โลกก็คงเป็นสถานที่ที่ค่อนข้างน่าเบื่อและดูคล้าย ๆ เดิมมาก ถ้ามองจากอวกาศ เราอยู่ตรงกลางของเหตุการณ์พลุแตกนี้พอดี แต่เรากำลังเห็นมันในภาพช้า ผมรู้สึกชัดเจนว่าสิ่งนี้เกิดขึ้นมาเป็นเวลานานแล้ว อีกครั้งนะ ผมไม่ได้มอง AI เป็นเทคโนโลยีที่แยกขาดจากสิ่งที่เกิดขึ้นมานานแล้ว

Dwarkesh Patel 01:23:00

คุณคิดว่ามันต่อเนื่องกับแนวโน้มแบบซูเปอร์เอ็กซ์โปเนนเชียลนี้ใช่ไหม?

Andrej Karpathy 01:23:03

ใช่ เรื่องนี้น่าสนใจมากสำหรับผม เพราะผมพยายามมองหา AI ใน GDP มาสักพักแล้ว ผมคิดว่ามันควรจะทำให้ GDP สูงขึ้น แต่ผมก็มองไปที่เทคโนโลยีอื่นที่ผมคิดว่าเปลี่ยนโลกมาก อย่างคอมพิวเตอร์หรือโทรศัพท์มือถือ คุณก็มองไม่เห็นมันใน GDP GDP ยังเป็นเอ็กซ์โปเนนเชียลเส้นเดิม

แม้แต่ iPhone รุ่นแรกก็ยังไม่มี App Store และยังไม่มีลูกเล่นหลายอย่างที่ iPhone สมัยใหม่มี ดังนั้นต่อให้คุณคิดว่าปี 2008 ตอน iPhone ออกมาเป็นการเปลี่ยนแปลงครั้งใหญ่ของแผ่นเปลือกโลก จริง ๆ แล้วมันไม่ใช่ ทุกอย่างมันกระจายตัวมากและค่อย ๆ แพร่ไปช้า ๆ จนท้ายที่สุดทุกอย่างถูกเฉลี่ยรวมเข้าไปในเอ็กซ์โปเนนเชียลเส้นเดิม คอมพิวเตอร์ก็เหมือนกันเป๊ะ คุณไม่สามารถมองมันใน GDP แล้วพูดว่า “โอ้ ตอนนี้มีคอมพิวเตอร์แล้ว” ได้ มันไม่ได้เกิดขึ้นแบบนั้น เพราะมันค่อย ๆ เกิดช้าเกินไป

ผมคิดว่าเราจะเห็นแบบเดียวกันกับ AI มันก็เป็นแค่อัตโนมัติเพิ่มขึ้นอีก มันทำให้เราเขียนโปรแกรมประเภทอื่น ๆ ที่เราเคยเขียนไม่ได้มาก่อน แต่ AI ก็ยังเป็นโปรแกรมอยู่ในระดับพื้นฐาน มันคือคอมพิวเตอร์ชนิดใหม่ และเป็นระบบคอมพิวต์ชนิดใหม่ แต่ก็ยังมีปัญหาพวกนี้ทั้งหมด มันจะค่อย ๆ แพร่กระจายไปตามเวลา และยังคงถูกบวกเข้าไปในเอ็กซ์โปเนนเชียลเส้นเดิม เรายังคงจะมีเอ็กซ์โปเนนเชียลที่ชันมากอยู่ดี การใช้ชีวิตในสภาพแวดล้อมแบบนั้นจะรู้สึกแปลกมาก

Dwarkesh Patel 01:24:10

ถ้าดูแนวโน้มตั้งแต่ก่อนการปฏิวัติอุตสาหกรรมจนถึงตอนนี้ คุณกำลังบอกว่ามันมีซูเปอร์เอ็กซ์โปเนนเชียล จากการเติบโต 0% ไปเป็น 0.02% เมื่อ 10,000 ปีก่อน และเป็น 2% ตอนนี้ ใช่ไหม? นั่นแหละคือซูเปอร์เอ็กซ์โปเนนเชียล ถ้าเอา AI ไปใส่ในกราฟนั้น คุณกำลังบอกว่า AI จะพาคุณไปสู่การเติบโต 20% หรือ 200% หรือเปล่า?

หรือว่าถ้ามองแค่ 300 ปีที่ผ่านมา เราเห็นทีละเทคโนโลยี—คอมพิวเตอร์ การใช้ไฟฟ้า เครื่องจักรไอน้ำ รถไฟ และอื่น ๆ—แต่คุณกำลังบอกว่าอัตราการเติบโตยังเท่าเดิมเป๊ะ คือ 2%? คุณกำลังบอกว่าอัตราการเติบโตจะสูงขึ้นไหม?

Andrej Karpathy 01:24:46

อัตราการเติบโตก็คงที่โดยประมาณเหมือนกันใช่ไหม?

Dwarkesh Patel 01:24:49

ก็เฉพาะในช่วง 200–300 ปีที่ผ่านมาเท่านั้น แต่ถ้ามองตลอดประวัติศาสตร์มนุษย์ มันระเบิดขึ้น จาก 0% ไปเร็วขึ้น เร็วขึ้น เร็วขึ้น การระเบิดทางอุตสาหกรรม 2%

Andrej Karpathy 01:25:01

ช่วงหนึ่งผมพยายามมองหา AI หรือพยายามหา AI ในเส้นโค้ง GDP แล้วก็พยายามโน้มน้าวตัวเองว่าสิ่งนี้ไม่จริง แม้แต่เวลาคนพูดถึง recursive self-improvement และห้องแล็บต่าง ๆ นี่ก็ยังเป็นเรื่องปกติแบบเดิม ๆ อยู่ดี แน่นอนว่ามันจะปรับปรุงตัวเองแบบเวียนกลับ และมันก็ทำแบบนั้นมานานแล้ว

LLM ทำให้วิศวกรทำงานได้มีประสิทธิภาพมากขึ้นมากเพื่อสร้าง LLM รุ่นถัดไป และองค์ประกอบต่าง ๆ จำนวนมากกว่ามากกำลังถูกทำให้เป็นอัตโนมัติและปรับแต่งอยู่ วิศวกรทุกคนที่เข้าถึง Google Search ได้ก็เป็นส่วนหนึ่งของเรื่องนี้ วิศวกรทุกคนที่มี IDE ทุกคนที่มี autocomplete หรือทุกคนที่มี Claude code และอื่น ๆ ล้วนเป็นส่วนหนึ่งของการเร่งความเร็วแบบเดียวกันทั้งระบบ มันลื่นไหลมาก

Dwarkesh Patel 01:25:41

เพื่อความชัดเจน คุณกำลังบอกว่าอัตราการเติบโตจะไม่เปลี่ยนใช่ไหม การระเบิดของสติปัญญาจะออกมาในลักษณะเดียวกับที่อินเทอร์เน็ตช่วยให้เราอยู่บนเส้นทางการเติบโต 2% ก็คือแค่ช่วยให้เราเดินต่อไปบนเส้นทางการเติบโต 2% ได้

Andrej Karpathy 01:25:53

ใช่ ความคาดหวังของผมคือมันจะอยู่ในแพตเทิร์นเดิม

Dwarkesh Patel 01:25:58

ถ้าจะเสนอข้อโต้แย้งฝั่งตรงข้าม ความคาดหวังของผมคือมันจะระเบิดขึ้น เพราะผมคิดว่า AGI ที่แท้จริง—และผมไม่ได้พูดถึง coding bot แบบ LLM แต่กำลังพูดถึงตัวแทนมนุษย์จริง ๆ บนเซิร์ฟเวอร์—นั้นแตกต่างเชิงคุณภาพจากเทคโนโลยีเพิ่มผลิตภาพอื่น ๆ เหล่านี้ เพราะมันคือตัวแรงงานเอง

ผมคิดว่าเราอยู่ในโลกที่ถูกจำกัดด้วยแรงงานมาก ถ้าคุณคุยกับผู้ก่อตั้งสตาร์ตอัปหรือใครก็ตาม แล้วถามว่าเขาต้องการอะไรเพิ่ม คำตอบคือคนที่มีความสามารถจริง ๆ ถ้ามีคนเพิ่มอีกหลายพันล้านคนที่สามารถประดิษฐ์สิ่งของ บูรณาการสิ่งต่าง ๆ และสร้างบริษัทตั้งแต่ต้นจนจบได้ มันให้ความรู้สึกว่าแตกต่างเชิงคุณภาพจากเทคโนโลยีเดี่ยว ๆ เหมือนกับว่าโลกได้คนเพิ่มมาอีก 10,000 ล้านคน

Andrej Karpathy 01:26:44

อาจจะเป็นข้อโต้แย้งกลับก็ได้ ผมค่อนข้างเปิดกว้างที่จะถูกโน้มน้าวไปทางใดทางหนึ่งในประเด็นนี้ แต่ตัวอย่างเช่น การคอมพิวต์ก็คือแรงงาน การคอมพิวต์เคยเป็นแรงงาน คอมพิวเตอร์ทำให้งานจำนวนมากหายไป เพราะตอนนี้คอมพิวเตอร์ทำให้การประมวลผลข้อมูลดิจิทัลจำนวนมากเป็นอัตโนมัติ ซึ่งก่อนหน้านี้ต้องใช้มนุษย์ ดังนั้นคอมพิวเตอร์ก็คือแรงงาน และมันก็คลี่ตัวออกมาแบบนั้น

ตัวอย่างเช่น รถยนต์ไร้คนขับก็คือคอมพิวเตอร์ที่ทำงานแรงงานเช่นกัน เรื่องนั้นก็กำลังคลี่ตัวออกมาอยู่แล้ว มันก็ยังเป็นเรื่องปกติแบบเดิม ๆ

Dwarkesh Patel 01:27:13

มีเครื่องจักรที่สามารถปล่อยสิ่งเหล่านั้นออกมาได้มากขึ้นในอัตราที่อาจเร็วกว่า ในประวัติศาสตร์ก็มีตัวอย่างของการเปลี่ยนระบอบการเติบโต จาก 0.2% ไปเป็น 2% เครื่องจักรที่สร้างรถยนต์ไร้คนขับคันถัดไปและอินเทอร์เน็ตถัดไปและอะไรก็ตาม... เครื่องจักรที่ปล่อยสิ่งเหล่านั้นออกมาดูเป็นไปได้มาก...

Andrej Karpathy 01:27:33

ผมเข้าใจว่าคุณมาจากมุมไหน ขณะเดียวกัน ผมรู้สึกว่าผู้คนตั้งสมมติฐานว่า “เรามีพระเจ้าอยู่ในกล่องแล้ว และตอนนี้มันทำได้ทุกอย่าง” แต่มันจะไม่ได้หน้าตาแบบนั้น มันจะทำบางอย่างได้ และจะล้มเหลวกับบางอย่าง เราจะค่อย ๆ ใส่มันเข้าไปในสังคม และสุดท้ายมันก็จะจบลงด้วยแพตเทิร์นเดิม นั่นคือคำคาดการณ์ของผม

สมมติฐานที่ว่าเราจะมีมนุษย์ที่ฉลาดสมบูรณ์ ยืดหยุ่นสมบูรณ์ และเป็น general อย่างสมบูรณ์ อยู่ในกล่องแบบกะทันหัน แล้วสามารถจัดสรรมันไปแก้ปัญหาอะไรก็ได้ในสังคม ผมไม่คิดว่าเราจะมีการเปลี่ยนแปลงแบบไม่ต่อเนื่องอย่างนั้น ผมคิดว่าเราจะไปถึงการแพร่กระจายแบบค่อยเป็นค่อยไปชนิดเดียวกันนี้ในทุกอุตสาหกรรม

Dwarkesh Patel 01:28:14

บทสนทนาแบบนี้มักทำให้เกิดความเข้าใจผิดอยู่บ่อย ๆ ผมไม่ชอบใช้คำว่า intelligence ในบริบทนี้ เพราะคำว่า intelligence ชวนให้คิดว่ามีซูเปอร์อินเทลลิเจนซ์เดี่ยวตัวหนึ่งนั่งอยู่บนเซิร์ฟเวอร์ และมันรู้อย่างเทพว่าจะสร้างเทคโนโลยีใหม่ ๆ และสิ่งประดิษฐ์ต่าง ๆ ที่ก่อให้เกิดการระเบิดนี้ได้อย่างไร นั่นไม่ใช่สิ่งที่ผมนึกภาพเวลาเราพูดถึงการเติบโต 20% ผมนึกถึงจิตใจแบบมนุษย์ที่ฉลาดมากจำนวนหลายร้อยล้านชุด หรืออาจจะเท่าที่จำเป็นก็พอ

แต่สิ่งสำคัญคือมีมันอยู่หลายร้อยล้านหรือหลายพันล้านตัว แต่ละตัวสร้างผลิตภัณฑ์ใหม่ด้วยตัวเอง และหาวิธีบูรณาการตัวเองเข้ากับเศรษฐกิจ ถ้ามีผู้อพยพที่ฉลาดมากและมีประสบการณ์สูงเข้ามาในประเทศ พวกเขาไม่จำเป็นต้องให้ใครมาช่วยคิดว่าจะบูรณาการเข้ากับเศรษฐกิจอย่างไร พวกเขาจะหาทางได้เอง พวกเขาอาจเริ่มบริษัท อาจสร้างสิ่งประดิษฐ์ และอาจเพิ่มผลิตภาพให้กับโลกได้

แม้แต่ในระบบปัจจุบัน ก็มีตัวอย่างของสถานที่ที่มีการเติบโตทางเศรษฐกิจ 10-20% อยู่ หากมีคนจำนวนมากและมีทุนน้อยกว่าจำนวนคน คุณก็อาจมีการเติบโตเกิน 10% ต่อเนื่องได้หลายทศวรรษ แบบฮ่องกงหรือเซินเจิ้นหรือที่ไหนก็ตาม มีคนฉลาดมากจำนวนมากที่พร้อมจะใช้ประโยชน์จากทรัพยากรและเตรียมตัวสำหรับช่วงเวลาไล่ตามนี้ เพราะเราเคยมีความไม่ต่อเนื่องแบบนั้นมาก่อน และผมคิดว่า AI ก็อาจคล้ายกันได้

Andrej Karpathy 01:29:33

ผมเข้าใจ แต่ผมก็ยังคิดว่านั่นตั้งอยู่บนสมมติฐานว่าต้องมีการกระโดดแบบไม่ต่อเนื่องบางอย่าง มีการปลดล็อกบางอย่างที่กำลังรอให้เราอ้างถึง อยู่ ๆ เราก็จะมีอัจฉริยะอยู่ในดาต้าเซ็นเตอร์ ผมยังคิดว่านั่นเป็นการตั้งสมมติฐานถึงการกระโดดแบบไม่ต่อเนื่องที่ไม่มีบรรทัดฐานทางประวัติศาสตร์ ซึ่งผมหาไม่เจอจากสถิติใดเลย และผมคิดว่ามันอาจจะไม่เกิดขึ้น

Dwarkesh Patel 01:29:52

หมายถึงว่า การปฏิวัติอุตสาหกรรมนั่นแหละคือการกระโดดแบบนั้น มันเปลี่ยนจากการเติบโต 0.2% ไปเป็น 2% ผมแค่กำลังบอกว่าเราจะได้เห็นการกระโดดอีกครั้งแบบนั้น

Andrej Karpathy 01:30:00

ผมค่อนข้างสงสัยนะ คงต้องไปดูให้ละเอียด ตัวอย่างเช่น ข้อมูลบันทึกบางส่วนก่อนการปฏิวัติอุตสาหกรรมก็ไม่ได้ดีขนาดนั้น ผมเลยค่อนข้างสงสัยเรื่องนี้ แต่ก็ไม่ได้มีความเห็นที่หนักแน่น คุณกำลังบอกว่านี่เป็นเหตุการณ์เดี่ยวที่เหมือนเวทมนตร์อย่างมาก และคุณก็กำลังบอกว่าอาจจะมีอีกเหตุการณ์หนึ่งที่เหมือนกันเป๊ะ และมันจะเหมือนเวทมนตร์อย่างมาก จะทำลายกรอบเดิม และอื่น ๆ

Dwarkesh Patel 01:30:23

จริง ๆ แล้ว... สิ่งสำคัญเกี่ยวกับการปฏิวัติอุตสาหกรรมคือ มันไม่ได้ดูเหมือนเวทมนตร์เลย ถ้าคุณซูมเข้าไป สิ่งที่คุณจะเห็นในปี 1770 หรือ 1870 ไม่ใช่ว่ามีการประดิษฐ์แกนหลักบางอย่างเกิดขึ้น แต่ในเวลาเดียวกัน ความก้าวหน้าก็เร็วขึ้นมาก และทำให้เศรษฐกิจย้ายไปสู่ระบอบที่เอ็กซ์โปเนนต์สูงขึ้น 10 เท่า ผมคาดว่า AI ก็จะคล้ายกัน ผมไม่คิดว่าจะมีช่วงเวลาเดียวที่เกิดการประดิษฐ์ชี้ขาดขึ้นมา

Andrej Karpathy 01:30:51

มันคืออุปทานส่วนเกินที่กำลังถูกปลดล็อก เหมือนแหล่งพลังงานใหม่บางอย่าง มีการปลดล็อกบางอย่าง—ในกรณีนี้คือความสามารถด้านการรับรู้บางประเภท—และมีอุปทานส่วนเกินของงานด้านการรับรู้ที่ต้องทำ

Dwarkesh Patel 01:31:02

ใช่

Andrej Karpathy 01:31:03

คุณคาดว่าเมื่ออุปทานส่วนเกินนั้นข้ามจุดวิกฤต มันก็จะถูกเติมเต็มด้วยเทคโนโลยีใหม่นี้

Dwarkesh Patel 01:31:06

บางทีวิธีหนึ่งในการคิดเรื่องนี้คือ ตลอดประวัติศาสตร์ การเติบโตจำนวนมากเกิดขึ้นเพราะผู้คนคิดไอเดียขึ้นมา แล้วผู้คนก็ลงมือทำบางอย่างเพื่อทำให้ไอเดียนั้นเกิดขึ้นจริงและสร้างผลผลิตที่มีคุณค่า ตลอดเวลาส่วนใหญ่ของช่วงนั้น ประชากรกำลังเพิ่มขึ้นแบบระเบิด นั่นคือสิ่งที่ขับเคลื่อนการเติบโต

ในช่วง 50 ปีที่ผ่านมา ผู้คนอ้างว่าการเติบโตชะงักงัน ประชากรของประเทศพัฒนาแล้วก็ชะงักงันเช่นกัน ผมคิดว่าเรากำลังจะกลับไปสู่การเติบโตแบบเอ็กซ์โปเนนเชียลของประชากร ซึ่งจะทำให้ผลผลิตเติบโตแบบซูเปอร์เอ็กซ์โปเนนเชียล

Andrej Karpathy 01:31:37

มันพูดยากมากนะ ผมเข้าใจมุมมองนั้น แต่ในเชิงสัญชาตญาณ ผมไม่รู้สึกกับมุมมองนั้น

01:32:50 – วิวัฒนาการของสติปัญญาและวัฒนธรรม

Dwarkesh Patel 01:32:50

คุณเคยแนะนำหนังสือของ Nick Lane ให้ผม จากนั้นผมก็รู้สึกว่ามันน่าสนใจมากและได้สัมภาษณ์เขาด้วย ผมมีคำถามสองสามข้อเกี่ยวกับการคิดเรื่องสติปัญญาและประวัติศาสตร์ของวิวัฒนาการ

ตอนนี้คุณทำวิจัย AI มา 20 ปีแล้ว คุณน่าจะมีความรู้สึกที่เป็นรูปธรรมมากขึ้นว่าสติปัญญาคืออะไร และต้องใช้อะไรบ้างในการพัฒนามัน จากผลนั้น คุณรู้สึกประหลาดใจกับการที่วิวัฒนาการไปชนเข้ากับมันโดยบังเอิญมากขึ้นหรือน้อยลง?

Andrej Karpathy 01:33:19

ผมชอบหนังสือของ Nick Lane มากจริง ๆ ตอนนั่งรถมาที่นี่ผมก็กำลังฟังพอดแคสต์ของเขาอยู่ เรื่องสติปัญญาและวิวัฒนาการของมัน มันเพิ่งเกิดขึ้นไม่นานมาก ผมประหลาดใจที่มันวิวัฒน์ขึ้นมาได้

มันน่าหลงใหลมากที่จะคิดถึงโลกทั้งหลายที่อาจมีอยู่ สมมติว่ามีดาวเคราะห์แบบโลกอยู่หนึ่งพันดวง และคิดว่าพวกมันจะหน้าตาเป็นอย่างไร Nick Lane มาที่นี่และพูดถึงบางส่วนของช่วงแรกเริ่มที่สุด เขาคาดว่าจะเห็นสิ่งมีชีวิตที่คล้ายกันมาก ๆ พูดอย่างหยาบ ๆ ก็คือ ส่วนใหญ่จะมีสิ่งที่คล้ายแบคทีเรีย มีจุดขาดตอนบางจุดอยู่ตรงนั้น การวิวัฒน์ของสติปัญญา ในเชิงสัญชาตญาณแล้ว สำหรับผมมันดูเหมือนควรเป็นเหตุการณ์ที่ค่อนข้างหายากมาก

บางทีคุณอาจต้องอิงจากว่าบางสิ่งดำรงอยู่มานานแค่ไหน ถ้าแบคทีเรียมีอยู่มา 2 พันล้านปีแล้วไม่มีอะไรเกิดขึ้นเลย การไปสู่ยูคาริโอตก็น่าจะยากพอสมควร เพราะแบคทีเรียเกิดขึ้นค่อนข้างเร็วมากในวิวัฒนาการหรือประวัติศาสตร์ของโลก แล้วสัตว์มีอยู่มานานแค่ไหน? อาจจะไม่กี่ร้อยล้านปี สัตว์หลายเซลล์ที่วิ่งไปมา คลานไปมา อะไรทำนองนั้น นั่นอาจเป็นประมาณ 10% ของอายุโลก บนสเกลเวลานั้น มันอาจไม่ได้ยากขนาดนั้น ถึงอย่างนั้นการที่มันพัฒนาขึ้นมาได้ก็ยังน่าประหลาดใจสำหรับผมในเชิงสัญชาตญาณ ผมอาจคาดหวังแค่สิ่งมีชีวิตคล้ายสัตว์ที่ทำเรื่องแบบสัตว์ แต่การที่คุณได้บางสิ่งที่สามารถสร้างและสะสมวัฒนธรรมกับความรู้ได้ นั่นทำให้ผมประหลาดใจ

Dwarkesh Patel 01:34:42

มีคำถามต่อยอดที่น่าสนใจอยู่สองสามข้อ ถ้ายอมรับมุมมองของ Sutton แก่นของสติปัญญาก็คือสติปัญญาแบบสัตว์... คำพูดหนึ่งของเขาคือ “ถ้าคุณไปถึงระดับกระรอกได้ ก็เท่ากับคุณได้ AGI ไปเกือบทั้งหมดแล้ว”

เราไปถึงสติปัญญาระดับกระรอกได้ไม่นานหลัง การระเบิดแคมเบรียน เมื่อ 600 ล้านปีก่อน สิ่งที่ดูเหมือนจะจุดชนวนมันคือ เหตุการณ์เพิ่มออกซิเจนครั้งใหญ่ เมื่อ 600 ล้านปีก่อน แต่ทันทีนั้นอัลกอริทึมของสติปัญญาก็มีอยู่พร้อมแล้วเพื่อสร้างสติปัญญาระดับกระรอก นั่นชี้ว่าสติปัญญาแบบสัตว์ ไม่ได้ ยากขนาดนั้น พอมีออกซิเจนในสิ่งแวดล้อม คุณก็มียูคาริโอต และก็ได้อัลกอริทึมมาแทบจะทันที มันอาจเป็นอุบัติเหตุที่วิวัฒนาการไปชนเข้ากับมันได้เร็วขนาดนั้น แต่ผมก็ไม่แน่ใจว่านั่นชี้ว่ามันคงจะค่อนข้างเรียบง่ายในท้ายที่สุดหรือเปล่า

Andrej Karpathy 01:35:31

มันยากเกินไปจริง ๆ ที่จะพูดเรื่องนี้จากเรื่องพวกนี้ คุณพอจะอิงได้เล็กน้อยจากว่าบางสิ่งมีอยู่นานแค่ไหน หรือมันดูเหมือนถูกคอขวดอยู่นานแค่ไหน Nick Lane อธิบายคอขวดที่ชัดเจนมากนี้ระหว่างแบคทีเรียกับอาร์เคียได้เก่งมาก ตลอด 2 พันล้านปี ไม่มีอะไรเกิดขึ้นเลย มีความหลากหลายอย่างสุดขั้วของชีวเคมี แต่ไม่มีอะไรเติบโตขึ้นจนกลายเป็นสัตว์ 2 พันล้านปีนะ

อย่างที่คุณชี้ ผมไม่รู้ว่าเราได้เห็นสิ่งเทียบเท่ากันแบบนั้นอย่างชัดเจนในสัตว์และสติปัญญาหรือเปล่า เรายังอาจดูได้ด้วยว่าเราคิดว่าสติปัญญาบางแบบเกิดขึ้นแยกกันมากี่ครั้ง

Dwarkesh Patel 01:36:07

นั่นเป็นเรื่องที่น่าไปสำรวจมากจริง ๆ

Andrej Karpathy 01:36:09

มีความคิดหนึ่งเกี่ยวกับเรื่องนั้น มีสติปัญญาแบบโฮมินิด แล้วก็มีสติปัญญาแบบนก อีกาและอื่น ๆ ฉลาดมาก แต่ส่วนต่าง ๆ ของสมองพวกมันค่อนข้างแตกต่างออกไป และเราไม่ได้มีอะไรเหมือนกันมากนัก นั่นเป็นสัญญาณเล็กน้อยว่าสติปัญญาเกิดขึ้นได้หลายครั้ง ในกรณีนั้น คุณก็คงคาดว่ามันจะเกิดบ่อยกว่านี้

Dwarkesh Patel 01:36:32

แขกรับเชิญก่อนหน้านี้ Gwern และ Carl Shulman มีข้อสังเกตที่น่าสนใจมากเกี่ยวกับเรื่องนี้ มุมมองของพวกเขาคือ อัลกอริทึมที่สเกลได้ซึ่งมนุษย์มีและไพรเมตมี ก็เกิดขึ้นในนกด้วย และอาจเกิดขึ้นในช่วงอื่นด้วยเช่นกัน แต่มนุษย์ไปพบช่องทางเชิงวิวัฒนาการที่ทั้งชดเชยการเพิ่มขึ้นทีละนิดของสติปัญญา และยังทำให้สามารถบรรลุการเพิ่มขึ้นของสติปัญญานั้นได้ด้วย ผ่านอัลกอริทึมสมองที่สเกลได้

ตัวอย่างเช่น ถ้านกมีสมองใหญ่กว่านี้ มันก็คงแค่ร่วงจากท้องฟ้า พวกมันฉลาดมากเมื่อเทียบกับขนาดสมอง แต่ไม่ได้อยู่ในช่องทางที่ชดเชยการที่สมองใหญ่ขึ้นได้ บางทีสิ่งที่ฉลาดมากจริง ๆ... อาจคล้ายกัน

Andrej Karpathy 01:37:28

อย่างปลาโลมา?

Dwarkesh Patel 01:37:28

ใช่เลย ส่วนมนุษย์ เรามีมือที่ทำให้การเรียนรู้การใช้เครื่องมือให้ผลตอบแทน เราสามารถเอาการย่อยอาหารออกไปทำภายนอกได้ และเอาพลังงานไปเลี้ยงสมองมากขึ้น ซึ่งนั่นก็เริ่มวงจรฟลাইวีล

Andrej Karpathy 01:38:02

รวมถึงสิ่งที่จะลงมือทำด้วยนะ ถ้าผมเป็นปลาโลมา มันคงยากกว่านี้มาก จะก่อไฟได้ยังไง? ใต้น้ำ จักรวาลของสิ่งที่คุณทำได้ในน้ำคงจะจำกัดกว่าสิ่งที่ทำได้บนบก ในเชิงเคมี

ผมเห็นด้วยกับมุมมองนี้เกี่ยวกับช่องว่างเฉพาะทางเหล่านี้และสิ่งที่ถูกสร้างแรงจูงใจขึ้นมา ผมก็ยังคิดว่ามันน่าอัศจรรย์อยู่ดี คุณคงคาดว่าจะไปต่อไม่ได้แล้วกับสัตว์ที่มีกล้ามเนื้อใหญ่ขึ้น การทะลุผ่านไปสู่ความฉลาดเป็นจุดเปลี่ยนที่น่าหลงใหลจริงๆ

Dwarkesh Patel 01:38:28

วิธีที่ Gwern อธิบายก็คือ เหตุผลที่มันยากขนาดนั้น เป็นเพราะมีเส้นแบ่งที่แคบมากระหว่างสิ่งที่การเรียนรู้สำคัญมากเสียจนไม่คุ้มจะกลั่นวงจรที่ถูกต้องเป๊ะกลับเข้าไปใน DNA โดยตรง กับสิ่งที่ไม่สำคัญพอแม้แต่จะเรียนรู้ มันต้องเป็นอะไรบางอย่างที่สร้างแรงจูงใจให้สร้างอัลกอริทึมที่เรียนรู้ได้ตลอดช่วงชีวิต

Andrej Karpathy 01:38:55

คุณต้องสร้างแรงจูงใจให้เกิดความสามารถในการปรับตัวบางประเภท คุณต้องการสภาพแวดล้อมที่คาดเดาไม่ได้พอจนวิวัฒนาการไม่สามารถอบอัลกอริทึมลงไปในค่าน้ำหนักได้ สัตว์จำนวนมากถูกตั้งค่าแบบสำเร็จรูปไว้ล่วงหน้าในความหมายนี้ มนุษย์ตอนเกิดมาต้องไปค้นหาตอนทดสอบจริง คุณต้องการสภาพแวดล้อมที่เปลี่ยนเร็วมากจนคาดการณ์ไม่ได้ว่าอะไรจะเวิร์ก แล้วจึงสร้างความฉลาดขึ้นมาเพื่อหาคำตอบในตอนทดสอบจริง

Dwarkesh Patel 01:39:28

มีบล็อกโพสต์ที่น่าสนใจที่ Quintin Pope บอกว่าเหตุผลที่เขาไม่คาดว่าจะมีการกระโดดแบบฉับพลัน ก็เพราะมนุษย์เองก็มีการกระโดดแบบฉับพลัน เราน่าจะมีสถาปัตยกรรมการรับรู้แบบเดียวกับที่เรามีทุกวันนี้มาตั้งแต่ 60,000 ปีก่อน 10,000 ปีก่อนมีการปฏิวัติเกษตรกรรม ความเป็นสมัยใหม่ แล้วในช่วง 50,000 ปีนั้นเกิดอะไรขึ้น? เราต้องสร้างโครงกระดูกทางวัฒนธรรมนี้ขึ้นมาเพื่อให้สามารถสะสมความรู้ข้ามรุ่นได้

นี่เป็นความสามารถที่มีอยู่แบบฟรีๆ ในวิธีที่เราฝึก AI อยู่แล้ว หลายกรณีมันถูกกลั่นลงไปตรงๆ เลย ถ้าฝึกโมเดลใหม่ มันสามารถถูกฝึกต่อจากกันได้ สามารถฝึกบน pretraining corpus เดียวกันได้ และไม่จำเป็นต้องเริ่มจากศูนย์แบบตามตัวอักษร มนุษย์ใช้เวลานานมากกว่าจะทำให้ลูปทางวัฒนธรรมนี้ทำงานได้ แต่ในวิธีที่เราฝึก LLM มันให้ความรู้สึกเหมือนได้มันมาฟรีๆ เลย

Andrej Karpathy 01:39:45

ใช่และไม่ใช่ เพราะจริงๆ แล้ว LLM ยังไม่มีสิ่งที่เทียบเท่าวัฒนธรรม บางทีเราอาจกำลังให้มันมากเกินไปและสร้างแรงจูงใจไม่ให้มันสร้างสิ่งนั้นหรืออะไรทำนองนั้นก็ได้ แต่การประดิษฐ์วัฒนธรรม การประดิษฐ์บันทึกที่ถูกจดไว้ การส่งโน้ตถึงกัน ผมไม่คิดว่าตอนนี้ LLM จะมีอะไรที่เทียบเท่ากับสิ่งนั้น ผมอยากจะบอกว่าตอนนี้ LLM ยังไม่มีวัฒนธรรมจริงๆ และนั่นคือหนึ่งในอุปสรรค

Dwarkesh Patel 01:40:05

ช่วยอธิบายให้เห็นภาพได้ไหมว่า วัฒนธรรมของ LLM จะหน้าตาเป็นอย่างไร?

Andrej Karpathy 01:40:09

ในกรณีที่ง่ายที่สุด มันจะเป็น scratchpad ขนาดมหึมาที่ LLM สามารถแก้ไขได้ และเวลาที่มันกำลังอ่านอะไรบางอย่างหรือช่วยทำงาน มันก็กำลังแก้ไข scratchpad เพื่อตัวมันเองอยู่ ทำไม LLM จะเขียนหนังสือให้ LLM ตัวอื่นอ่านไม่ได้ล่ะ? นั่นคงเจ๋งดี ทำไม LLM ตัวอื่นจะอ่านหนังสือของ LLM ตัวนี้ แล้วได้รับแรงบันดาลใจหรือรู้สึกสะเทือนใจหรืออะไรทำนองนั้นไม่ได้? ตอนนี้ยังไม่มีสิ่งที่เทียบเท่ากับอะไรพวกนี้เลย

Dwarkesh Patel 01:40:29

น่าสนใจมาก คุณคิดว่าสิ่งแบบนั้นจะเริ่มเกิดขึ้นเมื่อไร? แล้วเรื่องระบบหลายเอเจนต์ และอารยธรรมกับวัฒนธรรม AI ที่ค่อนข้างเป็นอิสระล่ะ?

Andrej Karpathy 01:40:40

ในโลกของ multi-agent มีสองไอเดียที่ทรงพลัง แต่ทั้งคู่ยังไม่เคยถูกแสดงให้เห็นอย่างน่าเชื่อถือจริงๆ อย่างแรกคือวัฒนธรรม และ LLM มีคลังความรู้ที่เพิ่มพูนขึ้นสำหรับวัตถุประสงค์ของตัวเอง

อย่างที่สองดูคล้ายกับไอเดียอันทรงพลังของ self-play มากกว่า ซึ่งผมคิดว่ามันทรงพลังอย่างยิ่ง วิวัฒนาการมีการแข่งขันจำนวนมากที่ขับเคลื่อนความฉลาดและวิวัฒนาการ ในเชิงอัลกอริทึมมากขึ้น อย่างใน AlphaGo มันเล่นกับตัวเอง และนั่นคือวิธีที่มันเรียนรู้จะเล่นโกะได้เก่งมาก ตอนนี้ยังไม่มีสิ่งที่เทียบเท่ากับ self-play สำหรับ LLM แต่ผมคาดว่ามันจะมี ยังไม่มีใครทำมัน ยกตัวอย่างเช่น ทำไม LLM จะสร้างปัญหาจำนวนมากที่ LLM ตัวอื่นกำลังเรียนรู้ที่จะแก้ไม่ได้? จากนั้น LLM ก็พยายามป้อนปัญหาที่ยากขึ้นเรื่อยๆ อยู่ตลอด อะไรทำนองนั้น

มีหลายวิธีมากในการจัดระเบียบสิ่งนั้น มันเป็นพื้นที่วิจัย แต่ผมยังไม่เคยเห็นการสาธิตที่น่าเชื่อถือของการพัฒนาแบบ multi-agent ทั้งสองอย่างนี้ เราส่วนใหญ่ยังอยู่ในโลกของเอเจนต์เดี่ยวๆ แต่สิ่งนั้นจะเปลี่ยนไป ในด้านวัฒนธรรมด้วย ผมอยากนับรวมองค์กรเข้าไปด้วย ผมก็ยังไม่เคยเห็นมันในแบบที่น่าเชื่อถือ นั่นเป็นเหตุผลว่าทำไมเรายังอยู่ในช่วงต้นมาก

Dwarkesh Patel 01:41:53

คุณพอจะชี้ได้ไหมว่าอะไรคือคอขวดหลักที่ขัดขวางความร่วมมือแบบนี้ระหว่าง LLM?

Andrej Karpathy 01:41:59

บางทีวิธีที่ผมจะพูดก็คือ อุปมาเหล่านี้บางส่วนควรจะใช้ได้และไม่ควรใช้ได้ แต่ไม่ทางใดก็ทางหนึ่ง มันกลับใช้ได้อย่างน่าประหลาด โมเดลที่เล็กกว่า หรือโมเดลที่โง่กว่าหลายตัว กลับดูคล้ายเด็กอนุบาล หรือเด็กประถม หรือเด็กมัธยมอย่างน่าประหลาด ยังไงก็ตาม เรายังไม่ได้ทำให้สิ่งเหล่านี้เรียนจบมากพอที่จะเข้ามารับช่วงได้ Claude Code หรือ Codex ของผม พวกมันยังให้ความรู้สึกเหมือนเด็กประถมต้น ผมรู้ว่าพวกมันทำข้อสอบระดับปริญญาเอกได้ แต่ในเชิงการรับรู้ พวกมันยังให้ความรู้สึกเหมือนเด็กอนุบาลหรือเด็กประถม

ผมไม่คิดว่าพวกมันจะสร้างวัฒนธรรมได้ เพราะพวกมันยังเป็นเด็กอยู่ เป็นเด็กอัจฉริยะ มีความทรงจำสมบูรณ์แบบของทุกอย่างนี้ สามารถสร้าง slop ได้สารพัดแบบอย่างน่าเชื่อถือที่ดูดีมาก แต่ผมก็ยังคิดว่าพวกมันไม่รู้จริงๆ ว่ากำลังทำอะไร และยังไม่มีการรับรู้จริงๆ ครอบคลุมเช็กลิสต์เล็กๆ ทั้งหมดเหล่านี้ที่เรายังต้องประกอบเข้าด้วยกัน

01:42:55 ทำไมรถยนต์ไร้คนขับถึงใช้เวลานานขนาดนี้

Dwarkesh Patel 01:42:55

คุณเคยเล่าว่าคุณเป็นผู้นำด้านการขับขี่อัตโนมัติที่ Tesla ตั้งแต่ปี 2017 ถึง 2022 และคุณได้เห็นความก้าวหน้านี้ด้วยตาตัวเอง ตั้งแต่เดโมที่น่าทึ่งไปจนถึงตอนนี้ที่มีรถหลายพันคันขับได้เองจริงๆ ทำไมมันถึงใช้เวลา 10 ปี? ช่วงเวลานั้นเกิดอะไรขึ้นบ้าง?

Andrej Karpathy 01:43:11

สิ่งหนึ่งที่ผมอยากโต้กลับแทบจะทันทีคือ มันยังไม่ใกล้เคียงกับคำว่าสำเร็จเลย ในหลายแง่มุมที่ผมจะพูดถึง การขับขี่อัตโนมัติน่าสนใจมาก เพราะชัดเจนเลยว่านั่นคือที่ที่ผมได้สัญชาตญาณหลายอย่างมา เพราะผมใช้เวลา 5 ปีกับมัน มีประวัติทั้งหมดของการขับขี่อัตโนมัติ โดยเดโมแรกๆ ย้อนไปได้ถึงทศวรรษ 1980 คุณดูเดโมของ CMU ในปี 1986ได้ มีรถบรรทุกที่ขับเองอยู่บนถนน

ข้ามมาข้างหน้า ตอนที่ผมเข้าร่วม Tesla ผมได้เห็นเดโมยุคแรกมากๆ ของ Waymo ซึ่งโดยพื้นฐานแล้วให้ประสบการณ์ขับขี่ที่สมบูรณ์แบบในปี 2014 หรือประมาณนั้น ซึ่งก็คือเมื่อราว 10 ปีก่อน ดังนั้น 10 ปีก่อนก็มีประสบการณ์ขับขี่แบบ Waymo ที่สมบูรณ์แบบแล้ว ผมได้นั่งรอบ Palo Alto เพราะมีเพื่อนทำงานอยู่ที่นั่น ผมคิดว่ามันใกล้มากแล้ว แต่หลังจากนั้นก็ยังใช้เวลาอีกนานมาก

สำหรับงานและอาชีพบางประเภท มีช่องว่างขนาดใหญ่มากระหว่างเดโมกับผลิตภัณฑ์ ซึ่งเดโมทำได้ง่ายมาก แต่การทำเป็นผลิตภัณฑ์นั้นยากมาก โดยเฉพาะกรณีอย่างการขับขี่อัตโนมัติที่ต้นทุนของความล้มเหลวสูงมาก อุตสาหกรรม งาน และอาชีพจำนวนมากอาจไม่มีคุณสมบัตินั้น แต่เมื่อมันมี มันก็ทำให้ไทม์ไลน์ยาวขึ้นอย่างชัดเจน

ตัวอย่างเช่น ในวิศวกรรมซอฟต์แวร์ ผมคิดว่าคุณสมบัตินั้นมีอยู่ สำหรับ vibe coding จำนวนมาก มันไม่ใช่แบบนั้น แต่ถ้าคุณกำลังเขียนโค้ดระดับ production จริง ๆ คุณสมบัตินั้นต้องมี เพราะความผิดพลาดแบบใดก็ตามอาจนำไปสู่ช่องโหว่ด้านความปลอดภัยหรืออะไรทำนองนั้นได้ อาจมีการรั่วไหลของหมายเลขประจำตัวประชาชนส่วนบุคคลของผู้คนนับล้าน นับร้อยล้านคน อะไรแบบนั้น เพราะฉะนั้นในซอฟต์แวร์ ผู้คนต้องระมัดระวัง เหมือนกับการขับขี่อัตโนมัติ ในการขับขี่อัตโนมัติ ถ้าเกิดอะไรผิดพลาด ก็อาจมีคนบาดเจ็บได้ และอาจมีผลลัพธ์ที่เลวร้ายยิ่งกว่านั้น แต่ในซอฟต์แวร์ มันแทบจะไร้ขอบเขตเลยว่าอะไรที่น่ากลัวได้แค่ไหน

ผมคิดว่าพวกมันมีคุณสมบัตินั้นร่วมกัน เรื่องที่ใช้เวลานานมาก และวิธีคิดเกี่ยวกับมันก็คือ มันคือ march of nines แต่ละ 9 ต้องใช้ปริมาณงานจำนวนหนึ่ง แต่ละ 9 ใช้งานเท่ากันหมด ถ้าคุณได้เดโมมาและบางอย่างทำงานได้ 90% ของเวลา นั่นก็แค่ 9 ตัวแรก จากนั้นคุณต้องการ 9 ตัวที่สอง ตัวที่สาม ตัวที่สี่ ตัวที่ห้า ตอนที่ผมอยู่ Tesla ราว 5 ปี เราน่าจะผ่านไปได้ประมาณ 9 สองตัวหรือสามตัว ผมก็ไม่แน่ใจว่าคือเท่าไร แต่เป็นหลายรอบของ 9 จากการทำซ้ำ และก็ยังต้องการ 9 เพิ่มอีก

นั่นคือเหตุผลว่าทำไมสิ่งพวกนี้ถึงใช้เวลานานมาก สำหรับผมมันเป็นประสบการณ์ที่หล่อหลอมมาก การได้เห็นบางอย่างที่เป็นเดโม ผมไม่ค่อยประทับใจกับเดโมเลย ทุกครั้งที่ผมเห็นเดโมของอะไรสักอย่าง ผมจะไม่ค่อยประทับใจมันมากนัก ถ้ามันเป็นเดโมที่มีคนสร้างขึ้นมาเพื่อเอาไว้โชว์ มันยิ่งแย่กว่าเดิม ถ้าผมได้โต้ตอบกับมัน มันก็ดีขึ้นมานิดหน่อย แต่ถึงตอนนั้นก็ยังไม่จบ คุณต้องมีผลิตภัณฑ์จริง เพราะเมื่อมันไปสัมผัสกับโลกความจริง มันจะต้องเผชิญกับความท้าทายทั้งหมดนี้ และจะมีพฤติกรรมอีกหลายกระเป๋าที่ต้องคอยปะชุน

เราจะได้เห็นทั้งหมดนี้ค่อย ๆ คลี่ออกมา มันคือ march of nines แต่ละ 9 มีต้นทุนคงที่ เดโมเป็นสัญญาณที่น่าหนุนใจ แต่ก็ยังต้องใช้แรงงานอีกมหาศาล และถ้าคุณไม่ได้ทำ vibe coding มันก็เป็นโดเมนด้านความปลอดภัยที่สำคัญ ซึ่งทั้งหมดนั้นก็ดีและสนุก นั่นก็เป็นอีกเหตุผลที่ยิ่งตอกย้ำไทม์ไลน์ของผมจากมุมมองนี้

Dwarkesh Patel 01:46:25

น่าสนใจมากที่ได้ยินแบบนั้น ที่คุณบอกว่าการรับประกันความปลอดภัยที่จำเป็นในซอฟต์แวร์ไม่ได้ต่างจากการขับขี่อัตโนมัติมากนัก สิ่งที่ผู้คนมักพูดกันคือ เหตุผลที่การขับขี่อัตโนมัติใช้เวลานานขนาดนี้ก็เพราะต้นทุนของความล้มเหลวสูงมาก โดยเฉลี่ยแล้วมนุษย์ทำผิดพลาดทุก ๆ 400,000 ไมล์ หรือทุก ๆ 7 ปี ถ้าคุณต้องปล่อย coding agent ที่ห้ามผิดพลาดได้อย่างน้อย 7 ปี มันก็คงยากต่อการ deploy มากกว่าเยอะ

แต่ประเด็นของคุณคือ ถ้ามันทำความผิดพลาดในการเขียนโค้ดที่ร้ายแรง ก็เหมือนกับการทำให้ระบบสำคัญพังทุก ๆ 7 ปี...

Andrej Karpathy 01:46:56

ทำได้ง่ายมาก

Dwarkesh Patel 01:46:57

จริง ๆ แล้วในแง่ wall-clock time มันจะน้อยกว่า 7 ปีมาก เพราะมันกำลังปล่อยโค้ดออกมาอย่างต่อเนื่องในลักษณะนั้น ในแง่ของโทเค็นมันอาจจะเป็น 7 ปี แต่ในแง่ wall-clock time...

Andrej Karpathy 01:47:09

ในบางแง่ มันเป็นปัญหาที่ยากกว่ามาก การขับขี่อัตโนมัติเป็นเพียงหนึ่งในหลายพันสิ่งที่ผู้คนทำ มันแทบจะเหมือนแนวดิ่งเดียว ในความเห็นของผม ขณะที่เมื่อคุณกำลังพูดถึงวิศวกรรมซอฟต์แวร์ทั่วไป มันกว้างกว่ามาก... มีพื้นผิวให้จัดการมากกว่ามาก

Dwarkesh Patel 01:47:20

ยังมีข้อโต้แย้งอีกอย่างที่ผู้คนยกขึ้นมาต่ออุปมานี้ คือในงานขับขี่อัตโนมัติ เวลาส่วนใหญ่หมดไปกับการแก้ปัญหาการรับรู้พื้นฐานให้แข็งแรง การสร้าง representation และการมีโมเดลที่มีสามัญสำนึกพอจะ generalize ได้เมื่อเห็นบางอย่างที่อยู่นอก distribution เล็กน้อย ถ้ามีใครบางคนโบกมือบนถนนในลักษณะนี้ คุณไม่จำเป็นต้องฝึกมันเพื่อสิ่งนั้นโดยเฉพาะ มันควรมีความเข้าใจบางอย่างว่าจะตอบสนองต่อเรื่องแบบนั้นอย่างไร

สิ่งเหล่านี้คือสิ่งที่เราได้มาฟรีกับ LLM หรือ VLM ในทุกวันนี้ ดังนั้นคุณไม่จำเป็นต้องแก้ปัญหา representation ขั้นพื้นฐานพวกนี้แล้ว เพราะฉะนั้นตอนนี้การ deploy AI ไปข้ามโดเมนต่าง ๆ ก็จะคล้ายกับการ deploy รถขับเคลื่อนอัตโนมัติไปยังเมืองอื่นด้วยโมเดลปัจจุบัน ซึ่งมันยาก แต่ไม่ใช่งานระดับ 10 ปี

Andrej Karpathy 01:48:07

ผมไม่แน่ใจ 100% ว่าจะเห็นด้วยกับเรื่องนั้นทั้งหมด ผมไม่รู้ว่าเราได้ของฟรีมาแค่ไหน ยังมีช่องว่างอีกมากในการทำความเข้าใจว่าเรากำลังได้อะไรมาบ้าง แน่นอนว่าเรากำลังได้ปัญญาที่ generalize ได้มากขึ้นจากเอนทิตีเดียว ขณะที่การขับขี่อัตโนมัติเป็นงานเฉพาะทางมาก ในบางความหมาย การสร้างงานเฉพาะทางอาจยากกว่ามาก เพราะมันไม่ได้ไหลออกมาจากสิ่งที่ทั่วไปกว่าซึ่งเราทำอยู่ในสเกล ถ้าพูดแบบนั้นแล้วพอฟังออก

แต่อุปมานี้ก็ยังไม่ค่อยสอดคล้องกันทั้งหมดอยู่ดี เพราะ LLM ยังมีข้อผิดพลาดค่อนข้างมากและยังมีช่องว่างอีกมากที่ต้องอุด ผมไม่คิดว่าเราจะได้การ generalization แบบมหัศจรรย์จากกล่องมาอย่างสมบูรณ์ในบางความหมายนั้น

อีกมุมหนึ่งที่ผมอยากย้อนกลับไปคือ รถขับเคลื่อนอัตโนมัติยังห่างไกลจากคำว่าเสร็จมาก การ deploy ยังมีอยู่น้อยมาก แม้แต่ Waymo เองก็ยังมีรถอยู่น้อยมาก พูดคร่าว ๆ เหตุผลที่พวกเขาทำแบบนั้นได้ก็เพราะมันยังไม่คุ้มทางเศรษฐกิจ พวกเขาสร้างบางอย่างที่อยู่ในอนาคตขึ้นมา ต้องดึงอนาคตเข้ามา แต่ต้องสร้างมันแบบไม่คุ้มเศรษฐศาสตร์ ไม่ใช่แค่ต้นทุนส่วนเพิ่มของรถเหล่านั้นกับการปฏิบัติการและการบำรุงรักษาเท่านั้น แต่ยังมีค่าใช้จ่ายด้านทุนของทั้งระบบและต้นทุนทุกอย่างเหล่านี้ การทำให้มันคุ้มเชิงเศรษฐกิจยังคงเป็นงานหนักสำหรับพวกเขา

อีกอย่าง เวลาคุณเห็นรถพวกนี้ไม่มีใครขับ แต่จริง ๆ แล้วผมคิดว่านั่นค่อนข้างหลอกตาอยู่บ้าง เพราะมีศูนย์ remote operation ที่ซับซ้อนมากคอยอยู่กับรถเหล่านี้ในบางรูปแบบ ผมไม่ได้เห็นภาพเต็มทั้งหมด แต่มี human-in-the-loop มากกว่าที่คุณคาดคิด มีคนอยู่ที่ไหนสักแห่งที่ส่งสัญญาณลงมาจากฟ้า ผมไม่รู้ว่าพวกเขาอยู่ในลูปของการขับขี่แบบเต็มตัวหรือเปล่า บางครั้งก็ใช่ แต่แน่นอนว่ามีส่วนเกี่ยวข้องและมีคนอยู่ ในบางความหมาย เราไม่ได้เอาคนออกไปจริง ๆ เราแค่ย้ายพวกเขาไปไว้ที่ไหนสักแห่งที่คุณมองไม่เห็น

ผมยังคิดว่าจะยังมีงานอีกมากกว่าจะทำให้การขับขี่อัตโนมัติเป็นของจริงได้ แต่ผมเห็นด้วยกับที่คุณพูดเรื่องการย้ายจากสภาพแวดล้อมหนึ่งไปสู่อีกสภาพแวดล้อมหนึ่ง ยังมีความท้าทายในการทำให้การขับขี่อัตโนมัติเป็นของจริงอยู่ แต่ผมเห็นด้วยแน่นอนว่ามันข้ามเกณฑ์ที่ทำให้รู้สึกว่าเป็นของจริงแล้ว เว้นแต่ว่าจริง ๆ แล้วมันถูก remote operation อยู่ อย่างเช่น Waymo ไปไม่ได้ทุกส่วนของเมือง ความสงสัยของผมคือส่วนเหล่านั้นของเมืองน่าจะเป็นบริเวณที่รับสัญญาณดี ๆ ไม่ได้ ยังไงก็ตาม ผมไม่รู้อะไรเกี่ยวกับสแตกของพวกเขาเลย ผมแค่เดาเอา

Dwarkesh Patel 01:50:23

คุณเป็นคนนำงานขับขี่อัตโนมัติที่ Tesla มา 5 ปีนะ

Andrej Karpathy 01:50:27

ขอโทษครับ ผมไม่รู้รายละเอียดของ Waymo เลย อย่างไรก็ตาม ผมชอบ Waymo และใช้ตลอด ผมแค่คิดว่าบางครั้งผู้คนค่อนข้างไร้เดียงสาเกินไปกับความก้าวหน้า และยังมีงานอีกมหาศาลอยู่ ผมคิดว่า Tesla ใช้แนวทางที่ขยายสเกลได้มากกว่า และทีมก็ทำงานได้ดีมาก ผมมีประวัติในการคาดการณ์ว่ามันจะดำเนินไปอย่างไร Waymo ได้เปรียบในช่วงต้นเพราะสามารถอัดเซ็นเซอร์จำนวนมากเข้าไปได้ แต่ผมคิดว่า Tesla กำลังใช้กลยุทธ์ที่ขยายสเกลได้มากกว่า และท้ายที่สุดมันจะออกมาหน้าตาคล้ายแบบนั้นมากกว่า เพราะฉะนั้นเรื่องนี้ยังต้องค่อย ๆ คลี่ออก และมันยังไม่จบ แต่ผมก็ไม่อยากพูดถึงการขับขี่อัตโนมัติว่าเป็นสิ่งที่ใช้เวลา 10 ปี เพราะมันยังไม่ถึงจุดนั้น ถ้าพูดแบบนั้นแล้วเข้าใจนะ

Dwarkesh Patel 01:51:08

เพราะอย่างแรก จุดเริ่มต้นคือปี 1980 ไม่ใช่ 10 ปีก่อน และอย่างที่สอง จุดจบก็ยังมาไม่ถึง

Andrej Karpathy 01:51:14

จุดจบยังไม่ใกล้เลย เพราะเมื่อเราพูดถึงการขับขี่อัตโนมัติ ปกติแล้วในความคิดของผมมันหมายถึงการขับขี่อัตโนมัติในระดับสเกล คือผู้คนไม่จำเป็นต้องมีใบขับขี่อีกต่อไป อะไรทำนองนั้น

Dwarkesh Patel 01:51:22

ผมอยากเสนออีกสองวิธีที่แตกต่างกันซึ่งอาจใช้เปรียบเทียบได้ เหตุผลที่คำถามนี้น่าสนใจเป็นพิเศษก็เพราะว่า มันอาจเป็นคำถามที่สำคัญที่สุดในโลกตอนนี้เลยว่า AI จะถูกนำไปใช้งานได้เร็วแค่ไหน และในช่วงแรกมันมีคุณค่าแค่ไหน หากคุณกำลังพยายามสร้างแบบจำลองว่าโลกในปี 2030 จะหน้าตาเป็นอย่างไร นี่คือคำถามที่คุณจำเป็นต้องเข้าใจในระดับหนึ่ง

อีกอย่างหนึ่งที่พอนึกถึงได้คือ อย่างแรก ระบบขับขี่อัตโนมัติมีข้อกำหนดด้าน latency ผมไม่รู้เลยว่าโมเดลจริง ๆ เป็นแบบไหน แต่สมมติว่าเป็นอะไรประมาณพารามิเตอร์หลายสิบล้านตัว นี่ไม่ใช่ข้อจำกัดที่จำเป็นสำหรับงานใช้แรงงานทางความรู้ด้วย LLM อาจจะใช่สำหรับการใช้คอมพิวเตอร์และอะไรทำนองนั้น แต่ไม่ใช่โดยทั่วไป

แต่อีกเรื่องใหญ่หนึ่ง และอาจสำคัญกว่า ก็คือคำถามเรื่อง capital expenditure นี้ ใช่ มันมีต้นทุนเพิ่มในการให้บริการสำเนาโมเดลเพิ่มอีกชุด แต่ต้นทุนการรันต่อเซสชันค่อนข้างต่ำ และขึ้นอยู่กับว่าการสเกลฝั่ง inference จะพัฒนาไปอย่างไร คุณก็สามารถทยอยเฉลี่ยต้นทุนของ AI กลับไปที่ตัว training run เองได้ แต่แน่นอนว่ามันไม่ใช่ระดับเดียวกับการต้องสร้างรถคันใหม่ทั้งคันเพื่อให้มีอีกหนึ่งอินสแตนซ์ของโมเดล ดังนั้นในเชิงเศรษฐศาสตร์ การกระจายใช้งานในวงกว้างจึงได้เปรียบกว่ามาก

Andrej Karpathy 01:52:37

ผมคิดว่านั่นถูกต้อง ถ้าคุณยังอยู่ในโลกของบิต บิตนั้นง่ายกว่าการไปแตะโลกกายภาพอยู่เป็นล้านเท่า อันนั้นผมยอมรับแน่นอน บิตสามารถเปลี่ยนแปลงได้ทั้งหมด และสามารถจัดเรียงใหม่อย่างอิสระด้วยความเร็วสูงมาก ผมจึงคาดว่าในอุตสาหกรรมก็จะปรับตัวได้เร็วกว่าเยอะ แล้วข้อแรกคืออะไรนะ?

Dwarkesh Patel 01:52:59

ข้อกำหนดด้าน latency และนัยของมันต่อขนาดโมเดล?

Andrej Karpathy 01:53:02

ผมคิดว่าโดยคร่าว ๆ ก็ใช่ แล้วถ้าคุณกำลังพูดถึงงานใช้แรงงานทางความรู้ในสเกลใหญ่ ผมก็คิดว่าในทางปฏิบัติจะยังมีข้อกำหนดด้าน latency อยู่บ้าง เพราะคุณต้องสร้างคอมพิวต์จำนวนมหาศาลและส่งมอบมันออกไป

อีกแง่มุมสุดท้ายที่ผมอยากพูดแบบสั้นมากคือเรื่องอื่น ๆ ที่เหลือทั้งหมด สังคมจะมองเรื่องนี้อย่างไร? ผลทางกฎหมายคืออะไร? มันทำงานอย่างไรในทางกฎหมาย? ในมุมของประกันภัยมันทำงานอย่างไร? ชั้นและแง่มุมเหล่านั้นของมันคืออะไร? อะไรคือสิ่งที่เทียบเท่ากับคนที่เอากรวยไปวางบน Waymo? ต้องมีสิ่งที่เทียบเท่ากันทั้งหมดนั้นอยู่แน่ ๆ เพราะงั้นผมจึงรู้สึกว่ารถขับเคลื่อนอัตโนมัติเป็นอุปมาที่ดีมากที่คุณยืมองค์ประกอบต่าง ๆ มาใช้ได้ อะไรคือสิ่งที่เทียบเท่ากับกรวยบนรถ? อะไรคือสิ่งที่เทียบเท่ากับโอเปอเรเตอร์ควบคุมทางไกลที่ซ่อนอยู่ และแง่มุมทั้งหมดของมัน?

Dwarkesh Patel 01:53:53

คุณมีมุมมองอย่างไรต่อการสร้างโครงสร้าง AI ในตอนนี้? ภายใน 1 หรือ 2 ปี เราจะเพิ่มคอมพิวต์ที่ใช้งานได้ในโลกขึ้น 10 เท่า และภายในสิ้นทศวรรษก็มากกว่า 100 เท่า ถ้าการใช้งาน AI จะต่ำกว่าที่บางคนคาดแบบไร้เดียงสา นั่นแปลว่าเรากำลัง overbuild คอมพิวต์อยู่หรือเปล่า หรือว่าเป็นอีกคำถามหนึ่งแยกต่างหาก?

Andrej Karpathy 01:54:15

มันเหมือนกับสิ่งที่เกิดขึ้นกับทางรถไฟ

Dwarkesh Patel 01:54:18

อะไรนะ ขอโทษที?

Andrej Karpathy 01:54:19

เป็นทางรถไฟใช่ไหม หรือว่า?

Dwarkesh Patel 01:54:20

ใช่ ใช่เลย

Andrej Karpathy 01:54:21

ใช่ มันมีแบบอย่างทางประวัติศาสตร์อยู่ หรือไม่ก็อุตสาหกรรมโทรคมนาคม? การแพ็กอินเทอร์เน็ตไว้ล่วงหน้าสิบปีก่อนที่มันจะมาถึงจริง และก่อให้เกิดฟองสบู่ทั้งก้อนในอุตสาหกรรมโทรคมนาคมช่วงปลายยุค 90

ผมเข้าใจนะว่าตรงนี้ผมฟังดูมองโลกในแง่ร้ายมาก แต่จริง ๆ แล้วผมมองโลกในแง่ดี ผมคิดว่าสิ่งนี้จะเวิร์ก ผมคิดว่ามันจัดการได้ เหตุผลเดียวที่ผมฟังดูเหมือนมองลบก็เพราะถ้าคุณไปดูไทม์ไลน์ Twitter ของผม คุณจะเห็นเรื่องพวกนี้ทั้งหมดที่สำหรับผมแล้วมันไม่สมเหตุสมผลเลย ซึ่งมีหลายเหตุผลที่ทำให้สิ่งเหล่านั้นมีอยู่ พูดตรง ๆ ส่วนใหญ่ก็เป็นเรื่องการระดมทุน มันคือโครงสร้างแรงจูงใจ หลายอย่างอาจเป็นเรื่องเงินทุน หลายอย่างก็เป็นแค่ความสนใจ และการแปลงความสนใจบนอินเทอร์เน็ตให้เป็นเงิน อะไรทำนองนั้น มีหลายอย่างเกิดขึ้น และผมก็แค่ตอบสนองต่อสิ่งนั้น

แต่โดยรวมแล้วผมยังคงมองโลกในแง่ดีมากเกี่ยวกับเทคโนโลยีนี้ เราจะหาทางแก้สิ่งเหล่านี้ได้ มันมีความก้าวหน้าเกิดขึ้นอย่างรวดเร็วมาก ผมไม่รู้ว่ามีการ overbuild หรือเปล่า จากความเข้าใจของผม ผมคิดว่าเราน่าจะกลืนกินสิ่งที่กำลังถูกสร้างขึ้นได้ ยกตัวอย่างเช่น Claude Code หรือ OpenAI Codex เมื่อปีที่แล้วมันยังไม่มีอยู่เลย ถูกไหม? นี่คือเทคโนโลยีมหัศจรรย์ที่ก่อนหน้านี้ไม่มีอยู่เลย และมันก็จะมีดีมานด์มหาศาล เหมือนที่เราเห็นแล้วใน ChatGPT และอื่น ๆ

ดังนั้นผมไม่รู้ว่ามีการ overbuild ไหม ผมแค่กำลังตอบสนองต่อบางส่วนของไทม์ไลน์ที่เร็วมากซึ่งผู้คนพูดผิดอยู่ตลอด ผมทำงานในสาย AI มา 15 ปี และได้ยินคนที่มีชื่อเสียงน่าเชื่อถือมากเข้าใจประเด็นนี้ผิดอยู่บ่อยครั้ง ผมอยากให้เรื่องนี้ถูกปรับจูนให้ถูกต้อง และบางส่วนของเรื่องนี้ก็ยังมีผลกระทบทางภูมิรัฐศาสตร์กับคำถามแบบนี้ด้วย ผมไม่อยากให้ผู้คนตัดสินใจพลาดในพื้นที่เหล่านั้น ผมอยากให้เรายืนอยู่บนความเป็นจริงของสิ่งที่เทคโนโลยีนี้เป็นและไม่เป็น

01:56:20 - อนาคตของการศึกษา

Dwarkesh Patel 01:56:20

มาคุยกันเรื่องการศึกษาและ Eureka กันดีกว่า สิ่งหนึ่งที่คุณทำได้คือเริ่ม AI lab ขึ้นมาอีกแห่ง แล้วพยายามแก้ปัญหาเหล่านั้น ผมสงสัยว่าตอนนี้คุณกำลังทำอะไรอยู่ และทำไมถึงไม่ใช่งานวิจัย AI โดยตรง

Andrej Karpathy 01:56:33

วิธีที่ผมอธิบายคือ ผมรู้สึกว่ามีความเป็นชะตากรรมกำหนดอยู่ระดับหนึ่งกับสิ่งที่ AI lab ต่าง ๆ กำลังทำ ผมรู้สึกว่าผมช่วยตรงนั้นได้ แต่ไม่แน่ใจว่าผมจะทำให้มันดีขึ้นแบบมีเอกลักษณ์ได้จริง ความกลัวใหญ่ส่วนตัวของผมคือ หลายอย่างเหล่านี้กำลังเกิดขึ้นในฝั่งของมนุษยชาติ และมนุษยชาติกำลังถูกลดอำนาจลงเพราะมัน ผมไม่ได้สนใจแค่ทรงกลมไดสันทั้งหมดที่เราจะสร้างเท่านั้น แต่ยังสนใจด้วยว่าจะเกิดอะไรขึ้นกับมนุษย์ ซึ่ง AI จะสร้างสิ่งเหล่านั้นขึ้นมาในแบบอัตโนมัติเต็มรูปแบบ ผมอยากให้มนุษย์ในอนาคตอยู่ได้ดี

ผมรู้สึกว่าผมสามารถเพิ่มคุณค่าได้อย่างมีเอกลักษณ์มากกว่ามากในพื้นที่นั้น มากกว่าการปรับปรุงทีละน้อยใน frontier lab สิ่งที่ผมกลัวที่สุดคืออะไรบางอย่างแบบในหนังอย่าง WALL-E หรือ Idiocracy ที่มนุษยชาติกลายเป็นเพียงองค์ประกอบข้างเคียงของสิ่งเหล่านี้ ผมอยากให้มนุษย์ดีขึ้นกว่านี้มาก มากจริง ๆ ในอนาคตนี้ และสำหรับผม วิธีที่จะทำสิ่งนี้ให้สำเร็จได้ก็คือผ่านการศึกษา

Dwarkesh Patel 01:57:35

แล้วคุณกำลังทำอะไรอยู่ตรงนั้น?

Andrej Karpathy 01:57:36

วิธีที่ง่ายที่สุดที่ผมจะอธิบายได้คือ เรากำลังพยายามสร้างStarfleet Academy ผมไม่รู้ว่าคุณเคยดู Star Trek ไหม

Dwarkesh Patel 01:57:44

ไม่เคยดู

Andrej Karpathy 01:57:44

Starfleet Academy คือสถาบันชั้นนำสำหรับเทคโนโลยีล้ำแนวหน้า การสร้างยานอวกาศ และการผลิตนักเรียนนายร้อยที่จะออกไปเป็นนักบินของยานเหล่านี้ อะไรทำนองนั้น เพราะงั้นผมจึงนึกภาพโรงเรียนประเภทหนึ่งที่เป็นสถาบันชั้นนำสำหรับความรู้ทางเทคนิค และทันสมัยที่สุด ดีที่สุด

Dwarkesh Patel 01:58:05

หมวดคำถามที่ผมมีต่อคุณคือการอธิบายว่าการสอนเนื้อหาทางเทคนิคหรือวิทยาศาสตร์ให้ดีนั้นเป็นอย่างไร เพราะคุณเป็นหนึ่งในระดับมาสเตอร์ของโลกในเรื่องนี้ ผมอยากรู้ทั้งว่าคุณคิดอย่างไรกับสิ่งที่คุณปล่อยไว้แล้วบน YouTube และกับ Eureka ด้วย ว่าถ้าแตกต่างกันแล้วต่างกันอย่างไร

Andrej Karpathy 01:58:25

สำหรับ Eureka สิ่งหนึ่งที่ทำให้ผมหลงใหลมากเกี่ยวกับการศึกษาคือ ผมคิดว่าการศึกษาจะเปลี่ยนไปอย่างค่อนข้างถึงรากถึงโคนเมื่อมี AI อยู่เคียงข้าง มันจะต้องถูกเดินสายใหม่และเปลี่ยนแปลงไปในระดับหนึ่ง

ผมยังคิดว่าเรายังอยู่ในช่วงเริ่มต้นพอสมควร จะมีคนจำนวนมากที่มี LLM อยู่ในมือและพยายามทำสิ่งที่เห็นได้ชัดว่าควรถามมันได้ ตอนนี้ก็ทำทุกอย่างพื้นฐานที่ทำได้ผ่านการพรอมป์ต์ มันมีประโยชน์ แต่สำหรับผมมันก็ยังให้ความรู้สึกเหมือนอะไรที่ค่อนข้างหยาบ ๆ อยู่ ผมอยากทำมันให้ถูกต้อง และผมคิดว่าความสามารถตอนนี้ยังไม่ถึงสิ่งที่ผมต้องการ สิ่งที่ผมต้องการคือประสบการณ์ติวเตอร์จริง ๆ

ตัวอย่างที่เด่นชัดในหัวผมคือ ผมเพิ่งเรียนภาษาเกาหลีมาระยะหนึ่ง เรื่องการเรียนภาษานี่แหละ ผมผ่านช่วงที่เรียนภาษาเกาหลีด้วยตัวเองบนอินเทอร์เน็ตมาแล้ว ผมผ่านช่วงที่เป็นส่วนหนึ่งของคลาสเล็ก ๆ กับคนกลุ่มหนึ่งที่ฟังภาษาเกาหลีในเกาหลี ซึ่งตลกมาก เรามีครูกับนักเรียนสักประมาณ 10 คนที่กำลังฟังภาษาเกาหลีอยู่ จากนั้นผมก็เปลี่ยนไปเรียนกับติวเตอร์แบบตัวต่อตัว

สิ่งที่ทำให้ผมหลงใหลคือ ผมคิดว่าผมมีติวเตอร์ที่ดีมาก และผมก็แค่คิดว่าติวเตอร์คนนี้ทำอะไรให้ผมบ้าง ประสบการณ์นั้นน่าทึ่งแค่ไหน และมาตรฐานของสิ่งที่ท้ายที่สุดแล้วผมอยากสร้างมันสูงมากแค่ไหน จากบทสนทนาสั้น ๆ มาก ๆ เธอก็เข้าใจได้ทันทีว่าผมอยู่ตรงไหนในฐานะนักเรียน ผมรู้อะไรและไม่รู้อะไร เธอรู้ว่าจะสำรวจด้วยคำถามหรือวิธีแบบไหนเพื่อทำความเข้าใจ world model ของผม ตอนนี้ยังไม่มี LLM ตัวไหนทำแบบนั้นให้คุณได้ 100% และไม่ใกล้เคียงด้วยซ้ำ แต่ติวเตอร์จะทำได้ถ้าเขาเก่ง พอเธอเข้าใจแล้ว เธอก็มอบทุกอย่างที่ผมต้องการจากจุดความสามารถปัจจุบันของผมได้จริง ๆ คุณต้องถูกท้าทายในระดับที่พอดีเสมอ จะยากเกินไปก็ไม่ได้ จะง่ายจนน่าเบื่อก็ไม่ได้ และติวเตอร์เก่งมากในการให้สิ่งที่พอดีกับคุณเป๊ะ ๆ

ผมรู้สึกว่าข้อจำกัดเดียวของการเรียนคือ ตัวผมเอง ข้อมูลที่สมบูรณ์แบบถูกส่งมาให้เสมอ ผมคือข้อจำกัดเดียว มันเป็นความรู้สึกที่ดี เพราะนั่นหมายความว่าอุปสรรคเดียวที่มีอยู่ก็คือตัวผมเอง ไม่ใช่ว่าหาความรู้ไม่เจอ หรือไม่มีใครอธิบายได้ดีพอ หรืออะไรทำนองนั้น มันก็แค่ความสามารถของผมในการท่องจำและเรื่องแบบนั้น นี่คือสิ่งที่ผมอยากมอบให้ผู้คน

Dwarkesh Patel 02:00:27

คุณจะทำให้มันเป็นอัตโนมัติได้อย่างไร

Andrej Karpathy 02:00:29

เป็นคำถามที่ดีมาก ด้วยความสามารถในปัจจุบัน คุณยังทำไม่ได้ นั่นคือเหตุผลที่ผมคิดว่ายังไม่ใช่เวลาที่เหมาะสมจะสร้าง AI tutor แบบนี้ ผมยังคิดว่ามันเป็นผลิตภัณฑ์ที่มีประโยชน์ และจะมีคนจำนวนมากสร้างมันขึ้นมา แต่มาตรฐานมันสูงเกินไปและความสามารถยังไปไม่ถึง ทุกวันนี้ผมก็ยังอยากบอกว่า ChatGPT เป็นผลิตภัณฑ์ด้านการศึกษาที่มีคุณค่ามหาศาล แต่สำหรับผม การได้เห็นมาตรฐานมันสูงแค่ไหนตอนที่ผมเรียนกับเธอนั้นน่าหลงใหลมาก ผมแทบรู้สึกเหมือนไม่มีทางสร้างสิ่งนี้ได้เลย

Dwarkesh Patel 02:01:02

แต่คุณก็กำลังสร้างมันอยู่ใช่ไหม

Andrej Karpathy 02:01:03

ใครก็ตามที่เคยมีติวเตอร์ที่ดีจริง ๆ จะต้องคิดว่า “จะสร้างสิ่งนี้ได้อย่างไร” ผมกำลังรอความสามารถนั้นอยู่

ผมเคยทำ AI consulting ด้าน computer vision หลายครั้งคุณค่าที่ผมนำไปให้บริษัทคือการบอกพวกเขาว่าอย่าใช้ AI ผมเป็นผู้เชี่ยวชาญ AI พวกเขาอธิบายปัญหา แล้วผมก็บอกว่า “อย่าใช้ AI” นี่แหละคือมูลค่าเพิ่มของผม ตอนนี้ในด้านการศึกษาผมก็รู้สึกคล้ายกัน สำหรับสิ่งที่ผมมีอยู่ในใจ มันยังไม่ถึงเวลา แต่เวลานั้นจะมาถึง ตอนนี้ผมกำลังสร้างอะไรบางอย่างที่หน้าตาค่อนข้างดั้งเดิมมากกว่าเล็กน้อย มีทั้งองค์ประกอบทางกายภาพและดิจิทัลอะไรทำนองนั้น แต่สำหรับอนาคต ภาพของสิ่งนี้ควรจะเป็นอย่างไรมันชัดเจนอยู่แล้ว

Dwarkesh Patel 02:01:43

เท่าที่คุณพร้อมจะเล่า มีอะไรที่คุณหวังว่าจะปล่อยออกมาในปีนี้หรือปีหน้าบ้างไหม

Andrej Karpathy 02:01:49

ผมกำลังสร้างคอร์สแรกอยู่ ผมอยากสร้างคอร์สที่ดีมาก ๆ จริง ๆ เป็นจุดหมายปลายทางแนวหน้าที่ชัดเจนสำหรับคนที่อยากมาเรียน ซึ่งในกรณีนี้คือ AI เพราะนั่นคือสิ่งที่ผมคุ้นเคย มันจึงเป็นผลิตภัณฑ์แรกที่ดีมากสำหรับการทำสิ่งนั้นให้ยอดเยี่ยมจริง ๆ นั่นคือสิ่งที่ผมกำลังสร้าง Nanochat ที่คุณพูดถึงสั้น ๆ นั้นเป็นโปรเจกต์ capstone ของชั้นเรียนที่ผมกำลังทำอยู่คือ LLM101N มันเป็นชิ้นส่วนใหญ่มากของสิ่งนี้ แต่ตอนนี้ผมต้องสร้างขั้นตอนกลางอีกมาก จากนั้นก็ต้องจ้างทีม TA เล็ก ๆ และสร้างทั้งคอร์สขึ้นมา

อีกอย่างที่ผมอยากพูดคือ หลายครั้งเวลาคนคิดเรื่องการศึกษา พวกเขามักจะคิดถึงสิ่งที่ผมเรียกว่าองค์ประกอบที่นุ่มนวลกว่าของการกระจายความรู้มากกว่า แต่สิ่งที่ผมนึกถึงคืออะไรที่ยากมากและเป็นเทคนิคมาก ในมุมมองของผม การศึกษาคือกระบวนการทางเทคนิคที่ยากมากในการสร้างทางลาดสู่ความรู้ ผมคิดว่า nanochat คือทางลาดสู่ความรู้ เพราะมันง่ายมาก มันคือ full stack ทั้งชุดที่ถูกทำให้เรียบง่ายอย่างสมบูรณ์ ถ้าคุณยื่นสิ่งประดิษฐ์นี้ให้ใครสักคนแล้วเขาไล่ดูมัน เขาจะได้เรียนรู้อะไรมหาศาล ผมกำลังให้สิ่งที่ผมเรียกว่า eureka ต่อวินาทีจำนวนมาก หรือก็คือความเข้าใจต่อวินาที นั่นคือสิ่งที่ผมต้องการ eureka จำนวนมากต่อวินาที สำหรับผม นี่จึงเป็นปัญหาเชิงเทคนิคว่าเราจะสร้างทางลาดนี้ให้มีประสิทธิภาพมากได้อย่างไร เพื่อให้ผู้คนไม่ติดขัดเลย และทุกอย่างไม่ยากเกินไปหรือง่ายเกินไปตลอดเวลา แต่มีสื่อการเรียนที่พอดีสำหรับการก้าวหน้าของพวกเขาเสมอ

Dwarkesh Patel 02:03:25

สิ่งที่คุณนึกภาพในระยะสั้นคือ แทนที่ติวเตอร์จะเป็นฝ่ายสำรวจความเข้าใจของคุณ ถ้าคุณมีความตระหนักรู้ในตัวเองมากพอที่จะสำรวจตัวเองได้ คุณก็จะไม่ติดขัดเลย ระหว่างการคุยกับ TA การคุยกับ LLM และการดู reference implementation คุณก็จะหาคำตอบที่ถูกต้องเจอได้ จนถึงตอนนี้ดูเหมือนว่าระบบอัตโนมัติหรือ AI ยังไม่ใช่ส่วนสำคัญนัก ตอนนี้ alpha ใหญ่ตรงนี้คือความสามารถของคุณในการอธิบาย AI ซึ่งถูกทำให้เป็นระบบอยู่ในเอกสารต้นทางของชั้นเรียน นั่นคือสิ่งที่คอร์สเป็นในระดับพื้นฐาน

Andrej Karpathy 02:04:00

คุณต้องปรับตัวให้สอดคล้องกับความสามารถที่มีอยู่จริงในอุตสาหกรรมเสมอ ผู้คนจำนวนมากจะมุ่งไปที่การแค่ถาม ChatGPT อะไรแบบนั้น แต่ตอนนี้ ถ้าคุณไปที่ ChatGPT แล้วให้มันสอน AI ให้คุณ มันทำไม่ได้ มันจะให้ของที่ค่อนข้างหยาบ ๆ AI จะไม่มีทางเขียน nanochat ได้ในตอนนี้ แต่ nanochat เป็นจุดกึ่งกลางที่มีประโยชน์มากจริง ๆ ผมทำงานร่วมกับ AI เพื่อสร้างสื่อทั้งหมดนี้อยู่ ดังนั้น AI ก็ยังมีประโยชน์อย่างลึกซึ้งมาก

เมื่อก่อนผมสร้าง CS231n ที่ Stanford ซึ่งผมคิดว่าน่าจะเป็นคลาส deep learning แรกของ Stanford และมันได้รับความนิยมมาก ความต่างระหว่างการสร้าง 231n ในตอนนั้นกับการสร้าง LLM101N ตอนนี้ค่อนข้างชัดเจน ผมรู้สึกว่าได้รับพลังจาก LLM อย่างมากในแบบที่มันมีอยู่ตอนนี้ แต่ผมยังอยู่ในลูปอย่างมาก พวกมันช่วยสร้างสื่อ และทำให้ผมไปได้เร็วขึ้นมาก พวกมันจัดการงานน่าเบื่อจำนวนมาก และอื่น ๆ ผมรู้สึกว่ากำลังพัฒนาคอร์สได้เร็วขึ้นมาก และมันมี LLM ฉีดอยู่เต็มที่ แต่เรายังไม่ถึงจุดที่มันจะสร้างเนื้อหาได้เองแบบสร้างสรรค์ ผมยังต้องอยู่ตรงนั้นเพื่อทำส่วนนั้นอยู่ ประเด็นยากคือการปรับตัวเองให้เข้ากับสิ่งที่มีอยู่จริงเสมอ

Dwarkesh Patel 02:05:04

เวลาคุณนึกภาพสิ่งที่จะใช้งานได้ผ่าน Eureka ในอีกไม่กี่ปีข้างหน้า ดูเหมือนว่าคอขวดใหญ่คือการหาตัว Karpathy ในแต่ละสาขา ที่สามารถเปลี่ยนความเข้าใจของตัวเองให้กลายเป็นทางลาดแบบนี้ได้

Andrej Karpathy 02:05:18

มันจะเปลี่ยนไปตามกาลเวลา ตอนนี้เลย มันน่าจะเป็นการจ้างคณาจารย์มาทำงานร่วมกับทีมของ AI และมนุษย์แบบใกล้ชิด เพื่อสร้างคอร์สที่ล้ำสมัยที่สุด เมื่อเวลาผ่านไป TA บางส่วนก็น่าจะเป็น AI ได้ ผมคิดว่าคุณสามารถนำสื่อการสอนทั้งหมดมา แล้วมอบ TA อัตโนมัติที่ดีมากให้กับนักเรียนได้ เมื่อพวกเขามีคำถามพื้นฐานมากกว่า หรืออะไรทำนองนั้น แต่สำหรับสถาปัตยกรรมโดยรวมของคอร์ส และเพื่อให้แน่ใจว่ามันถูกต้อง ผมคิดว่าคุณยังต้องมีคณาจารย์อยู่ ดังนั้นผมจึงมองเห็นความคืบหน้าว่าสิ่งนี้จะค่อย ๆ พัฒนาไปอย่างไร บางทีในอนาคต ณ จุดหนึ่ง ผมอาจไม่ได้มีประโยชน์มากนัก และ AI ทำงานออกแบบส่วนใหญ่ได้ดีกว่าสิ่งที่ผมทำได้มาก แต่ผมก็ยังคิดว่ากว่าจะไปถึงจุดนั้นต้องใช้เวลา

Dwarkesh Patel 02:05:59

คุณกำลังจินตนาการถึงการให้ผู้คนจากสาขาอื่น ๆ ที่มีความเชี่ยวชาญเฉพาะทางมาร่วมสร้างคอร์ส หรือเมื่อคำนึงถึงความเข้าใจของคุณเกี่ยวกับวิธีที่คุณอยากสอนแล้ว คุณรู้สึกว่าเป็นสิ่งจำเป็นอย่างยิ่งต่อวิสัยทัศน์ที่คนออกแบบเนื้อหาต้องเป็นคุณเองหรือเปล่า? เหมือนกับที่ Sal Khan เป็นคนบรรยายวิดีโอทั้งหมดของ Khan Academy ด้วยตัวเอง คุณกำลังจินตนาการถึงอะไรแบบนั้นไหม?

Andrej Karpathy 02:06:20

ไม่ครับ ผมจะจ้างคณาจารย์ เพราะมีหลายโดเมนที่ผมไม่ใช่ผู้เชี่ยวชาญ และนั่นคือวิธีเดียวที่จะมอบประสบการณ์ล้ำสมัยที่สุดให้กับนักเรียนได้ในท้ายที่สุด ผมคาดว่าจะจ้างคณาจารย์ แต่ผมน่าจะยังอยู่กับ AI ไปอีกสักพัก สิ่งที่ผมนึกไว้เกี่ยวกับความสามารถในปัจจุบันน่าจะค่อนข้างดั้งเดิมกว่าที่คนคาดกัน

เวลาเราสร้าง Starfleet Academy ผมน่าจะจินตนาการถึงสถาบันทางกายภาพ และมีการให้บริการแบบดิจิทัลเป็นชั้นที่อยู่ถัดลงมา มันไม่ใช่ประสบการณ์ที่ล้ำสมัยที่สุดแบบที่คุณจะได้เมื่อมีใครสักคนมาอยู่แบบเต็มเวลา ทำงานกับเนื้อหากับเราตั้งแต่ต้นจนจบ และคอยตรวจดูว่าคุณเข้าใจจริงหรือไม่ นั่นคือการให้บริการแบบกายภาพ ส่วนการให้บริการแบบดิจิทัลก็คือหลายสิ่งบนอินเทอร์เน็ต บวกกับอาจมีผู้ช่วย LLM บางอย่าง มันออกจะเป็นกิมมิกมากกว่าและเป็นชั้นที่อยู่ต่ำกว่า แต่ก็อย่างน้อยเข้าถึงคนได้ 8 พันล้านคน

Dwarkesh Patel 02:07:08

โดยพื้นฐานแล้วดูเหมือนว่าคุณกำลังคิดค้นมหาวิทยาลัยขึ้นใหม่จากหลักการพื้นฐานสำหรับเครื่องมือที่มีอยู่ในทุกวันนี้ และคัดเลือกคนที่มีแรงจูงใจและความสนใจที่จะมีส่วนร่วมกับเนื้อหาอย่างแท้จริง

Andrej Karpathy 02:07:26

มันคงต้องมีทั้งการศึกษาและการฝึกทักษะใหม่จำนวนมาก ผมอยากช่วยในจุดนั้น เพราะงานต่าง ๆ น่าจะเปลี่ยนไปค่อนข้างมาก ตัวอย่างเช่น ทุกวันนี้คนจำนวนมาก โดยเฉพาะในสาย AI กำลังพยายามอัปสกิลกันอยู่ นี่เป็นคอร์สที่ผมคิดว่าดีมากสำหรับการสอนในบริบทนี้ ในแง่แรงจูงใจ แรงจูงใจก่อน AGI แก้ได้ง่ายมาก เพราะคนอยากหาเงิน และนี่คือวิธีหาเงินในอุตสาหกรรมทุกวันนี้ ส่วนหลัง AGI อาจน่าสนใจกว่ามาก เพราะถ้าทุกอย่างถูกทำให้เป็นอัตโนมัติและไม่มีใครต้องทำงาน แล้วทำไมใครถึงจะไปโรงเรียน?

ผมมักพูดว่าการศึกษาก่อน AGI นั้นมีประโยชน์ ส่วนการศึกษาหลัง AGI นั้นสนุก คล้ายกับวิธีที่คนไปยิมในทุกวันนี้ เราไม่ต้องการแรงกายของพวกเขาในการยกของหนัก เพราะเรามีเครื่องจักรที่ทำสิ่งนั้นได้อยู่แล้ว แต่พวกเขาก็ยังไปยิม ทำไมถึงไปยิม? เพราะมันสนุก ดีต่อสุขภาพ และถ้าคุณมีกล้ามท้องก็ดูเท่ การทำแบบนั้นมีเสน่ห์สำหรับผู้คน ในความหมายที่ลึกมาก ทั้งทางจิตวิทยาและเชิงวิวัฒนาการสำหรับมนุษยชาติ การศึกษาก็จะพัฒนาไปในแบบเดียวกัน ผู้คนจะไปโรงเรียนเหมือนไปยิม

ตอนนี้ผู้คนจำนวนมากไม่เรียนรู้ เพราะการเรียนนั้นยาก พวกเขาหลุดออกจากเนื้อหา บางคนข้ามกำแพงนั้นไปได้ แต่สำหรับคนส่วนใหญ่มันยาก นี่คือปัญหาทางเทคนิคที่แก้ได้ สิ่งที่ติวเตอร์ของผมทำให้ตอนที่ผมกำลังเรียนภาษาเกาหลีก็เป็นปัญหาทางเทคนิคที่แก้ได้เช่นกัน มันจัดการได้ สร้างได้ และต้องมีใครสักคนสร้างมันขึ้นมา มันจะทำให้การเรียนรู้อะไรก็ตามกลายเป็นเรื่องง่ายและน่าปรารถนา และผู้คนจะทำมันเพื่อความสนุก เพราะมันง่าย ถ้าคุณมีติวเตอร์แบบนั้นสำหรับองค์ความรู้ชิ้นไหนก็ตาม การเรียนรู้อะไรก็จะง่ายขึ้นมาก และผู้คนก็จะทำมัน ด้วยเหตุผลเดียวกับที่พวกเขาไปยิม

Dwarkesh Patel 02:09:17

มันฟังดูต่างออกไปนะ... งั้นหลัง AGI คุณกำลังใช้สิ่งนี้เพื่อความบันเทิงหรือการพัฒนาตนเอง แต่ก่อนหน้านี้มันก็ฟังเหมือนคุณมีวิสัยทัศน์ด้วยว่าการศึกษานี้เกี่ยวข้องกับการทำให้มนุษยชาติยังควบคุม AI ได้อยู่ ซึ่งฟังดูเป็นอีกเรื่องหนึ่ง สำหรับบางคนมันคือความบันเทิง แต่สำหรับอีกบางคนมันคือการเสริมพลังหรือเปล่า? คุณมองเรื่องนี้ยังไง?

Andrej Karpathy 02:09:41

ผมคิดว่าในท้ายที่สุดมันเป็นเกมที่แพ้อยู่บ้าง ถ้าจะพูดแบบนั้น ในระยะยาวใช่ และอาจเป็นระยะยาวที่ยาวกว่าที่คนส่วนใหญ่ในอุตสาหกรรมคิดมาก ผู้คนคิดว่าเราจะไปได้ไกลขนาดนั้น และเรายังแทบไม่ได้แตะผิวหน้าของศักยภาพว่ามนุษย์จะไปได้ไกลแค่ไหนเลย มันเป็นเพียงเพราะผู้คนหลุดออกจากเนื้อหาที่ง่ายเกินไปหรือยากเกินไป มนุษย์ไปได้ไกลกว่านี้มาก ทุกคนจะพูดได้ห้าภาษา เพราะทำไมจะไม่ได้ล่ะ? มันง่ายเกินไป ทุกคนจะรู้หลักสูตรพื้นฐานระดับปริญญาตรีทั้งหมด เป็นต้น

Dwarkesh Patel 02:10:18

ตอนนี้ผมเข้าใจวิสัยทัศน์แล้ว และมันน่าสนใจมาก เรื่องวัฒนธรรมยิมนี่เป็นอุปมาที่สมบูรณ์แบบ ผมไม่คิดว่าเมื่อ 100 ปีก่อนจะมีใครมีกล้ามล่ำกันมากนัก ไม่มีใครสมัครใจไปยก bench press สองหรือสามแผ่นได้หรอก ทุกวันนี้มันกลายเป็นเรื่องธรรมดามากเพราะแนวคิดเรื่องการฝึกอย่างเป็นระบบ ไม่ว่าจะยกเวทในยิมหรือฝึกอย่างเป็นระบบเพื่อวิ่งมาราธอน นั่นคือความสามารถที่มนุษย์ส่วนใหญ่ไม่มีโดยธรรมชาติ คุณกำลังจินตนาการสิ่งที่คล้ายกันสำหรับการเรียนรู้ในอีกหลายโดเมน เพียงแต่เข้มข้น ลึก และเร็วกว่าเดิมมาก

Andrej Karpathy 02:10:54

ใช่เลย ผมกำลังเดิมพันกับความเป็นนิรันดร์ของธรรมชาติมนุษย์อยู่เล็กน้อย ผมคิดว่าการทำสิ่งเหล่านี้จะยังเป็นสิ่งที่พึงปรารถนา และผู้คนจะยังยกย่องมันเหมือนที่ทำกันมาหลายพันปี เรื่องนี้จะยังคงเป็นจริงต่อไป และในเชิงประวัติศาสตร์ก็มีหลักฐานบางอย่าง เช่น ถ้าคุณดูชนชั้นสูง หรือดูยุคกรีกโบราณหรืออะไรทำนองนั้น เวลาใดก็ตามที่เรามีกระเปาะสภาพแวดล้อมเล็ก ๆ ที่ในบางความหมายเป็นโลกหลัง AGI ผู้คนก็ใช้เวลาจำนวนมากไปกับการเติบโตอย่างรุ่งเรือง ทั้งทางร่างกายและทางปัญญาในบางรูปแบบ ผมจึงรู้สึกค่อนข้างโอเคกับแนวโน้มนี้

ถ้าสิ่งนี้ไม่จริงและผมคิดผิด และเราจบลงในอนาคตแบบ Wall-E หรือ Idiocracy ผมก็ไม่สนด้วยซ้ำว่าเราจะมี Dyson sphere หรือไม่ นั่นเป็นผลลัพธ์ที่เลวร้ายมาก ผมแคร์มนุษยชาติจริง ๆ ทุกคนต้องเป็นเหนือมนุษย์ในบางความหมาย

Dwarkesh Patel 02:11:52

แต่มันก็ยัง... โดยพื้นฐานแล้วมันคือโลกแบบโลกวัฒนธรรม อะไรทำนองนั้น ใช่ไหม? โดยพื้นฐานแล้วมันคือโลกที่เราไม่สามารถเปลี่ยนวิถีของเทคโนโลยี หรือมีอิทธิพลต่อการตัดสินใจด้วยแรงงานหรือความคิดความเข้าใจของตัวเองได้จริง ๆ บางทีเราอาจมีอิทธิพลต่อการตัดสินใจได้เพราะ AI ขอการอนุมัติจากเรา แต่ไม่ใช่ว่าผมมีอิทธิพลต่ออนาคตจริง ๆ เพราะผมประดิษฐ์อะไรบางอย่างหรือคิดดีไซน์ใหม่ขึ้นมา

Andrej Karpathy 02:12:21

อาจจะนะ ผมคิดว่าจะมีช่วงเปลี่ยนผ่านที่ถ้าเราเข้าใจหลายสิ่งมากพอ เราก็จะยังอยู่ในลูปและช่วยผลักดันสิ่งต่าง ๆ ได้ แต่ในระยะยาว สิ่งนั้นน่าจะหายไป มันอาจกลายเป็นกีฬาได้ ว่า powerlifting ในยุคแห่งปัญญาคืออะไร อาจมีคนที่ไปสุดทางจริง ๆ เพื่อสร้างโอลิมปิกของการรู้สิ่งต่าง ๆ อย่างแท้จริง ถ้าคุณมี AI tutor ที่สมบูรณ์แบบ คุณก็น่าจะไปได้ไกลมาก ผมรู้สึกว่าอัจฉริยะในทุกวันนี้ยังแทบไม่ได้แตะผิวหน้าของสิ่งที่จิตมนุษย์ทำได้เลย

Dwarkesh Patel 02:12:59

ผมชอบวิสัยทัศน์นี้มาก และผมก็รู้สึกว่าผมเป็นคนที่เข้ากับผลิตภัณฑ์นี้ได้มากที่สุดด้วย เพราะงานของผมคือการต้องเรียนรู้หัวข้อใหม่ ๆ ทุกสัปดาห์ และผมตื่นเต้นกับมันมาก

Andrej Karpathy 02:13:17

ผมก็คล้ายกัน คนจำนวนมาก เช่น เกลียดโรงเรียนและอยากออกไปจากที่นั่น แต่ผมชอบโรงเรียนมาก ผมรักการเรียนรู้สิ่งต่าง ๆ และอื่น ๆ อีกมาก ผมอยากอยู่ในโรงเรียนต่อไป ผมอยู่ไปจนถึงระดับปริญญาเอก แล้วหลังจากนั้นเขาก็ไม่ให้ผมอยู่ต่อแล้ว ผมเลยไปภาคอุตสาหกรรม พูดกว้าง ๆ คือผมรักการเรียนรู้ ทั้งเพื่อการเรียนรู้เอง แต่ก็รักมันด้วยเพราะมันเป็นรูปแบบหนึ่งของการเสริมพลัง และมันมีประโยชน์และก่อให้เกิดผลิตภาพ

Dwarkesh Patel 02:13:39

คุณยังชี้ประเด็นละเอียดอ่อนอย่างหนึ่งไว้ด้วย ซึ่งผมอยากเขียนให้ชัด คือจากสิ่งที่เกิดขึ้นกับคอร์สออนไลน์จนถึงตอนนี้ ทำไมมันถึงยังไม่ทำให้มนุษย์ทุกคนรู้ทุกอย่างได้? มันแค่ต้องใช้แรงจูงใจมากเกินไป เพราะไม่มีทางลาดที่ชัดเจน และติดขัดได้ง่ายเกินไป แต่ถ้าเรามีสิ่งนี้—อะไรที่เหมือนติวเตอร์มนุษย์ที่ดีจริง ๆ—ในมุมของแรงจูงใจ มันก็คงเป็นเหมือนการปลดล็อกนั้นเลย

Andrej Karpathy 02:14:10

ผมคิดอย่างนั้นนะ การถูกดีดออกจากเนื้อหาการเรียนรู้เป็นความรู้สึกที่แย่ มันแย่มาก ถ้าคุณทุ่มเวลาให้กับบางอย่างแล้วไม่เกิดผล หรือสิ่งที่ได้มาง่ายเกินไปหรือยากเกินไปจนรู้สึกเบื่อโดยสิ้นเชิง คุณจะได้รับรางวัลเชิงลบ แต่เมื่อทำได้พอดี การเรียนรู้เป็นเรื่องที่ให้ความรู้สึกดี การไปให้ถึงจุดนั้นเป็นปัญหาเชิงเทคนิค ช่วงหนึ่งมันจะเป็นการทำงานร่วมกันระหว่าง AI กับมนุษย์ และเมื่อถึงจุดหนึ่ง ก็คงอาจจะเหลือแค่ AI

Dwarkesh Patel 02:14:36

ผมขอถามเกี่ยวกับการสอนได้ดีสักหน่อยได้ไหม ถ้าคุณต้องแนะนำให้นักการศึกษาคนอื่นในสาขาอื่นที่คุณเองก็อยากรู้ สร้าง YouTube tutorial แบบที่คุณทำ โดยเฉพาะในโดเมนที่คุณไม่สามารถทดสอบความเข้าใจเชิงเทคนิคของใครบางคนด้วยการให้เขาเขียนโค้ดหรืออะไรทำนองนั้น คุณจะให้คำแนะนำอะไรบ้าง

Andrej Karpathy 02:14:58

นั่นเป็นหัวข้อที่กว้างพอสมควร น่าจะมีทิปและลูกเล่นอยู่ 10-20 อย่างที่ผมทำแบบกึ่งรู้ตัว แต่ส่วนใหญ่ของเรื่องนี้มาจากพื้นฐานด้านฟิสิกส์ของผม ผมชอบพื้นฐานฟิสิกส์ของตัวเองมากจริงๆ มากๆ ผมมีเรื่องยาวเลยเกี่ยวกับว่าทำไมทุกคนควรเรียนฟิสิกส์ในการศึกษาช่วงต้น เพราะการศึกษาในช่วงต้นไม่ได้มีไว้เพื่อสะสมความรู้หรือความทรงจำสำหรับการทำงานในอุตสาหกรรมภายหลัง แต่มันคือการบูตสมอง และฟิสิกส์บูตสมองได้ดีที่สุด เพราะบางอย่างที่มันบังคับให้สมองทำในวิชาฟิสิกส์ มีคุณค่าอย่างยิ่งในภายหลัง

แนวคิดเรื่องการสร้างแบบจำลองและนามธรรม การเข้าใจว่ามีการประมาณค่าอันดับหนึ่งที่อธิบายระบบส่วนใหญ่ได้ แต่ก็อาจมีหรือไม่มีพจน์อันดับสอง อันดับสาม อันดับสี่ตามมาได้ แนวคิดที่ว่าแม้คุณจะกำลังสังเกตระบบที่มีสัญญาณรบกวนสูงมาก ก็ยังมีความถี่พื้นฐานบางอย่างที่คุณสามารถดึงมาเป็นนามธรรมได้ เวลานักฟิสิกส์เข้าห้องเรียนแล้วพูดว่า “สมมติว่ามีวัวทรงกลมตัวหนึ่ง” ทุกคนก็หัวเราะกับมัน แต่จริงๆ แล้วมันยอดเยี่ยมมาก เพราะในหลายแง่มุม คุณสามารถประมาณวัวเป็นทรงกลมได้ และนี่เป็นวิธีคิดที่ยอดเยี่ยมซึ่งนำไปใช้ได้กว้างมากในหลายอุตสาหกรรม

ยกตัวอย่าง มีหนังสือดีมากเล่มหนึ่งชื่อ Scale เป็นหนังสือที่เขียนโดยนักฟิสิกส์ที่พูดถึงชีววิทยา นี่ก็น่าจะเป็นหนังสือที่ผมอยากแนะนำให้อ่านเหมือนกัน คุณจะได้การประมาณค่าที่น่าสนใจมากเกี่ยวกับสัตว์ และสามารถทำกราฟกฎการสเกลของสัตว์ได้ ดูอัตราการเต้นของหัวใจของพวกมันและอะไรแบบนั้น ซึ่งสอดคล้องกับขนาดของสัตว์และเรื่องทำนองนี้ คุณสามารถพูดถึงสัตว์ในแง่ของปริมาตรได้ พูดถึงการระบายความร้อนของมันได้ เพราะการระบายความร้อนเพิ่มขึ้นตามพื้นที่ผิว ซึ่งเพิ่มขึ้นกำลังสอง แต่การสร้างหรือกำเนิดความร้อนเพิ่มขึ้นกำลังสาม เพราะฉะนั้นผมจึงรู้สึกว่านักฟิสิกส์มีเครื่องมือทางความคิดที่ถูกต้องครบถ้วนสำหรับการเข้าหาการแก้ปัญหาในโลก

เพราะการฝึกแบบนั้น ผมจึงพยายามมองหาพจน์อันดับหนึ่งหรืออันดับสองของทุกสิ่งอยู่เสมอ เวลาผมสังเกตระบบหรืออะไรก็ตาม ในหัวของผมจะมีเครือข่ายที่พันกันของไอเดียและความรู้ ผมพยายามหาว่าอะไรสำคัญ องค์ประกอบอันดับหนึ่งคืออะไร จะทำให้มันง่ายลงได้อย่างไร จะทำให้มีสิ่งที่เรียบง่ายที่สุดที่แสดงมันออกมาได้อย่างไร แสดงสิ่งนั้นให้เห็นจริงๆ แล้วค่อยเติมพจน์อื่นๆ เข้าไป

ตัวอย่างหนึ่งจาก repository ของผมที่ผมคิดว่าแสดงเรื่องนี้ได้ดีคือ micrograd ไม่แน่ใจว่าคุณคุ้นกับมันไหม micrograd คือโค้ด 100 บรรทัดที่แสดง backpropagation คุณสามารถสร้าง neural network จากโอเปอเรชันง่ายๆ อย่างการบวกและการคูณได้ เหมือนบล็อกเลโก้ของ neural network คุณสร้าง computational graph แล้วทำ forward pass และ backward pass เพื่อให้ได้ gradient นี่แหละคือหัวใจของการฝึก neural network ทั้งหมด

ดังนั้น micrograd จึงเป็นโค้ด Python ราว 100 บรรทัดที่ค่อนข้างตีความได้ง่าย และมันสามารถทำ forward และ backward สำหรับ neural network แบบใดก็ได้ แต่ไม่ได้มีประสิทธิภาพ เพราะฉะนั้น micrograd หรือ Python 100 บรรทัดนี้ คือทั้งหมดที่คุณต้องใช้เพื่อเข้าใจว่า neural network ถูกฝึกอย่างไร อย่างอื่นทั้งหมดเป็นแค่เรื่องประสิทธิภาพ มีงานมหาศาลที่ต้องทำเพื่อให้ได้ประสิทธิภาพนั้น คุณต้องมีเทนเซอร์ ต้องมี batching, striding, เขียน kernel, จัดการ memory movement ให้ถูกจังหวะ ฯลฯ ทั้งหมดนั้นโดยคร่าวๆ ก็เป็นแค่เรื่องประสิทธิภาพ แต่ชิ้นส่วนทางปัญญาแกนกลางของการฝึก neural network คือ micrograd มันมี 100 บรรทัด เข้าใจได้ง่าย มันคือการประยุกต์ใช้กฎลูกโซ่แบบเวียนกลับเพื่อหา gradient และมันทำให้คุณสามารถ optimize ฟังก์ชันที่หาอนุพันธ์ได้ใดๆ ก็ได้

เพราะงั้นผมจึงชอบค้นหาและหยิบเอาพจน์อันดับต่ำเล็กๆ แบบนี้มาจัดใส่จานเสิร์ฟให้เห็น ผมรู้สึกว่าการศึกษาเป็นสิ่งที่น่าสนใจทางปัญญามากที่สุด เพราะคุณมีความพันกันของความเข้าใจ และกำลังพยายามจัดมันในรูปแบบที่เป็นเหมือนทางลาด ซึ่งทุกอย่างขึ้นอยู่แค่กับสิ่งที่มาก่อนหน้าเท่านั้น ผมพบว่าการคลี่ความพันกันของความรู้นี้ออกมา เป็นงานทางความคิดที่น่าสนใจทางปัญญาอย่างมาก ผมเองก็ชอบทำแบบนั้นมาก และมีความหลงใหลกับการพยายามจัดวางสิ่งต่างๆ ในแบบเฉพาะ บางทีนั่นอาจช่วยผมได้

Dwarkesh Patel 02:18:41

และมันยังทำให้ประสบการณ์การเรียนมีแรงจูงใจมากขึ้นมากด้วย tutorial เรื่อง transformer ของคุณเริ่มจากbigram ซึ่งเป็น lookup table แบบตรงตัวเลย “นี่คือคำตอนนี้” หรือ “นี่คือคำก่อนหน้า นี่คือคำถัดไป” มันเป็นแค่ lookup table ตรงๆ เลย

Andrej Karpathy 02:18:58

นั่นแหละคือแก่นของมัน ใช่

Dwarkesh Patel 02:18:59

การเริ่มจาก lookup table แล้วไปสู่ transformer เป็นวิธีที่ยอดเยี่ยมมาก แต่ละชิ้นมีแรงจูงใจรองรับ ทำไมต้องเพิ่มสิ่งนี้ ทำไมต้องเพิ่มสิ่งถัดไป คุณอาจท่องสูตร attention ก็ได้ แต่สิ่งสำคัญคือการเข้าใจว่าทุกชิ้นส่วนเกี่ยวข้องอย่างไร และมันกำลังแก้ปัญหาอะไร

Andrej Karpathy 02:19:13

นำเสนอความเจ็บปวดก่อนจะนำเสนอวิธีแก้ นั่นฉลาดแค่ไหนล่ะ ผมอยากพานักเรียนเดินผ่านกระบวนการนั้นไป ยังมีสิ่งเล็กๆ น้อยๆ อีกมากที่ช่วยให้มันดี มีเสน่ห์ และน่าสนใจ คอยตั้งคำถามชี้นำให้นักเรียนเสมอ

ยังมีเรื่องเล็กๆ แต่สำคัญอีกมากที่นักการศึกษาที่ดีจะทำ อย่างเช่น คุณจะแก้สิ่งนี้อย่างไร ผมจะไม่เสนอวิธีแก้ก่อนที่คุณจะได้เดา มันจะเป็นการสิ้นเปลือง มันค่อนข้างจะเป็น... ผมไม่อยากสบถ แต่การที่ผมเสนอวิธีแก้ก่อนจะให้โอกาสคุณลองด้วยตัวเอง มันเป็นพฤติกรรมที่ไม่ดีต่อคุณ

Dwarkesh Patel 02:19:51

เพราะเมื่อคุณพยายามคิดมันขึ้นมาเอง คุณจะเข้าใจได้ดีขึ้นว่าพื้นที่ของการกระทำคืออะไร เป้าหมายคืออะไร แล้วทำไมการกระทำแบบนี้เท่านั้นถึงตอบเป้าหมายนั้นได้

Andrej Karpathy 02:20:03

คุณมีโอกาสได้ลองด้วยตัวเอง แล้วเมื่อผมให้วิธีแก้ คุณก็จะซาบซึ้งกับมัน มันทำให้ปริมาณความรู้ต่อข้อเท็จจริงใหม่ที่เพิ่มเข้ามาแต่ละชิ้นสูงที่สุด

Dwarkesh Patel 02:20:11

ทำไมโดยพื้นฐานแล้ว คนที่เป็นผู้เชี่ยวชาญตัวจริงในสาขาของตัวเอง มักอธิบายสิ่งนั้นให้คนที่กำลังเรียนรู้มันฟังได้ไม่ดี

Andrej Karpathy 02:20:24

มันคือความเชี่ยวชาญกับคำสาปของความรู้ นี่เป็นปรากฏการณ์จริง และผมเองก็ทุกข์กับมันมากพอๆ กับที่พยายามต่อสู้กับมัน คุณจะเริ่มมองว่าบางเรื่องเป็นสิ่งที่แน่นอนอยู่แล้ว และไม่สามารถเอาตัวเองไปอยู่ในมุมมองของคนใหม่ที่เพิ่งเริ่มต้นได้ นี่เป็นเรื่องที่พบได้ทั่วไปมาก และมันก็เกิดกับผมด้วย

มีอย่างหนึ่งที่ช่วยได้มาก ยกตัวอย่าง เมื่อไม่นานมานี้มีคนพยายามให้ผมดูบทความวิชาการด้านชีววิทยา และผมก็มีคำถามแย่มากๆ เต็มไปหมดทันที สิ่งที่ผมทำคือใช้ ChatGPT เอาบทความนั้นใส่เข้าไปใน context window แล้วถามคำถามต่างๆ มันช่วยคลี่คลายคำถามง่ายๆ บางส่วนได้ จากนั้นผมก็แชร์เธรดนั้นให้กับคนที่เขียนบทความนั้นหรือทำงานชิ้นนั้น ผมรู้สึกว่าถ้าพวกเขาเห็นคำถามโง่ๆ ที่ผมมี มันอาจช่วยให้พวกเขาอธิบายได้ดีขึ้นในอนาคต

สำหรับเนื้อหาของผมเอง ผมจะชอบมากถ้าคนแชร์บทสนทนาโง่ๆ กับ ChatGPT เกี่ยวกับสิ่งที่ผมทำขึ้นมา เพราะมันช่วยให้ผมกลับไปวางตัวเองอยู่ในมุมของคนที่เพิ่งเริ่มต้นได้จริงๆ

Dwarkesh Patel 02:21:19

มีอีกหนึ่งเคล็ดลับที่ได้ผลอย่างน่าทึ่งมาก เวลาที่ใครสักคนเขียนเปเปอร์ เขียนบล็อกโพสต์ หรือทำพรีเซนเทชัน คำอธิบายหรือบทถอดความแบบที่พวกเขาจะเล่าตอนกินข้าวกลางวันนั้น ไม่เพียงเข้าใจง่ายกว่าเท่านั้น แต่จริง ๆ แล้วยังแม่นยำและเป็นวิทยาศาสตร์มากกว่าด้วย ใน 100% ของกรณีเลย เพราะผู้คนมีอคติที่จะอธิบายสิ่งต่าง ๆ ด้วยวิธีที่เป็นนามธรรมที่สุด เต็มไปด้วยศัพท์เฉพาะมากที่สุด และเกริ่นอยู่สี่พารากราฟก่อนจะอธิบายไอเดียหลัก แต่พอคุยแบบตัวต่อตัวกับใครสักคน มันมีบางอย่างที่ทำให้พวกเขาพูดสิ่งที่อยากพูดออกมาตรง ๆ

Andrej Karpathy 02:22:07

พูดมันออกมาตรง ๆ เลย ผมเห็นทวีตนั้นแล้ว และคิดว่ามันดีมาก ผมแชร์ให้หลายคนดู ผมรู้สึกแบบนี้มาหลายครั้งมาก

ตัวอย่างที่ชัดที่สุดคือ ผมจำได้ว่าตอนทำปริญญาเอกและกำลังทำวิจัยอยู่ ผมจะอ่านเปเปอร์ของใครสักคน แล้วพยายามทำความเข้าใจว่ามันกำลังทำอะไร จากนั้นต่อมาในงานคอนเฟอเรนซ์ ผมได้เจอเขาตอนนั่งดื่มเบียร์ แล้วก็ถามว่า “แล้วเปเปอร์นี้ มันทำอะไรอยู่เหรอ? เปเปอร์นี้เกี่ยวกับอะไร?”

แล้วพวกเขาก็จะพูดแค่สามประโยคที่จับแก่นของเปเปอร์นั้นได้อย่างสมบูรณ์แบบ และถ่ายทอดไอเดียทั้งหมดออกมาได้ครบ ผมแทบไม่ต้องอ่านเปเปอร์เลย มันเกิดขึ้นตอนนั่งที่โต๊ะพร้อมเบียร์หรืออะไรทำนองนั้น แล้วพวกเขาจะพูดว่า “อ้อ ใช่ เปเปอร์นี้ก็แค่เอาไอเดียนี้มารวมกับไอเดียนั้น แล้วลองการทดลองนี้กับอันนี้” พวกเขามีวิธีวางมันออกมาแบบภาษาพูดได้อย่างสมบูรณ์แบบ ทำไมสิ่งนั้นถึงไม่ใช่ abstract ล่ะ?

Dwarkesh Patel 02:22:51

ใช่เลย นี่ทำให้ผมนึกถึงมุมมองว่าคนที่พยายามอธิบายไอเดียควรจัดรูปแบบมันให้ดีขึ้นอย่างไร ในฐานะนักเรียน ถ้าไม่มี Karpathy มาคอยอธิบายไอเดียให้ นักเรียนคนหนึ่งควรทำอย่างไร? ถ้าคุณกำลังอ่านเปเปอร์หรืออ่านหนังสือจากใครสักคน คุณใช้กลยุทธ์อะไรในการเรียนรู้เนื้อหาที่สนใจในสาขาที่ตัวเองไม่ใช่ผู้เชี่ยวชาญ?

Andrej Karpathy 02:23:20

ผมไม่แน่ใจนะว่ามีทิปหรือทริกอะไรที่พิเศษจริง ๆ ไหม พูดตามตรง มันเป็นกระบวนการที่ทรมานอยู่เหมือนกัน แต่มีอย่างหนึ่งที่ช่วยผมได้มากเสมอ—ผมเคยทวีตสั้น ๆ เกี่ยวกับเรื่องนี้—คือการเรียนรู้ตามความจำเป็นมันดีมาก เรียนรู้แบบ depth-first มันต้องสลับกันนิดหน่อยระหว่างการเรียนรู้แบบ depth-first ตามความจำเป็น—คือคุณกำลังพยายามทำโปรเจกต์บางอย่างให้สำเร็จซึ่งจะให้รางวัลตอบแทน—กับการเรียนรู้แบบ breadth-first ที่เป็นลักษณะ “อ้อ มาลอง 101 อะไรสักอย่าง แล้วนี่คือทุกอย่างที่อาจต้องใช้” ซึ่งนั่นคือสิ่งที่โรงเรียนจำนวนมากทำ—พวกเขาสอนแบบ breadth-first ประมาณว่า “เชื่อเถอะ เดี๋ยวคุณจะต้องใช้สิ่งนี้ในอนาคต” โอเค ผมก็เชื่อนะ ผมจะเรียนเพราะมันจำเป็น แต่โดยส่วนตัวผมชอบการเรียนรู้แบบที่ได้รางวัลจากการลงมือทำบางอย่าง และกำลังเรียนรู้ตามความจำเป็น

อีกอย่างหนึ่งที่ผมพบว่าช่วยได้อย่างมาก นี่เป็นด้านที่ค่อนข้าง altruistic ของการศึกษาอยู่หน่อย ๆ คือการอธิบายสิ่งต่าง ๆ ให้คนอื่นฟังเป็นวิธีที่ยอดเยี่ยมในการเรียนรู้อะไรสักอย่างให้ลึกขึ้น เรื่องนี้เกิดกับผมตลอด และน่าจะเกิดกับคนอื่นด้วย เพราะถ้าคุณยังไม่เข้าใจอะไรจริง ๆ คุณจะพบว่าตัวเองอธิบายมันไม่ได้ คุณพยายามแล้วก็จะบอกว่า “อ้อ ฉันไม่เข้าใจสิ่งนี้” การต้องเผชิญหน้ากับมันน่าหงุดหงิดมาก แต่คุณก็ย้อนกลับไปตรวจได้ว่าคุณเข้าใจจริงไหม คุณจะเติมช่องว่างของความเข้าใจเหล่านี้ มันบังคับให้คุณเผชิญกับมัน และบังคับให้คุณทำให้มันสอดคล้องกัน

ผมชอบอธิบายสิ่งต่าง ๆ ซ้ำอีกครั้ง และคนอื่นก็ควรทำแบบนั้นเหมือนกัน เพราะคุณต้องจัดการกับความรู้นั้น และต้องเข้าใจให้แน่ชัดว่าตัวเองกำลังพูดอะไรตอนอธิบาย

Dwarkesh Patel 02:24:48

เป็นข้อความปิดท้ายที่เหมาะมากเลย Andrej ยอดเยี่ยมมาก

Andrej Karpathy 02:24:51

ขอบคุณครับ

1 ความคิดเห็น

GN⁺ 2025-10-18

ความคิดเห็นจาก Hacker News

ผมคิดว่าวิธีมองพัฒนาการของ AI แบบ "เหมือนการไล่เก็บเลข 9 ไปเรื่อย ๆ" เป็นมุมมองที่สำคัญ ทุกครั้งที่ต้องเพิ่มอีก 9% จะต้องใช้ความพยายามในปริมาณพอ ๆ กัน ถ้าสร้างเดโมที่ได้ 90% แล้ว จากนั้นก็ต้องไปเก็บ 9% ที่สอง 9% ที่สาม ต่อไปเรื่อย ๆ ตอนทำงานที่ Tesla อยู่ 5 ปีก็เจอกระบวนการวนซ้ำแบบนี้หลายครั้ง ยังมีทางให้ไปอีกไกล พัฒนาการของ AI มักดูเหมือนความสามารถเพิ่มขึ้นแบบเอ็กซ์โปเนนเชียลบน benchmark บางตัวที่ตายตัว แต่ความยากของการก้าวไปยังขั้นถัดไปก็เพิ่มขึ้นแบบเอ็กซ์โปเนนเชียลเหมือนกัน ดังนั้นในระยะยาวมันจึงดูคล้ายการปรับปรุงแบบเชิงเส้น
- พอได้ดูบทสัมภาษณ์ของ Rich Sutton ล่าสุด ก็ทำให้รู้สึกว่า AGI ไม่ใช่แค่ปัญหาของการค่อย ๆ เพิ่มอีก 9% เท่านั้น ผู้สัมภาษณ์ตั้งสมมติฐานว่าการเข้าใจภาษาต้องมีแบบจำลองของโลกอยู่ด้วย แต่ Sutton ปฏิเสธสมมติฐานนั้นทันที ผมคิดว่าก็อาจเห็นด้วยกับท่าทีแบบสงสัยนั้นได้
- เรื่องนี้ทำให้นึกถึงคำกล่าวเก่าเกี่ยวกับการวิ่งมาราธอน ว่ามาราธอนมีสองส่วน คือ 20 ไมล์แรก และ 10 กิโลเมตรสุดท้ายที่ต้องวิ่งในสภาพที่เจ็บและเหนื่อยที่สุดในชีวิต
- ผมชอบอุปมาอุปไมยของผู้เขียน แต่พอถึงจุดหนึ่ง AI เองก็จะเริ่มช่วยเร่งการพัฒนาได้ และนี่คือสิ่งที่ต่างอย่างชัดเจนจาก ML แบบเฉพาะโดเมนหรือระบบอื่น ๆ ในอดีต ด้วยเหตุนี้ผมเลยคาดหวังว่าในอีก 2 ปีข้างหน้าอาจเกิดการเร่งตัวอย่างรุนแรง
- ผมเองก็ชอบพูดติดตลกว่า ทำงานเสร็จไป 90% แรกแล้ว แล้วก็เข้าสู่ 90% ถัดไป
- วิธีคิดแบบนี้เอาไปใช้ได้กับหลายเรื่อง นี่คือสิ่งที่เรียกว่า Pareto efficiency หรือกฎ 80/20 ที่ว่า 20% ของความพยายามทำให้เกิดผลลัพธ์ 80% ของงานทั้งหมด แต่เวลาส่วนใหญ่กลับหมดไปกับการเก็บ 20% ที่เหลือ หลักการนี้ใช้ซ้ำได้หลายชั้น ช่วงหลังในวงการ IT ก็เห็นชัดมาก วิธีทำงานเร็วและทดลองไวเหมาะกับช่วงส่วนใหญ่ของงาน แต่ระหว่างนั้นปัญหาจำนวนมากก็สะสมขึ้น จนสุดท้ายต้องมีใครสักคนมาจัดระเบียบและตรวจทาน ปัญหาเล็ก ๆ แต่ละอย่างรวมกันแล้วกลายเป็นปัญหาใหญ่ได้ แม้ระบบจะมี uptime 99.9% ก็ยังแปลว่ามี downtime ปีละ 9 ชั่วโมง และ 1 ล้านเคสจากทั้งหมด 1 พันล้านเคสก็ไม่ใช่จำนวนที่มองข้ามได้ ความสามารถในการขยายขนาดของเทคโนโลยีทำให้สาขานี้เติบโตเร็ว แต่ด้านมืดก็ขยายตามไปด้วย ระดับที่สูงกว่าค่าเฉลี่ยนั้นไปถึงได้ค่อนข้างง่ายถ้าพยายาม แต่ในบางสาขาทักษะของใครบางคนอาจยังห่างจากระดับ master มาก เหมือนคนที่มีเงิน 100 ล้านดอลลาร์จริง ๆ แล้วมีระยะห่างด้านความมั่งคั่งใกล้คนไร้บ้านมากกว่าใกล้มหาเศรษฐีพันล้าน เพราะสัญชาตญาณของเรารับรู้เส้นโค้งได้ไม่ดี
ทุกครั้งที่นักวิจัย AI กับนักวิทยาการคอมพิวเตอร์เริ่มเปรียบเทียบสมองมนุษย์กับ AI และคอมพิวเตอร์ ผมจะรู้สึกแปลก ๆ เสมอ ทำไมพวกเราที่เรียนแค่วิทยาการคอมพิวเตอร์ถึงคิดว่าตัวเองรู้ชีววิทยา ประสาทวิทยา หรือวิวัฒนาการมากพอด้วยก็ไม่รู้ การถกเถียงแบบนี้ก็น่าสนใจอยู่หรอก แต่ลึก ๆ จะมีความคิดว่า "อย่าลืมนะว่าตอนนี้เรากำลังฟังเด็กจบ CS สองคนคุยเรื่องประสาทวิทยาอยู่"
- ผมคิดว่าควรเลิกทั้งการพูดเรื่องแบบนี้และตัวคำศัพท์เหล่านี้ในวงการ AI ไปเลย เพราะมันสร้างความสับสนให้สาธารณะไม่รู้จบ แก่นแท้ของ LLM จริง ๆ ก็แค่การฝึกเมทริกซ์เพื่อทำนายโทเค็นถัดไป แค่นี้ก็อธิบายแนวคิดได้เพียงพอแล้ว ไม่จำเป็นต้องลากเรื่อง AGI, Roko's basilisk หรือจิตสำนึกของมนุษย์เข้ามา
- ถ้าจะตอบว่าทำไมถึงเกิดสมมติฐานแบบนี้ คำตอบก็คือ "ความหยิ่งผยอง"
- จริง ๆ ถ้าคิดแบบตรรกะก็มีมุกอยู่ว่า เรามักเริ่มจากจินตนาการถึง "สมองที่เป็นทรงกลมสมบูรณ์แบบและไม่มีแรงเสียดทาน"
- ตอนเรียนปริญญาตรีผมก็เคยเปรียบเทียบแบบเดียวกัน สุดท้ายมันจะไปพึ่งโมเดลเชิงแนวคิดว่า ถ้าสมองทำ X ได้ คอมพิวเตอร์ก็น่าจะทำ X คล้าย ๆ กันได้ หรือไม่ก็จำลอง X ผ่านขั้นตอนอย่าง Y กับ Z ได้ แต่พอได้รู้ว่าสมองเป็นเครื่องจักรเคมีที่ซับซ้อนมหาศาล ก็เลยเริ่มสงสัยการเปรียบเทียบแบบนี้มากขึ้น
- AI กับประสาทวิทยาซ้อนทับกันพอสมควร โดยเฉพาะในหมู่นักวิจัยรุ่นก่อน ๆ เช่น อาจารย์ที่ปรึกษาของ Karpathy อย่าง Fei-Fei Li เคยศึกษาการมองเห็นของสมองแมวก่อนจะข้ามมาทำ computer vision, Demis Hassabis ก็มีปริญญาเอกด้าน computational neuroscience และ Geoff Hinton ก็เรียนด้านจิตวิทยา สมาคม RLDM ก็เชื่อมโยง reinforcement learning กับประสาทวิทยาเพื่อให้ผู้เชี่ยวชาญจากทั้งสองฝั่งแลกเปลี่ยนกัน จริง ๆ แล้วนักวิจัย AI โดยเฉลี่ยน่าจะรู้เรื่องสมองมากกว่านักศึกษาวิทยาการคอมพิวเตอร์ทั่วไปมาก แต่ก็อาจยังไม่มีความเชี่ยวชาญพอสำหรับการทำวิจัยเชิงลึกอยู่ดี
ถ้าจะพูดถึงข้อจำกัดพื้นฐานของ LLM/AI รุ่นใหม่ มันคือการถูกฝึกให้เลียนแบบ prefrontal cortex ซึ่งรับผิดชอบการให้เหตุผลเชิงตรรกะของมนุษย์ โดยเน้นข้อมูลที่ผ่านการทำให้เป็นนามธรรมเป็นหลัก แต่การตัดสินใจจริงของมนุษย์นั้นขับเคลื่อนโดยกิจกรรมของระบบ limbic ที่เน้นอารมณ์และสัญชาตญาณ กล่าวคือ ส่วนใหญ่แล้วเรา "ลงมือทำอะไรบางอย่างก่อน แล้วค่อยรู้เหตุผลทีหลัง" จากนั้น prefrontal cortex ก็มาแต่งเรื่องให้เข้ากัน ผลก็คือ LLM กำลังเลียนแบบรูปแบบกิจกรรมประสาทเพียงบางส่วนจากตำแหน่งที่ต่างไปโดยสิ้นเชิงจากวิธีที่มนุษย์จัดการกับความเป็นจริง
ผมยินดีเอาทรัพย์สินทั้งหมดของตัวเองเดิมพันว่า AGI จะไม่เกิดขึ้นในช่วงชีวิตของใครก็ตามที่กำลังอ่านข้อความนี้อยู่ตอนนี้ รวมถึงชีวิตของผู้อ่านในอนาคตที่จะมาเจอบทความนี้ด้วย คำถามที่น่าสนใจจริง ๆ คือจะพิสูจน์การเดิมพันนี้ได้อย่างไร
- อยากรู้เหตุผลแบบเจาะจงว่าทำไมถึงคิดอย่างนั้น ทุกวันที่อ่าน Hacker News ผมรู้สึกงงกับการคาดการณ์ AGI ที่หลั่งไหลออกมาอย่างจริงจังแต่แทบไม่มีตรรกะรองรับ ผมเองไม่รู้จริง ๆ ว่าจะเกิดอะไรขึ้น
- ถ้าจะให้การเดิมพันนั้นมีผลจริง ก็ควรเอาเงินจริงไปลงใน prediction market อย่าง Polymarket แต่ก่อนอื่นต้องตกลงนิยามของ AGI ให้ชัด ไม่อย่างนั้นถ้าอีกฝ่ายนิยามเข้าข้างตัวเองก็เป็นเดิมพันที่ไม่มีทางชนะ
- ถ้าคิดจะเอาทรัพย์สินของตัวเองไปลงจริง ๆ คำตอบในทางปฏิบัติก็คือเอาไปใส่ prediction market เพราะการทำดีลแบบนั้นแทบจะเปลี่ยนเป็นเงินสดไม่ได้ Polymarket มีเดิมพันเกี่ยวกับ AGI อยู่เยอะ
- หรือจะ short หุ้น Nvidia ไปเลยก็ดูเป็นทางเลือกที่ใช้งานได้จริงกว่า
- นี่คือความเห็นที่เสนอให้ใช้ escrow
ขอเสริมอีกนิดว่า ผมยังคิดว่าเรายังไม่มีความเข้าใจแม้แต่ในระดับแผนภาพด้วยซ้ำว่า "สติปัญญาคืออะไรและทำงานอย่างไร" เรายังไม่ชัดเจนด้วยซ้ำว่าจิตสำนึกเชื่อมโยงกับสติปัญญาอย่างไร ในสถานการณ์แบบนี้ การอภิปรายเกี่ยวกับ AGI หรือ AI รวมถึงการคาดการณ์ต่าง ๆ จึงมีฐานรองรับค่อนข้างอ่อน การนิยามปัญญาประดิษฐ์ทั้งที่ยังไม่รู้ด้วยซ้ำว่าสติปัญญาคืออะไรนั้นฟังดูขัดแย้งในตัวเอง
- เหตุผลที่นิยามสติปัญญาหรือจิตสำนึกได้ยากมาก ก็เพราะเราพึ่งพาตัวอย่างเพียงหนึ่งเดียวอย่างมนุษย์แบบเต็ม ๆ และยังเอาความลึกลับที่ไม่มีมูลมาทับซ้อนเข้าไปอีก บทความอ้างอิงที่เกี่ยวข้อง: https://bower.sh/who-will-understand-consciousness
- เห็นด้วยกับจุดนี้อย่างมาก เรายังจำลองจิตสำนึกของสัตว์ไม่มีกระดูกสันหลังไม่ได้เลย และก็ยังไม่มีทฤษฎีที่ดีจริง ๆ เกี่ยวกับ "จิตใจ" สุดท้ายแล้ว AI ก็แค่ทำท่าเหมือนเข้าใจ ทั้งที่ยังห่างไกลจากสติปัญญาจริงมาก
ถ้าบันทึกบทสัมภาษณ์ถูกต้อง Karpathy ไม่ได้พูดที่ไหนในบทสัมภาษณ์นี้เลยว่า AGI จะมาภายใน 10 ปี และก็ไม่ได้ยื่นข้ออ้างที่เป็นรูปธรรมว่ามันจะมาถึงเมื่อไร ชื่อเรื่องของ Patel จึงชวนให้เข้าใจผิดและไม่ตรงกับเนื้อหาจริง
- กรณีของ Sutton ก็เหมือนกัน มีการตีความกันไปว่า Sutton พูดว่า "LLM คือปลายทางสุดท้าย" ทั้งที่จริงในบทสนทนาไม่ได้มีคำพูดแบบนั้นเลย
ถ้าเอา vibe coding มาเทียบกับระบบ autocomplete จะเห็นว่าโมเดล LLM ปัจจุบันมีข้อบกพร่องด้านการรับรู้อยู่มาก เช่น มันถูกฝึกกับรูปแบบการเขียนโค้ดทั่วไปมากเกินไป จนชอบเข้าใจผิดเมื่อผมไม่ได้ทำแบบมาตรฐานนั้น และการต้องพิมพ์ทุกอย่างเป็นภาษาอังกฤษเพื่ออธิบายสิ่งที่ต้องการก็น่าเบื่อมาก ในขณะที่แค่ไปยังตำแหน่งในโค้ดที่ต้องการแล้วพิมพ์ไม่กี่ตัว autocomplete ก็เสนอโค้ดให้ได้ทันที แต่โมเดลพวกนี้กลับทำให้ codebase ซับซ้อนเกินจำเป็น ชอบใส่โค้ดที่ไม่จำเป็นและใช้ API เก่า ๆ จนโดยรวมแล้วผมไม่แน่ใจว่ามันช่วยได้จริงแค่ไหน
ผมว่าแม้ในโลกอนาคตที่อัตราว่างงานแตะ 50% เราก็คงยังเถียงกันอยู่ดีว่า "นี่ถือเป็น AGI จริงไหม"
แค่การตั้ง AGI เป็นเป้าหมายก็รู้สึกแปลกแล้ว คำว่า AI เองก็ไม่แม่นยำและไม่ตรงกับแก่นแท้ LLM ไม่ใช่ปัญญาประดิษฐ์ และต่อให้เป็น LLM ขนาดใหญ่มากก็ยังไม่ใช่อยู่ดี ถึงอย่างนั้น language model ก็ยังเป็นเทคโนโลยีที่มีประโยชน์มากและอาจพลิกโลกได้ การเรียก LLM ว่า AI เป็นทั้งการประเมินค่าสูงเกินไปและต่ำเกินไปพร้อมกัน มันไม่จำเป็นต้องน่าผิดหวังที่มันไม่ใช่ปัญญาประดิษฐ์ เพราะมันก็ยังเป็นเทคโนโลยีที่น่าทึ่งอยู่ดี
- คำนี้ทำให้เกิดความสับสน ในอดีต AI หมายถึง machine intelligence ทุกชนิด ไม่ว่าจะเป็น AI เล่นหมากรุกระดับพื้นฐาน ตัวจำแนกภาพ หรือ AI ของตัวละครในวิดีโอเกม แต่เดี๋ยวนี้หลายคนกลับมองว่า AI กับ AGI ซึ่งหมายถึงสติปัญญาระดับมนุษย์ เป็นสิ่งเดียวกัน
ตอนนี้ Nvidia กลายเป็นบริษัทที่มีมูลค่าตลาดสูงสุดไปแล้ว การพูดคุยเรื่อง AGI อย่างจริงจังจึงถูกกลบด้วย "hype train" ของเงินทุนมหาศาล มูลค่าของบริษัทที่เกี่ยวข้องจำนวนมากตั้งอยู่บนความเชื่อว่า AGI จะเกิดขึ้นในอนาคตอันใกล้ ถ้า AGI ดูใกล้เกินไป ก็จะเหมือนผู้นำปัจจุบันอาจกินรวบตลาดได้หมด แต่ถ้าดูไกลเกินไป การลงทุนและการใช้จ่ายก็อาจดูไม่ยั่งยืน
- มูลค่าที่แท้จริงของบริษัทอาจไม่ได้มาจากความคาดหวังเรื่อง AGI มากเท่าไร แต่พึ่งพาการที่บริษัทต่าง ๆ ทุ่มเงินกับเทคโนโลยี AI เพื่อประหยัดค่าแรงของพนักงานสายงานสำนักงานและกลุ่มชนชั้นกลางมากกว่า
- ต่อให้ไม่ใช่ AGI, แค่ AI ก็สามารถสร้างมูลค่าทางเศรษฐกิจมหาศาลได้แล้ว
- ใช่เลย เมื่อจับคู่กับ narrative ว่า AGI จะมาใน 5-10 ปี มันก็กลายเป็นการอ้างสงครามเทคโนโลยีกับจีนคล้ายการแข่งขันอวกาศ เพื่อผลักดันว่าจำเป็นต้องลงทุนระดับ "ล้านล้านดอลลาร์" ในปี 2024 ก็ยังมีข่าวแนวนี้ออกมาอยู่: https://www.cnbc.com/2024/02/09/openai-ceo-sam-altman-reportedly-seeking-trillions-of-dollars-for-ai-chip-project.html