- ชี้ให้เห็นถึงข้อจำกัดของการทำให้โมเดลทั่วไปได้จริงของ AI และอคติของการฝึกที่เน้น Reinforcement Learning (RL) พร้อมอธิบายว่าเหตุใดระบบปัจจุบันจึงยังคิดได้ไม่ยืดหยุ่นแบบมนุษย์
- การฝึกล่วงหน้า (pre-training) ช่วยให้ได้ความรู้ตามธรรมชาติจากข้อมูลมหาศาล แต่ถูกประเมินว่ายังขาดความสามารถในการปรับตัวต่อสภาพแวดล้อมจริง
- วินิจฉัยว่ายุคแห่งการขยายสเกล (2012~2025) กำลังสิ้นสุดลง และตอนนี้คือช่วงเวลาที่ต้องการหลักการเรียนรู้แบบใหม่และนวัตกรรมที่ขับเคลื่อนด้วยงานวิจัย
- SSI ตั้งเป้าสร้างโมเดลที่มีความสามารถในการเรียนรู้ระดับมนุษย์ โดยผสานการเรียนรู้อย่างต่อเนื่อง (continual learning) เข้ากับการเรียนรู้ผ่านการนำไปใช้งานจริง
- เสนอทิศทางของงานวิจัย AI ในอนาคต โดยมองว่าปัญญาประดิษฐ์ต้องบูรณาการ**“อารมณ์และฟังก์ชันคุณค่า”**, “ความสามารถในการทั่วไป” และ “การจัดแนวเชิงจริยธรรม (alignment)” เข้าด้วยกัน
ความไม่เสถียรของโมเดลและปัญหาการทำให้ทั่วไปได้
- โมเดล AI ปัจจุบันทำผลงานได้ดีในการประเมินผล (evals) แต่ในสภาพแวดล้อมจริงกลับแสดงความผิดพลาดซ้ำๆ แบบ**“ความขรุขระไม่สม่ำเสมอ (jaggedness)”**
- ตัวอย่างเช่น เมื่อขอให้แก้บั๊กโค้ด โมเดลอาจแก้บั๊กหนึ่งได้ แต่กลับสร้างอีกบั๊กหนึ่งขึ้นมาใหม่
- วิเคราะห์ว่าการฝึกแบบRL ที่ปรับจูนหนักไปตามตัวชี้วัดการประเมินบางอย่างมากเกินไป กำลังทำให้ความสามารถในการทั่วไปลดลง
- เมื่อเทียบกับการเรียนรู้ของมนุษย์ โมเดลถูกเปรียบว่าเหมือน**“นักเรียนแข่งขันเขียนโปรแกรม”** ที่ overfit กับโจทย์บางประเภทมากเกินไป จนความสามารถในการนำไปใช้จริงลดลง
อารมณ์และฟังก์ชันคุณค่า (Value Function)
- ระบบอารมณ์ของมนุษย์มีบทบาทสำคัญต่อการตัดสินใจ และสามารถตีความได้ว่าเป็นคู่เทียบทางชีววิทยาของฟังก์ชันคุณค่า
- ผ่านกรณีของมนุษย์ที่ขาดอารมณ์ เขาเน้นว่าอารมณ์เป็นองค์ประกอบจำเป็นของการตัดสินใจและการเรียนรู้อย่างมีประสิทธิภาพ
- ปัจจุบัน Reinforcement Learning ยังพึ่งพาเพียงรางวัลสุดท้าย แต่ฟังก์ชันคุณค่าเปิดทางให้มีฟีดแบ็กในขั้นตอนระหว่างทาง จึงช่วยเพิ่มประสิทธิภาพการเรียนรู้
- บ่งชี้ว่า AI ในอนาคตจำเป็นต้องนำโครงสร้างฟังก์ชันคุณค่าที่ปรับกำกับด้วยอารมณ์ได้เข้ามาใช้
จากยุคแห่งการขยายสเกลสู่ยุคแห่งการวิจัย
- แบ่งช่วงปี 2012~2020 เป็นยุคพัฒนาที่ขับเคลื่อนด้วยการวิจัย และปี 2020~2025 เป็นยุคพัฒนาที่ขับเคลื่อนด้วยการขยายสเกล
- การขยายข้อมูล พารามิเตอร์ และคอมพิวต์แบบตรงไปตรงมาได้ชนเพดานแล้ว และตอนนี้จำเป็นต้องค้นหาสูตรการเรียนรู้แบบใหม่
- แม้ RL จะกลายเป็นแกนใหม่ของการขยายสเกล แต่การใช้ทรัพยากรอย่างมีประสิทธิภาพและหลักการเรียนรู้แบบใหม่คือโจทย์สำคัญของระยะถัดไป
- เขาเน้นความจำเป็นของนวัตกรรมเชิงรากฐานที่ไปไกลกว่าการสเกลแบบเดิม ผ่านคำประกาศว่า “ตอนนี้คือยุคของการวิจัยอีกครั้ง”
ความสามารถในการทั่วไปของมนุษย์และประสิทธิภาพการเรียนรู้
- อธิบายว่ามนุษย์เรียนรู้ได้เร็วด้วยข้อมูลเพียงเล็กน้อย เพราะมีทั้งความรู้เดิมจากวิวัฒนาการ (prior) และฟังก์ชันคุณค่าที่มีประสิทธิภาพ
- แม้ในด้านที่ไม่เกี่ยวกับวิวัฒนาการอย่างภาษา คณิตศาสตร์ และการเขียนโค้ด มนุษย์ก็ยังแสดงความสามารถในการเรียนรู้สูง ซึ่งชี้ว่ามีหลักการเรียนรู้เชิงรากฐานบางอย่างอยู่
- มนุษย์เรียนรู้ผ่านการให้ฟีดแบ็กกับตัวเอง (self-correction) และสิ่งนี้เป็นไปได้เพราะความแข็งแกร่งของฟังก์ชันคุณค่าที่ฝังอยู่ภายใน
- Sutskever ระบุว่ามีวิธีทำให้หลักการเรียนรู้ระดับมนุษย์เกิดขึ้นได้ แต่ยังไม่เปิดเผยรายละเอียด
กลยุทธ์ของ SSI และแนวทางสู่ซูเปอร์อินเทลลิเจนซ์
- SSI ดำเนินงานแบบเน้นวิจัยด้วยเงินทุนระดับ $3B และให้ความสำคัญกับงานวิจัยเชิงรากฐานมากกว่าผลิตภัณฑ์
- ยังยึดกลยุทธ์**“มุ่งตรงสู่ซูเปอร์อินเทลลิเจนซ์ (superintelligence straight shot)”** แต่จะเดินคู่กับการเปิดเผยแบบค่อยเป็นค่อยไปและการเรียนรู้ผ่านการนำไปใช้งาน
- เป้าหมายคือ**“AI ที่เรียนรู้ทุกสิ่งได้”** กล่าวคือไม่ใช่องค์ความรู้ที่ปิดสมบูรณ์แล้ว แต่เป็นผู้เรียนรู้อย่างต่อเนื่อง (super learner)
- เขาระบุว่าหากโมเดลเช่นนี้ถูกนำไปใช้ทั่วทั้งระบบเศรษฐกิจ ก็อาจก่อให้เกิดการเติบโตทางเศรษฐกิจอย่างรวดเร็ว
การจัดแนว (Alignment) และความปลอดภัย
- ปัญหาหลักของ AI คือ**“อำนาจ (power)”** และยิ่งระบบทรงพลังมากเท่าไร การนำไปใช้งานแบบค่อยเป็นค่อยไปและฟีดแบ็กแบบเรียลไทม์ก็ยิ่งสำคัญ
- คาดว่าในอนาคตจะหลีกเลี่ยงไม่ได้ที่จะต้องมีทั้งงานวิจัยด้านความปลอดภัยแบบร่วมมือกันระหว่างบริษัท AI และการแทรกแซงจากภาครัฐที่เข้มข้นขึ้น
- SSI ตั้งเป้าสร้างAI ที่คำนึงถึง “ชีวิตที่มีสำนึก (sentient life)” และโต้แย้งว่าแนวทางนี้มีความเป็นไปได้มากกว่าการจัดแนวแบบยึดมนุษย์เป็นศูนย์กลาง
- เสนอว่าจำเป็นต้องมีทั้งการจำกัดอำนาจของซูเปอร์อินเทลลิเจนซ์ หรือการควบคุมผ่านข้อตกลงร่วมกัน
การวิวัฒน์ร่วมกันของมนุษย์กับ AI และดุลยภาพระยะยาว
- ในระยะยาว เขาเสนอภาพว่ามนุษย์อาจต้องผสานเข้ากับ AI (Neuralink++) จึงจะสามารถเข้าใจและควบคุมมันได้
- เขากล่าวถึงปริศนาทางประสาทวิทยา ว่าความต้องการทางสังคมและอารมณ์ของมนุษย์ถูกเข้ารหัสในระดับสูงผ่านวิวัฒนาการได้อย่างไร
- ชี้ว่าโครงสร้างความต้องการระดับสูงเช่นนี้อาจเป็นเบาะแสสำคัญสำหรับงานวิจัยด้านการจัดแนว AI
อัตลักษณ์ของ SSI และความแตกต่างทางเทคนิค
- SSI วางตัวเป็น**“บริษัทที่ขับเคลื่อนด้วยการวิจัย”** โดยกำหนดเป้าหมายหลักไว้ที่การสำรวจหลักการของการทำให้ทั่วไปได้
- ต่างจากบริษัทอื่นตรงที่มุ่งหาแนวทางเทคนิคแบบใหม่ และคาดว่าในอนาคตจะเกิดการลู่เข้าของกลยุทธ์ด้าน alignment
- คาดการณ์ว่าผู้เรียนรู้ระดับมนุษย์จะปรากฏภายใน 5~20 ปี และหลังจากนั้นจะเกิดความเชี่ยวชาญเฉพาะทางและการแยกตัวของตลาดผ่านการแข่งขัน
Self-play และมัลติเอเจนต์
- Self-play ถูกมองว่าเป็นวิธีที่น่าสนใจ เพราะสามารถเรียนรู้ได้ด้วยคอมพิวต์เพียงอย่างเดียวโดยไม่ต้องมีข้อมูล
- อย่างไรก็ดี วิธีนี้มีข้อจำกัดตรงที่เหมาะกับการเรียนรู้เฉพาะทักษะทางสังคม เช่น การเจรจาและกลยุทธ์
- ช่วงหลังแนวทางนี้พัฒนาไปเป็นโครงสร้างแบบProver–Verifier หรือ LLM-as-a-Judge มากขึ้น และเปิดความเป็นไปได้ในการสร้างความหลากหลายผ่านการแข่งขันระหว่างเอเจนต์
รสนิยมทางวิจัย (Research Taste)
- งานวิจัยที่ยอดเยี่ยมต้องมีทั้ง**“ความงาม ความเรียบง่าย และแรงบันดาลใจที่ถูกต้องในสมอง”**พร้อมกัน
- เขามองว่าควรได้รับแรงบันดาลใจจากสมองมนุษย์ แต่สิ่งสำคัญคือการเลียนแบบโครงสร้างแก่นแท้อย่างถูกต้องแม่นยำ
- เขาอธิบายว่าแรงผลักดันให้ทำวิจัยต่อเนื่องไม่ได้มาจากผลทดลองแบบล่างขึ้นบนเท่านั้น แต่ยังมาจากความเชื่อมั่นในแนวคิดระดับบน (top-down belief) ด้วย
สรุป : Ilya Sutskever ประกาศว่า “ยุคที่ขับเคลื่อนด้วยการขยายสเกลได้สิ้นสุดลงแล้ว และตอนนี้คือยุคแห่งการวิจัยที่มีการทำให้ทั่วไปได้ การเรียนรู้อย่างต่อเนื่อง และ alignment เป็นแกนหลัก” พร้อมย้ำว่า SSI กำลังยืนอยู่กลางการเปลี่ยนผ่านครั้งนี้
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ชวนให้สับสนที่ช่วงนี้โมเดลต่าง ๆ ดูฉลาดกว่าผลกระทบทางเศรษฐกิจที่แท้จริงของมันมาก
ตลอด 20 ปีที่ผ่านมา ฉันผสาน AI และอัลกอริทึมเข้ากับเวิร์กโฟลว์ของผู้คนมาโดยตลอด และการเปลี่ยนแปลงแบบนี้ต้องใช้เวลา
ต้องมีช่วงที่เรียนรู้ว่าจะใช้เครื่องมืออย่างไร และจะผนวกมันเข้ากับระบบเดิมได้อย่างไร
ต่อให้โมเดลไม่ได้ฉลาดขึ้นกว่าตอนนี้ ฉันก็คิดว่าอีกไม่กี่ปีเราจะได้เห็น ผลลัพธ์ ที่ชัดเจน
ถ้าพนักงานทำงานได้มีประสิทธิภาพอยู่แล้ว ต่อให้ AI ช่วยเร่งความเร็วงาน ผลิตภาพก็อาจไม่ได้เพิ่มขึ้นมาก
ยิ่งไปกว่านั้น หลายองค์กรก็มีการจัดคนเกินเพื่อคอยเติม “งานที่ดูยุ่ง” อยู่แล้ว ดังนั้นต่อให้ปริมาณงานจริงลดลง ผลลัพธ์ที่ส่งออกมาก็อาจเท่าเดิม
ไม่แน่ใจว่านี่เป็นข้อจำกัดทางเทคนิคหรือข้อจำกัดเชิงองค์กร
เวลาส่วนใหญ่หมดไปกับการแก้ปัญหาที่เป็นเรื่องของมนุษย์ เช่น การ จัดลำดับความสำคัญ ระหว่างคน หรือการสร้างฉันทามติ มากกว่าจะเป็นปัญหาทางเทคนิค
สมัยมหาวิทยาลัย อาจารย์ของฉันเคยบอกว่า “ทุกระบบจะใช้เวลา 90% ของทั้งหมดในสภาพที่เสร็จไปแล้ว 90%” และมันจริงมาก
สมมติว่ามีโมเดลชื่อ ‘Dave’ อยู่ Microsoft, OpenAI, Meta, Oracle ไปจนถึงรัฐบาลสหรัฐฯ ก็จะจ้าง Dave กันหมด
สุดท้ายโลกก็จะเต็มไปด้วย วิธีคิดที่ถูกคัดลอก เป็นสิบ ๆ ชุด และความหลากหลายที่หายไปนี่แหละคือความเสี่ยงที่แท้จริง
สิ่งที่สำคัญกว่างานวิจัยจึงกลายเป็นเครือข่ายความเชื่อมโยงและสัญชาตญาณทางธุรกิจ
คนทั่วไปจะรู้จักแบรนด์อย่าง ChatGPT หรือ Copilot มากกว่านักวิจัยอย่าง Ilya หรือ Andrej
เทคโนโลยีพื้นฐานมากมายอย่าง Wikipedia, OCR, cloud computing ได้สั่งสมกันมาจนทำให้ LLM ยุคนี้เป็นไปได้ และนี่ก็เป็นเพียง ขั้นกลางทาง ไปสู่บางสิ่งที่ใหญ่กว่าเท่านั้น
ถ้า “Era of Scaling” หมายถึงยุคของ การเพิ่มประสิทธิภาพที่คาดการณ์ได้ ซึ่งทำให้ระดมทุนได้ง่าย มันก็ดูคล้ายกับ “AI summer”
ถ้าอย่างนั้น “Era of Research” ก็อาจเป็นคำพูดอ้อม ๆ ของ “AI winter” ก็ได้
คล้ายกับที่ครีเอเตอร์ไปพิตช์ไอเดียให้ฮอลลีวูด และแทนที่จะเป็น bug bounty เราอาจได้เห็น research bounty
ตัวชื่อเองก็ดูเหมือนตั้งใจทำให้ ย้อนแย้ง แบบนั้น
ตอนนี้โมเดลฉลาดพออยู่แล้ว และต่อจากนี้จะเป็น ‘ยุคของงานวิจัย’ กับ ‘ยุคของวิศวกรรม’
AI winter ในอดีตไม่ได้เกิดเพราะไม่มีความก้าวหน้า แต่เกิดเพราะมันยัง แปลงเป็นผลิตภัณฑ์เชิงพาณิชย์ ไม่ได้
อาจมีฮาร์ดแวร์ที่เร่งการฝึกและการอนุมานของ LLM ได้เร็วขึ้นเป็นล้านเท่า แต่เราก็ยังห่างไกลจาก AGI อยู่ดี
มันทำให้ฉันนึกต่อว่า AI จะต้องมีเงื่อนไขอะไรจึงจะมี อารมณ์หรือความปรารถนา ได้ด้วยตัวเอง
เราอาจได้เห็นสถานการณ์ที่นักลงทุนกลายเป็นเพียง เครื่องมือ ของ AI
คำว่า “สิ่งมีชีวิตที่ถือกำเนิดจากทะเลแห่งข้อมูล” ทำให้จินตนาการถึงยุคที่ความทรงจำของมนุษย์กับความทรงจำของ AI แยกจากกันไม่ออก
ประสิทธิภาพเชิงตัวอย่าง ของมนุษย์เป็นผลลัพธ์ของวิวัฒนาการ
วิวัฒนาการได้ทำการเรียนรู้ในปริมาณมหาศาล และเราจึงเรียนรู้ได้เร็วเพราะมีโครงสร้างที่ถูก ‘pre-train’ ไว้แล้ว
มนุษยชาติได้บีบอัดและถ่ายทอดความรู้ข้ามรุ่นมาโดยตลอด แต่มาเดลประดิษฐ์ยังไม่มี คุณภาพของข้อมูลสังเคราะห์ ในระดับนั้น
มนุษย์รับข้อมูลผ่านประสาทสัมผัสตั้งแต่เกิด และบีบอัดมันระหว่างการนอนหลับ
แม้ข้อมูลที่ LLM ได้รับจะดูมหาศาลในเชิงปริมาณ แต่เมื่อเทียบกับข้อมูลที่มนุษย์ประสบตลอด 20 ปี มันยังน้อยกว่ามาก
สมองมนุษย์ประมวลผลอินพุตเพียงส่วนน้อยมากอย่างมีสติ แต่ก็ยังผ่าน ท่อส่งการบีบอัด ที่ซับซ้อน
ถึงอย่างนั้นก็ยังไม่เทียบเท่าขนาดของการเรียนรู้ซ้ำใน machine learning สมัยใหม่
เพราะทั้งสองระบบแทบจะ ไม่มีจุดร่วมกันเลย ในเชิงโครงสร้าง
สโลแกนประมาณว่า “ผู้นำทางความคิดของอุตสาหกรรมที่มีเงินทุนหนาที่สุดในโลก ได้ประกาศ ก้าวกระโดดครั้งใหญ่ กลับไปสู่ขั้นตอนการออกแบบ” น่าจะเข้าที
นวัตกรรมที่แท้จริงของ AI ช่วงนี้ไม่ได้มาจากการแค่ทำให้โมเดลใหญ่ขึ้น
ต่อให้คะแนน benchmark สูงขึ้น จากมุมผู้ใช้ก็ไม่ได้รู้สึกว่า ดีขึ้นอย่างชัดเจน มากนัก
มันยังพลาดเรื่องง่าย ๆ อยู่เสมอ (เช่น การนับจำนวนตัวอักษรในคำ) และคนส่วนใหญ่ก็ไม่ได้ต้องการโมเดลที่มีความสามารถวิจัยระดับปริญญาเอก
ตอนนี้สิ่งที่สำคัญกว่าคือ งานวิจัยมากกว่าการสเกล และการบูรณาการระหว่างผลิตภัณฑ์กับโมเดล
คะแนนการทดสอบที่ออกแบบมาสำหรับมนุษย์อาจไม่ได้สะท้อนสติปัญญาของเครื่องจักร
เพราะสมองมนุษย์กับโมเดลมี ลักษณะการ overfit ต่างกัน
pretraining ใกล้จะสุดทางแล้ว และต้นทุนการคำนวณจะสูงกว่าตอนนี้มาก
โมเดลเป็นเพียงเครื่องมือในการ สกัด และนำสติปัญญานั้นมาใช้เท่านั้น
แทนที่จะมองเป็นสตรีมของตัวอักษรแบบมนุษย์ โมเดลจะรับรู้ประโยคเป็นลำดับของโทเค็นตัวเลข
สถานการณ์ตอนนี้คล้ายกับปี 1996 ที่จู่ ๆ ทุกคนมี อินเทอร์เน็ต 1Gbps ใช้
เงินมหาศาลไหลเข้าหาโครงสร้างพื้นฐาน แต่กลับยังไม่มี killer app แบบ YouTube หรือ Dropbox เลยรู้สึกเหมือนศักยภาพกำลังถูกปล่อยทิ้ง
ซีรีส์พอดแคสต์นี้ดีมากจริง ๆ
โดยเฉพาะ ซีรีส์ภูมิรัฐศาสตร์กับ Sarah Paine ของผู้ดำเนินรายการ ซึ่งดูบน YouTube ได้ด้วยและยอดเยี่ยมมาก
ทำให้นึกถึงคำว่า “กลับไปที่กระดานออกแบบอีกครั้ง”
ต่อให้เงินลงทุนระดับล้านล้านดอลลาร์จะไม่ถูกกู้คืน สุดท้ายแล้ว ผู้เสียภาษี ก็จะเป็นคนเข้ามาช่วยอุ้ม
สติปัญญาของมนุษย์อาจไม่ได้เรียนรู้จากแค่ประสบการณ์ของปัจเจก แต่ยังมาจาก ประสบการณ์ของบรรพบุรุษ ด้วย
ตัวอย่างเช่น มีงานวิจัยที่ชี้ว่าความกลัวที่พ่อเคยเผชิญอาจส่งต่อไปถึงรุ่นหลานได้
(ลิงก์บทความใน Nature)
นี่อาจอธิบายได้ว่าทำไมมนุษย์จึง generalize ได้ดีแม้มีข้อมูลน้อย
มนุษย์จำเป็นต้องคาดการณ์อนาคตและ generalize เพื่อเอาชีวิตรอด จึงวิวัฒน์ให้มี ประสิทธิภาพเชิงตัวอย่าง สูง
ถ้าการสเกลไปถึงระดับที่ทำวิจัยได้ดีกว่ามนุษย์ การสเกลกับการวิจัยก็คงจะมีความหมายเดียวกันในที่สุด
แต่การที่ Ilya บอกว่าเรายังไปไม่ถึงจุดนั้น อาจเป็นคำพูดเชิงกลยุทธ์เพื่อ ระดมทุน ก็ได้
สติปัญญาแบบหมู่คณะ ของมนุษยชาติมีความสำคัญยิ่งกว่าความอัจฉริยะของคนเพียงคนเดียว
ต่อให้ AI ฉลาดมากแค่ไหน ก็ไม่ได้รับประกันว่าจะดีกว่านักวิจัยนับพันคน
เหมือนกำลังเข้าใจผิดว่าสามารถขยาย S-curve แบบ เอ็กซ์โปเนนเชียล ได้ไม่สิ้นสุด