ปาฐกถา NeurIPS ของ Ilya Sutskever: ย้อนมอง seq2seq ครบ 10 ปี [วิดีโอ]

(youtube.com)

1 คะแนน โดย GN⁺ 2024-12-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Ilya Sutskever ย้อนมอง Sequence to Sequence Learning with Neural Networks จากงาน NeurIPS 2014 หลังผ่านไป 10 ปี โดยสรุปจุดเริ่มต้นของกระแสโมเดลภาษาขนาดใหญ่ในปัจจุบันว่าเกิดจากโมเดลข้อความแบบอัตโนมัติถดถอย เครือข่ายประสาทขนาดใหญ่ และชุดข้อมูลขนาดใหญ่
สมมติฐานที่กล้าหาญในเวลานั้นคือ หากเครือข่ายประสาททำนายโทเค็นถัดไปได้ดีพอ ก็จะสามารถจับ การกระจายที่ถูกต้อง ของลำดับได้ และนำแนวคิดนี้ไปใช้กับโจทย์การแปลภาษา
การใช้งานจริงอิงกับ LSTM และการทำไปป์ไลน์บน GPU 8 ตัว ซึ่งให้ความเร็วเพิ่มขึ้น 3.5 เท่า แต่เมื่อมองจากมาตรฐานปัจจุบัน เขาประเมินว่าการทำไปป์ไลน์ไม่ใช่ทางเลือกที่ดีนัก
ยุคของ pretraining ที่ต่อเนื่องมาถึง GPT-2, GPT-3 และ scaling laws นั้นหลีกเลี่ยงไม่ได้ที่จะสิ้นสุดลงเพราะข้อจำกัดของข้อมูลอินเทอร์เน็ต และเขามองว่าเราได้มาถึง peak data แล้ว
ขั้นต่อไปจะเชื่อมไปสู่เอเจนต์ ข้อมูลสังเคราะห์ การคำนวณตอนอนุมาน และกรณีเริ่มต้นอย่าง o1 และในระยะยาวอาจเกิด ระบบที่แตกต่างเชิงคุณภาพ ซึ่งมีความสามารถในการให้เหตุผลมากขึ้นและอาจมีการตระหนักรู้ในตนเองด้วย

ย้อนมองงานวิจัย seq2seq ปี 2014 หลังผ่านไป 10 ปี

Sequence to Sequence Learning with Neural Networks ซึ่งนำเสนอที่ NeurIPS 2014 ในมอนทรีออล กลายเป็นหัวข้อสำหรับการย้อนมองหลังผ่านไป 10 ปี
Sutskever กล่าวขอบคุณผู้ร่วมเขียนและผู้ร่วมงานในเวลานั้น พร้อมกลับไปดูสไลด์เมื่อ 10 ปีก่อนอีกครั้งเพื่อตรวจสอบว่าอะไรถูกต้อง และอะไรที่ไม่ตรงนัก
แก่นของงานวิจัยสรุปได้เป็น 3 ข้อ
- โมเดลอัตโนมัติถดถอย ที่ฝึกกับข้อความ
- เครือข่ายประสาทขนาดใหญ่
- ชุดข้อมูลขนาดใหญ่

แนวคิดหลักและการใช้งานจริงในเวลานั้น

การนำเสนอในปี 2014 มี Deep Learning Hypothesis รวมอยู่ด้วย
- เป็นสมมติฐานว่าเครือข่ายประสาทขนาดใหญ่ลึก 10 ชั้นสามารถทำสิ่งที่มนุษย์ทำได้ภายในเวลาไม่ถึง 1 วินาที
- เหตุผลตั้งอยู่บนแนวคิดว่านิวรอนเทียมกับนิวรอนชีวภาพมีความคล้ายกันอยู่พอสมควร และนิวรอนจริงทำงานช้า
- เนื่องจากตอนนั้นเครือข่ายประสาทที่ฝึกได้มีความลึกราว 10 ชั้น จึงมุ่งเน้นไปที่ “สิ่งที่มนุษย์ทำได้อย่างรวดเร็วมาก”
อีกแนวคิดสำคัญคือ หากโมเดลอัตโนมัติถดถอยทำนายโทเค็นถัดไปได้ดีพอ ก็จะสามารถจับ การกระจายที่แม่นยำ ของลำดับต่อเนื่องได้
- แม้จะไม่ใช่เครือข่ายประสาทแบบอัตโนมัติถดถอยตัวแรกโดยสมบูรณ์ แต่ถูกนำเสนอว่าเป็นหนึ่งในกรณียุคต้น ๆ ที่เชื่ออย่างแรงกล้าว่าหากฝึกได้ดี ก็จะได้ผลลัพธ์ตามต้องการ
- ตอนนั้นโจทย์คือการแปลภาษา ซึ่งเมื่อมองจากปัจจุบันอาจดูถ่อมตัว แต่ในเวลานั้นถือเป็นเป้าหมายที่กล้าหาญมาก
การใช้งานจริงใช้ LSTM
- Sutskever อธิบาย LSTM ว่าเป็นสถาปัตยกรรมที่นักวิจัยดีปเลิร์นนิงใช้กันก่อนยุค Transformer
- เขาเปรียบ LSTM ว่าใกล้เคียงกับ “ResNet ที่หมุน 90 องศา” และมองว่ามันมีทั้งตัวอินทิเกรตและโครงสร้างการคูณที่ปัจจุบันเราเรียกว่า residual stream
การขนานการฝึกใช้วิธี ไปป์ไลน์ โดยวางหนึ่งเลเยอร์ต่อหนึ่ง GPU
- ใช้ GPU 8 ตัวแล้วได้ความเร็วเพิ่มขึ้น 3.5 เท่า
- จากมุมมองปัจจุบัน การทำไปป์ไลน์ไม่ใช่วิธีที่ฉลาดนัก แต่ในเวลานั้นก็เป็นแนวทางที่เลือกใช้

ยุคของการสเกลลิง การเชื่อมโยงนิยม และ pretraining

สไลด์สรุปในปี 2014 อาจมองได้ว่าเป็นจุดเริ่มต้นของ scaling hypothesis
- ภายในนั้นมีแนวคิดว่าหากฝึกเครือข่ายประสาทที่ใหญ่มากกับชุดข้อมูลที่ใหญ่มาก ความสำเร็จจะเกิดขึ้นอย่างแน่นอน
- Sutskever ประเมินว่า หากมองอย่างเผื่อเหลือเผื่อขาด เหตุการณ์ต่าง ๆ ก็พัฒนาไปในทิศทางนั้นจริง
อีกแนวคิดที่ยืนยาวกว่าคือ connectionism
- หากเชื่อว่านิวรอนเทียมคล้ายกับนิวรอนชีวภาพในระดับหนึ่ง ก็จะทำให้มีความมั่นใจว่าแม้ไม่ต้องขยายเครือข่ายประสาทให้ใหญ่เท่าสมองมนุษย์ ก็ยังสามารถสร้างระบบที่ทำสิ่งเกือบทั้งหมดที่มนุษย์ทำได้
- แต่เขาก็กล่าวว่าสมองมนุษย์มีความสามารถในการจัดระเบียบตัวเองใหม่ และอัลกอริทึมการฝึกในปัจจุบันยังต้องการจุดข้อมูลจำนวนมากพอ ๆ กับจำนวนพารามิเตอร์ ดังนั้นในแง่นี้มนุษย์ยังดีกว่าอยู่
กระแสนี้นำไปสู่ ยุคของ pretraining
- GPT-2, GPT-3 และ scaling laws ถูกยกเป็นตัวอย่างสำคัญ
- เขาระบุว่าอดีตผู้ร่วมงานอย่าง Radford, Kaplan และ Dario Amodei มีส่วนช่วยทำให้ทิศทางนี้ใช้งานได้จริง
- แรงขับของความก้าวหน้าในปัจจุบันอยู่ที่การฝึกเครือข่ายประสาทขนาดมหึมากับชุดข้อมูลขนาดมหึมา

ทิศทางหลังยุค pretraining

Sutskever มองว่า pretraining จะต้องสิ้นสุดลงอย่างแน่นอน
- ฮาร์ดแวร์ อัลกอริทึม และคลัสเตอร์ยังสามารถเพิ่มคอมพิวต์ได้ต่อไป
- แต่ข้อมูลต้องพึ่งพาอินเทอร์เน็ตเดียว และอินเทอร์เน็ตก็มีอยู่เพียงหนึ่งเดียว
- เขาเปรียบข้อมูลว่าเป็นเชื้อเพลิงฟอสซิลของ AI และบอกว่าเราได้มาถึง peak data แล้ว จึงต้องรับมือด้วยข้อมูลที่มีอยู่ในตอนนี้
หลังยุค pretraining มีหลายทิศทางที่ถูกพูดถึง
- เอเจนต์: แนวคิดที่มักถูกกล่าวถึงในฐานะทิศทางแห่งอนาคต
- ข้อมูลสังเคราะห์: แม้แต่ความหมายของมันเองก็ยังเป็นโจทย์ใหญ่
- คอมพิวต์ตอนอนุมาน: ทิศทางที่เห็นชัดขึ้นในช่วงหลังจากโมเดลอย่าง o1
ตัวอย่างจากชีววิทยากล่าวถึงความสัมพันธ์ระหว่างขนาดร่างกายกับขนาดสมองของสัตว์เลี้ยงลูกด้วยนม
- สัตว์เลี้ยงลูกด้วยนมและไพรเมตที่ไม่ใช่มนุษย์มีความสัมพันธ์คล้ายกัน แต่ hominids มีความชันของเลขชี้กำลังการสเกลระหว่างสมองกับร่างกายต่างออกไป
- ความแตกต่างนี้ปรากฏในกราฟที่แกน x และ y เป็นสเกลลอการิทึม
- เขามองว่าในชีววิทยาเองก็มีตัวอย่างของการค้นพบการสเกลคนละแบบ และสิ่งที่ AI สเกลมาจนถึงตอนนี้ก็เป็นเป้าหมายแรกที่เราได้ค้นพบวิธีการสเกลมัน

ปัญญาเหนือมนุษย์ การให้เหตุผล และระบบที่ต่างออกไปเชิงคุณภาพ

ในระยะยาว สาขานี้กำลังมุ่งสู่ ปัญญาเหนือมนุษย์
- โมเดลภาษาและแชตบอตในปัจจุบันน่าทึ่งมาก แต่ในขณะเดียวกันก็ดูไม่น่าเชื่อถืออย่างประหลาดและยังสับสนได้
- ในการประเมินบางอย่างพวกมันกลับแสดงสมรรถนะเหนือมนุษย์อย่างมาก ทำให้ยากจะประสานภาพทั้งสองด้านเข้าด้วยกัน
ระบบในอนาคตอาจแตกต่างจากปัจจุบันในเชิงคุณภาพ
- เขาคาดว่ามันจะมีความเป็น เอเจนต์ อย่างแท้จริง
- ระบบปัจจุบันยังไม่ใช่เอเจนต์ในระดับที่มีความหมาย และถูกประเมินว่าเพิ่งเริ่มต้นอย่างอ่อนมากเท่านั้น
- เขามองว่ามันจะมีความสามารถในการให้เหตุผล เข้าใจจากข้อมูลที่จำกัด และไม่สับสนง่าย
การให้เหตุผลเพิ่มความคาดเดาไม่ได้
- ดีปเลิร์นนิงแบบเดิมใกล้เคียงกับการเลียนแบบสัญชาตญาณของมนุษย์ เช่น การตอบสนองใน 0.1 วินาที จึงคาดเดาได้มากกว่า
- ระบบที่ให้เหตุผลจะยิ่งคาดเดาไม่ได้มากขึ้นเมื่อมันให้เหตุผลมากขึ้น
- เขายกตัวอย่างว่า AI หมากรุกที่แข็งแกร่งนั้นคาดเดาไม่ได้แม้แต่สำหรับนักหมากรุกมนุษย์ที่เก่งที่สุด
การตระหนักรู้ในตนเอง ก็อยู่ในขอบเขตความเป็นไปได้
- เพราะตัวตนของระบบเองเป็นส่วนหนึ่งของแบบจำลองโลก จึงมองว่า self-awareness มีประโยชน์
- เมื่อองค์ประกอบเหล่านี้รวมกัน ก็อาจกลายเป็นระบบที่มีคุณสมบัติและความสามารถแตกต่างโดยพื้นฐานจากระบบที่มีอยู่ในปัจจุบัน
- ปัญหาที่เกิดขึ้นจากระบบเช่นนั้นอาจแตกต่างอย่างมากจากปัญหาที่เราคุ้นเคยในตอนนี้ และอนาคตก็คาดเดาได้ยากจริง ๆ

ประเด็นจากช่วงถามตอบ

สำหรับ AI ที่ได้แรงบันดาลใจจากชีววิทยา เขาตอบว่าหากใครมีมุมมองเชิงลึกที่เฉพาะเจาะจง ก็เป็นสิ่งที่ควรค่าแก่การทำ
- เขามองว่าแรงบันดาลใจทางชีววิทยาที่ประสบความสำเร็จจนถึงตอนนี้อยู่ในระดับที่จำกัดมาก คือแค่ “ลองใช้นิวรอนกันเถอะ”
- แรงบันดาลใจทางชีววิทยาที่ละเอียดกว่านั้นได้มายาก แต่หากมีมุมมองพิเศษก็อาจเป็นประโยชน์
เมื่อถูกถามว่าโมเดลที่ให้เหตุผลจะสามารถแก้อาการหลอนได้ด้วยตัวเองหรือไม่ เขาตอบว่ามีความเป็นไปได้สูงมาก
- ในระยะยาว เขาเห็นด้วยกับแนวทางที่ว่าโมเดลสามารถเข้าใจและแก้ไขการเกิดอาการหลอนได้ผ่านการให้เหตุผล
- และก็ไม่ตัดความเป็นไปได้ว่าบางสิ่งเช่นนั้นอาจเริ่มเกิดขึ้นแล้วในโมเดลให้เหตุผลยุคแรกบางตัว
- แต่เขามองว่าการเรียกสิ่งนี้ว่า autocorrect เป็นคำที่ลดทอนขนาดความเปลี่ยนแปลงลงมากเกินไป
สำหรับเรื่องสิทธิของ AI การอยู่ร่วมกัน และโครงสร้างแรงจูงใจ เขาหลีกเลี่ยงการให้คำตอบชัดเจน
- หาก AI อยู่ร่วมกับมนุษย์และต้องการสิทธิ ก็อาจเป็นผลลัพธ์ที่ไม่เลว
- แต่เขาเสริมว่าสถานการณ์คาดเดาได้ยากมาก จึงพูดอย่างมั่นใจได้ลำบาก
เมื่อถูกถามว่า LLM ทำ multi-hop reasoning แบบทั่วไปออกนอกการกระจายข้อมูลได้หรือไม่ เขามองว่าไม่อาจตอบแบบใช่หรือไม่ใช่ง่าย ๆ
- ตัวคำว่า “อยู่ในกระจายข้อมูล” และ “อยู่นอกการกระจายข้อมูล” เองก็เป็นปัญหาว่าหมายถึงอะไร
- ในยุค machine translation แบบสถิติ หากไม่ใช่วลีเดียวกับในชุดข้อมูลก็ถือว่าเป็นการทั่วไปแล้ว แต่ปัจจุบันเรากลับต้องถกกันว่าความคล้ายกันระหว่างโจทย์คณิตศาสตร์แข่งขันกับการถกเถียงบนอินเทอร์เน็ตนั้นเป็นการท่องจำหรือการทั่วไป
- เกณฑ์ของการทั่วไปสูงขึ้นมาก และแม้มนนุษย์จะทั่วไปได้ดีกว่า แต่เขาก็ตอบว่า LLM เองก็มีการทั่วไปออกนอกการกระจายข้อมูลได้ในระดับหนึ่ง

1 ความคิดเห็น

GN⁺ 2024-12-15

ความคิดเห็นบน Hacker News

งานนำเสนอนี้รู้สึกว่า ไม่ค่อยมีเนื้อสาร เท่าไร
เท่าที่จำได้ด้วยหัวที่ล้า ๆ ใจความคือสรุป 10 ปีที่ผ่านมา, พูดว่าพอใช้ข้อมูลที่มีอยู่ได้เกือบหมดแล้ว เราก็เข้าใกล้ขีดจำกัดของ scaling laws, และขั้นต่อไปอาจเป็นเอเจนต์·ข้อมูลสังเคราะห์·การปรับปรุงด้านการคำนวณ
นอกนั้นแทบจะเป็นการเอาเรื่องเปรียบเทียบโครงข่ายประสาทเทียมกับโครงข่ายประสาทชีวภาพมาเล่าใหม่ เช่น ความสัมพันธ์เชิงบวกระหว่างน้ำหนักตัวกับมวลสมอง แต่ไม่ค่อยเห็นประเด็นที่ชัดเจน
คำถามก็มีเรื่องโมเดลรู้ตัวเองได้ไหมว่ากำลัง hallucinate, คำถามเกี่ยวกับคริปโตเคอร์เรนซี, และเรื่อง multi-hop reasoning ที่น่าสนใจนิดหน่อย
- ผมฟังในงาน ต้องมีบริบทประกอบ เขาถูกเชิญมาในซีรีส์บรรยาย test of time จึงอธิบายได้ว่าทำไมส่วนประวัติศาสตร์ถึงยาว
  ดูเหมือนนิสัยของ Ilya และความเชื่อมโยงกับ AI จะนำไปสู่การคาดเดาแบบหลวม ๆ ในช่วงท้าย
  เขาดูอยากพูดถึงหัวข้อเชิงคาดการณ์ในอนาคตที่ค่อนข้างไกล แต่ก็ป้องกันตัวด้วยทำนองว่า “ผมไม่บอกว่าเมื่อไรหรืออย่างไร แต่มันจะเกิดขึ้น” ทำให้โต้แย้งได้ยาก
  วิธีแบบนี้ดึงดูดคนแปลก ๆ ได้ง่าย เหมือนคำถามคริปโตในตอนท้าย และงานนำเสนอก่อนหน้าที่พูดถึงอิทธิพลของ GAN ก็ไม่ได้หลุดจากหัวข้อเซสชัน
- แก่นน่าจะคือ “เราไม่อาจคาดหวังได้อีกแล้วว่าการฝึกโมเดลมิติใหญ่ขึ้นด้วยกองข้อมูลอินเทอร์เน็ตที่ใหญ่ขึ้นจะทำให้ความสามารถดีขึ้นเรื่อย ๆ”
  เป็นประโยคเดียวแต่สำคัญพอสมควร และแม้หลายคนจะรู้อยู่แล้ว การที่ Sutskever พูดเอง ก็มีความหมายในแง่ที่ทำให้กลายเป็นความเข้าใจร่วมกัน
  ที่เหลือแทบจะเป็นบทนำกับบทส่งท้าย
- แปลกใจที่ไม่มีใครสรุปวิดีโอด้วย LLM แล้วเอามาโพสต์เป็นคอมเมนต์พร้อมข้อความเตือน
- ต่อให้เป็นสมองที่ยอดเยี่ยมแค่ไหน ก็คงยากที่จะปล่อย เนื้อหาลึกซึ้ง ออกมาได้เสมอทุกครั้งที่ถูกขอ
- คำถามดูเหมือนสัญญาณเตือนใหญ่ ๆ คำถามหลวม ๆ อย่างคริปโต, สิทธิมนุษยชนของ AI, “การแก้อัตโนมัติ” สำหรับ AI และแม้คนที่ถามในคอนเฟอเรนซ์จะเป็นกลุ่มที่แปลกอยู่แล้ว แต่ก็รู้สึกว่าตอนนี้แวดวง AI มี ผู้เข้าร่วมที่มีกลิ่นอายหลอกลวง มากเกินไปจนอาจกลบงานวิจัยจริงได้
  ผู้มีส่วนสนับสนุนหลักส่วนใหญ่ก็เป็นเศรษฐีที่มีสัญญาร่ำรวยอยู่แล้ว ส่วนสถาบันวิจัยและภาควิชาต่าง ๆ ก็ระดมทุนก้อนใหญ่ได้ด้วยหัวข้องานวิจัย AI
  ตลอด 10 ปีข้างหน้าอาจมีเงินให้ใช้กับข้อมูลสังเคราะห์, เอเจนต์, และปัญหาทำให้ภาพที่สร้างอัตโนมัติไม่โชว์หน้าอก แต่ดูไม่น่าจะมีความก้าวหน้าพื้นฐานมากนัก
  /remindme 10 years
จุดสำคัญคือส่วนที่ Sutskever บอกว่า “การ pre-training ในรูปแบบที่เรารู้จักจะสิ้นสุดลงอย่างไม่ต้องสงสัย” และ “เราแตะจุดสูงสุดของข้อมูลแล้ว ไม่มีมากกว่านี้อีก”
ยังมีอุปมาว่าอินเทอร์เน็ตเป็นทรัพยากรจำกัดเหมือนน้ำมัน เพราะคอนเทนต์ที่มนุษย์สร้างขึ้นมีจำนวนจำกัด
ถ้าอย่างนั้นอะไรจะมาแทนข้อมูลอินเทอร์เน็ต? จะเป็นชุดข้อมูลสังเคราะห์ที่คัดสรรแล้วหรือไม่?
ยังมีชุดข้อมูลกรรมสิทธิ์ขนาดใหญ่ที่ไม่ค่อยถูกใช้ฝึกเพราะกังวลเรื่องลิขสิทธิ์ แต่ถ้าเป็นเจ้าของข้อมูลนั้นจริง ๆ ปัญหาทางกฎหมายก็ลดลงมาก
เช่น Getty มีคลังภาพขนาดมหึมา ถ้าคนอื่นเอาไปฝึกก็เสี่ยงถูกฟ้อง แต่ถ้า Getty ฝึก AI ของตัวเอง เรื่องก็อีกแบบ
กรณี News Corp ฝึก AI ด้วยสินทรัพย์สื่อสิ่งพิมพ์อย่าง Wall Street Journal, HarperCollins ก็คล้ายกัน
- ผมคิดว่าเพราะที่อย่าง Meta หรือ Google เข้าถึงข้อมูลเพิ่มเติมได้ แม้จะไม่ใช่สถานการณ์ที่มีข้อมูลเหลือเฟือสำหรับทุกคน แต่สำหรับพวกเขาข้อมูลเพียงพอ จึงทำให้งานวิจัยการใช้ ข้อมูลสังเคราะห์ เดินหน้าไปน้อยกว่า
  สมัยก่อนตอนฝึกตัวตรวจจับวัตถุ ผมใช้โมเดล Blender 3D, สคริปต์ปรับพารามิเตอร์, และโมเดลแมชชีนเลิร์นนิงที่มีอยู่เพื่ออนุมานการปรับเทียบกล้องกับทิศทางการซ้อนภาพ ซึ่งใช้ระบุวัตถุจริงได้ดีมาก
  ผมรู้จักคนที่ทำคล้ายกันเพื่อฝึกรถยนต์ด้วยเกมเอนจิน
  มีรายละเอียดเชิงยุทธวิธีที่คาดไม่ถึงซึ่งช่วยดันความแม่นยำขึ้นมาก เช่น ต้องสุ่มองค์ประกอบที่ไม่เกี่ยวข้องในชุดฝึกให้ดี อย่างพื้นผิวของโมเดล 3D
  ถ้าระหว่างฝึกใส่ลวดลายแฟร็กทัลแบบสุ่มลงบนวัตถุ ตัวตรวจจับวัตถุจะทนทานต่อสิ่งรบกวนในสภาพแวดล้อมจริงมากขึ้น
- ถ้าอยากสร้าง LLM ที่ตีความ “กฎหมายของรัฐ” ได้ดีมาก ก็อาจมองได้ว่ามีอุปสรรคอะไรบ้างในการดาวน์โหลดเอกสารกฎหมายและระเบียบทั้งหมดของรัฐหนึ่ง ๆ แล้วฝึกให้ได้ระดับ ท็อป 5% ตามมาตรฐานนักปฏิบัติด้านกฎหมายและทนายความ
  ในกรณีนี้ก็ไม่จำเป็นต้องมี “อินเทอร์เน็ต” แล้ว
  แค่มีชุดข้อมูลเฉพาะโดเมนที่มีขนาดและคุณภาพเพียงพอก็พอ และผลลัพธ์ก็อาจน่ากลัวอยู่แล้ว
  LLM “กฎหมายของรัฐ” เป็นเพียงตัวอย่าง และตรรกะก็จะต่อไปว่า ถ้าต้องการผู้เชี่ยวชาญเฉพาะโดเมนในสาขาใด ก็ฝึกขึ้นมาได้
- ผมไม่คิดว่าข้อมูลฝึกกำลังจะหมดลงจริง ๆ สิ่งที่ต้องการคือความรู้ ไม่จำเป็นต้องรวมถึง รูปแบบพฤติกรรม ของข้อความนั้นด้วย
  LLM นึกถึงสิ่งที่ผู้ใช้อินเทอร์เน็ตรุ่นเก่ารู้กันดี เช่นมีมดัง ๆ ที่ไม่เคยถูกรายงานเป็นข่าว ได้ไม่ค่อยดี
  ถ้าทำให้มันจดจำข้อมูลอย่าง 4chan ได้โดยไม่ต้องเลียนแบบข้อมูลนั้น การใช้มันฝึกก็อาจไม่ได้ไร้ความหมายเสียทีเดียว
  แล้วบทภาพยนตร์, เนื้อเพลง, ซับไตเติลของวิดีโอ YouTube ดัง ๆ หรือแม้แต่รายการโทรทัศน์ล่ะ?
- มนุษย์ไม่ต้องใช้ โทเคนเป็นล้านล้าน เพื่ออนุมานหรือรู้ว่าตัวเองรู้อะไร
  บางส่วนคงมาจากวิวัฒนาการ แต่ส่วนที่มาจากวิวัฒนาการ เช่น ความสามารถทางภาษาพื้นฐานและการสร้างแบบจำลองโลกพื้นฐาน ผมคิดว่าข้อมูลอินเทอร์เน็ตก็ปรับให้เข้าที่ได้ในระดับหนึ่งแล้ว
  pre-training ปัจจุบันใช้ข้อมูลมากกว่ามนุษย์มาก และเช่นเดียวกับที่ไม่จำเป็นต้องเห็นภาพทั้งหมดของ Getty เพื่อวาดรูป โมเดลที่มีการรู้ตัวเองหรือพัฒนาตัวเองก็น่าจะเป็นอย่างนั้น
  การฝึกแต่การทำนายโทเคนถัดไป ไม่ว่าจะด้วยข้อมูลอินเทอร์เน็ตหรือข้อมูลใด ๆ ไม่ใช่คำตอบสำหรับการไปถึงระดับผู้เชี่ยวชาญในสาขาหนึ่ง
- อุตสาหกรรมอย่างยาและการสำรวจพลังงานโดดเด่นขึ้นมา ในสาขาเหล่านี้ ไซโลข้อมูล เองคือหัวใจของความได้เปรียบในการแข่งขัน
  ไม่มีเหตุผลที่จะเปิดชุดข้อมูลแล้วทำให้สนามแข่งขันเท่าเทียมกัน และถ้าปิดไว้ก็สามารถผูกขาดการค้นพบที่เป็นไปได้
  ข้อมูลสาธารณะคือรากฐานของอินเทอร์เน็ต แต่อุตสาหกรรมบางอย่างถูกสร้างขึ้นบนวิธีการปกปิดการค้นพบอย่างแน่นหนาเป็นเวลาหลายสิบปี
รู้สึกดีที่ Ilya เริ่มการบรรยายด้วยรูปของ Quoc Le ผู้เป็นผู้นำงานวิจัยเรื่องการสเกลโครงข่ายประสาทในปี 2012 งานวิจัยนั้นเป็นจุดที่ทำให้ผมเข้าสู่สายดีปเลิร์นนิงในตอนนั้น
ความเห็นของเขาค่อนข้างถ่อมตัวและอิงกับงานวิจัยก่อนหน้าที่เปิดเผยต่อสาธารณะ แต่ก็ชัดเจนว่าเขากำลังทำเรื่องใหญ่ และมีจินตนาการกว้างไกล
ตอนนี้ “แมวหลุดออกจากถุงแล้ว” และอนาคตของ AI ก็น่าจะถูกนำโดยผู้นำรุ่นใหม่ ๆ ซึ่งได้แต่หวังว่าพวกเขาจะมีมนุษยธรรม
- เราคงต้องหวังว่าพวกเขาจะมีมนุษยธรรมมากที่สุดเท่าที่จะเป็นไปได้ แต่ก็อย่าลืมว่าพวกเขายังเป็น มนุษย์ อยู่ดี
- ผมคิดว่าโอกาสที่ผู้นำปัญญาประดิษฐ์รุ่นใหม่จะมีมนุษยธรรม นั้นแทบจะเป็น 0 อย่างแท้จริง
ผมมองว่าประโยคที่เขาพูดว่า “ยิ่งมีการให้เหตุผลมากขึ้น ก็ยิ่งคาดเดาไม่ได้มากขึ้น” เป็นการพูดแบบยั้งคำอย่างมาก
ในความหมายหนึ่ง การให้เหตุผลควรถูกมองว่าแทบจะเป็นสิ่งเดียวกับความคาดเดาไม่ได้ และถ้าพูดให้เฉพาะเจาะจงกว่านั้น การให้เหตุผลที่มีประโยชน์นั้นตามนิยามแล้วย่อมคาดเดาไม่ได้
กรอบคิดแบบนี้สำคัญกับปัญหาอย่าง alignment
- ผมกลับคิดว่าน่าจะตรงกันข้ามมากกว่า คำว่า “ไร้เหตุผล” มักถูกใช้ในความหมายว่าผันผวน คาดเดาไม่ได้ และอันตรายด้วย
  เหตุผลมักถูกมองว่าเป็นสิ่งที่คาดเดาได้มาก และคนสองคนที่ให้เหตุผลอย่างมีเหตุผลจากชุดข้อเท็จจริงเดียวกันก็ควรคาดหวังว่าจะได้ข้อสรุปคล้ายกัน
  สิ่งที่ Ilya น่าจะหมายถึงใกล้กับว่า คนที่ฉลาดมาก ๆ อาจดู “คาดเดาไม่ได้” สำหรับคนที่ฉลาดน้อยกว่า
  ไม่ใช่ว่าเหตุผลเองคาดเดาไม่ได้ แต่เมื่อทำการอนุมานได้เร็วและมีคุณภาพพอ ก็อาจไปถึงข้อสรุปที่ไม่มีใครคาดไว้ล่วงหน้า แม้ภายหลังจะเห็นว่ามันสมเหตุสมผลก็ตาม
- คำสำคัญตรงนี้คือ “คาดเดาไม่ได้” ไม่ใช่ “น่าประหลาดใจ”, “ตรวจสอบไม่ได้” หรือ “ไร้เหตุผล”
  ในการบรรยายนี้ การคาดเดาถูกเชื่อมโยงกับ สัญชาตญาณ ที่มนุษย์ทำได้ใน 0.1 วินาที
  โมเดลให้เหตุผลที่ทรงพลัง ตามนิยามแล้วย่อมไปถึงคำตอบที่ไม่เป็นไปตามสัญชาตญาณ เพราะถ้ามันเป็นไปตามสัญชาตญาณ เราก็คงไปถึงคำตอบเดียวกันได้เร็วกว่านี้มากโดยไม่ต้องใช้สายโซ่เหตุผลยาว ๆ
  “การให้เหตุผล” ในที่นี้ต่างจากการพิสูจน์ในความหมายทางคณิตศาสตร์ ในคณิตศาสตร์ แม้ข้อสรุปที่ดูเป็นไปตามสัญชาตญาณก็อาจต้องการการพิสูจน์ที่พิเศษมากได้
- ผมคิดว่าตัวอย่าง AI เล่นหมากรุก ที่เขายกมาไม่ใช่ตัวอย่างที่เหมาะที่สุด
  ผู้เล่นมนุษย์อาจคำนวณล่วงหน้าได้ไม่ไกลเท่า AI จึงเข้าใจบางตาเดินได้ยาก แต่ก็แทบมั่นใจได้ว่า AI หมากรุกกำลังปรับให้เหมาะที่สุดตามเป้าหมายเดียวกันภายใต้กฎเดียวกัน
  ในโมเดลให้เหตุผล alignment ไม่ใช่สิ่งที่ถูกกำหนดมาให้
  มันอาจให้เหตุผลภายใต้กฎและฟังก์ชันต้นทุนที่ต่างออกไปโดยสิ้นเชิง และเมื่อมันให้ผลลัพธ์ที่มนุษย์ไม่เข้าใจในคำถามที่เปิดกว้างกว่า ก็ยากจะบอกได้ง่าย ๆ ว่านั่นเป็นไอเดียอัจฉริยะหรือความคิดที่ไม่ aligned
- ถ้าคิดถึง time complexity ของการหาคำตอบกับการตรวจสอบคำตอบ ก็ไม่ใช่คำพูดที่ตรงนัก
- แน่ใจหรือว่าเขาหมายถึงอย่างนั้นจริง ๆ? เขาอาจหมายถึงว่ากระบวนการดึงการให้เหตุผลจากโมเดลให้มากขึ้นนั้นคาดเดาไม่ได้ ไม่ได้บอกว่าการให้เหตุผลเองคาดเดาไม่ได้ก็ได้
ตอนของ Oriole Vinyals ในพอดแคสต์ DeepMind สัปดาห์นี้น่าสนใจกว่ามาก โดยพูดถึงหัวข้อคล้ายกับการบรรยายนี้ คือสถานการณ์ปัจจุบันของ LLM และเส้นทางข้างหน้าของการเรียนรู้: https://pca.st/episode/0f68afd5-2b2b-4ce9-964f-38193b7e8dd3
อุปมาเรื่องน้ำมันนั้นเหมาะมากจริง ๆ เพราะมันเหมือนกับว่า การต้มทะเลสาบอีกสักหลายแห่งให้แห้ง เพื่อให้มูลค่าสินทรัพย์สุทธิของ Mr Worldcoin กับพวกเพิ่มขึ้นอีก 3 เซนต์ เป็นเรื่องที่คุ้มค่าพอ
- เข้าใจอุปมาเรื่องน้ำมันนะ แต่ไม่เข้าใจการกระโดดไปตรงนั้น ทะเลสาบไหนกำลังเดือดอยู่หรือ?
น่าประหลาดใจที่ผู้ปฏิบัติงานด้าน machine learning ที่มีชื่อเสียงบางคนยังเปรียบ “นิวรอน” ของ Transformer กับ นิวรอนชีวภาพ จริง ๆ อยู่
นิวรอนจริงพึ่งพาสไปก์ ความชันของไอออน โครงสร้างเดนไดรต์ที่ซับซ้อน และ synaptic plasticity ที่ถูกควบคุมโดยกระบวนการชีวเคมีอันละเอียดอ่อน
สิ่งเหล่านี้ไม่ใช่องค์ประกอบที่มีในเลเยอร์เชิงเส้นแบบง่ายที่ดิฟเฟอเรนเชียตได้และ pointwise nonlinearity ของ Transformer
อยากรู้ว่ามีนักประสาทวิทยาหรือนักชีววิทยาที่น่าเชื่อถือคนใดสนับสนุนการเปรียบเทียบแบบนี้หรือไม่ หรือมันเป็นแค่อุปมาที่คงอยู่ด้วยธรรมเนียมในคอมมูนิตี้ machine learning เท่านั้น
- ต้องจำไว้ว่าก่อนปี 2012 มีอะไรอยู่บ้าง ตอนนั้นคือพวก SVM, random forest และมันไม่เหมือนสมองเลย
  โครงข่ายประสาทมีมานานแล้ว แต่ปี 2012 คือจุดเริ่มต้นของ การปฏิวัติ deep learning
  ถ้ามองด้วยเกณฑ์นี้ สมองกับโครงข่ายประสาทต่างก็เป็น connectionism รูปแบบหนึ่งที่มีคุณสมบัติคล้ายกัน และการเปรียบเทียบกันรวมถึงการรับแรงบันดาลใจจากฝ่ายหนึ่งไปใช้อีกฝ่ายก็สมเหตุสมผลพอ
- ไม่จำเป็นต้องจำลองอะตอมทุกตัวของดาวเคราะห์เพื่อทำนายวงโคจรของดาวเคราะห์
  นิวรอนทางคณิตศาสตร์อาจทำงานต่างกันโดยสิ้นเชิง แต่ก็อาจมี ฟังก์ชันคล้ายกัน กับนิวรอนจริงได้
- มันต่างกันมากขนาดนั้นหรือกับการเรียกโครงสร้างข้อมูลที่มีโหนดพ่อแม่และโหนดลูกว่า tree?
- ดูจากคำตอบแล้ว คำตอบต่อคำถามง่าย ๆ นี้ดูใกล้กับ “ไม่”
  ผมเองก็สงสัยว่ามีการเปรียบเทียบอย่างจริงจังอยู่ไหม และถ้ามี ก็อยากอ่าน
- ไม่ได้พยายามปกป้องว่าในงานบรรยายเขาไม่ได้ใส่ caveat ให้เพียงพอ แต่ผมคิดว่าสุภาษิตเก่าแก่ที่ว่า “โมเดลทั้งหมดผิด แต่บางโมเดลมีประโยชน์” ใช้ได้กับกรณีนี้
ความรู้จำนวนมากของโลกถูกล็อกไว้และเปิดได้ด้วย การทดลองเชิงประจักษ์ เท่านั้น และการคำนวณช่วยได้จริง ๆ แค่ทำให้การทดลองเหล่านั้นมีประสิทธิภาพมากขึ้น
สำหรับการแทรกแซงบางอย่าง คุณต้องทำ randomized controlled trial จริง ๆ และสิ่งนั้นต้องใช้เวลาและอะตอมในโลกจริง
การบรรยายเต็มน่าสนใจ: https://www.youtube.com/watch?v=YD-9NG1Ke5Y
- ในสไลด์ความสัมพันธ์ระหว่างน้ำหนักตัวกับน้ำหนักสมอง เขาเน้น ความต่างของการสเกลในสายมนุษย์
  แต่สิ่งที่น่าสนใจคือสไลด์เดียวกันนั้นยังแสดงเพดานแข็งของสายที่ไม่ใช่มนุษย์ ณ จุดเดียวกันด้วย ซึ่งเขาไม่ได้พูดถึงส่วนนั้น
มี transcript ที่ปรับแก้ด้วย LLM โดยใช้ Gemini Flash 8B กับคำบรรยาย YouTube ต้นฉบับ: https://www.appblit.com/scribe?v=YD-9NG1Ke5Y#0
- สงสัยว่าคุณป้องกันไม่ให้ Gemini กลืนข้อความหายไปเมื่อเวลาผ่านไปได้อย่างไร
  การแก้ transcript จากเสียงเป็นงานที่ยากจะได้ผลดีจาก LLM ใด ๆ ถ้าไม่ตัดใส่ทีละไม่เกินหนึ่งหรือสองหน้า
  สงสัยด้วยว่าใช้เครื่องมือแยกต่างหากหรือเปล่า

ปาฐกถา NeurIPS ของ Ilya Sutskever: ย้อนมอง seq2seq ครบ 10 ปี [วิดีโอ]

ย้อนมองงานวิจัย seq2seq ปี 2014 หลังผ่านไป 10 ปี

แนวคิดหลักและการใช้งานจริงในเวลานั้น

ยุคของการสเกลลิง การเชื่อมโยงนิยม และ pretraining

ทิศทางหลังยุค pretraining

ปัญญาเหนือมนุษย์ การให้เหตุผล และระบบที่ต่างออกไปเชิงคุณภาพ

ประเด็นจากช่วงถามตอบ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News