ทฤษฎีวิทยาศาสตร์ของดีปเลิร์นนิงจะถือกำเนิดขึ้น

(arxiv.org)

24 คะแนน โดย GN⁺ 4 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

กลไกของกระบวนการเรียนรู้ของดีปเลิร์นนิง เริ่มได้รับการวางรากฐานในรูปของ ทฤษฎีวิทยาศาสตร์ แบบบูรณาการ ที่มองการฝึกโครงข่ายประสาทเป็นพลวัตที่เกิดจากปฏิสัมพันธ์ระหว่างพารามิเตอร์ ข้อมูล งาน และกฎการเรียนรู้
โจทย์ยากหลักไม่ได้อยู่ที่ความทึบแสง แต่เป็น ความซับซ้อน โดยโครงข่ายประสาทไม่อาจอธิบายได้เพียงพอด้วยทฤษฎีคลาสสิกเดิม ๆ เพราะมีโครงสร้างแบบไม่คอนเว็กซ์ มีพารามิเตอร์ล้นเกิน และเรียนรู้การแทนภายในที่มีโครงสร้าง
มีการค้นพบความสม่ำเสมอซ้ำ ๆ ตามแกนอย่างการตั้งค่าที่ตีความได้, ลิมิตความกว้าง·ความลึกอนันต์, กฎเชิงประจักษ์แบบง่าย, ทฤษฎีไฮเปอร์พารามิเตอร์ และปรากฏการณ์สากล ซึ่งกำลังสะสมเป็นฐานของกลไกการเรียนรู้
ผลลัพธ์อย่าง deep linear network, NTK, mean-field และการแบ่งแบบ lazy-rich ทำให้สามารถจัดการกับพลวัตการเรียนรู้ การทำให้ทั่วไป feature learning และ scaling law ในเชิงปริมาณได้
ทฤษฎีลักษณะนี้มีความสำคัญต่อการสร้างฐานที่คาดการณ์ได้และควบคุมได้มากขึ้น ตั้งแต่การออกแบบโมเดลและการทำ optimization การเลือกไฮเปอร์พารามิเตอร์ ไปจนถึง AI safety และ mechanistic interpretability

บทนำ

ดีปเลิร์นนิง มีพลังอย่างมาก แต่ยังขาดกรอบวิทยาศาสตร์ที่อธิบายหลักการทำงานภายในอย่างบูรณาการ
- โครงข่ายประสาทแสดงสมรรถนะเหนือมนุษย์ในงานหลากหลายประเภท แต่ยังไม่มี ทฤษฎีแบบบูรณาการ ที่อธิบายได้ว่าทำไมมันจึงทำงานเช่นนั้น และสมรรถนะดังกล่าวเกิดขึ้นได้อย่างไร
- วิธีการฝึกใช้งานจริงก็ยังพึ่งพาการลองผิดลองถูกอย่างมาก มากกว่าจะอิง first principles และทฤษฎีก็ยังมีบทบาทจำกัดในงานดีปเลิร์นนิงเชิงปฏิบัติประจำวัน
เมื่อเข้าสู่ยุคของโมเดลภาษาขนาดใหญ่และ diffusion model ปริศนายิ่งลึกขึ้น แต่ ทฤษฎีดีปเลิร์นนิงเชิงวิทยาศาสตร์ ก็เริ่มก่อตัวขึ้นจริง และรูปร่างของมันใกล้เคียงกับ กลไกของกระบวนการเรียนรู้
จุดโฟกัสของทฤษฎีดีปเลิร์นนิงเปลี่ยนแปลงมาตามเวลา
- ในระยะแรก จุดสนใจอยู่ที่โมเดลสามารถแทนฟังก์ชันใดได้บ้าง และเรียนรู้จากข้อมูลได้อย่างไร
- ต่อมาจึงขยับไปสู่คำถามว่าเมื่อใดจึงจะทำให้ทั่วไปได้ในตัวอย่างจำนวนจำกัด พร้อมกับการพัฒนาของ classical learning theory, ทฤษฎีการเรียนรู้เชิงคำนวณ, ทฤษฎี PAC และทฤษฎีการหาค่าเหมาะที่สุดแบบคลาสสิก
- ขณะเดียวกันก็เกิดธรรมเนียมของ statistical physics of machine learning ที่ว่าด้วยพฤติกรรมเฉลี่ยของโมเดลง่าย ๆ ขึ้นมาควบคู่กัน
โครงข่ายหลายชั้น, backpropagation, และการขยายขนาดของข้อมูลกับทรัพยากรคอมพิวต์ ทำให้ข้อจำกัดของทฤษฎีเดิมชัดเจนขึ้น
- โครงข่ายประสาทมีโครงสร้างแบบ ไม่คอนเว็กซ์ และ มีพารามิเตอร์ล้นเกิน ซึ่งแตกต่างจากโมเดลง่ายและคอนเว็กซ์ที่ทฤษฎีคลาสสิกอธิบายได้ดี
- มันไม่ได้เพียงลดค่าความผิดพลาดในการเรียนรู้เท่านั้น แต่ยังเรียนรู้ การแทนภายในที่มีโครงสร้าง และเผยให้เห็นความสม่ำเสมอข้ามงานและข้ามสเกล
จากการเปลี่ยนแปลงนี้ ทฤษฎีดีปเลิร์นนิงจึงเคลื่อนจากขั้นที่ถามเชิงคณิตศาสตร์ว่าอะไรเป็นไปได้ ไปสู่ขั้นเชิงวิทยาศาสตร์ที่ พรรณนา และ คาดการณ์ พฤติกรรมของระบบเชิงประจักษ์ที่ซับซ้อน
- ดังนั้นจึงต้องการ แนวทางเชิงวิทยาศาสตร์ ที่ยอมรับการสังเกตเชิงประจักษ์ แสวงหาหลักการแบบบูรณาการ และระบุรูปแบบที่เกิดซ้ำ
- เส้นทางข้างหน้าจึงน่าจะคล้ายกระบวนการที่สาขาวิทยาศาสตร์หนึ่งกำลังเติบโตเต็มที่ มากกว่าการคลี่คลายของสาขาคณิตศาสตร์ล้วน ๆ

learning mechanics คืออะไร

การเรียนรู้ของโครงข่ายประสาทสามารถมองได้ว่าคล้ายกับ mechanics ที่อธิบายการเคลื่อนที่ของวัตถุในอวกาศและเวลา
- เช่นเดียวกับที่วัตถุเคลื่อนที่อย่างต่อเนื่องในปริภูมิทางกายภาพภายใต้แรง โมเดลก็เคลื่อนที่ใน parameter space ผ่านการอัปเดตแบบไม่ต่อเนื่อง
- ในฟิสิกส์ แรงเกิดจากปฏิสัมพันธ์ระหว่างองค์ประกอบของระบบ เช่นเดียวกับในดีปเลิร์นนิงที่การเรียนรู้ถูกกำหนดโดยปฏิสัมพันธ์ระหว่างพารามิเตอร์ ชุดข้อมูล งาน และกฎการเรียนรู้
ยังมีความสอดคล้องกันระหว่างสนามในฟิสิกส์กับ gradient ในดีปเลิร์นนิงด้วย
- เช่นเดียวกับที่ระบบทางกายภาพตั้งตัวอยู่ที่จุดต่ำสุดเฉพาะที่ของ potential ซึ่งถูกกำหนดโดยปฏิสัมพันธ์ภายในและข้อจำกัดภายนอก โครงข่ายประสาทก็ลู่เข้าไปยังจุดต่ำสุดเฉพาะที่ของ loss landscape ที่เกิดจากสถาปัตยกรรมและข้อมูลฝึก
อุปมานี้ไม่ได้เป็นเพียงวาทศิลป์ แต่ยังสอดคล้องกับแนวทางวิจัยที่กำลังดำเนินอยู่ในปัจจุบัน
- เช่นเดียวกับที่ศาสตร์แขนงต่าง ๆ ของ mechanics ใช้ การตั้งค่าที่ตีความได้, ลิมิตแบบย่อให้ง่าย, สถิติสรุป, การวิเคราะห์พารามิเตอร์ของระบบ, และ ปรากฏการณ์สากล กลไกการเรียนรู้ก็ใช้เครื่องมือแบบเดียวกัน
- โดยเฉพาะเช่นเดียวกับ continuum mechanics และ statistical mechanics ที่รับมือกับองค์ประกอบซึ่งมีปฏิสัมพันธ์จำนวนมาก ในดีปเลิร์นนิง การอธิบายสถิติในระดับมหภาคย่อมมีประโยชน์มากกว่าการตามดูองค์ประกอบแต่ละตัวทีละตัว
โครงการวิจัยนี้สามารถรวมเรียกได้ว่า learning mechanics

7 เงื่อนไขที่ learning mechanics ต้องมี

ความเป็นรากฐาน
- ต้องอธิบายการฝึกโครงข่ายประสาทอย่างมีตรรกะโดยเริ่มจาก first principles
- แม้ในขั้นกลางจะอาจใช้สมมติฐานเกี่ยวกับน้ำหนัก พลวัต และสมรรถนะเป็นเครื่องมือได้ แต่ท้ายที่สุดสิ่งเหล่านี้ก็ต้องอธิบายได้จาก first principles เช่นกัน
ความเป็นคณิตศาสตร์
- ต้องสร้าง ข้อความเชิงปริมาณ ที่ไม่กำกวมเกี่ยวกับคุณสมบัติสำคัญของโครงข่ายประสาท
- คำอธิบายเชิงคุณภาพอย่างเดียวไม่เพียงพอให้เกิด mechanics
ความสามารถในการคาดการณ์
- ต้องเสนอข้ออ้างที่ตรวจสอบได้ด้วยการวัดเชิงประจักษ์ที่เรียบง่ายและทำซ้ำได้
- เนื่องจากการควบคุมการทดลองกับระบบประเภทนี้ทำได้สูงมาก ความก้าวหน้าสำคัญจึงต้องได้รับการยืนยันด้วยการทดลองอย่างชัดเจน
ความครอบคลุม
- ต้องเชื่อมโยงกระบวนการฝึก การแทนภายใน และน้ำหนักสุดท้ายเข้าด้วยกันในภาพเดียว
- แทนที่จะพยายามเก็บทุกรายละเอียด ควรเลือก ความละเอียดที่เหมาะสม ซึ่งให้ความเข้าใจแม้ต้องแลกกับการละทิ้งรายละเอียดบางส่วน
ความเป็นสัญชาตญาณ
- ควรให้ความสำคัญกับความเข้าใจที่เรียบง่ายและ illuminating มากกว่าความซับซ้อนทางเทคนิค
- ควรเป็นทฤษฎีที่ให้ความพึงพอใจจากการช่วยเปิดม่านความลึกลับของดีปเลิร์นนิง
ประโยชน์ใช้สอย
- เช่นเดียวกับที่ฟิสิกส์เป็นรากฐานให้วิศวกรรมแขนงอื่น ควรเป็นฐานวิทยาศาสตร์ของดีปเลิร์นนิงประยุกต์
- เป้าหมายที่เป็นรูปธรรมรวมถึง การลดการปรับแต่งไฮเปอร์พารามิเตอร์, เครื่องมือคาดการณ์การออกแบบ dataset, และ ฐานที่เคร่งครัดสำหรับ AI safety
ความถ่อมตน
- ต้องชี้ให้ชัดว่าอธิบายอะไรได้ดี และอธิบายอะไรไม่ได้
- แม้แต่ mechanics ที่ใช้ได้กับดีปเลิร์นนิงในโลกจริง ก็อาจใช้ไม่ได้ในกรณีพิเศษขนาดเล็กที่ออกแบบด้วยมืออย่างพิถีพิถัน และนี่ควรถูกมองเป็นราคาที่ต้องจ่ายเพื่อให้ได้ภาพที่เรียบง่ายในขอบเขตที่เราสนใจ

ทำไม learning mechanics จึงสำคัญ

เหตุผลเชิงวิทยาศาสตร์
- ความสำเร็จเชิงวิศวกรรมของโครงข่ายประสาทขนาดใหญ่บ่งชี้ว่ามันกำลังใช้ หลักการลึกซึ้งของการเรียนรู้และการแทน ที่เรายังไม่เข้าใจ
- มีการยกตัวอย่างกรณีที่เทคโนโลยีมาก่อนทฤษฎี เช่น steam engine กับ thermodynamics และเครื่องบินกับ aerodynamic theory
- หลักการเรียนรู้ของโครงข่ายประสาทเทียมอาจช่วยฉายแสงให้กับความเข้าใจ biological intelligence ด้วย และสิ่งนี้อาจมีนัยต่อ neuroscience และ cognitive science
เหตุผลเชิงปฏิบัติ
- ทฤษฎีดีปเลิร์นนิงที่เติบโตเต็มที่สามารถชี้นำการออกแบบโมเดล การทำ optimization การสเกล และการนำไปใช้งานจริงด้วยหลักการที่เชื่อถือได้มากขึ้น
- ในบางด้าน ทฤษฎีก็เริ่มมีบทบาทแล้ว
  - empirical scaling laws
  - สูตรเชิงคณิตศาสตร์สำหรับการสเกลไฮเปอร์พารามิเตอร์
  - optimizer และวิธี data attribution ที่ออกแบบจากแรงจูงใจทางทฤษฎี
- ทฤษฎีที่ลึกและสมบูรณ์กว่านี้จะสามารถให้แนวทางลักษณะดังกล่าวได้มากขึ้น และทำให้มันคมชัดและคาดการณ์ได้มากกว่าเดิม
เหตุผลด้านความปลอดภัย
- หากต้องการพรรณนา กำหนดลักษณะ และควบคุมระบบ AI ที่ทรงพลังขึ้นเรื่อย ๆ ก็ต้องสามารถระบุตัวแปร กลไก และหลักการจัดระเบียบที่เกี่ยวข้องได้อย่างชัดเจน
- เป็นเรื่องยากที่จะกำกับดูแลเทคโนโลยีที่อธิบายอย่างชัดเจนไม่ได้ และ fundamental theory สามารถมอบความกระจ่างที่จำเป็นต่อ reliability, oversight และ control ได้
- โดยเฉพาะอย่างยิ่ง มีการเสนอว่ามันอาจมีส่วนช่วยด้าน AI safety ในลักษณะที่สนับสนุน mechanistic interpretability

หลักฐานว่ากลไกของการเรียนรู้กำลังปรากฏขึ้น

องค์ประกอบแกนหลักของดีปเลิร์นนิงมีความ ชัดแจ้ง และ วัดได้
- สถาปัตยกรรมถูกกำหนดเป็นโครงข่ายประสาท f(x; θ) ที่นิยามด้วยการประกอบกันของการแปลงเชิงเส้นและไม่เชิงเส้นอย่างง่าย
- ข้อมูลถูกให้มาเป็นเซ็ตตัวอย่าง D = {(xi, yi)} จากการแจกแจงการสร้างข้อมูลที่ไม่ทราบมาก่อน
- โจทย์ถูกนิยามด้วยฟังก์ชันวัตถุประสงค์ L(θ) ที่วัดประสิทธิภาพบนชุดข้อมูล
- กฎการเรียนรู้ถูกอธิบายด้วยการอัปเดตแบบอิง gradient เช่น θ(t+1) = θ(t) −η∇L(θ(t)) พร้อมการกำหนดค่าเริ่มต้นและไฮเปอร์พารามิเตอร์ของตัวปรับเหมาะ
แทบไม่มีสิ่งที่ซ่อนอยู่ในกระบวนการเรียนรู้
- ต่างจากระบบซับซ้อนจำนวนมาก ดีปเลิร์นนิงเปิดเผย equations of motion ที่ควบคุมพลวัตโดยตรง
- สามารถบันทึก weight, activation, gradient และ loss ทั้งหมดได้ และสร้างสถิติใด ๆ จากสิ่งเหล่านี้ก็ได้
- การออกแบบการทดลอง การทำซ้ำ และการตรวจสอบทำได้ง่าย จึงเอื้อต่อการค้นพบความสม่ำเสมอเชิงประจักษ์และการทดสอบคำพยากรณ์ของทฤษฎีอย่างเข้มงวด
ปัญหาหลักไม่ได้อยู่ที่ความทึบแสง แต่เป็น ความซับซ้อน
- ปฏิสัมพันธ์ระหว่าง architecture, data, task และ learning rule ก่อให้เกิดพลวัตการเรียนรู้ที่ ไม่เชิงเส้น, มีการเชื่อมโยงกัน, และ มิติสูง
- มีความไวต่อการเลือกไฮเปอร์พารามิเตอร์ และตัวการแจกแจงข้อมูลเองก็ยากจะอธิบายลักษณะอย่างเรียบง่าย
ถึงอย่างนั้น ภายใต้ความซับซ้อนนี้ก็ยังมีความเป็นระเบียบซ่อนอยู่ และมีการเสนอข้อสังเกตห้าประการที่รองรับเรื่องนี้
- การตั้งค่าที่แก้ได้เชิงวิเคราะห์
- ลิมิตที่ให้มุมมองเชิงลึก
- กฎเชิงประจักษ์อย่างง่าย
- ทฤษฎีไฮเปอร์พารามิเตอร์
  - ปรากฏการณ์สากล

การตั้งค่าที่แก้ได้เชิงวิเคราะห์

ในระบบที่ซับซ้อน ความเข้าใจเชิงวิทยาศาสตร์มักเติบโตอย่างรวดเร็วเมื่อสามารถคำนวณเชิงปริมาณได้ในสภาวะที่ทำให้ง่ายลงแต่ยังเป็นตัวแทนได้ดี
- เช่นเดียวกับ harmonic oscillator หรือ hydrogen atom ในฟิสิกส์ ในดีปเลิร์นนิง โมเดลอย่างง่ายที่สุดก็ให้สัญชาตญาณสำหรับมองระบบที่สมจริงกว่าได้
- ดีปเลิร์นนิงเหมาะกับแนวทางนี้เป็นพิเศษ เพราะมีการค้นพบสภาวะจำนวนมากที่พลวัตการเรียนรู้ถูกทำให้ง่ายลงและสามารถคำนวณปริมาณสำคัญได้
การทำให้เป็นเชิงเส้นต่อข้อมูล
- deep linear network ตัดความไม่เชิงเส้นออกไป ทำให้โมเดลเป็นเชิงเส้นต่ออินพุต x แต่ยังคงไม่เชิงเส้นอย่างมากต่อพารามิเตอร์ θ
- แม้โมเดลแบบนี้จะดูเรียบง่าย แต่ก็ยังคงพฤติกรรมเฉพาะตัวของดีปเลิร์นนิงไว้
  - saddle-point-dominated loss landscape
  - พลวัตที่มี phase transition ชัดเจนและมีมาตราส่วนเวลาที่แยกจากกัน
  - edge-of-stability oscillation ใน gradient descent
  - inductive bias ที่ขึ้นกับการกำหนดค่าเริ่มต้นอย่างมาก
- โดยทั่วไปการวิเคราะห์จะทำภายใต้ gradient flow ซึ่งเป็นลิมิตเวลาแบบต่อเนื่องของ gradient descent และเมื่อวางสมมติฐานแบบง่ายต่อการแจกแจงข้อมูลและการกำหนดค่าเริ่มต้น ก็จะได้คำตอบที่แม่นยำหรือย่อลงเป็นระบบพลวัตมิติต่ำ
- แกนสำคัญที่ปรากฏซ้ำ ๆ คือ greedy low-rank bias
  - การเรียนรู้จะได้มาซึ่งองค์ประกอบบางส่วนของโจทย์ก่อนองค์ประกอบอื่น
  - ผลของ [Saxe et al. 2014] แสดงว่าระบบเรียนรู้ singular vector ของความสัมพันธ์ระหว่างอินพุตกับเอาต์พุตตามลำดับ และโหมดที่มี singular value สูงจะถูกเรียนรู้ก่อน
  - มีการเชื่อมโยงว่าอคตินี้ช่วยแยก signal ออกจาก noise และช่วยให้ generalization ดีขึ้นได้
  - ยังคล้ายกับปรากฏการณ์ในโครงข่ายไม่เชิงเส้นที่ฟังก์ชันง่ายจะถูกเรียนรู้ก่อนฟังก์ชันที่ซับซ้อนกว่า
- สรุปได้ว่าการกำหนดค่าเริ่มต้นขนาดเล็ก ความลึกที่มากขึ้น mini-batch noise ที่แรงขึ้น และ ℓ2 regularization แบบชัดแจ้ง ล้วนเสริม greedy bias นี้ให้แรงขึ้น
การทำให้เป็นเชิงเส้นต่อพารามิเตอร์
- linearized network ได้มาจากการตัดพจน์ไม่เชิงเส้นออกจากการขยายแบบ Taylor รอบพารามิเตอร์ตั้งต้น ทำให้โมเดลยังไม่เชิงเส้นต่อข้อมูล x แต่เป็นเชิงเส้นต่อพารามิเตอร์ θ
- ในบางสภาวะ โมเดลดั้งเดิมสามารถถูกประมาณได้ดีด้วยการทำให้เป็นเชิงเส้นนี้ตลอดการฝึกทั้งหมด และในกรณีนั้นพลวัตการเรียนรู้ก็แทบจะเหมือนกับการถดถอยเชิงเส้น
- ความต่างคือแทนที่จะถูกควบคุมด้วย Gram kernel พลวัตจะถูกควบคุมด้วย neural tangent kernel, NTK
- ใน least squares และ gradient descent ที่มี step size เล็ก ตัวทำนายสุดท้ายจะได้เป็น kernel ridge regression ที่ใช้ NTK ทำให้ตีความได้มากขึ้น
- การตั้งค่านี้เผยให้เห็นว่าสถาปัตยกรรมกำหนด inductive bias ผ่านโครงสร้างของ NTK อย่างไร
- หากพิจารณาโครงสร้างของข้อมูลอินพุตด้วย ก็สามารถพยากรณ์ค่า generalization error ที่คาดหวังสำหรับฟังก์ชันเป้าหมายใด ๆ ได้ และผลใน Figure 1 ก็แสดงว่าคำพยากรณ์เหล่านี้สอดคล้องกับการทดลองอย่างดี
- นอกจากนี้ยังจับ double descent และ scaling laws ได้ด้วย
- อย่างไรก็ดี ความสมจริงและข้อจำกัดของมันก็ชัดเจน
  - ไม่สามารถจับ feature learning ที่เข้มข้นของ neural network ทั่วไปได้
  - อาจให้คำพยากรณ์เกี่ยวกับ sample complexity ที่มองโลกในแง่ร้ายเกินไป
  - การเปลี่ยนการเรียนรู้ให้เป็นปัญหาเชิงเส้นทำให้เลี่ยงปรากฏการณ์การหาค่าเหมาะที่สุดแบบ non-convex ที่เป็นเอกลักษณ์ของดีปเลิร์นนิงไป
ก้าวข้ามการทำให้เป็นเชิงเส้น
- แนวหน้าสำคัญของทฤษฎีคือการทำให้ toy model ที่ ไม่เชิงเส้น จริง ๆ ทั้งต่อข้อมูลและพารามิเตอร์สามารถวิเคราะห์ได้
- ในจุดนี้ อิทธิพลของการแจกแจงข้อมูลจะซับซ้อนขึ้นมาก จึงยากที่จะสร้างกรอบแบบรวมศูนย์เพียงหนึ่งเดียว แต่ก็มีความคืบหน้าในหลายทิศทาง
- ในตระกูลโมเดล single-index และ multi-index ที่มีอินพุตแบบ Gaussian และเป้าหมายที่มีโครงสร้าง fully nonlinear neural network ทำงานได้ดีกว่า kernel method โดยใช้ตัวอย่างน้อยกว่า
  - เพราะมันเรียนรู้ relevant feature ได้โดยใช้ประโยชน์จากโครงสร้างของฟังก์ชันเป้าหมาย
- วิธีการของ statistical physics ยังทำให้สามารถคำนวณพฤติกรรมเชิงเส้นกำกับที่แม่นยำของ Bayes-optimal inference และพลวัตการเรียนรู้ในโมเดลเหล่านี้ได้ด้วย
- ในโครงข่ายประสาทสองชั้นที่มี quadratic activation มีการอธิบายคุณลักษณะทั้งค่าประมาณเชิงเส้นกำกับที่แม่นยำ พลวัตการฝึก และ scaling laws ได้แล้ว
- นอกจากนี้ยังมีการแยกวิเคราะห์ปรากฏการณ์ไม่เชิงเส้นอีกหลายแบบ
  - ปรากฏการณ์ที่ homogeneous network ซึ่งฝึกด้วย logistic loss ลู่เข้าสู่ max-margin solution
  - ปรากฏการณ์ที่พลวัตการฝึกใน teacher-student model ย่อลงเป็นสถิติสรุปมิติต่ำ
  - การทำ memorization ของ associative memory model
  - โครงสร้างเชิงอัลกอริทึมที่ถูกเรียนรู้ใน modular arithmetic task
  - โมเดลที่ตีความได้ของ attention แบบไม่เชิงเส้น
  - กรณีที่การเรียนรู้ feature แบบไม่เชิงเส้นสร้าง scaling law ที่ดีกว่า
- ปัจจุบัน toy model แบบไม่เชิงเส้นเหล่านี้ต่างจับภาพเพียงบางหน้าตัดของการเรียนรู้แบบไม่เชิงเส้นเต็มรูปแบบ และยังไม่มี กรอบงานแบบบูรณาการ ปรากฏขึ้น

มุมมองเชิงลึกจากลิมิตสุดขั้ว

ระบบดีปเลิร์นนิงสมัยใหม่ประกอบด้วยพารามิเตอร์นับหมื่นล้านตัวขึ้นไปและข้อมูลมหาศาล ทำให้ทฤษฎีระดับจุลภาคที่ติดตามพารามิเตอร์แต่ละตัวแทบเป็นไปไม่ได้
แต่ระบบซับซ้อนมักถูกทำให้ง่ายขึ้นได้ในลิมิตที่ส่งขนาดไปสู่อนันต์ในทางปฏิบัติ และโครงสร้างที่เรียบง่ายนี้ก็ให้มุมมองที่มีประโยชน์กับระบบจริงที่มีขนาดจำกัดด้วย
- เป็นตรรกะเดียวกับที่กฎแก๊สอุดมคติถูกอนุมานจากลิมิตจำนวนอนุภาคเป็นอนันต์ แต่ก็ยังใช้ได้ดีกับแก๊สจริงที่มีจำนวนจำกัด
- ในดีปเลิร์นนิง ลิมิตก็เป็นเครื่องมือทางคณิตศาสตร์หลักในการจัดการกับความซับซ้อนเช่นกัน และความสำเร็จที่เกิดซ้ำๆ ของมันเองก็ถูกเสนอเป็นหลักฐานที่หนักแน่นของทฤษฎีที่กำลังก่อตัว
ลิมิตความกว้างเป็นอนันต์และการแบ่งแบบ lazy-rich
- เมื่อส่งจำนวนเซลล์ประสาทใน hidden layer ไปสู่อนันต์ จะเกิด mean-field behavior ที่ไม่ต้องมองเซลล์ประสาทรายตัว แต่ดูเพียงวิวัฒนาการของการกระจายของประชากรเซลล์ประสาททั้งหมด
- อย่างไรก็ตาม เพื่อป้องกันไม่ให้ activation ของชั้นลึกกระจายตัวหรือระเบิดออก ต้องลดสเกลการ initialization ลงเมื่อความกว้างเพิ่มขึ้น และตามอัตราการลดนี้จะเกิดพลวัตเชิงขีดจำกัดสองชนิดที่ต่างกัน
- ระบอบ lazy หรือ kernel หรือ linearized
  - หากลดขนาดของแต่ละพารามิเตอร์ตอน initialization เป็น [width]−1/2 อินพุตของ hidden neuron จะไม่หายไปหรือพุ่งสูงผิดปกติ
  - เมื่อฝึกเครือข่ายแบบนี้ weight และ hidden representation จะเปลี่ยนแปลงน้อยมาก แต่การเปลี่ยนแปลงเล็กๆ นั้นสะสมจนทำให้ฟังก์ชันเอาต์พุตเปลี่ยนไปมาก
  - ผลคือพลวัตการเรียนรู้เป็นเชิงเส้นเมื่อมองในพารามิเตอร์ และวิวัฒนาการของฟังก์ชันเอาต์พุตถูกอธิบายทั้งหมดด้วย NTK
  - แม้จะตีความได้ง่าย แต่เพราะ hidden representation แทบไม่เปลี่ยน จึงไม่แสดง feature learning
  - ภายหลังลิมิตนี้ถูกรวบยอดภายใต้ชื่อ lazy
- ระบอบ rich หรือ active หรือ feature-learning
  - หากย่อค่าน้ำหนักของชั้นสุดท้ายแรงขึ้นเป็น [width]−1 จะเกิดลิมิตอีกแบบที่โมเดลต้องเปลี่ยนแปลงมากขึ้นระหว่างการเรียนรู้ จึงทำให้เกิด feature learning ได้
  - ในกรณีนี้เอาต์พุตเริ่มต้นจะเป็น 0 ในลิมิตความกว้างเป็นอนันต์ แต่ระหว่างการฝึกสามารถเติบโตอย่างมีนัยสำคัญในระดับ order-one ได้ทุก gradient step
  - แนวคิดนี้เริ่มจาก shallow mean-field network แล้วขยายไปสู่เครือข่ายที่มีความลึก arbitrary depth และสเกลที่เกี่ยวข้องก็เชื่อมโยงกับ Maximal Update Parameterization, µP
  - ปัจจุบันเป็นที่ยอมรับกันอย่างกว้างขวางแล้วว่าแม้แต่เครือข่าย infinite-width ก็สามารถเรียนรู้ feature ได้
- พฤติกรรมที่ปรากฏใน rich regime
  - hidden feature เปลี่ยนไปตามเวลาและปรับตัวเข้ากับโครงสร้างของข้อมูลนำเข้า
  - geometry ของตัวแทนภายในเปลี่ยนไประหว่างการฝึก
  - กลุ่มย่อยของเซลล์ประสาทจะเชี่ยวชาญกับ latent feature ที่ต่างกัน
  - เมื่อการทำนายที่เหมาะสมที่สุดอยู่ในปริภูมิย่อยมิติต่ำของข้อมูลมิติสูง การกระจายของน้ำหนักในชั้นแรกจะวิวัฒน์ไปในทิศทางที่ขยายปริภูมิย่อยที่สนใจนั้น
  - หากทำให้สเกลการ initialization เล็กลงอีก อคติแบบ greedy low-rank bias ที่กล่าวถึงก่อนหน้ามักจะปรากฏขึ้นอีกครั้ง
- การเปลี่ยนผ่าน lazy-rich ที่เกิดขึ้นได้แม้ในความกว้างจำกัด
  - เมื่อลดสเกลเอาต์พุต จะกระตุ้น feature learning และขยับไปทาง rich regime
  - เมื่อเพิ่มสเกลเอาต์พุต พลวัตการฝึกจะถูกทำให้เป็นเชิงเส้นมากขึ้นและเกิดพฤติกรรมแบบ lazy
  - เครือข่ายจำกัดขนาดเดียวกันก็สามารถแสดงการเรียนรู้แบบ lazy หรือ rich ได้ตามสเกลเอาต์พุต และ Figure 2 แสดงภาพความแตกต่างนี้
ลิมิตความลึกเป็นอนันต์และลิมิตของไฮเปอร์พารามิเตอร์อื่นๆ
- ใน deep residual network หากลดอิทธิพลของแต่ละชั้นลงอย่างเหมาะสม ก็สามารถไปถึง infinite depth limit ที่มีเสถียรภาพได้
- หากกดแต่ละชั้นลงด้วย [depth]−1 จะได้ลิมิตที่ residual stream เปลี่ยนไปอย่างราบรื่นตามความลึก ซึ่งชวนให้นึกถึง Neural ODE
- หากกดแต่ละชั้นลงด้วย [depth]−1/2 จะได้ลิมิตที่ residual stream แพร่กระจายราวกับถูกขับเคลื่อนโดยสมการเชิงอนุพันธ์สุ่ม
- ลิมิตสองแบบนี้ลู่เข้าสู่คำตอบที่ต่างกันเชิงคุณภาพในสถาปัตยกรรมจริงอย่าง transformer และยังไม่ชัดเจนว่าแบบใดสำคัญกว่า
ลิมิตขนาดแบบอื่นๆ
- สำหรับ recurrent architecture สามารถวิเคราะห์ลิมิตอนันต์ของโครงสร้าง recurrent ได้ แทนที่จะดูจำนวนชั้นแบบ feedforward
- transformer รุ่นใหม่มีบล็อกที่แสดงออกได้มากขึ้น เช่น multi-head self-attention และ mixture-of-expert MLP
  - attention มีหลายทิศทางของสเกล ได้แก่ head count, head size, context length
  - mixture-of-expert มีหลายทิศทางของสเกล ได้แก่ expert count, expert size, sparsity
- การทำให้ปฏิสัมพันธ์ระหว่างลิมิตอนันต์ที่แตกต่างกันเหล่านี้ชัดเจนมีความสำคัญต่อการเชื่อมโยงกับงานปฏิบัติยุคใหม่ และต่อการแยกทำความเข้าใจไฮเปอร์พารามิเตอร์ที่เกี่ยวกับ initialization และ optimization

สรุปที่ปรากฏจากตารางและรูป

Table 1 สรุปว่าเครื่องมือวิจัยหลักของดีปเลิร์นนิงมีความคล้ายคลึงอย่างใกล้ชิดกับเครื่องมือของฟิสิกส์
- solvable settings สอดคล้องกับ deep linear network, kernel regression, multi-index model และในฟิสิกส์สอดคล้องกับ harmonic oscillator, hydrogen atom, Ising model
- simplifying limits เชื่อมโยงกับ lazy vs rich learning, ลิมิตอนันต์ของ width และ depth, และ small initialization ขณะที่ในฟิสิกส์วางคู่กับ thermodynamic limit, classical limit, hydrodynamic limit
- simple empirical laws ปรากฏในรูป neural scaling laws, edge of stability, neural feature ansatz และถูกวางเทียบกับกฎอย่าง Kepler, Snell, Boyle, Hooke, Newton, Faraday, Ohm, Poiseuille, Planck, Hubble ในฟิสิกส์
- system parameters research ปรากฏเป็นมุมมองที่มอง step size เป็น sharpness regularization และเชื่อมโยงกับ µP และ width scaling โดยสรุปคล้ายกับ scaling analysis, nondimensionalization, chaotic vs ordered regime ในฟิสิกส์
- universal phenomena ปรากฏเป็น inductive bias และ representation ที่พบร่วมกันข้ามโมเดล และสอดคล้องกับ critical phenomena, renormalization group flow ในฟิสิกส์
Figure 1 เน้นว่า linearization ให้ คำตอบที่แม่นยำ และสอดคล้องกับการทดลองได้ดี
- ใน deep linear network มีการเรียนรู้ singular mode แบบทีละลำดับภายใต้ task-aligned initialization และ whitened input
- หากทำ Taylor expansion ของ nonlinear network รอบจุด initialization เพื่อทำให้เป็นเชิงเส้น ก็จะลดรูปเป็น kernel ridge regression ผ่าน NTK และการพยากรณ์ประสิทธิภาพการทดสอบก็ใกล้เคียงกับผลทดลองในงานจำแนกแบบทวิภาคีหลายงานบน CIFAR-5m
Figure 2 แสดงให้เห็นว่าเพียงแค่ปรับขนาดเอาต์พุตให้ใหญ่หรือเล็ก ก็สามารถเหนี่ยวนำพลวัตการฝึกแบบ lazy และ rich ได้
- แม้จะเป็น shallow student network เดียวกัน เมื่อ α = 0.1 น้ำหนักของ student จะเคลื่อนที่มากและรวมตัวใกล้ทิศทาง feature ของ teacher แสดงพลวัตแบบ rich
- เมื่อ α = 30 แม้ loss จะลดลง แต่น้ำหนักของ student แทบไม่ขยับ จึงแสดงพลวัตแบบ lazy

1 ความคิดเห็น

GN⁺ 4 일 전

ความคิดเห็นจาก Hacker News

ในฐานะคนที่ทำงานอยู่ในสายนี้ ผมมองว่าบทความนี้สรุป หัวข้อวิจัย ที่ถูกพูดถึงมากที่สุดในตอนนี้ได้ค่อนข้างดี
โดยเฉพาะ open problems ช่วงท้ายที่แทบจะชี้ทิศทางวิจัยหลักได้เกือบทั้งหมด เลยเป็นส่วนที่มีประโยชน์ที่สุด
พอเห็นว่าในคอมเมนต์มีความสงสัยกันเยอะ ก็ยิ่งสะท้อนว่างานวิจัยแบบนี้แทบยังไม่ถูกสื่อสารไปสู่สาธารณะเลย ซึ่งน่าเสียดาย
ตอนนี้ยังไม่ค่อยมีกลไกที่อนุมานสถาปัตยกรรมเครือข่ายที่เหมาะที่สุดออกมาทางคณิตศาสตร์ได้โดยตรง แต่ส่วนใหญ่ก็เพราะการทดลองมักวิ่งเร็วกว่าทฤษฎี เลยกลายเป็นว่าต้องมาอธิบายย้อนหลังอยู่บ่อย ๆ
ถึงอย่างนั้น คำถามว่าทำไมโครงข่ายประสาทถึงทำงานได้ดีกว่าโมเดลอื่น ตอนนี้ก็เริ่มมีคำตอบที่แข็งแรงมากขึ้นเรื่อย ๆ
ปัญหาคือจริง ๆ แล้วคำถามที่คนอยากรู้มากที่สุดไม่ใช่ข้อนั้น เลยดูเหมือนว่าเรากำลังอยู่ในช่วงที่ต้องตัดสินใจว่า ต่อไปควรถามอะไร
- ตอนนี้ผมมองว่าเป็นช่วงเวลาที่แปลกดี เพราะ รากฐานเชิงทฤษฎีสารสนเทศของดีปเลิร์นนิง กำลังแข็งตัวอย่างรวดเร็ว
  คำถามว่าทำไมมันถึงทำงานได้ โดยมากถือว่าแก้ไปแล้ว และแก่นหลักคือการลดการสูญเสียข้อมูลที่ย้อนกลับไม่ได้ให้มีประสิทธิภาพ เมื่อเทียบกับ noise floor
  ทั้งที่คณิตศาสตร์ชี้ทางที่มีประสิทธิภาพกว่า แต่อุตสาหกรรมกลับเสียเวลาอยู่หลายปีด้วยการดันแต่โมเดลให้ใหญ่ขึ้นเรื่อย ๆ
  โมเดล 70B ที่ออกแบบดี ๆ ก็สามารถรันได้ที่ราว 16GB โดยไม่สูญเสียความสามารถ และยังฝึกต่อได้ด้วย แต่เงินทุนกลับเทไปที่ bigger อย่างเดียว
  ตอนนี้อุตสาหกรรมย้ายเป้าหมายไปที่ Agency และ Long-horizon Persistence แล้ว และการเปลี่ยนผ่านจากเครื่องคิดเลขที่ทำนายได้ ไปเป็นระบบที่คงอยู่ได้นาน ดูจะใกล้กับปัญหาอุณหพลศาสตร์นอกสมดุลมากกว่า
  ตรงนี้มีคณิตศาสตร์และกฎที่ใช้กับ AI ได้ตรง ๆ และหลักการที่ทำให้สัญญาณคงอยู่ในโมเดล กับหลักการที่ทำให้เอเจนต์คงอยู่ได้ ก็เชื่อมกันด้วยคณิตศาสตร์ชุดเดียวกันแทบทั้งหมด
  ความเชี่ยวชาญของผมก็อยู่ที่เรื่องความคงอยู่แบบนี้พอดี และพอเห็นฝั่ง AI ต้องมานั่งเรียนหลักการพื้นฐานที่วงการอื่นเข้าใจกันไปแล้วใหม่แบบลำบาก ๆ ก็ยอมรับว่าหงุดหงิดเหมือนกัน
  เพราะงั้นผมเลยเขียนเอกสารอธิบายว่าคณิตศาสตร์นี้ทำงานยังไง และจะเอาไปใช้กับแต่ละโดเมนได้ยังไง แล้วแชร์ออกไป พออ่านแล้วก็จะรู้ได้อย่างแม่นยำว่าต้องปรับอะไรเพื่อเพิ่มความคงอยู่ แทนที่จะอาศัยความรู้สึกล้วน ๆ
  คำถามอย่างโมเดลจะทำงานต่อเนื่องได้กี่ชั่วโมง ฟังดูแทบจะน่ารักไปเลย เพราะยังมีคำถามที่เป็นแก่นกว่านั้นอีก
- ถ้าเป็นอย่างนั้นจริงก็น่ายินดีมาก
  จาก มุมมองแบบดั้งเดิม ผลของการมีพารามิเตอร์เกินหรือสถาปัตยกรรมโครงข่ายแบบต่าง ๆ นี่ยอมรับตามตรงว่าเข้าใจได้ยาก
  ผมยอมรับว่า double descent ใช้งานได้จริงเชิงประจักษ์ แต่ก็ยังรู้สึกว่าโดยหลักแล้วมันไม่น่าจะเป็นแบบนั้น
  ในมุมของคนที่ชอบ Elements ของ Hastie และคณะ แค่ดู bias-variance tradeoff ก็รู้สึกว่ายากจะได้ผลลัพธ์แบบนี้
  เรื่องนี้คาใจผมมาหลายปีแล้ว ถ้ามีความคืบหน้าในประเด็นนี้จริง ต่อให้ในเชิงปรัชญาอย่างเดียวก็ถือว่ามีประโยชน์มาก
  ผมยังอ่านไปแค่บทนำ แต่บทความก็เขียนดี และโปรแกรมวิจัยแบบนี้ก็น่าได้รับการสนับสนุนมากพอสมควร
  มันดูคล้ายกับ bagging หรือ boosting ที่ตอนแรกก็ประสบความสำเร็จเชิงประจักษ์ก่อนจะมีทฤษฎีรองรับ
- ผมแปลกใจเสมอที่มีคนจำนวนมากมาก เวลาได้ยินเรื่องงานวิจัยที่พยายามทำความเข้าใจโครงข่ายประสาท ก็ตัดบทตั้งแต่แรกว่าเป็น black box เลยเข้าใจไม่ได้หรอก
  น่าจะเป็นผลจากการที่โครงข่ายประสาทมักถูกเล่าให้ดูเหมือนอยู่ตรงข้ามกับ linear regression ที่ตีความแบบคลาสสิกได้
  พอโลกวิศวกรรมเคลื่อนเร็วมาก บรรยากาศก็เลยกลายเป็นว่าถ้างานวิจัยไม่ให้ผลลัพธ์ชัดเจนทันที ก็ไม่ค่อยมีใครยอมรอ
  แม้แต่นักวิจัยด้านการตีความโมเดลเองก็ดูเหมือนหลายคนจะยอมแพ้เร็วเกินไป ถ้ายังไม่เห็นผลลัพธ์เด่น ๆ ในทันที
- คำถามว่า ทำไมโครงข่ายประสาทถึงทำงานได้ดีกว่าโมเดลอื่น น่าสนใจมาก
  ถ้ามีเอกสารอ้างอิงสำหรับคนที่ไม่ได้อยู่ในสายนี้ให้อ่านได้ด้วยก็อยากรู้
- ผมไม่แน่ใจว่าจะสรุปได้ไหมว่าโครงข่ายประสาท ดีกว่าโมเดลอื่นจริง
  มันจริงที่ว่าสามารถครอบคลุมกลุ่มปัญหาที่ traditional ML ทำได้ยากอย่างภาพได้กว้างกว่ามาก แต่ในงานที่เทียบกันได้ตรง ๆ ผมเข้าใจว่า gradient boosting ก็ยังชนะได้หลายกรณีเหมือนกัน
จุดที่ผมยังไม่เข้าใจคือเรื่องนี้
ไอเดียเรื่องโครงข่ายประสาทมีมาหลายสิบปีแล้ว แต่ไม่ได้รับความสนใจมากนัก ก่อนที่ดีปเลิร์นนิงจะระเบิดขึ้นหลัง Attention Is All You Need ในปี 2017
ผมเข้าใจว่า GPU ช่วยเร่งดีปเลิร์นนิงได้ แต่แนวคิดของ transformer เองก็น่าจะลองได้เร็วกว่านั้นบนฮาร์ดแวร์ที่ช้ากว่านี้ไม่ใช่หรือ
- จุดเปลี่ยน ที่แท้จริงคือ AlexNet ในปี 2012
  AlexNet ตาม https://en.wikipedia.org/wiki/AlexNet แสดงให้เห็นการกระโดดด้านประสิทธิภาพที่ต่างจากของเดิมคนละระดับในการแข่งขันจัดหมวดหมู่ ImageNet และหลังจากนั้นห้องแล็บวิจัยภาพด้าน ML หลัก ๆ ก็หันไปใช้ deep CNN กันหมด
  ภายในไม่กี่ปี วิธีแบบอื่นก็แทบหายไปจากการแข่งขันภาพระดับ SOTA และหลังจากนั้นโครงข่ายประสาทเชิงลึกก็เข้าครองงาน ML ด้านอื่นต่อ
  คำอธิบายกระแสหลักสุดท้ายมีอยู่สองอย่างรวมกัน
  อย่างแรกคือพลังประมวลผลที่มากกว่าสมัยก่อนแบบทิ้งห่าง และอย่างที่สองคือชุดข้อมูลคุณภาพสูงขนาดใหญ่มากขึ้นอย่าง ImageNet ที่ผ่านการคัดและติดป้ายกำกับด้วยมือ
  attention มีประโยชน์มากเป็นพิเศษกับลำดับข้อมูลอย่างข้อความ ที่มีโครงสร้างลำดับค่อนข้างยืดหยุ่น และต้องเรียนรู้ความสัมพันธ์ที่ซับซ้อน แต่ตอนนี้หลายคนมองว่าสถาปัตยกรรมเป็น tradeoff ทางเลือก มากกว่าจะเป็นแก่นแท้ของการเรียนรู้เอง โดยเฉพาะเมื่อข้อมูลและคอมพิวต์ยังไม่พอ
  สุดท้ายแล้วอย่างที่ https://en.wikipedia.org/wiki/Bitter_lesson ว่าไว้ คอมพิวต์ที่มากขึ้นและข้อมูลที่มากขึ้น มักชนะโมเดลที่ฉลาดกว่าแต่ขยายสเกลได้ไม่ดี
  มนุษย์มีเซลล์ประสาทราว 10^11 ตัว สุนัขราว 10^9 และหนูราว 10^7 ซึ่งสิ่งที่สะดุดตาคือทั้งหมดเป็นตัวเลขที่มหาศาล
  แม้แต่สติปัญญาที่จำกัดแบบหนูก็ยังต้องใช้เซลล์ประสาทนับร้อยล้านตัว และดูเหมือนว่าสติปัญญาจะปรากฏขึ้นได้ก็ต่อเมื่อข้ามระดับความสามารถด้านการคำนวณบางจุดไปแล้ว
  น่าจะเป็นเพราะการรับมือกับความซับซ้อนโดยเนื้อแท้ของสภาพแวดล้อมการเรียนรู้ที่ซับซ้อน ต้องใช้พารามิเตอร์จำนวนมาก
  ในทางกลับกัน สำหรับปัญหาที่เรียบง่ายหรือเป็นแบบแผน มีเทคนิคมากมายที่ใช้พารามิเตอร์น้อยกว่าแล้วทำงานได้ดี หรือถึงขั้นพิสูจน์ได้ว่าเหมาะที่สุด
  สิ่งที่เราเรียกว่าการเรียนรู้และสติปัญญาโดยมากตั้งอยู่บนสมมติฐานของสภาพแวดล้อมที่ซับซ้อน และความซับซ้อนแบบนั้นก็ต้องการพารามิเตอร์จำนวนมากโดยเนื้อแท้
- ชัยชนะครั้งใหญ่ก่อนหน้านั้นของดีปเลิร์นนิงจริง ๆ คือ AlexNet ปี 2012 ในงานรู้จำภาพ
  มันชนะการแข่งขันแบบขาดลอย และภายในไม่กี่ปี งานด้านภาพก็แทบกลายเป็นมาตรฐานแบบนั้นไปหมด
  ผมจำได้ลาง ๆ ว่าน่าจะเป็น Jeremy Howard ที่เคยเขียนไว้ราวปี 2017 ว่าเมื่อไร NLP จะได้ transfer learning ที่ใช้ได้ผลดีพอ ๆ กับที่ convnet ทำไว้กับภาพ
  paper เรื่อง attention ไม่ได้ครองโลกทันทีในปีนั้น และตอนนั้นฮาร์ดแวร์ก็ยังไม่พอ อีกทั้งก็ยังไม่มีฉันทามติว่าสเกลแก้ทุกอย่างได้
  ต้องรออีกเกือบ 5 ปีกว่า GPT-3 จะมา และตอนนั้นเองคลื่นลูกปัจจุบันถึงเริ่มขึ้น
  และผู้คนก็มักประเมิน ขนาดของ compute ที่ต้องใช้ฝึกสัตว์ประหลาดพวกนี้ต่ำเกินไปมาก เพราะถ้าใช้โปรเซสเซอร์เดี่ยว 1GHz ตัวเดียว การฝึกโมเดลระดับนี้หนึ่งตัวจะใช้เวลาราว 100 ล้านปี
  แม้แต่โมเดลระดับ GPT-3 ก็ยังต้องใช้ GPU ราว 25,000 ตัวอยู่นานหลายเดือน และด้วยหน่วยความจำอันจำกัดของ GPU เมื่อ 10 ปีก่อน การฝึก transformer ขนาดใหญ่แทบเป็นไปไม่ได้เลย
  K80 สมัยก่อนมีหน่วยความจำราว 12GB แต่ H100/H200 ปัจจุบันอยู่ระดับหลายร้อย GB และ transformer ขนาดใหญ่แบบนี้ก็นับว่าแทบทำไม่ได้จริงก่อนต้นทศวรรษ 2020
  ยังนึกถึงตอนปลายทศวรรษ 2010 ที่เหล่าเกมเมอร์บ่นกันว่า GPU แพงขึ้นแรงเพราะ ML
- อย่างที่คนอื่นบอก ความสนใจที่ระเบิดขึ้นเริ่มมาจากการที่ deep convolutional networks ใช้ได้ผลกับโจทย์ภาพ
  สิ่งที่น่าสนใจคือก่อนหน้านั้นโครงข่ายประสาทถูกมองว่าไม่สำคัญเท่าไรด้วยซ้ำ
  ตอนผมเรียนวิชาที่เกี่ยวข้องราวปี 2000 บรรยากาศโดยรวมก็ประมาณนั้น
  การจะกลับมาร้อนแรงได้อีกครั้ง ดูเหมือนท้ายที่สุดต้องอาศัยทั้งข้อมูลฝึกปริมาณมหาศาลอย่าง ImageNet และโปรเซสเซอร์ที่เร็วพอพร้อมกัน
  หลังจากนั้นก็มีการพัฒนาต่อยอดกับสถาปัตยกรรมเฉพาะทางอย่างต่อเนื่อง จนขยายตัวแบบลูกหิมะ
  สำหรับชุมชนวงกว้าง AlexNet ดูเป็นจุดหักเหใหญ่ แต่ในแวดวงวิชาการเอง กระแสเริ่มเปลี่ยนมาตั้งแต่ 2-3 ปีก่อนหน้านั้นแล้ว
  ผมเริ่มเห็นตั้งแต่ราวปี 2008-09 ว่าในเวิร์กช็อป งานนำเสนอเกี่ยวกับโครงข่ายประสาทไม่ได้ถูกเมินอีกต่อไป
- เรื่องคล้ายกันเคยเกิดกับ เมทริกซ์ มาก่อน
  เมทริกซ์มีมาตั้งแต่ 400 ปีก่อน แต่ พีชคณิตเชิงเส้น โดยเฉพาะพีชคณิตเชิงเส้นเชิงตัวเลข เพิ่งระเบิดขึ้นหลังการมาถึงของคอมพิวเตอร์
  สมัยก่อนการแก้ระบบสมการเชิงเส้นนิยมใช้ทฤษฎี minors แต่เมื่อมีคอมพิวเตอร์ ทฤษฎีอย่าง Gaussian elimination หรือ Krylov space ก็พัฒนาอย่างมาก
- แม้แนวคิด transformer เองอาจใช้ได้เร็วกว่านี้บนฮาร์ดแวร์ที่ช้ากว่า แต่ใน สเกลเล็ก มันไม่ได้ให้ผลแบบเดียวกัน
  ผู้คนอาจจินตนาการไว้แล้ว แต่ไม่มีฮาร์ดแวร์พอจะทำมันให้เกิดขึ้นจริง
  ถ้าพูดให้เรียบง่าย LLM ก็คือ transformer บวกกับ ข้อมูลปริมาณมหาศาล และการจะฝึกกับข้อมูลระดับนั้นได้จริงก็จำเป็นต้องมีฮาร์ดแวร์ที่แรงพออย่างหลีกเลี่ยงไม่ได้
น่าสนใจที่เรากำลังใช้เครื่องมือเรียนรู้อย่าง สมอง เพื่อพยายามทำความเข้าใจเครื่องมือเรียนรู้อีกชนิดหนึ่ง
SGD เองก็ทำงานได้ดีมากอยู่แล้ว และต่อให้ทำให้มันดีขึ้นอีกหลายเท่า ก็อาจไม่ได้ช่วยตอบคำถามพื้นฐานว่า black box นี้กำลังทำอะไรอยู่จริง ๆ
วิธีที่มันเรียนรู้ กับสิ่งที่โมเดลกำลังทำอยู่จริง เป็นคนละปัญหากัน และสมองของเราก็เองก็เป็น black box ในหลายด้านเช่นกัน
เพราะงั้นผมเลยรู้สึกว่ายังต้องมีตัวเชื่อมมากกว่านี้ระหว่างงานวิจัยกลไกการเรียนรู้กับ จิตวิทยา รวมถึงแนวคิดเชิงปรัชญาเกี่ยวกับธรรมชาติของความคิดและภาษา
นี่ถือว่าให้กำลังใจ แต่ผมว่าชื่อเรื่องโอเวอร์ไปหน่อย
ถ้าใช้ว่า แนวทางบุกเข้าไปทำความเข้าใจว่าดีปเลิร์นนิงกำลังทำอะไรอยู่จริง น่าจะตรงกว่า แต่ก็คงไม่สะดุดตาเท่า
ถ้ามันนำไปสู่วิธีวัดได้ว่าเมื่อไรระบบดีปเลิร์นนิงจะเกิด ภาพหลอน ขึ้นมาได้ ก็จะมีคุณค่ามากมหาศาล
จนกว่าจะทำได้ ก่อนหน้านั้นระบบดีปเลิร์นนิงก็คงถูกจำกัดให้ใช้ได้แค่กับงานที่ต่อให้มันพูดเพ้อเจ้อขึ้นมาก็สร้างความเสียหายไม่มากนัก
- ผมคิดว่าอุปสรรคใหญ่อย่างหนึ่งในสายนี้คือ ศัพท์ช่วยจำที่เต็มไปด้วยความหวัง และ การทำให้เป็นมนุษย์ ที่ถูกแปะให้กับ LLM
  ตัวอย่างเช่น คำว่า hallucination เองก็บังคับยัดความหมายแบบมนุษย์ให้กับเอาต์พุตของ LLM
  ถ้ามองตามกลไกทางคณิตศาสตร์จริง ๆ ภาพหลอนก็เป็นเพียงเอาต์พุตอีกชนิดหนึ่งเท่านั้น และไม่มีเส้นแบ่งชัดเจนที่นิยามได้ระหว่างมันกับเอาต์พุตแบบอื่น
- การวัดว่าเมื่อไรระบบดีปเลิร์นนิงจะ สร้างภาพหลอน เป็นปัญหาที่คุ้มค่ามากจริง ๆ ที่จะพยายามแก้
  มันยังเป็นทิศทางวิจัยหลักของผมด้วย จึงอาจมีอคติอยู่บ้าง
  แนวทางที่พบบ่อยคือ OOD detection แต่ผมรู้สึกมาตลอดว่าการตั้งโจทย์แบบนี้ไม่ค่อยมั่นคงตั้งแต่ต้น
  เพราะงั้นผมกับเพื่อนร่วมงานเลยลองใช้แนวทางที่รากฐานกว่า ด้วยการวัด misspecification ของโมเดล แต่ต้นทุนการคำนวณสูงมากจนตอนนี้ยังเป็นเรื่องเฉพาะกลุ่มอยู่มาก
  ไม่ว่าจะทางไหน กว่าที่จะมีจุดทะลุทะลวงก็คงต้องใช้เวลาอีกพอสมควร
อ่านแล้วทำให้นึกว่ามันคล้าย vibecoding ในเชิงแนวคิด
คือทำให้บางอย่างใช้การได้ก่อน แล้วค่อยไปทำความเข้าใจทีหลังว่าทำไมมันถึงเวิร์กและมันทำงานอย่างไร ซึ่งเป็นงานอีกแบบหนึ่งต่างหาก
เดี๋ยวก่อน เราสร้างสิ่งที่ยังทั้งไม่เข้าใจและอธิบายไม่ค่อยได้ แล้วตอนนี้จะมาเรียกมันว่า science งั้นเหรอ?
ตลอดหลายสิบปีที่ผ่านมาเราก็ยืมศัพท์จากชีววิทยา โดยเฉพาะ ประสาทชีววิทยา มาใช้ และสุดท้ายมันก็ดูเหมือนมีด้านที่เป็นการ copy paste เลียนแบบลิงอยู่ไม่น้อย
พูดตามตรง ผมกลับว่าสองความพยายามสร้าง ทฤษฎีสากล นี้น่าสนใจกว่า
https://arxiv.org/abs/2510.12269
https://www.mdpi.com/1099-4300/28/3/332
ผมยังสงสัยเรื่องความเชื่อมโยงกับ fuzzy logic ด้วย
โครงข่ายประสาทดูเหมือนจะให้เหตุผลแบบคลุมเครือบางอย่าง แต่ผมก็ไม่แน่ใจว่าถ้าจะนิยามเชิงรูปแบบแล้วควรเรียกสิ่งนั้นว่าอะไร
มีความพยายามทำให้ fuzzy reasoning เป็นแบบรูปนัยมาหลายปี แต่ตอนนี้ดูเหมือนไม่ค่อยมีใครสนใจแล้ว
ความรู้สึกของผมคือโครงข่ายประสาทกับ transformer เหมือน OOP ของโลก ML
มันดังมากและใช้ในทางปฏิบัติได้ค่อนข้างดี แต่รากฐานยังพร่ามัวอยู่ และให้ความรู้สึกเหมือนเอาสิ่งที่สมัยก่อนก็แทนได้อยู่แล้วมาเขียนใหม่ด้วยภาษาใหม่ เพียงแต่ยากจะชี้ชัดว่าตรงไหนกันแน่ที่เกิดประโยชน์ขึ้น
ผมยังอ่าน paper ไม่จบ แต่รู้สึกว่ามันเขียนได้ ชวนติดตามมาก และ รอบคอบมาก จริง ๆ
มีอะไรให้ย่อยเยอะมาก แต่การได้เห็นเนื้อหาเหล่านี้ถูกรวมไว้ด้วยกันก็น่าสนใจมาก
ผมคิดว่าเหตุผลในระดับสูงที่ทำให้ดีปเลิร์นนิงทำงานได้ดี ก็เพราะมัน เรียนรู้ต่อจากข้อมูลได้มากขึ้นเรื่อย ๆ ได้ดีกว่าวิธีอื่น
แต่ถ้าไม่มี ข้อมูลปริมาณมหาศาล ที่เป็นไปได้ในตอนนี้ สถาปัตยกรรมก็คงไม่ได้สำคัญขนาดนั้น
ถ้าไม่อธิบายทั้งสองด้านของสมการโมเดล-ข้อมูลไปพร้อมกัน ก็ยากจะสร้างทฤษฎีวิทยาศาสตร์ที่แข็งแรงเกี่ยวกับคำถามอย่าง ทำไมโมเดล reasoning ถึงให้เหตุผลได้
โมเดลเป็นผลผลิตร่วมกันของสถาปัตยกรรมและข้อมูลฝึก
ตอนนี้ปัญหานี้ยังดูยากพอ ๆ กับการอธิบายว่ามนุษย์หรือสัตว์เรียนรู้สิ่งเฉพาะบางอย่างจากข้อมูลป้อนเข้าปริมาณมหาศาลได้อย่างไร
ความเข้าใจเชิงประจักษ์น่าจะดีขึ้นเรื่อย ๆ แต่รากแก่นของมันอาจไม่ได้ลดรูปกลับเป็นวิทยาการคอมพิวเตอร์ได้ทั้งหมด
ผมคิดว่าแก่นจริงของความซับซ้อนอยู่ฝั่ง gigadataset มากกว่าสถาปัตยกรรม
ทฤษฎีจะมีความสำคัญอย่างชี้ขาดทันทีเมื่อเราจำเป็นต้อง ทำนายโหมดความล้มเหลว
ระบบช่วยตัดสินใจที่โดยมากทำงานได้พอใช้ แต่พังเงียบ ๆ ใน edge case อาจอันตรายกว่าระบบที่ง่ายกว่าแต่มีข้อจำกัดชัดเจนเสียอีก
ถ้าเราเข้าใจกระบวนการเกิดอคติ ก็จะช่วยแยกได้ว่าเมื่อไรโมเดล มั่นใจจริง และเมื่อไรแค่กำลัง pattern matching
ความต่างนี้สำคัญเป็นพิเศษในสภาพแวดล้อมที่มีความเสี่ยงสูง

ทฤษฎีวิทยาศาสตร์ของดีปเลิร์นนิงจะถือกำเนิดขึ้น

บทนำ

learning mechanics คืออะไร

7 เงื่อนไขที่ learning mechanics ต้องมี

ความเป็นรากฐาน

ความเป็นคณิตศาสตร์

ความสามารถในการคาดการณ์

ความครอบคลุม

ความเป็นสัญชาตญาณ

ประโยชน์ใช้สอย

ความถ่อมตน

ทำไม learning mechanics จึงสำคัญ

เหตุผลเชิงวิทยาศาสตร์

เหตุผลเชิงปฏิบัติ

เหตุผลด้านความปลอดภัย

หลักฐานว่ากลไกของการเรียนรู้กำลังปรากฏขึ้น

การตั้งค่าที่แก้ได้เชิงวิเคราะห์

ลิมิตที่ให้มุมมองเชิงลึก

กฎเชิงประจักษ์อย่างง่าย

ทฤษฎีไฮเปอร์พารามิเตอร์

การตั้งค่าที่แก้ได้เชิงวิเคราะห์

การทำให้เป็นเชิงเส้นต่อข้อมูล

การทำให้เป็นเชิงเส้นต่อพารามิเตอร์

ก้าวข้ามการทำให้เป็นเชิงเส้น

มุมมองเชิงลึกจากลิมิตสุดขั้ว

ลิมิตความกว้างเป็นอนันต์และการแบ่งแบบ lazy-rich

ระบอบ lazy หรือ kernel หรือ linearized

ระบอบ rich หรือ active หรือ feature-learning

พฤติกรรมที่ปรากฏใน rich regime

การเปลี่ยนผ่าน lazy-rich ที่เกิดขึ้นได้แม้ในความกว้างจำกัด

ลิมิตความลึกเป็นอนันต์และลิมิตของไฮเปอร์พารามิเตอร์อื่นๆ

ลิมิตขนาดแบบอื่นๆ

สรุปที่ปรากฏจากตารางและรูป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News