จะมีทฤษฎีทางวิทยาศาสตร์ของดีปเลิร์นนิงเกิดขึ้น
(arxiv.org)- บทความนี้เสนอข้ออ้างว่ากำลังก่อตัวเป็น ทฤษฎีทางวิทยาศาสตร์ ที่ใช้อธิบายคุณสมบัติสำคัญของดีปเลิร์นนิง เช่น กระบวนการเรียนรู้, การแทนค่าแฝง, น้ำหนักสุดท้าย, และประสิทธิภาพ
- ยกห้าสายธารการวิจัยเป็นหลักฐานสำคัญ ได้แก่ การตั้งค่าจำลองเชิงอุดมคติที่ตีความได้, ขีดจำกัดที่จัดการได้, กฎคณิตศาสตร์อย่างง่าย, ทฤษฎีของไฮเปอร์พารามิเตอร์, และพฤติกรรมสากล
- ทฤษฎีนี้มุ่งเน้นที่พลวัตของกระบวนการเรียนรู้ อธิบายสถิติการสรุปภาพรวมแบบหยาบ และเน้น การคาดการณ์เชิงปริมาณที่หักล้างได้
- เสนอชื่อกรอบทฤษฎีใหม่นี้ว่า "learning mechanics" ซึ่งหมายถึงพลวัตของกระบวนการเรียนรู้
- ผลลัพธ์อย่าง deep linear network, NTK, mean-field และการแบ่งแบบ lazy-rich ช่วยให้จัดการเชิงปริมาณกับพลวัตการเรียนรู้, การทำให้ทั่วไป, feature learning และ scaling law ได้
- คาดการณ์ความสัมพันธ์เชิงเกื้อกูลกับมุมมองเชิงสถิติและเชิงทฤษฎีสารสนเทศ รวมถึง mechanistic interpretability พร้อมมองทิศทางอนาคตของทฤษฎีดีปเลิร์นนิง
ข้ออ้างหลักของงานวิจัย
- กำลังเกิดขึ้นของ ทฤษฎีทางวิทยาศาสตร์ (scientific theory) ที่ใช้อธิบายคุณสมบัติและสถิติสำคัญของดีปเลิร์นนิง เช่น กระบวนการเรียนรู้ การแทนค่าแฝง น้ำหนักสุดท้าย และประสิทธิภาพ
- สังเคราะห์กระแสหลักของงานวิจัยทฤษฎีดีปเลิร์นนิงที่กำลังดำเนินอยู่ และระบุห้าทิศทางการวิจัยที่สนับสนุนการมีอยู่ของทฤษฎีนี้
- (a) การตั้งค่าจำลองเชิงอุดมคติที่แก้ได้ (solvable idealized settings): ให้สัญชาตญาณเกี่ยวกับพลวัตการเรียนรู้ของระบบที่สมจริง
- (b) ขีดจำกัดที่จัดการได้ (tractable limits): เผยให้เห็นความเข้าใจเกี่ยวกับปรากฏการณ์การเรียนรู้พื้นฐาน
- (c) กฎคณิตศาสตร์อย่างง่าย (simple mathematical laws): จับปริมาณสังเกตระดับมหภาคที่สำคัญ (macroscopic observables)
- (d) ทฤษฎีของไฮเปอร์พารามิเตอร์ (theories of hyperparameters): แยกไฮเปอร์พารามิเตอร์ออกจากส่วนที่เหลือของกระบวนการเรียนรู้ เพื่อให้เหลือระบบที่ง่ายขึ้น
- (e) พฤติกรรมสากล (universal behaviors): ทำให้ชัดเจนว่าปรากฏการณ์ใดจำเป็นต้องมีคำอธิบาย ผ่านสิ่งที่เกิดร่วมกันข้ามระบบและการตั้งค่า
- เห็นว่าการมองทฤษฎีที่กำลังก่อตัวนี้ว่าเป็นพลวัตของกระบวนการเรียนรู้นั้นเหมาะสมที่สุด และเสนอชื่อว่า "learning mechanics"
- อภิปรายความสัมพันธ์กับแนวทางอื่นในการสร้างทฤษฎีดีปเลิร์นนิง เช่น มุมมองเชิงสถิติ (statistical) และ เชิงทฤษฎีสารสนเทศ (information-theoretic)
- โดยเฉพาะอย่างยิ่ง คาดการณ์ความสัมพันธ์เชิงเกื้อกูล (symbiotic relationship) ระหว่าง learning mechanics และ mechanistic interpretability
บทนำ
- ดีปเลิร์นนิง มีพลังอย่างมาก แต่ยังขาดกรอบวิทยาศาสตร์ที่อธิบายหลักการทำงานภายในอย่างเป็นเอกภาพ
- แม้โครงข่ายประสาทจะแสดงประสิทธิภาพเหนือมนุษย์ในงานหลากหลายประเภท แต่ยังไม่มี ทฤษฎีแบบบูรณาการ ที่อธิบายว่าทำไมจึงทำงานเช่นนั้น และประสิทธิภาพดังกล่าวเกิดขึ้นได้อย่างไร
- วิธีฝึกใช้งานจริงก็ยังพึ่งพาการลองผิดลองถูกอย่างมาก มากกว่าการยึดจาก first principles และทฤษฎีก็ยังมีบทบาทจำกัดในงานดีปเลิร์นนิงประจำวัน
- เมื่อเข้าสู่ยุคของโมเดลภาษาขนาดใหญ่และ diffusion model ความลึกลับยิ่งลึกขึ้น แต่ ทฤษฎีดีปเลิร์นนิงเชิงวิทยาศาสตร์ ก็เริ่มก่อตัวขึ้นจริง และรูปแบบของมันใกล้เคียงกับ mechanics ของกระบวนการเรียนรู้
- จุดสนใจของทฤษฎีดีปเลิร์นนิงเปลี่ยนแปลงมาตามเวลา
- ในระยะแรก เน้นที่ว่าโมเดลสามารถแทนฟังก์ชันแบบใดได้ และเรียนรู้จากข้อมูลอย่างไร
- ต่อมาจึงขยับไปสู่คำถามว่าเมื่อใดจึงจะทำให้ทั่วไปได้ภายใต้ตัวอย่างจำกัด ทำให้เกิดการพัฒนาของ classical learning theory, computational learning theory, PAC theory และทฤษฎี optimization แบบดั้งเดิม
- ขณะเดียวกันก็เกิดสายธารของ statistical physics of machine learning ที่ศึกษาพฤติกรรมเฉลี่ยของโมเดลง่าย ๆ ไปพร้อมกัน
- โครงข่ายหลายชั้น, backpropagation, และการขยายขนาดของข้อมูลกับทรัพยากรคำนวณ ทำให้ข้อจำกัดของทฤษฎีเดิมชัดเจนขึ้น
- โครงข่ายประสาทมีโครงสร้างแบบ ไม่เว้า (non-convex) และ มีพารามิเตอร์เกิน (overparameterized) ซึ่งต่างจากโมเดลแบบง่ายและเว้าที่ทฤษฎีดั้งเดิมจัดการได้ดี
- มันเรียนรู้ การแทนค่าภายในที่มีโครงสร้าง นอกเหนือจากการลด training error และเผยให้เห็นความสม่ำเสมอข้ามงานและข้ามสเกล
- การเปลี่ยนแปลงนี้ทำให้ทฤษฎีดีปเลิร์นนิงเคลื่อนจากขั้นของการถามเชิงคณิตศาสตร์ว่าอะไร “เป็นไปได้” ไปสู่ขั้นเชิงวิทยาศาสตร์ที่ อธิบาย และ คาดการณ์ พฤติกรรมของระบบเชิงประจักษ์ที่ซับซ้อน
- ดังนั้นจึงต้องการ แนวทางเชิงวิทยาศาสตร์ ที่ยอมรับการสังเกตเชิงประจักษ์ ค้นหาหลักการรวมศูนย์ และระบุรูปแบบที่เกิดซ้ำ
- เส้นทางข้างหน้าจึงน่าจะใกล้เคียงกับกระบวนการที่สาขาวิทยาศาสตร์หนึ่งค่อย ๆ เติบโตเต็มที่ มากกว่าการพัฒนาในฐานะสาขาคณิตศาสตร์ล้วน
learning mechanics คืออะไร
- การเรียนรู้ของโครงข่ายประสาทสามารถมองได้ว่าคล้ายกับ mechanics ของวัตถุที่เคลื่อนผ่านอวกาศและเวลา
- เช่นเดียวกับที่วัตถุเคลื่อนที่อย่างต่อเนื่องในปริภูมิทางกายภาพภายใต้แรง โมเดลก็เคลื่อนที่ใน parameter space ผ่านการอัปเดตแบบไม่ต่อเนื่อง
- เช่นเดียวกับที่แรงในฟิสิกส์เกิดจากปฏิสัมพันธ์ระหว่างองค์ประกอบของระบบ ในดีปเลิร์นนิง ปฏิสัมพันธ์ระหว่างพารามิเตอร์ ชุดข้อมูล งาน และกฎการเรียนรู้ ก็เป็นตัวกำหนดการเรียนรู้
- ยังมีความสอดคล้องกันระหว่างสนามในฟิสิกส์กับ gradient ในดีปเลิร์นนิง
- เช่นเดียวกับที่ระบบกายภาพตกลงสู่จุดต่ำสุดเฉพาะที่ของศักย์ซึ่งกำหนดโดยปฏิสัมพันธ์ภายในและข้อจำกัดภายนอก โครงข่ายประสาทก็ลู่เข้าสู่จุดต่ำสุดเฉพาะที่ของ loss landscape ที่เกิดจากสถาปัตยกรรมและข้อมูลฝึก
- อุปมานี้ไม่ได้เป็นเพียงวาทศิลป์ แต่สอดคล้องกับกระแสงานวิจัยที่กำลังดำเนินอยู่
- เช่นเดียวกับที่แขนงต่าง ๆ ของ mechanics ใช้ การตั้งค่าที่ตีความได้, ขีดจำกัดที่ทำให้ง่ายขึ้น, สถิติแบบสรุป, การวิเคราะห์พารามิเตอร์ของระบบ, และ ปรากฏการณ์สากล learning mechanics ก็ใช้เครื่องมือแบบเดียวกัน
- โดยเฉพาะอย่างยิ่ง เช่นเดียวกับ continuum mechanics และ statistical mechanics ที่จัดการองค์ประกอบจำนวนมากซึ่งโต้ตอบกัน ดีปเลิร์นนิงก็ได้ประโยชน์จากการอธิบายสถิติในระดับขยาย มากกว่าการติดตามองค์ประกอบแต่ละตัว
- โปรแกรมการวิจัยนี้สามารถรวมเรียกได้ว่า learning mechanics
เงื่อนไข 7 ข้อที่ learning mechanics ต้องมี
-
ความเป็นพื้นฐาน
- ต้องอธิบายการฝึกโครงข่ายประสาทอย่างมีตรรกะโดยเริ่มจาก first principles
- แม้ในขั้นกลางอาจใช้สมมติฐานเกี่ยวกับน้ำหนัก พลวัต หรือประสิทธิภาพเป็นเครื่องมือได้ แต่สุดท้ายสิ่งเหล่านี้ก็ต้องอธิบายได้จาก first principles เช่นกัน
-
ความเป็นคณิตศาสตร์
- ต้องสร้าง ข้อความเชิงปริมาณ ที่ไม่กำกวมเกี่ยวกับคุณสมบัติสำคัญของโครงข่ายประสาท
- หากมีเพียงคำอธิบายเชิงคุณภาพ ก็ยังไม่อาจถือเป็น mechanics ได้
-
ความสามารถในการพยากรณ์
- ต้องเสนอข้ออ้างที่ตรวจสอบได้ด้วยการวัดเชิงประจักษ์ที่ง่ายและทำซ้ำได้
- เนื่องจากสามารถควบคุมการทดลองกับระบบได้อย่างดีมาก ความก้าวหน้าสำคัญจึงควรถูกตรวจสอบได้อย่างชัดเจนด้วยการทดลอง
-
ความครอบคลุม
- ต้องเชื่อมโยงกระบวนการฝึก การแทนค่าภายใน และน้ำหนักสุดท้ายให้อยู่ในภาพเดียวกัน
- แทนที่จะพยายามใส่ทุกรายละเอียด ควรเลือกระดับความละเอียดที่เหมาะสมซึ่งให้ความเข้าใจ แม้ต้องแลกกับการละทิ้งรายละเอียดบางส่วน
-
ความเข้าใจง่าย
- ควรให้ความสำคัญกับความเข้าใจที่เรียบง่ายและให้แสงสว่าง มากกว่าความซับซ้อนทางเทคนิค
- ควรเป็นทฤษฎีที่ให้ความพึงพอใจจากการช่วยคลี่คลายความลึกลับของดีปเลิร์นนิง
-
ความมีประโยชน์
- เช่นเดียวกับที่ฟิสิกส์เป็นรากฐานของวิศวกรรมแขนงอื่น มันควรเป็นฐานวิทยาศาสตร์ของดีปเลิร์นนิงเชิงประยุกต์
- รวมถึงเป้าหมายที่เป็นรูปธรรม เช่น การลดการจูนไฮเปอร์พารามิเตอร์, เครื่องมือพยากรณ์สำหรับการออกแบบ dataset, และ รากฐานที่เข้มงวดของ AI safety
-
ความถ่อมตน
- ต้องทำให้ชัดเจนว่าอธิบายอะไรได้ดี และอธิบายอะไรไม่ได้
- mechanics ที่ใช้ได้กับดีปเลิร์นนิงในโลกจริงอาจพังลงในกรณีพิเศษขนาดเล็กที่ออกแบบด้วยมือ และสิ่งนี้ควรถูกมองว่าเป็นราคาที่จ่ายเพื่อให้ได้ภาพอย่างง่ายในขอบเขตที่เราสนใจ
ทำไม learning mechanics จึงสำคัญ
-
เหตุผลทางวิทยาศาสตร์
- ความสำเร็จทางวิศวกรรมของโครงข่ายประสาทขนาดใหญ่บ่งชี้ว่ามันกำลังใช้ หลักการลึกซึ้งของการเรียนรู้และการแทนค่า ที่เรายังไม่เข้าใจ
- ยกตัวอย่างกรณีที่เทคโนโลยีมาก่อนทฤษฎี เช่น steam engine กับ thermodynamics และเครื่องบินกับ aerodynamic theory
- หลักการเรียนรู้ของโครงข่ายประสาทเทียมอาจช่วยให้เข้าใจ biological intelligence ได้เช่นกัน ซึ่งอาจมีนัยต่อ neuroscience และ cognitive science
-
เหตุผลเชิงปฏิบัติ
- ทฤษฎีดีปเลิร์นนิงที่เติบโตเต็มที่สามารถชี้นำการออกแบบโมเดล การ optimization การขยายสเกล และการนำไปใช้งานจริง ด้วยหลักการที่เชื่อถือได้มากขึ้น
- ในบางด้าน ทฤษฎีเริ่มมีบทบาทแล้ว
- empirical scaling laws
- สูตรเชิงคณิตศาสตร์สำหรับการสเกลไฮเปอร์พารามิเตอร์
- optimizer และวิธี data attribution ที่ออกแบบโดยมีแรงจูงใจจากทฤษฎี
- ทฤษฎีที่ลึกและสมบูรณ์ยิ่งขึ้นจะสามารถให้แนวทางแบบนี้ได้มากขึ้น และทำให้เฉียบคมกับคาดการณ์ได้มากกว่าเดิม
-
เหตุผลด้านความปลอดภัย
- หากต้องการอธิบาย จัดลักษณะ และควบคุมระบบ AI ที่ทรงพลังขึ้นเรื่อย ๆ จำเป็นต้องทำให้ตัวแปร กลไก และหลักการจัดระเบียบที่เกี่ยวข้องชัดเจน
- เป็นเรื่องยากที่จะกำกับดูแลเทคโนโลยีที่ไม่สามารถอธิบายได้อย่างชัดเจน และทฤษฎีพื้นฐานสามารถมอบความกระจ่างที่จำเป็นต่อ reliability, oversight และ control
- โดยเฉพาะอย่างยิ่ง มีการเสนอว่ามันอาจช่วยด้าน AI safety ในลักษณะที่สนับสนุน mechanistic interpretability
หลักฐานว่า learning mechanics กำลังปรากฏขึ้น
- องค์ประกอบหลักของดีปเลิร์นนิงนั้น ชัดแจ้ง และ วัดได้
- สถาปัตยกรรมถูกกำหนดเป็นโครงข่ายประสาท f(x; θ) ซึ่งประกอบจากการแปลงเชิงเส้นและไม่เชิงเส้นอย่างง่าย
- ข้อมูลถูกกำหนดเป็นเซตตัวอย่าง D = {(xi, yi)} จากการกระจายการสร้างข้อมูลที่ไม่ทราบค่า
- งานถูกนิยามด้วยฟังก์ชันวัตถุประสงค์ L(θ) ที่วัดประสิทธิภาพบนชุดข้อมูล
- กฎการเรียนรู้อธิบายได้ด้วยการอัปเดตแบบอิง gradient เช่น
θ(t+1) = θ(t) −η∇L(θ(t))พร้อมการกำหนดค่าเริ่มต้นและไฮเปอร์พารามิเตอร์ของการ optimization
- แทบไม่มีสิ่งใดถูกซ่อนอยู่ในระหว่างกระบวนการเรียนรู้
- ต่างจากระบบซับซ้อนจำนวนมาก ดีปเลิร์นนิงเปิดเผย equations of motion ที่ควบคุมพลวัตโดยตรง
- สามารถบันทึก weight, activation, gradient และ loss ทั้งหมดได้ และสร้างสถิติใด ๆ จากสิ่งเหล่านั้นก็ได้
- การออกแบบการทดลอง การทำซ้ำ และการตรวจสอบทำได้ง่าย จึงเหมาะต่อการค้นหารูปแบบเชิงประจักษ์และทดสอบคำทำนายของทฤษฎีอย่างเข้มงวด
- โจทย์ยากหลักไม่ได้อยู่ที่ความทึบ แต่คือ ความซับซ้อน
- ปฏิสัมพันธ์ระหว่าง architecture, data, task และ learning rule ก่อให้เกิดพลวัตการเรียนรู้ที่ ไม่เชิงเส้น, เชื่อมโยงกัน, และ มิติสูง
- ไวต่อการเลือกไฮเปอร์พารามิเตอร์ และแม้แต่การกระจายของข้อมูลเองก็อธิบายลักษณะได้ไม่ง่าย
- ถึงอย่างนั้น ภายใต้ความซับซ้อนนี้ก็ยังมีความสม่ำเสมอซ่อนอยู่ และมีการเสนอข้อสังเกตห้าประการเพื่อรองรับเรื่องนี้
- (a) การตั้งค่าจำลองเชิงอุดมคติที่แก้ได้ (solvable idealized settings)
- (b) ขีดจำกัดที่จัดการได้ (tractable limits)
- (c) กฎคณิตศาสตร์อย่างง่าย (simple mathematical laws)
- (d) ทฤษฎีของไฮเปอร์พารามิเตอร์ (theories of hyperparameters)
- (e) พฤติกรรมสากล (universal behaviors)
=== ละเนื้อหาในงานวิจัย ===
- เอกสารแนะนำเพิ่มเติม มุมมอง และคำถามเปิดมีให้ที่ learningmechanics.pub
- บทความวิจัยมีความยาว 41 หน้า
2 ความคิดเห็น
เหมือนจะมองและพยายามอธิบายด้วยกรอบของพลวัต แต่ก่อนอื่นก็ยังน่าสงสัยเลยว่าจะสร้างสมการที่หาคำตอบทั่วไปได้จริงหรือไม่
ความคิดเห็นจาก Hacker News
ในฐานะคนที่ทำงานอยู่ในสายนี้ ผมมองว่าบทความนี้สรุป หัวข้อวิจัย ที่ถูกพูดถึงมากที่สุดในตอนนี้ได้ค่อนข้างดี
โดยเฉพาะ open problems ช่วงท้ายที่แทบจะชี้ทิศทางวิจัยหลักได้เกือบทั้งหมด เลยเป็นส่วนที่มีประโยชน์ที่สุด
พอเห็นว่าในคอมเมนต์มีความสงสัยกันเยอะ ก็ยิ่งสะท้อนว่างานวิจัยแบบนี้แทบยังไม่ถูกสื่อสารไปสู่สาธารณะเลย ซึ่งน่าเสียดาย
ตอนนี้ยังไม่ค่อยมีกลไกที่อนุมานสถาปัตยกรรมเครือข่ายที่เหมาะที่สุดออกมาทางคณิตศาสตร์ได้โดยตรง แต่ส่วนใหญ่ก็เพราะการทดลองมักวิ่งเร็วกว่าทฤษฎี เลยกลายเป็นว่าต้องมาอธิบายย้อนหลังอยู่บ่อย ๆ
ถึงอย่างนั้น คำถามว่าทำไมโครงข่ายประสาทถึงทำงานได้ดีกว่าโมเดลอื่น ตอนนี้ก็เริ่มมีคำตอบที่แข็งแรงมากขึ้นเรื่อย ๆ
ปัญหาคือจริง ๆ แล้วคำถามที่คนอยากรู้มากที่สุดไม่ใช่ข้อนั้น เลยดูเหมือนว่าเรากำลังอยู่ในช่วงที่ต้องตัดสินใจว่า ต่อไปควรถามอะไร
คำถามว่าทำไมมันถึงทำงานได้ โดยมากถือว่าแก้ไปแล้ว และแก่นหลักคือการลดการสูญเสียข้อมูลที่ย้อนกลับไม่ได้ให้มีประสิทธิภาพ เมื่อเทียบกับ noise floor
ทั้งที่คณิตศาสตร์ชี้ทางที่มีประสิทธิภาพกว่า แต่อุตสาหกรรมกลับเสียเวลาอยู่หลายปีด้วยการดันแต่โมเดลให้ใหญ่ขึ้นเรื่อย ๆ
โมเดล 70B ที่ออกแบบดี ๆ ก็สามารถรันได้ที่ราว 16GB โดยไม่สูญเสียความสามารถ และยังฝึกต่อได้ด้วย แต่เงินทุนกลับเทไปที่ bigger อย่างเดียว
ตอนนี้อุตสาหกรรมย้ายเป้าหมายไปที่ Agency และ Long-horizon Persistence แล้ว และการเปลี่ยนผ่านจากเครื่องคิดเลขที่ทำนายได้ ไปเป็นระบบที่คงอยู่ได้นาน ดูจะใกล้กับปัญหาอุณหพลศาสตร์นอกสมดุลมากกว่า
ตรงนี้มีคณิตศาสตร์และกฎที่ใช้กับ AI ได้ตรง ๆ และหลักการที่ทำให้สัญญาณคงอยู่ในโมเดล กับหลักการที่ทำให้เอเจนต์คงอยู่ได้ ก็เชื่อมกันด้วยคณิตศาสตร์ชุดเดียวกันแทบทั้งหมด
ความเชี่ยวชาญของผมก็อยู่ที่เรื่องความคงอยู่แบบนี้พอดี และพอเห็นฝั่ง AI ต้องมานั่งเรียนหลักการพื้นฐานที่วงการอื่นเข้าใจกันไปแล้วใหม่แบบลำบาก ๆ ก็ยอมรับว่าหงุดหงิดเหมือนกัน
เพราะงั้นผมเลยเขียนเอกสารอธิบายว่าคณิตศาสตร์นี้ทำงานยังไง และจะเอาไปใช้กับแต่ละโดเมนได้ยังไง แล้วแชร์ออกไป พออ่านแล้วก็จะรู้ได้อย่างแม่นยำว่าต้องปรับอะไรเพื่อเพิ่มความคงอยู่ แทนที่จะอาศัยความรู้สึกล้วน ๆ
คำถามอย่างโมเดลจะทำงานต่อเนื่องได้กี่ชั่วโมง ฟังดูแทบจะน่ารักไปเลย เพราะยังมีคำถามที่เป็นแก่นกว่านั้นอีก
จาก มุมมองแบบดั้งเดิม ผลของการมีพารามิเตอร์เกินหรือสถาปัตยกรรมโครงข่ายแบบต่าง ๆ นี่ยอมรับตามตรงว่าเข้าใจได้ยาก
ผมยอมรับว่า double descent ใช้งานได้จริงเชิงประจักษ์ แต่ก็ยังรู้สึกว่าโดยหลักแล้วมันไม่น่าจะเป็นแบบนั้น
ในมุมของคนที่ชอบ Elements ของ Hastie และคณะ แค่ดู bias-variance tradeoff ก็รู้สึกว่ายากจะได้ผลลัพธ์แบบนี้
เรื่องนี้คาใจผมมาหลายปีแล้ว ถ้ามีความคืบหน้าในประเด็นนี้จริง ต่อให้ในเชิงปรัชญาอย่างเดียวก็ถือว่ามีประโยชน์มาก
ผมยังอ่านไปแค่บทนำ แต่บทความก็เขียนดี และโปรแกรมวิจัยแบบนี้ก็น่าได้รับการสนับสนุนมากพอสมควร
มันดูคล้ายกับ bagging หรือ boosting ที่ตอนแรกก็ประสบความสำเร็จเชิงประจักษ์ก่อนจะมีทฤษฎีรองรับ
น่าจะเป็นผลจากการที่โครงข่ายประสาทมักถูกเล่าให้ดูเหมือนอยู่ตรงข้ามกับ linear regression ที่ตีความแบบคลาสสิกได้
พอโลกวิศวกรรมเคลื่อนเร็วมาก บรรยากาศก็เลยกลายเป็นว่าถ้างานวิจัยไม่ให้ผลลัพธ์ชัดเจนทันที ก็ไม่ค่อยมีใครยอมรอ
แม้แต่นักวิจัยด้านการตีความโมเดลเองก็ดูเหมือนหลายคนจะยอมแพ้เร็วเกินไป ถ้ายังไม่เห็นผลลัพธ์เด่น ๆ ในทันที
ถ้ามีเอกสารอ้างอิงสำหรับคนที่ไม่ได้อยู่ในสายนี้ให้อ่านได้ด้วยก็อยากรู้
มันจริงที่ว่าสามารถครอบคลุมกลุ่มปัญหาที่ traditional ML ทำได้ยากอย่างภาพได้กว้างกว่ามาก แต่ในงานที่เทียบกันได้ตรง ๆ ผมเข้าใจว่า gradient boosting ก็ยังชนะได้หลายกรณีเหมือนกัน
จุดที่ผมยังไม่เข้าใจคือเรื่องนี้
ไอเดียเรื่องโครงข่ายประสาทมีมาหลายสิบปีแล้ว แต่ไม่ได้รับความสนใจมากนัก ก่อนที่ดีปเลิร์นนิงจะระเบิดขึ้นหลัง Attention Is All You Need ในปี 2017
ผมเข้าใจว่า GPU ช่วยเร่งดีปเลิร์นนิงได้ แต่แนวคิดของ transformer เองก็น่าจะลองได้เร็วกว่านั้นบนฮาร์ดแวร์ที่ช้ากว่านี้ไม่ใช่หรือ
AlexNet ตาม https://en.wikipedia.org/wiki/AlexNet แสดงให้เห็นการกระโดดด้านประสิทธิภาพที่ต่างจากของเดิมคนละระดับในการแข่งขันจัดหมวดหมู่ ImageNet และหลังจากนั้นห้องแล็บวิจัยภาพด้าน ML หลัก ๆ ก็หันไปใช้ deep CNN กันหมด
ภายในไม่กี่ปี วิธีแบบอื่นก็แทบหายไปจากการแข่งขันภาพระดับ SOTA และหลังจากนั้นโครงข่ายประสาทเชิงลึกก็เข้าครองงาน ML ด้านอื่นต่อ
คำอธิบายกระแสหลักสุดท้ายมีอยู่สองอย่างรวมกัน
อย่างแรกคือพลังประมวลผลที่มากกว่าสมัยก่อนแบบทิ้งห่าง และอย่างที่สองคือชุดข้อมูลคุณภาพสูงขนาดใหญ่มากขึ้นอย่าง ImageNet ที่ผ่านการคัดและติดป้ายกำกับด้วยมือ
attention มีประโยชน์มากเป็นพิเศษกับลำดับข้อมูลอย่างข้อความ ที่มีโครงสร้างลำดับค่อนข้างยืดหยุ่น และต้องเรียนรู้ความสัมพันธ์ที่ซับซ้อน แต่ตอนนี้หลายคนมองว่าสถาปัตยกรรมเป็น tradeoff ทางเลือก มากกว่าจะเป็นแก่นแท้ของการเรียนรู้เอง โดยเฉพาะเมื่อข้อมูลและคอมพิวต์ยังไม่พอ
สุดท้ายแล้วอย่างที่ https://en.wikipedia.org/wiki/Bitter_lesson ว่าไว้ คอมพิวต์ที่มากขึ้นและข้อมูลที่มากขึ้น มักชนะโมเดลที่ฉลาดกว่าแต่ขยายสเกลได้ไม่ดี
มนุษย์มีเซลล์ประสาทราว 10^11 ตัว สุนัขราว 10^9 และหนูราว 10^7 ซึ่งสิ่งที่สะดุดตาคือทั้งหมดเป็นตัวเลขที่มหาศาล
แม้แต่สติปัญญาที่จำกัดแบบหนูก็ยังต้องใช้เซลล์ประสาทนับร้อยล้านตัว และดูเหมือนว่าสติปัญญาจะปรากฏขึ้นได้ก็ต่อเมื่อข้ามระดับความสามารถด้านการคำนวณบางจุดไปแล้ว
น่าจะเป็นเพราะการรับมือกับความซับซ้อนโดยเนื้อแท้ของสภาพแวดล้อมการเรียนรู้ที่ซับซ้อน ต้องใช้พารามิเตอร์จำนวนมาก
ในทางกลับกัน สำหรับปัญหาที่เรียบง่ายหรือเป็นแบบแผน มีเทคนิคมากมายที่ใช้พารามิเตอร์น้อยกว่าแล้วทำงานได้ดี หรือถึงขั้นพิสูจน์ได้ว่าเหมาะที่สุด
สิ่งที่เราเรียกว่าการเรียนรู้และสติปัญญาโดยมากตั้งอยู่บนสมมติฐานของสภาพแวดล้อมที่ซับซ้อน และความซับซ้อนแบบนั้นก็ต้องการพารามิเตอร์จำนวนมากโดยเนื้อแท้
มันชนะการแข่งขันแบบขาดลอย และภายในไม่กี่ปี งานด้านภาพก็แทบกลายเป็นมาตรฐานแบบนั้นไปหมด
ผมจำได้ลาง ๆ ว่าน่าจะเป็น Jeremy Howard ที่เคยเขียนไว้ราวปี 2017 ว่าเมื่อไร NLP จะได้ transfer learning ที่ใช้ได้ผลดีพอ ๆ กับที่ convnet ทำไว้กับภาพ
paper เรื่อง attention ไม่ได้ครองโลกทันทีในปีนั้น และตอนนั้นฮาร์ดแวร์ก็ยังไม่พอ อีกทั้งก็ยังไม่มีฉันทามติว่าสเกลแก้ทุกอย่างได้
ต้องรออีกเกือบ 5 ปีกว่า GPT-3 จะมา และตอนนั้นเองคลื่นลูกปัจจุบันถึงเริ่มขึ้น
และผู้คนก็มักประเมิน ขนาดของ compute ที่ต้องใช้ฝึกสัตว์ประหลาดพวกนี้ต่ำเกินไปมาก เพราะถ้าใช้โปรเซสเซอร์เดี่ยว 1GHz ตัวเดียว การฝึกโมเดลระดับนี้หนึ่งตัวจะใช้เวลาราว 100 ล้านปี
แม้แต่โมเดลระดับ GPT-3 ก็ยังต้องใช้ GPU ราว 25,000 ตัวอยู่นานหลายเดือน และด้วยหน่วยความจำอันจำกัดของ GPU เมื่อ 10 ปีก่อน การฝึก transformer ขนาดใหญ่แทบเป็นไปไม่ได้เลย
K80 สมัยก่อนมีหน่วยความจำราว 12GB แต่ H100/H200 ปัจจุบันอยู่ระดับหลายร้อย GB และ transformer ขนาดใหญ่แบบนี้ก็นับว่าแทบทำไม่ได้จริงก่อนต้นทศวรรษ 2020
ยังนึกถึงตอนปลายทศวรรษ 2010 ที่เหล่าเกมเมอร์บ่นกันว่า GPU แพงขึ้นแรงเพราะ ML
สิ่งที่น่าสนใจคือก่อนหน้านั้นโครงข่ายประสาทถูกมองว่าไม่สำคัญเท่าไรด้วยซ้ำ
ตอนผมเรียนวิชาที่เกี่ยวข้องราวปี 2000 บรรยากาศโดยรวมก็ประมาณนั้น
การจะกลับมาร้อนแรงได้อีกครั้ง ดูเหมือนท้ายที่สุดต้องอาศัยทั้งข้อมูลฝึกปริมาณมหาศาลอย่าง ImageNet และโปรเซสเซอร์ที่เร็วพอพร้อมกัน
หลังจากนั้นก็มีการพัฒนาต่อยอดกับสถาปัตยกรรมเฉพาะทางอย่างต่อเนื่อง จนขยายตัวแบบลูกหิมะ
สำหรับชุมชนวงกว้าง AlexNet ดูเป็นจุดหักเหใหญ่ แต่ในแวดวงวิชาการเอง กระแสเริ่มเปลี่ยนมาตั้งแต่ 2-3 ปีก่อนหน้านั้นแล้ว
ผมเริ่มเห็นตั้งแต่ราวปี 2008-09 ว่าในเวิร์กช็อป งานนำเสนอเกี่ยวกับโครงข่ายประสาทไม่ได้ถูกเมินอีกต่อไป
เมทริกซ์มีมาตั้งแต่ 400 ปีก่อน แต่ พีชคณิตเชิงเส้น โดยเฉพาะพีชคณิตเชิงเส้นเชิงตัวเลข เพิ่งระเบิดขึ้นหลังการมาถึงของคอมพิวเตอร์
สมัยก่อนการแก้ระบบสมการเชิงเส้นนิยมใช้ทฤษฎี minors แต่เมื่อมีคอมพิวเตอร์ ทฤษฎีอย่าง Gaussian elimination หรือ Krylov space ก็พัฒนาอย่างมาก
ผู้คนอาจจินตนาการไว้แล้ว แต่ไม่มีฮาร์ดแวร์พอจะทำมันให้เกิดขึ้นจริง
ถ้าพูดให้เรียบง่าย LLM ก็คือ transformer บวกกับ ข้อมูลปริมาณมหาศาล และการจะฝึกกับข้อมูลระดับนั้นได้จริงก็จำเป็นต้องมีฮาร์ดแวร์ที่แรงพออย่างหลีกเลี่ยงไม่ได้
น่าสนใจที่เรากำลังใช้เครื่องมือเรียนรู้อย่าง สมอง เพื่อพยายามทำความเข้าใจเครื่องมือเรียนรู้อีกชนิดหนึ่ง
SGD เองก็ทำงานได้ดีมากอยู่แล้ว และต่อให้ทำให้มันดีขึ้นอีกหลายเท่า ก็อาจไม่ได้ช่วยตอบคำถามพื้นฐานว่า black box นี้กำลังทำอะไรอยู่จริง ๆ
วิธีที่มันเรียนรู้ กับสิ่งที่โมเดลกำลังทำอยู่จริง เป็นคนละปัญหากัน และสมองของเราก็เองก็เป็น black box ในหลายด้านเช่นกัน
เพราะงั้นผมเลยรู้สึกว่ายังต้องมีตัวเชื่อมมากกว่านี้ระหว่างงานวิจัยกลไกการเรียนรู้กับ จิตวิทยา รวมถึงแนวคิดเชิงปรัชญาเกี่ยวกับธรรมชาติของความคิดและภาษา
นี่ถือว่าให้กำลังใจ แต่ผมว่าชื่อเรื่องโอเวอร์ไปหน่อย
ถ้าใช้ว่า แนวทางบุกเข้าไปทำความเข้าใจว่าดีปเลิร์นนิงกำลังทำอะไรอยู่จริง น่าจะตรงกว่า แต่ก็คงไม่สะดุดตาเท่า
ถ้ามันนำไปสู่วิธีวัดได้ว่าเมื่อไรระบบดีปเลิร์นนิงจะเกิด ภาพหลอน ขึ้นมาได้ ก็จะมีคุณค่ามากมหาศาล
จนกว่าจะทำได้ ก่อนหน้านั้นระบบดีปเลิร์นนิงก็คงถูกจำกัดให้ใช้ได้แค่กับงานที่ต่อให้มันพูดเพ้อเจ้อขึ้นมาก็สร้างความเสียหายไม่มากนัก
ตัวอย่างเช่น คำว่า hallucination เองก็บังคับยัดความหมายแบบมนุษย์ให้กับเอาต์พุตของ LLM
ถ้ามองตามกลไกทางคณิตศาสตร์จริง ๆ ภาพหลอนก็เป็นเพียงเอาต์พุตอีกชนิดหนึ่งเท่านั้น และไม่มีเส้นแบ่งชัดเจนที่นิยามได้ระหว่างมันกับเอาต์พุตแบบอื่น
มันยังเป็นทิศทางวิจัยหลักของผมด้วย จึงอาจมีอคติอยู่บ้าง
แนวทางที่พบบ่อยคือ OOD detection แต่ผมรู้สึกมาตลอดว่าการตั้งโจทย์แบบนี้ไม่ค่อยมั่นคงตั้งแต่ต้น
เพราะงั้นผมกับเพื่อนร่วมงานเลยลองใช้แนวทางที่รากฐานกว่า ด้วยการวัด misspecification ของโมเดล แต่ต้นทุนการคำนวณสูงมากจนตอนนี้ยังเป็นเรื่องเฉพาะกลุ่มอยู่มาก
ไม่ว่าจะทางไหน กว่าที่จะมีจุดทะลุทะลวงก็คงต้องใช้เวลาอีกพอสมควร
อ่านแล้วทำให้นึกว่ามันคล้าย vibecoding ในเชิงแนวคิด
คือทำให้บางอย่างใช้การได้ก่อน แล้วค่อยไปทำความเข้าใจทีหลังว่าทำไมมันถึงเวิร์กและมันทำงานอย่างไร ซึ่งเป็นงานอีกแบบหนึ่งต่างหาก
เดี๋ยวก่อน เราสร้างสิ่งที่ยังทั้งไม่เข้าใจและอธิบายไม่ค่อยได้ แล้วตอนนี้จะมาเรียกมันว่า science งั้นเหรอ?
ตลอดหลายสิบปีที่ผ่านมาเราก็ยืมศัพท์จากชีววิทยา โดยเฉพาะ ประสาทชีววิทยา มาใช้ และสุดท้ายมันก็ดูเหมือนมีด้านที่เป็นการ copy paste เลียนแบบลิงอยู่ไม่น้อย
พูดตามตรง ผมกลับว่าสองความพยายามสร้าง ทฤษฎีสากล นี้น่าสนใจกว่า
https://arxiv.org/abs/2510.12269
https://www.mdpi.com/1099-4300/28/3/332
ผมยังสงสัยเรื่องความเชื่อมโยงกับ fuzzy logic ด้วย
โครงข่ายประสาทดูเหมือนจะให้เหตุผลแบบคลุมเครือบางอย่าง แต่ผมก็ไม่แน่ใจว่าถ้าจะนิยามเชิงรูปแบบแล้วควรเรียกสิ่งนั้นว่าอะไร
มีความพยายามทำให้ fuzzy reasoning เป็นแบบรูปนัยมาหลายปี แต่ตอนนี้ดูเหมือนไม่ค่อยมีใครสนใจแล้ว
ความรู้สึกของผมคือโครงข่ายประสาทกับ transformer เหมือน OOP ของโลก ML
มันดังมากและใช้ในทางปฏิบัติได้ค่อนข้างดี แต่รากฐานยังพร่ามัวอยู่ และให้ความรู้สึกเหมือนเอาสิ่งที่สมัยก่อนก็แทนได้อยู่แล้วมาเขียนใหม่ด้วยภาษาใหม่ เพียงแต่ยากจะชี้ชัดว่าตรงไหนกันแน่ที่เกิดประโยชน์ขึ้น
ผมยังอ่าน paper ไม่จบ แต่รู้สึกว่ามันเขียนได้ ชวนติดตามมาก และ รอบคอบมาก จริง ๆ
มีอะไรให้ย่อยเยอะมาก แต่การได้เห็นเนื้อหาเหล่านี้ถูกรวมไว้ด้วยกันก็น่าสนใจมาก
ผมคิดว่าเหตุผลในระดับสูงที่ทำให้ดีปเลิร์นนิงทำงานได้ดี ก็เพราะมัน เรียนรู้ต่อจากข้อมูลได้มากขึ้นเรื่อย ๆ ได้ดีกว่าวิธีอื่น
แต่ถ้าไม่มี ข้อมูลปริมาณมหาศาล ที่เป็นไปได้ในตอนนี้ สถาปัตยกรรมก็คงไม่ได้สำคัญขนาดนั้น
ถ้าไม่อธิบายทั้งสองด้านของสมการโมเดล-ข้อมูลไปพร้อมกัน ก็ยากจะสร้างทฤษฎีวิทยาศาสตร์ที่แข็งแรงเกี่ยวกับคำถามอย่าง ทำไมโมเดล reasoning ถึงให้เหตุผลได้
โมเดลเป็นผลผลิตร่วมกันของสถาปัตยกรรมและข้อมูลฝึก
ตอนนี้ปัญหานี้ยังดูยากพอ ๆ กับการอธิบายว่ามนุษย์หรือสัตว์เรียนรู้สิ่งเฉพาะบางอย่างจากข้อมูลป้อนเข้าปริมาณมหาศาลได้อย่างไร
ความเข้าใจเชิงประจักษ์น่าจะดีขึ้นเรื่อย ๆ แต่รากแก่นของมันอาจไม่ได้ลดรูปกลับเป็นวิทยาการคอมพิวเตอร์ได้ทั้งหมด
ผมคิดว่าแก่นจริงของความซับซ้อนอยู่ฝั่ง gigadataset มากกว่าสถาปัตยกรรม
ทฤษฎีจะมีความสำคัญอย่างชี้ขาดทันทีเมื่อเราจำเป็นต้อง ทำนายโหมดความล้มเหลว
ระบบช่วยตัดสินใจที่โดยมากทำงานได้พอใช้ แต่พังเงียบ ๆ ใน edge case อาจอันตรายกว่าระบบที่ง่ายกว่าแต่มีข้อจำกัดชัดเจนเสียอีก
ถ้าเราเข้าใจกระบวนการเกิดอคติ ก็จะช่วยแยกได้ว่าเมื่อไรโมเดล มั่นใจจริง และเมื่อไรแค่กำลัง pattern matching
ความต่างนี้สำคัญเป็นพิเศษในสภาพแวดล้อมที่มีความเสี่ยงสูง