- มีมุมมองว่าปรากฏการณ์การทำให้เกิดการทั่วไป (generalization) ของโมเดลดีปเลิร์นนิงนั้นแตกต่างจากโมเดลเดิม ๆ และดูลึกลับ
- โอเวอร์ฟิต (overfitting), double descent, overparametrization มักถูกยกขึ้นมาเป็นลักษณะเฉพาะของดีปเลิร์นนิง
- อย่างไรก็ตาม ปรากฏการณ์เหล่านี้ไม่ได้จำกัดอยู่แค่โครงข่ายประสาทเทียม และสามารถอธิบายได้ด้วยกรอบการทำให้เกิดการทั่วไปแบบเก่า เช่น PAC-Bayes และขอบเขตสมมติฐานที่บวกนับได้
- แนวคิด "soft inductive biases" คือหลักการสำคัญในการอธิบายปรากฏการณ์การทำให้เกิดการทั่วไปเหล่านี้
อคตินำเชิงอุปนัยแบบอ่อน (Soft Inductive Biases)
- อคตินำเชิงอุปนัยแบบเดิมเป็นวิธีจำกัดพื้นที่สมมติฐานเพื่อเพิ่มประสิทธิภาพการทำให้เกิดการทั่วไป
- อคตินำเชิงอุปนัยแบบอ่อนยังคงความยืดหยุ่นของพื้นที่สมมติฐานไว้ พร้อมกับกำหนดความพึงชอบต่อคำตอบบางแบบ
- เช่นเดียวกับที่ CNN ใช้การแชร์พารามิเตอร์เพื่อคงคุณสมบัติด้านความเป็นท้องถิ่นและการไม่แปรตามการเลื่อนตำแหน่ง จึงเป็นการเพิ่ม regularization แบบนุ่มนวลให้กับคุณสมบัติบางอย่าง
- เหตุผลที่โมเดลแบบ overparametrized ยังมีความสามารถในการทำให้เกิดการทั่วไปที่ดีก็เพราะ soft inductive biases ทำงานอยู่
กรอบการทำให้เกิดการทั่วไป (Generalization Frameworks)
PAC-Bayes และขอบเขตสมมติฐานที่บวกนับได้
- PAC-Bayes อธิบายความเสี่ยงในการทำให้เกิดการทั่วไปด้วยความเสี่ยงเชิงประจักษ์และความสามารถในการบีบอัดของโมเดล (compressibility)
- แม้โมเดลจะมีขนาดใหญ่ แต่ถ้าโมเดลเรียบง่ายและบีบอัดได้ ก็รับประกันประสิทธิภาพการทำให้เกิดการทั่วไปที่ดีได้
- สมการ:
- ความเสี่ยงคาดหมาย ≤ ความเสี่ยงเชิงประจักษ์ + พจน์ที่เกี่ยวข้องกับความสามารถในการบีบอัด
มิติเชิงผล (Effective Dimensionality)
- มิติเชิงผล = จำนวนค่าเอกลักษณ์ของ Hessian ของฟังก์ชัน loss ที่มีค่ามาก
- ยิ่งมิติเชิงผลต่ำ โมเดลก็ยิ่งเรียบง่ายและมีประสิทธิภาพการทำให้เกิดการทั่วไปที่ดี
กรอบการทำให้เกิดการทั่วไปอื่น ๆ
- Rademacher complexity, VC dimension ฯลฯ อธิบายปรากฏการณ์ของดีปเลิร์นนิงได้ไม่ดีนัก
- PAC-Bayes และขอบเขตสมมติฐานที่บวกนับได้สามารถแก้ปัญหานี้ได้
ปรากฏการณ์สำคัญ
Benign Overfitting
- ปรากฏการณ์ที่โมเดลเรียนรู้แม้กระทั่งสัญญาณรบกวนได้อย่างสมบูรณ์ แต่ยังคงมีประสิทธิภาพการทำให้เกิดการทั่วไปที่ดี
- สามารถทำให้เกิด Benign Overfitting ซ้ำได้แม้ด้วยโมเดลเชิงเส้นอย่างง่าย
- อธิบายได้ด้วย PAC-Bayes และขอบเขตสมมติฐานที่บวกนับได้
Overparametrization
- แม้จำนวนพารามิเตอร์จะมากกว่าจำนวนข้อมูล โมเดลก็ยังมีประสิทธิภาพการทำให้เกิดการทั่วไปที่ยอดเยี่ยม
- โมเดลขนาดใหญ่มีประสิทธิภาพการทำให้เกิดการทั่วไปที่ดี เพราะหลังการฝึกแล้วสามารถบีบอัดให้เป็นโครงสร้างที่เรียบง่ายกว่าได้
Double Descent
- ปรากฏการณ์ที่เมื่อความซับซ้อนของโมเดลเพิ่มขึ้น loss จะลดลง จากนั้นเพิ่มขึ้น แล้วจึงลดลงอีกครั้ง
- สามารถทำให้เกิดซ้ำได้แม้ในโมเดลเชิงเส้น
- อธิบายได้ด้วยมิติเชิงผลและความสามารถในการบีบอัดของโมเดล
มุมมองทางเลือก (Alternative Views)
- มุมมองเดิมที่ว่าการทำให้เกิดการทั่วไปของดีปเลิร์นนิงเป็นเรื่องลึกลับ เกิดจากการพึ่งพากรอบการทำให้เกิดการทั่วไปที่จำกัด
- ปรากฏการณ์การทำให้เกิดการทั่วไปสามารถอธิบายได้ผ่าน PAC-Bayes และขอบเขตสมมติฐานที่บวกนับได้
- การมองว่าการทำให้เกิดการทั่วไปของดีปเลิร์นนิงเป็นเรื่องลึกลับอาจเป็นอคติที่ผิดพลาด
องค์ประกอบที่โดดเด่นของดีปเลิร์นนิง (Distinctive Features of Deep Learning)
การเรียนรู้ตัวแทน (Representation Learning)
- โครงข่ายประสาทเทียมมีความสามารถในการเรียนรู้ความคล้ายคลึงของข้อมูล
- สามารถวัดความคล้ายคลึงได้ดีกว่าระยะห่างแบบยูคลิดในข้อมูลมิติสูง
- ได้เปรียบในการทำ interpolation และ extrapolation ในมิติสูง
การเรียนรู้สากล (Universal Learning)
- โมเดลดีปเลิร์นนิงแสดงประสิทธิภาพที่ดีอย่างสม่ำเสมอในหลากหลายโดเมน
- มีผลงานโดดเด่นใน transfer learning และ in-context learning
การเชื่อมต่อระหว่างโหมด (Mode Connectivity)
- โมเดลที่ฝึกจากการตั้งต้นต่างกันสามารถเชื่อมต่อกันได้ตามเส้นโค้งง่าย ๆ
- ถูกนำไปใช้ในเทคนิคการฝึกอย่าง SWA(Stochastic Weight Averaging)
บทสรุปและแนวโน้ม
- Benign Overfitting, overparametrization, double descent ไม่ได้เป็นปรากฏการณ์ที่จำกัดอยู่แค่โครงข่ายประสาทเทียม
- สามารถอธิบายได้ด้วย PAC-Bayes และขอบเขตสมมติฐานที่บวกนับได้
- ดีปเลิร์นนิงมีความแตกต่างในแง่คุณลักษณะอย่างการเรียนรู้ตัวแทน การเรียนรู้สากล และการเชื่อมต่อระหว่างโหมด
- ประสิทธิภาพการทำให้เกิดการทั่วไปไม่ได้มาจากความซับซ้อนของโมเดล แต่มาจากความสามารถในการบีบอัดและความเรียบง่ายของโมเดล
1 ความคิดเห็น
ความคิดเห็นใน Hacker News
ถ้าสนใจแมชชีนเลิร์นนิง คอร์ส "Probability for computer scientists" ของ Stanford เป็นแหล่งเรียนรู้ที่ยอดเยี่ยม
ความเสถียรของอัลกอริทึมนั้นให้คำอธิบายที่น่าเชื่อถือกว่าทายาทของทฤษฎี PAC-Bayes หรือ VC
ถ้าอยากเข้าใจแมชชีนเลิร์นนิง ขอแนะนำ "The StatQuest Illustrated Guide to Machine Learning" ของ Josh Starmer
DNN ไม่มีความสามารถในการ generalize ที่พิเศษอะไร
แทนที่จะจำกัด hypothesis space เพื่อหลีกเลี่ยง overfitting สิ่งสำคัญคือการยอมรับ hypothesis space ที่ยืดหยุ่น และเลือกวิธีแก้ที่เรียบง่ายซึ่งสอดคล้องกับข้อมูล
ตอนเริ่มเรียนดีปเลิร์นนิงใหม่ ๆ การเรียนรู้บทพิสูจน์ของทฤษฎีบทการประมาณแบบสากลช่วยได้มาก
ตัวอย่างที่น่าสนใจซึ่งจำเป็นต้องใช้โครงข่ายแบบ "ลึก" ถูกพูดถึงในงานวิจัยเกี่ยวกับ RNN เมื่อไม่นานมานี้
มีแนวคิดในการรวบรวมข้อมูลข้อความ แล้วเก็บระยะห่างระหว่างคำเพื่อสร้างอัลกอริทึมทำนาย
สงสัยว่าเส้นแบ่งอยู่ตรงไหน ว่าอะไรถูกนิยามและถูกกำกับดูแลว่าเป็น 'AI'
นิวรอนเทียมคือการเพิ่ม activation function เข้าไปใน linear regression เพื่อทำให้มันเป็นแบบไม่เชิงเส้น