ดีปเลิร์นนิงไม่ได้ลึกลับหรือแตกต่างอะไรขนาดนั้น

(arxiv.org)

30 คะแนน โดย GN⁺ 2025-03-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

มีมุมมองว่าปรากฏการณ์การทำให้เกิดการทั่วไป (generalization) ของโมเดลดีปเลิร์นนิงนั้นแตกต่างจากโมเดลเดิม ๆ และดูลึกลับ
โอเวอร์ฟิต (overfitting), double descent, overparametrization มักถูกยกขึ้นมาเป็นลักษณะเฉพาะของดีปเลิร์นนิง
อย่างไรก็ตาม ปรากฏการณ์เหล่านี้ไม่ได้จำกัดอยู่แค่โครงข่ายประสาทเทียม และสามารถอธิบายได้ด้วยกรอบการทำให้เกิดการทั่วไปแบบเก่า เช่น PAC-Bayes และขอบเขตสมมติฐานที่บวกนับได้
แนวคิด "soft inductive biases" คือหลักการสำคัญในการอธิบายปรากฏการณ์การทำให้เกิดการทั่วไปเหล่านี้

อคตินำเชิงอุปนัยแบบอ่อน (Soft Inductive Biases)

อคตินำเชิงอุปนัยแบบเดิมเป็นวิธีจำกัดพื้นที่สมมติฐานเพื่อเพิ่มประสิทธิภาพการทำให้เกิดการทั่วไป
อคตินำเชิงอุปนัยแบบอ่อนยังคงความยืดหยุ่นของพื้นที่สมมติฐานไว้ พร้อมกับกำหนดความพึงชอบต่อคำตอบบางแบบ
เช่นเดียวกับที่ CNN ใช้การแชร์พารามิเตอร์เพื่อคงคุณสมบัติด้านความเป็นท้องถิ่นและการไม่แปรตามการเลื่อนตำแหน่ง จึงเป็นการเพิ่ม regularization แบบนุ่มนวลให้กับคุณสมบัติบางอย่าง
เหตุผลที่โมเดลแบบ overparametrized ยังมีความสามารถในการทำให้เกิดการทั่วไปที่ดีก็เพราะ soft inductive biases ทำงานอยู่

กรอบการทำให้เกิดการทั่วไป (Generalization Frameworks)

PAC-Bayes และขอบเขตสมมติฐานที่บวกนับได้

PAC-Bayes อธิบายความเสี่ยงในการทำให้เกิดการทั่วไปด้วยความเสี่ยงเชิงประจักษ์และความสามารถในการบีบอัดของโมเดล (compressibility)
แม้โมเดลจะมีขนาดใหญ่ แต่ถ้าโมเดลเรียบง่ายและบีบอัดได้ ก็รับประกันประสิทธิภาพการทำให้เกิดการทั่วไปที่ดีได้
สมการ:
- ความเสี่ยงคาดหมาย ≤ ความเสี่ยงเชิงประจักษ์ + พจน์ที่เกี่ยวข้องกับความสามารถในการบีบอัด

มิติเชิงผล (Effective Dimensionality)

มิติเชิงผล = จำนวนค่าเอกลักษณ์ของ Hessian ของฟังก์ชัน loss ที่มีค่ามาก
ยิ่งมิติเชิงผลต่ำ โมเดลก็ยิ่งเรียบง่ายและมีประสิทธิภาพการทำให้เกิดการทั่วไปที่ดี

กรอบการทำให้เกิดการทั่วไปอื่น ๆ

Rademacher complexity, VC dimension ฯลฯ อธิบายปรากฏการณ์ของดีปเลิร์นนิงได้ไม่ดีนัก
PAC-Bayes และขอบเขตสมมติฐานที่บวกนับได้สามารถแก้ปัญหานี้ได้

ปรากฏการณ์สำคัญ

Benign Overfitting

ปรากฏการณ์ที่โมเดลเรียนรู้แม้กระทั่งสัญญาณรบกวนได้อย่างสมบูรณ์ แต่ยังคงมีประสิทธิภาพการทำให้เกิดการทั่วไปที่ดี
สามารถทำให้เกิด Benign Overfitting ซ้ำได้แม้ด้วยโมเดลเชิงเส้นอย่างง่าย
อธิบายได้ด้วย PAC-Bayes และขอบเขตสมมติฐานที่บวกนับได้

Overparametrization

แม้จำนวนพารามิเตอร์จะมากกว่าจำนวนข้อมูล โมเดลก็ยังมีประสิทธิภาพการทำให้เกิดการทั่วไปที่ยอดเยี่ยม
โมเดลขนาดใหญ่มีประสิทธิภาพการทำให้เกิดการทั่วไปที่ดี เพราะหลังการฝึกแล้วสามารถบีบอัดให้เป็นโครงสร้างที่เรียบง่ายกว่าได้

Double Descent

ปรากฏการณ์ที่เมื่อความซับซ้อนของโมเดลเพิ่มขึ้น loss จะลดลง จากนั้นเพิ่มขึ้น แล้วจึงลดลงอีกครั้ง
สามารถทำให้เกิดซ้ำได้แม้ในโมเดลเชิงเส้น
อธิบายได้ด้วยมิติเชิงผลและความสามารถในการบีบอัดของโมเดล

มุมมองทางเลือก (Alternative Views)

มุมมองเดิมที่ว่าการทำให้เกิดการทั่วไปของดีปเลิร์นนิงเป็นเรื่องลึกลับ เกิดจากการพึ่งพากรอบการทำให้เกิดการทั่วไปที่จำกัด
ปรากฏการณ์การทำให้เกิดการทั่วไปสามารถอธิบายได้ผ่าน PAC-Bayes และขอบเขตสมมติฐานที่บวกนับได้
การมองว่าการทำให้เกิดการทั่วไปของดีปเลิร์นนิงเป็นเรื่องลึกลับอาจเป็นอคติที่ผิดพลาด

องค์ประกอบที่โดดเด่นของดีปเลิร์นนิง (Distinctive Features of Deep Learning)

การเรียนรู้ตัวแทน (Representation Learning)

โครงข่ายประสาทเทียมมีความสามารถในการเรียนรู้ความคล้ายคลึงของข้อมูล
สามารถวัดความคล้ายคลึงได้ดีกว่าระยะห่างแบบยูคลิดในข้อมูลมิติสูง
ได้เปรียบในการทำ interpolation และ extrapolation ในมิติสูง

การเรียนรู้สากล (Universal Learning)

โมเดลดีปเลิร์นนิงแสดงประสิทธิภาพที่ดีอย่างสม่ำเสมอในหลากหลายโดเมน
มีผลงานโดดเด่นใน transfer learning และ in-context learning

การเชื่อมต่อระหว่างโหมด (Mode Connectivity)

โมเดลที่ฝึกจากการตั้งต้นต่างกันสามารถเชื่อมต่อกันได้ตามเส้นโค้งง่าย ๆ
ถูกนำไปใช้ในเทคนิคการฝึกอย่าง SWA(Stochastic Weight Averaging)

บทสรุปและแนวโน้ม

Benign Overfitting, overparametrization, double descent ไม่ได้เป็นปรากฏการณ์ที่จำกัดอยู่แค่โครงข่ายประสาทเทียม
สามารถอธิบายได้ด้วย PAC-Bayes และขอบเขตสมมติฐานที่บวกนับได้
ดีปเลิร์นนิงมีความแตกต่างในแง่คุณลักษณะอย่างการเรียนรู้ตัวแทน การเรียนรู้สากล และการเชื่อมต่อระหว่างโหมด
ประสิทธิภาพการทำให้เกิดการทั่วไปไม่ได้มาจากความซับซ้อนของโมเดล แต่มาจากความสามารถในการบีบอัดและความเรียบง่ายของโมเดล

1 ความคิดเห็น

GN⁺ 2025-03-18

ความคิดเห็นใน Hacker News

ถ้าสนใจแมชชีนเลิร์นนิง คอร์ส "Probability for computer scientists" ของ Stanford เป็นแหล่งเรียนรู้ที่ยอดเยี่ยม
- คอร์สนี้ลงลึกทั้งทฤษฎีความน่าจะเป็นและรากฐานเชิงทฤษฎีของแมชชีนเลิร์นนิง
- คอร์สของ Andrew Ng ก็มีชื่อเสียงเช่นกัน แต่ต้องอาศัยความเข้าใจทางคณิตศาสตร์ด้านพีชคณิตเชิงเส้น
- สำหรับดีปเลิร์นนิง บทนำเชิงภาพของ 3b1b มีประโยชน์มาก
ความเสถียรของอัลกอริทึมนั้นให้คำอธิบายที่น่าเชื่อถือกว่าทายาทของทฤษฎี PAC-Bayes หรือ VC
- สามารถดูเนื้อหาที่เกี่ยวข้องได้จากบทความบน arxiv
ถ้าอยากเข้าใจแมชชีนเลิร์นนิง ขอแนะนำ "The StatQuest Illustrated Guide to Machine Learning" ของ Josh Starmer
- เขาเป็นครูที่ยอดเยี่ยมในการอธิบายแนวคิดซับซ้อนให้ชัดเจนและกระชับ
- อ่านและทำความเข้าใจได้ง่ายในรูปแบบคล้ายหนังสือเด็ก
- หนังสือเกี่ยวกับโครงข่ายประสาทที่เพิ่งตีพิมพ์ล่าสุดก็น่าแนะนำเช่นกัน
DNN ไม่มีความสามารถในการ generalize ที่พิเศษอะไร
- ตรงกันข้าม มันอาจ generalize ได้แย่กว่าเทคนิคที่มีหลักการทางคณิตศาสตร์ชัดเจนอย่าง SVM
- ถ้าฝึก DNN ด้วยชุดข้อมูล "Wine Quality" จาก UCI Machine Learning Repository จะได้ผลลัพธ์ไม่ดีและเกิด overfitting
- "เวทมนตร์" ของ LLM มาจากกระบวนทัศน์การฝึก
- มันทำให้ใช้โมเดลขนาดมหึมากับชุดข้อมูลมหาศาลได้โดยไม่เกิด overfitting
- เมื่อ 10 ปีก่อน หลักการเรื่อง "การนำกลับมาใช้ซ้ำ" ยังไม่ชัดเจน
แทนที่จะจำกัด hypothesis space เพื่อหลีกเลี่ยง overfitting สิ่งสำคัญคือการยอมรับ hypothesis space ที่ยืดหยุ่น และเลือกวิธีแก้ที่เรียบง่ายซึ่งสอดคล้องกับข้อมูล
- มีคำถามว่าดีปเลิร์นนิงทำสิ่งนี้ได้อย่างไร
- ในอดีตมีการใช้แนวทาง likelihood ที่ใส่ penalty
- มีความรู้สึกว่าในดีปเลิร์นนิง วิธีลงโทษความซับซ้อนนั้นซับซ้อนกว่าและเข้าใจได้ยากกว่า
ตอนเริ่มเรียนดีปเลิร์นนิงใหม่ ๆ การเรียนรู้บทพิสูจน์ของทฤษฎีบทการประมาณแบบสากลช่วยได้มาก
- เมื่อเข้าใจว่าทำไมโครงข่ายประสาทจึงประมาณฟังก์ชันได้ ก็จะเข้าใจทุกอย่างที่สร้างต่อยอดจากสิ่งนี้ได้ง่ายขึ้น
ตัวอย่างที่น่าสนใจซึ่งจำเป็นต้องใช้โครงข่ายแบบ "ลึก" ถูกพูดถึงในงานวิจัยเกี่ยวกับ RNN เมื่อไม่นานมานี้
- โมเดล minGRU และ minLSTM ไม่ได้จำลองการพึ่งพาสถานะอย่างชัดเจน แต่ถ้าลึกพอก็สามารถเรียนรู้สิ่งนี้ได้
มีแนวคิดในการรวบรวมข้อมูลข้อความ แล้วเก็บระยะห่างระหว่างคำเพื่อสร้างอัลกอริทึมทำนาย
- อยากรู้ว่าวิธีนี้ใกล้เคียงกับ GPT 2 มากแค่ไหน
สงสัยว่าเส้นแบ่งอยู่ตรงไหน ว่าอะไรถูกนิยามและถูกกำกับดูแลว่าเป็น 'AI'
นิวรอนเทียมคือการเพิ่ม activation function เข้าไปใน linear regression เพื่อทำให้มันเป็นแบบไม่เชิงเส้น
- เมื่อนำสิ่งนี้มาสร้างเป็นโครงข่าย ก็จะเกิดผลลัพธ์ที่น่าสนใจ

ดีปเลิร์นนิงไม่ได้ลึกลับหรือแตกต่างอะไรขนาดนั้น

อคตินำเชิงอุปนัยแบบอ่อน (Soft Inductive Biases)

กรอบการทำให้เกิดการทั่วไป (Generalization Frameworks)

PAC-Bayes และขอบเขตสมมติฐานที่บวกนับได้

มิติเชิงผล (Effective Dimensionality)

กรอบการทำให้เกิดการทั่วไปอื่น ๆ

ปรากฏการณ์สำคัญ

Benign Overfitting

Overparametrization

Double Descent

มุมมองทางเลือก (Alternative Views)

องค์ประกอบที่โดดเด่นของดีปเลิร์นนิง (Distinctive Features of Deep Learning)

การเรียนรู้ตัวแทน (Representation Learning)

การเรียนรู้สากล (Universal Learning)

การเชื่อมต่อระหว่างโหมด (Mode Connectivity)

บทสรุปและแนวโน้ม

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นใน Hacker News