30 คะแนน โดย GN⁺ 2025-03-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • มีมุมมองว่าปรากฏการณ์การทำให้เกิดการทั่วไป (generalization) ของโมเดลดีปเลิร์นนิงนั้นแตกต่างจากโมเดลเดิม ๆ และดูลึกลับ
  • โอเวอร์ฟิต (overfitting), double descent, overparametrization มักถูกยกขึ้นมาเป็นลักษณะเฉพาะของดีปเลิร์นนิง
  • อย่างไรก็ตาม ปรากฏการณ์เหล่านี้ไม่ได้จำกัดอยู่แค่โครงข่ายประสาทเทียม และสามารถอธิบายได้ด้วยกรอบการทำให้เกิดการทั่วไปแบบเก่า เช่น PAC-Bayes และขอบเขตสมมติฐานที่บวกนับได้
  • แนวคิด "soft inductive biases" คือหลักการสำคัญในการอธิบายปรากฏการณ์การทำให้เกิดการทั่วไปเหล่านี้

อคตินำเชิงอุปนัยแบบอ่อน (Soft Inductive Biases)

  • อคตินำเชิงอุปนัยแบบเดิมเป็นวิธีจำกัดพื้นที่สมมติฐานเพื่อเพิ่มประสิทธิภาพการทำให้เกิดการทั่วไป
  • อคตินำเชิงอุปนัยแบบอ่อนยังคงความยืดหยุ่นของพื้นที่สมมติฐานไว้ พร้อมกับกำหนดความพึงชอบต่อคำตอบบางแบบ
  • เช่นเดียวกับที่ CNN ใช้การแชร์พารามิเตอร์เพื่อคงคุณสมบัติด้านความเป็นท้องถิ่นและการไม่แปรตามการเลื่อนตำแหน่ง จึงเป็นการเพิ่ม regularization แบบนุ่มนวลให้กับคุณสมบัติบางอย่าง
  • เหตุผลที่โมเดลแบบ overparametrized ยังมีความสามารถในการทำให้เกิดการทั่วไปที่ดีก็เพราะ soft inductive biases ทำงานอยู่

กรอบการทำให้เกิดการทั่วไป (Generalization Frameworks)

PAC-Bayes และขอบเขตสมมติฐานที่บวกนับได้

  • PAC-Bayes อธิบายความเสี่ยงในการทำให้เกิดการทั่วไปด้วยความเสี่ยงเชิงประจักษ์และความสามารถในการบีบอัดของโมเดล (compressibility)
  • แม้โมเดลจะมีขนาดใหญ่ แต่ถ้าโมเดลเรียบง่ายและบีบอัดได้ ก็รับประกันประสิทธิภาพการทำให้เกิดการทั่วไปที่ดีได้
  • สมการ:
    • ความเสี่ยงคาดหมาย ≤ ความเสี่ยงเชิงประจักษ์ + พจน์ที่เกี่ยวข้องกับความสามารถในการบีบอัด

มิติเชิงผล (Effective Dimensionality)

  • มิติเชิงผล = จำนวนค่าเอกลักษณ์ของ Hessian ของฟังก์ชัน loss ที่มีค่ามาก
  • ยิ่งมิติเชิงผลต่ำ โมเดลก็ยิ่งเรียบง่ายและมีประสิทธิภาพการทำให้เกิดการทั่วไปที่ดี

กรอบการทำให้เกิดการทั่วไปอื่น ๆ

  • Rademacher complexity, VC dimension ฯลฯ อธิบายปรากฏการณ์ของดีปเลิร์นนิงได้ไม่ดีนัก
  • PAC-Bayes และขอบเขตสมมติฐานที่บวกนับได้สามารถแก้ปัญหานี้ได้

ปรากฏการณ์สำคัญ

Benign Overfitting

  • ปรากฏการณ์ที่โมเดลเรียนรู้แม้กระทั่งสัญญาณรบกวนได้อย่างสมบูรณ์ แต่ยังคงมีประสิทธิภาพการทำให้เกิดการทั่วไปที่ดี
  • สามารถทำให้เกิด Benign Overfitting ซ้ำได้แม้ด้วยโมเดลเชิงเส้นอย่างง่าย
  • อธิบายได้ด้วย PAC-Bayes และขอบเขตสมมติฐานที่บวกนับได้

Overparametrization

  • แม้จำนวนพารามิเตอร์จะมากกว่าจำนวนข้อมูล โมเดลก็ยังมีประสิทธิภาพการทำให้เกิดการทั่วไปที่ยอดเยี่ยม
  • โมเดลขนาดใหญ่มีประสิทธิภาพการทำให้เกิดการทั่วไปที่ดี เพราะหลังการฝึกแล้วสามารถบีบอัดให้เป็นโครงสร้างที่เรียบง่ายกว่าได้

Double Descent

  • ปรากฏการณ์ที่เมื่อความซับซ้อนของโมเดลเพิ่มขึ้น loss จะลดลง จากนั้นเพิ่มขึ้น แล้วจึงลดลงอีกครั้ง
  • สามารถทำให้เกิดซ้ำได้แม้ในโมเดลเชิงเส้น
  • อธิบายได้ด้วยมิติเชิงผลและความสามารถในการบีบอัดของโมเดล

มุมมองทางเลือก (Alternative Views)

  • มุมมองเดิมที่ว่าการทำให้เกิดการทั่วไปของดีปเลิร์นนิงเป็นเรื่องลึกลับ เกิดจากการพึ่งพากรอบการทำให้เกิดการทั่วไปที่จำกัด
  • ปรากฏการณ์การทำให้เกิดการทั่วไปสามารถอธิบายได้ผ่าน PAC-Bayes และขอบเขตสมมติฐานที่บวกนับได้
  • การมองว่าการทำให้เกิดการทั่วไปของดีปเลิร์นนิงเป็นเรื่องลึกลับอาจเป็นอคติที่ผิดพลาด

องค์ประกอบที่โดดเด่นของดีปเลิร์นนิง (Distinctive Features of Deep Learning)

การเรียนรู้ตัวแทน (Representation Learning)

  • โครงข่ายประสาทเทียมมีความสามารถในการเรียนรู้ความคล้ายคลึงของข้อมูล
  • สามารถวัดความคล้ายคลึงได้ดีกว่าระยะห่างแบบยูคลิดในข้อมูลมิติสูง
  • ได้เปรียบในการทำ interpolation และ extrapolation ในมิติสูง

การเรียนรู้สากล (Universal Learning)

  • โมเดลดีปเลิร์นนิงแสดงประสิทธิภาพที่ดีอย่างสม่ำเสมอในหลากหลายโดเมน
  • มีผลงานโดดเด่นใน transfer learning และ in-context learning

การเชื่อมต่อระหว่างโหมด (Mode Connectivity)

  • โมเดลที่ฝึกจากการตั้งต้นต่างกันสามารถเชื่อมต่อกันได้ตามเส้นโค้งง่าย ๆ
  • ถูกนำไปใช้ในเทคนิคการฝึกอย่าง SWA(Stochastic Weight Averaging)

บทสรุปและแนวโน้ม

  • Benign Overfitting, overparametrization, double descent ไม่ได้เป็นปรากฏการณ์ที่จำกัดอยู่แค่โครงข่ายประสาทเทียม
  • สามารถอธิบายได้ด้วย PAC-Bayes และขอบเขตสมมติฐานที่บวกนับได้
  • ดีปเลิร์นนิงมีความแตกต่างในแง่คุณลักษณะอย่างการเรียนรู้ตัวแทน การเรียนรู้สากล และการเชื่อมต่อระหว่างโหมด
  • ประสิทธิภาพการทำให้เกิดการทั่วไปไม่ได้มาจากความซับซ้อนของโมเดล แต่มาจากความสามารถในการบีบอัดและความเรียบง่ายของโมเดล

1 ความคิดเห็น

 
GN⁺ 2025-03-18
ความคิดเห็นใน Hacker News
  • ถ้าสนใจแมชชีนเลิร์นนิง คอร์ส "Probability for computer scientists" ของ Stanford เป็นแหล่งเรียนรู้ที่ยอดเยี่ยม

    • คอร์สนี้ลงลึกทั้งทฤษฎีความน่าจะเป็นและรากฐานเชิงทฤษฎีของแมชชีนเลิร์นนิง
    • คอร์สของ Andrew Ng ก็มีชื่อเสียงเช่นกัน แต่ต้องอาศัยความเข้าใจทางคณิตศาสตร์ด้านพีชคณิตเชิงเส้น
    • สำหรับดีปเลิร์นนิง บทนำเชิงภาพของ 3b1b มีประโยชน์มาก
  • ความเสถียรของอัลกอริทึมนั้นให้คำอธิบายที่น่าเชื่อถือกว่าทายาทของทฤษฎี PAC-Bayes หรือ VC

    • สามารถดูเนื้อหาที่เกี่ยวข้องได้จากบทความบน arxiv
  • ถ้าอยากเข้าใจแมชชีนเลิร์นนิง ขอแนะนำ "The StatQuest Illustrated Guide to Machine Learning" ของ Josh Starmer

    • เขาเป็นครูที่ยอดเยี่ยมในการอธิบายแนวคิดซับซ้อนให้ชัดเจนและกระชับ
    • อ่านและทำความเข้าใจได้ง่ายในรูปแบบคล้ายหนังสือเด็ก
    • หนังสือเกี่ยวกับโครงข่ายประสาทที่เพิ่งตีพิมพ์ล่าสุดก็น่าแนะนำเช่นกัน
  • DNN ไม่มีความสามารถในการ generalize ที่พิเศษอะไร

    • ตรงกันข้าม มันอาจ generalize ได้แย่กว่าเทคนิคที่มีหลักการทางคณิตศาสตร์ชัดเจนอย่าง SVM
    • ถ้าฝึก DNN ด้วยชุดข้อมูล "Wine Quality" จาก UCI Machine Learning Repository จะได้ผลลัพธ์ไม่ดีและเกิด overfitting
    • "เวทมนตร์" ของ LLM มาจากกระบวนทัศน์การฝึก
    • มันทำให้ใช้โมเดลขนาดมหึมากับชุดข้อมูลมหาศาลได้โดยไม่เกิด overfitting
    • เมื่อ 10 ปีก่อน หลักการเรื่อง "การนำกลับมาใช้ซ้ำ" ยังไม่ชัดเจน
  • แทนที่จะจำกัด hypothesis space เพื่อหลีกเลี่ยง overfitting สิ่งสำคัญคือการยอมรับ hypothesis space ที่ยืดหยุ่น และเลือกวิธีแก้ที่เรียบง่ายซึ่งสอดคล้องกับข้อมูล

    • มีคำถามว่าดีปเลิร์นนิงทำสิ่งนี้ได้อย่างไร
    • ในอดีตมีการใช้แนวทาง likelihood ที่ใส่ penalty
    • มีความรู้สึกว่าในดีปเลิร์นนิง วิธีลงโทษความซับซ้อนนั้นซับซ้อนกว่าและเข้าใจได้ยากกว่า
  • ตอนเริ่มเรียนดีปเลิร์นนิงใหม่ ๆ การเรียนรู้บทพิสูจน์ของทฤษฎีบทการประมาณแบบสากลช่วยได้มาก

    • เมื่อเข้าใจว่าทำไมโครงข่ายประสาทจึงประมาณฟังก์ชันได้ ก็จะเข้าใจทุกอย่างที่สร้างต่อยอดจากสิ่งนี้ได้ง่ายขึ้น
  • ตัวอย่างที่น่าสนใจซึ่งจำเป็นต้องใช้โครงข่ายแบบ "ลึก" ถูกพูดถึงในงานวิจัยเกี่ยวกับ RNN เมื่อไม่นานมานี้

    • โมเดล minGRU และ minLSTM ไม่ได้จำลองการพึ่งพาสถานะอย่างชัดเจน แต่ถ้าลึกพอก็สามารถเรียนรู้สิ่งนี้ได้
  • มีแนวคิดในการรวบรวมข้อมูลข้อความ แล้วเก็บระยะห่างระหว่างคำเพื่อสร้างอัลกอริทึมทำนาย

    • อยากรู้ว่าวิธีนี้ใกล้เคียงกับ GPT 2 มากแค่ไหน
  • สงสัยว่าเส้นแบ่งอยู่ตรงไหน ว่าอะไรถูกนิยามและถูกกำกับดูแลว่าเป็น 'AI'

  • นิวรอนเทียมคือการเพิ่ม activation function เข้าไปใน linear regression เพื่อทำให้มันเป็นแบบไม่เชิงเส้น

    • เมื่อนำสิ่งนี้มาสร้างเป็นโครงข่าย ก็จะเกิดผลลัพธ์ที่น่าสนใจ