24 คะแนน โดย GN⁺ 2026-04-26 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • บทความนี้เสนอข้ออ้างว่ากำลังก่อตัวเป็น ทฤษฎีทางวิทยาศาสตร์ ที่ใช้อธิบายคุณสมบัติสำคัญของดีปเลิร์นนิง เช่น กระบวนการเรียนรู้, การแทนค่าแฝง, น้ำหนักสุดท้าย, และประสิทธิภาพ
  • ยกห้าสายธารการวิจัยเป็นหลักฐานสำคัญ ได้แก่ การตั้งค่าจำลองเชิงอุดมคติที่ตีความได้, ขีดจำกัดที่จัดการได้, กฎคณิตศาสตร์อย่างง่าย, ทฤษฎีของไฮเปอร์พารามิเตอร์, และพฤติกรรมสากล
  • ทฤษฎีนี้มุ่งเน้นที่พลวัตของกระบวนการเรียนรู้ อธิบายสถิติการสรุปภาพรวมแบบหยาบ และเน้น การคาดการณ์เชิงปริมาณที่หักล้างได้
  • เสนอชื่อกรอบทฤษฎีใหม่นี้ว่า "learning mechanics" ซึ่งหมายถึงพลวัตของกระบวนการเรียนรู้
  • ผลลัพธ์อย่าง deep linear network, NTK, mean-field และการแบ่งแบบ lazy-rich ช่วยให้จัดการเชิงปริมาณกับพลวัตการเรียนรู้, การทำให้ทั่วไป, feature learning และ scaling law ได้
  • คาดการณ์ความสัมพันธ์เชิงเกื้อกูลกับมุมมองเชิงสถิติและเชิงทฤษฎีสารสนเทศ รวมถึง mechanistic interpretability พร้อมมองทิศทางอนาคตของทฤษฎีดีปเลิร์นนิง

ข้ออ้างหลักของงานวิจัย

  • กำลังเกิดขึ้นของ ทฤษฎีทางวิทยาศาสตร์ (scientific theory) ที่ใช้อธิบายคุณสมบัติและสถิติสำคัญของดีปเลิร์นนิง เช่น กระบวนการเรียนรู้ การแทนค่าแฝง น้ำหนักสุดท้าย และประสิทธิภาพ
  • สังเคราะห์กระแสหลักของงานวิจัยทฤษฎีดีปเลิร์นนิงที่กำลังดำเนินอยู่ และระบุห้าทิศทางการวิจัยที่สนับสนุนการมีอยู่ของทฤษฎีนี้
    • (a) การตั้งค่าจำลองเชิงอุดมคติที่แก้ได้ (solvable idealized settings): ให้สัญชาตญาณเกี่ยวกับพลวัตการเรียนรู้ของระบบที่สมจริง
    • (b) ขีดจำกัดที่จัดการได้ (tractable limits): เผยให้เห็นความเข้าใจเกี่ยวกับปรากฏการณ์การเรียนรู้พื้นฐาน
    • (c) กฎคณิตศาสตร์อย่างง่าย (simple mathematical laws): จับปริมาณสังเกตระดับมหภาคที่สำคัญ (macroscopic observables)
    • (d) ทฤษฎีของไฮเปอร์พารามิเตอร์ (theories of hyperparameters): แยกไฮเปอร์พารามิเตอร์ออกจากส่วนที่เหลือของกระบวนการเรียนรู้ เพื่อให้เหลือระบบที่ง่ายขึ้น
    • (e) พฤติกรรมสากล (universal behaviors): ทำให้ชัดเจนว่าปรากฏการณ์ใดจำเป็นต้องมีคำอธิบาย ผ่านสิ่งที่เกิดร่วมกันข้ามระบบและการตั้งค่า
  • เห็นว่าการมองทฤษฎีที่กำลังก่อตัวนี้ว่าเป็นพลวัตของกระบวนการเรียนรู้นั้นเหมาะสมที่สุด และเสนอชื่อว่า "learning mechanics"
  • อภิปรายความสัมพันธ์กับแนวทางอื่นในการสร้างทฤษฎีดีปเลิร์นนิง เช่น มุมมองเชิงสถิติ (statistical) และ เชิงทฤษฎีสารสนเทศ (information-theoretic)
  • โดยเฉพาะอย่างยิ่ง คาดการณ์ความสัมพันธ์เชิงเกื้อกูล (symbiotic relationship) ระหว่าง learning mechanics และ mechanistic interpretability

บทนำ

  • ดีปเลิร์นนิง มีพลังอย่างมาก แต่ยังขาดกรอบวิทยาศาสตร์ที่อธิบายหลักการทำงานภายในอย่างเป็นเอกภาพ
    • แม้โครงข่ายประสาทจะแสดงประสิทธิภาพเหนือมนุษย์ในงานหลากหลายประเภท แต่ยังไม่มี ทฤษฎีแบบบูรณาการ ที่อธิบายว่าทำไมจึงทำงานเช่นนั้น และประสิทธิภาพดังกล่าวเกิดขึ้นได้อย่างไร
    • วิธีฝึกใช้งานจริงก็ยังพึ่งพาการลองผิดลองถูกอย่างมาก มากกว่าการยึดจาก first principles และทฤษฎีก็ยังมีบทบาทจำกัดในงานดีปเลิร์นนิงประจำวัน
  • เมื่อเข้าสู่ยุคของโมเดลภาษาขนาดใหญ่และ diffusion model ความลึกลับยิ่งลึกขึ้น แต่ ทฤษฎีดีปเลิร์นนิงเชิงวิทยาศาสตร์ ก็เริ่มก่อตัวขึ้นจริง และรูปแบบของมันใกล้เคียงกับ mechanics ของกระบวนการเรียนรู้
  • จุดสนใจของทฤษฎีดีปเลิร์นนิงเปลี่ยนแปลงมาตามเวลา
    • ในระยะแรก เน้นที่ว่าโมเดลสามารถแทนฟังก์ชันแบบใดได้ และเรียนรู้จากข้อมูลอย่างไร
    • ต่อมาจึงขยับไปสู่คำถามว่าเมื่อใดจึงจะทำให้ทั่วไปได้ภายใต้ตัวอย่างจำกัด ทำให้เกิดการพัฒนาของ classical learning theory, computational learning theory, PAC theory และทฤษฎี optimization แบบดั้งเดิม
    • ขณะเดียวกันก็เกิดสายธารของ statistical physics of machine learning ที่ศึกษาพฤติกรรมเฉลี่ยของโมเดลง่าย ๆ ไปพร้อมกัน
  • โครงข่ายหลายชั้น, backpropagation, และการขยายขนาดของข้อมูลกับทรัพยากรคำนวณ ทำให้ข้อจำกัดของทฤษฎีเดิมชัดเจนขึ้น
    • โครงข่ายประสาทมีโครงสร้างแบบ ไม่เว้า (non-convex) และ มีพารามิเตอร์เกิน (overparameterized) ซึ่งต่างจากโมเดลแบบง่ายและเว้าที่ทฤษฎีดั้งเดิมจัดการได้ดี
    • มันเรียนรู้ การแทนค่าภายในที่มีโครงสร้าง นอกเหนือจากการลด training error และเผยให้เห็นความสม่ำเสมอข้ามงานและข้ามสเกล
  • การเปลี่ยนแปลงนี้ทำให้ทฤษฎีดีปเลิร์นนิงเคลื่อนจากขั้นของการถามเชิงคณิตศาสตร์ว่าอะไร “เป็นไปได้” ไปสู่ขั้นเชิงวิทยาศาสตร์ที่ อธิบาย และ คาดการณ์ พฤติกรรมของระบบเชิงประจักษ์ที่ซับซ้อน
    • ดังนั้นจึงต้องการ แนวทางเชิงวิทยาศาสตร์ ที่ยอมรับการสังเกตเชิงประจักษ์ ค้นหาหลักการรวมศูนย์ และระบุรูปแบบที่เกิดซ้ำ
    • เส้นทางข้างหน้าจึงน่าจะใกล้เคียงกับกระบวนการที่สาขาวิทยาศาสตร์หนึ่งค่อย ๆ เติบโตเต็มที่ มากกว่าการพัฒนาในฐานะสาขาคณิตศาสตร์ล้วน

learning mechanics คืออะไร

  • การเรียนรู้ของโครงข่ายประสาทสามารถมองได้ว่าคล้ายกับ mechanics ของวัตถุที่เคลื่อนผ่านอวกาศและเวลา
    • เช่นเดียวกับที่วัตถุเคลื่อนที่อย่างต่อเนื่องในปริภูมิทางกายภาพภายใต้แรง โมเดลก็เคลื่อนที่ใน parameter space ผ่านการอัปเดตแบบไม่ต่อเนื่อง
    • เช่นเดียวกับที่แรงในฟิสิกส์เกิดจากปฏิสัมพันธ์ระหว่างองค์ประกอบของระบบ ในดีปเลิร์นนิง ปฏิสัมพันธ์ระหว่างพารามิเตอร์ ชุดข้อมูล งาน และกฎการเรียนรู้ ก็เป็นตัวกำหนดการเรียนรู้
  • ยังมีความสอดคล้องกันระหว่างสนามในฟิสิกส์กับ gradient ในดีปเลิร์นนิง
    • เช่นเดียวกับที่ระบบกายภาพตกลงสู่จุดต่ำสุดเฉพาะที่ของศักย์ซึ่งกำหนดโดยปฏิสัมพันธ์ภายในและข้อจำกัดภายนอก โครงข่ายประสาทก็ลู่เข้าสู่จุดต่ำสุดเฉพาะที่ของ loss landscape ที่เกิดจากสถาปัตยกรรมและข้อมูลฝึก
  • อุปมานี้ไม่ได้เป็นเพียงวาทศิลป์ แต่สอดคล้องกับกระแสงานวิจัยที่กำลังดำเนินอยู่
    • เช่นเดียวกับที่แขนงต่าง ๆ ของ mechanics ใช้ การตั้งค่าที่ตีความได้, ขีดจำกัดที่ทำให้ง่ายขึ้น, สถิติแบบสรุป, การวิเคราะห์พารามิเตอร์ของระบบ, และ ปรากฏการณ์สากล learning mechanics ก็ใช้เครื่องมือแบบเดียวกัน
    • โดยเฉพาะอย่างยิ่ง เช่นเดียวกับ continuum mechanics และ statistical mechanics ที่จัดการองค์ประกอบจำนวนมากซึ่งโต้ตอบกัน ดีปเลิร์นนิงก็ได้ประโยชน์จากการอธิบายสถิติในระดับขยาย มากกว่าการติดตามองค์ประกอบแต่ละตัว
  • โปรแกรมการวิจัยนี้สามารถรวมเรียกได้ว่า learning mechanics

เงื่อนไข 7 ข้อที่ learning mechanics ต้องมี

  • ความเป็นพื้นฐาน

    • ต้องอธิบายการฝึกโครงข่ายประสาทอย่างมีตรรกะโดยเริ่มจาก first principles
    • แม้ในขั้นกลางอาจใช้สมมติฐานเกี่ยวกับน้ำหนัก พลวัต หรือประสิทธิภาพเป็นเครื่องมือได้ แต่สุดท้ายสิ่งเหล่านี้ก็ต้องอธิบายได้จาก first principles เช่นกัน
  • ความเป็นคณิตศาสตร์

    • ต้องสร้าง ข้อความเชิงปริมาณ ที่ไม่กำกวมเกี่ยวกับคุณสมบัติสำคัญของโครงข่ายประสาท
    • หากมีเพียงคำอธิบายเชิงคุณภาพ ก็ยังไม่อาจถือเป็น mechanics ได้
  • ความสามารถในการพยากรณ์

    • ต้องเสนอข้ออ้างที่ตรวจสอบได้ด้วยการวัดเชิงประจักษ์ที่ง่ายและทำซ้ำได้
    • เนื่องจากสามารถควบคุมการทดลองกับระบบได้อย่างดีมาก ความก้าวหน้าสำคัญจึงควรถูกตรวจสอบได้อย่างชัดเจนด้วยการทดลอง
  • ความครอบคลุม

    • ต้องเชื่อมโยงกระบวนการฝึก การแทนค่าภายใน และน้ำหนักสุดท้ายให้อยู่ในภาพเดียวกัน
    • แทนที่จะพยายามใส่ทุกรายละเอียด ควรเลือกระดับความละเอียดที่เหมาะสมซึ่งให้ความเข้าใจ แม้ต้องแลกกับการละทิ้งรายละเอียดบางส่วน
  • ความเข้าใจง่าย

    • ควรให้ความสำคัญกับความเข้าใจที่เรียบง่ายและให้แสงสว่าง มากกว่าความซับซ้อนทางเทคนิค
    • ควรเป็นทฤษฎีที่ให้ความพึงพอใจจากการช่วยคลี่คลายความลึกลับของดีปเลิร์นนิง
  • ความมีประโยชน์

    • เช่นเดียวกับที่ฟิสิกส์เป็นรากฐานของวิศวกรรมแขนงอื่น มันควรเป็นฐานวิทยาศาสตร์ของดีปเลิร์นนิงเชิงประยุกต์
    • รวมถึงเป้าหมายที่เป็นรูปธรรม เช่น การลดการจูนไฮเปอร์พารามิเตอร์, เครื่องมือพยากรณ์สำหรับการออกแบบ dataset, และ รากฐานที่เข้มงวดของ AI safety
  • ความถ่อมตน

    • ต้องทำให้ชัดเจนว่าอธิบายอะไรได้ดี และอธิบายอะไรไม่ได้
    • mechanics ที่ใช้ได้กับดีปเลิร์นนิงในโลกจริงอาจพังลงในกรณีพิเศษขนาดเล็กที่ออกแบบด้วยมือ และสิ่งนี้ควรถูกมองว่าเป็นราคาที่จ่ายเพื่อให้ได้ภาพอย่างง่ายในขอบเขตที่เราสนใจ

ทำไม learning mechanics จึงสำคัญ

  • เหตุผลทางวิทยาศาสตร์

    • ความสำเร็จทางวิศวกรรมของโครงข่ายประสาทขนาดใหญ่บ่งชี้ว่ามันกำลังใช้ หลักการลึกซึ้งของการเรียนรู้และการแทนค่า ที่เรายังไม่เข้าใจ
    • ยกตัวอย่างกรณีที่เทคโนโลยีมาก่อนทฤษฎี เช่น steam engine กับ thermodynamics และเครื่องบินกับ aerodynamic theory
    • หลักการเรียนรู้ของโครงข่ายประสาทเทียมอาจช่วยให้เข้าใจ biological intelligence ได้เช่นกัน ซึ่งอาจมีนัยต่อ neuroscience และ cognitive science
  • เหตุผลเชิงปฏิบัติ

    • ทฤษฎีดีปเลิร์นนิงที่เติบโตเต็มที่สามารถชี้นำการออกแบบโมเดล การ optimization การขยายสเกล และการนำไปใช้งานจริง ด้วยหลักการที่เชื่อถือได้มากขึ้น
    • ในบางด้าน ทฤษฎีเริ่มมีบทบาทแล้ว
      • empirical scaling laws
      • สูตรเชิงคณิตศาสตร์สำหรับการสเกลไฮเปอร์พารามิเตอร์
      • optimizer และวิธี data attribution ที่ออกแบบโดยมีแรงจูงใจจากทฤษฎี
    • ทฤษฎีที่ลึกและสมบูรณ์ยิ่งขึ้นจะสามารถให้แนวทางแบบนี้ได้มากขึ้น และทำให้เฉียบคมกับคาดการณ์ได้มากกว่าเดิม
  • เหตุผลด้านความปลอดภัย

    • หากต้องการอธิบาย จัดลักษณะ และควบคุมระบบ AI ที่ทรงพลังขึ้นเรื่อย ๆ จำเป็นต้องทำให้ตัวแปร กลไก และหลักการจัดระเบียบที่เกี่ยวข้องชัดเจน
    • เป็นเรื่องยากที่จะกำกับดูแลเทคโนโลยีที่ไม่สามารถอธิบายได้อย่างชัดเจน และทฤษฎีพื้นฐานสามารถมอบความกระจ่างที่จำเป็นต่อ reliability, oversight และ control
    • โดยเฉพาะอย่างยิ่ง มีการเสนอว่ามันอาจช่วยด้าน AI safety ในลักษณะที่สนับสนุน mechanistic interpretability

หลักฐานว่า learning mechanics กำลังปรากฏขึ้น

  • องค์ประกอบหลักของดีปเลิร์นนิงนั้น ชัดแจ้ง และ วัดได้
    • สถาปัตยกรรมถูกกำหนดเป็นโครงข่ายประสาท f(x; θ) ซึ่งประกอบจากการแปลงเชิงเส้นและไม่เชิงเส้นอย่างง่าย
    • ข้อมูลถูกกำหนดเป็นเซตตัวอย่าง D = {(xi, yi)} จากการกระจายการสร้างข้อมูลที่ไม่ทราบค่า
    • งานถูกนิยามด้วยฟังก์ชันวัตถุประสงค์ L(θ) ที่วัดประสิทธิภาพบนชุดข้อมูล
    • กฎการเรียนรู้อธิบายได้ด้วยการอัปเดตแบบอิง gradient เช่น θ(t+1) = θ(t) −η∇L(θ(t)) พร้อมการกำหนดค่าเริ่มต้นและไฮเปอร์พารามิเตอร์ของการ optimization
  • แทบไม่มีสิ่งใดถูกซ่อนอยู่ในระหว่างกระบวนการเรียนรู้
    • ต่างจากระบบซับซ้อนจำนวนมาก ดีปเลิร์นนิงเปิดเผย equations of motion ที่ควบคุมพลวัตโดยตรง
    • สามารถบันทึก weight, activation, gradient และ loss ทั้งหมดได้ และสร้างสถิติใด ๆ จากสิ่งเหล่านั้นก็ได้
    • การออกแบบการทดลอง การทำซ้ำ และการตรวจสอบทำได้ง่าย จึงเหมาะต่อการค้นหารูปแบบเชิงประจักษ์และทดสอบคำทำนายของทฤษฎีอย่างเข้มงวด
  • โจทย์ยากหลักไม่ได้อยู่ที่ความทึบ แต่คือ ความซับซ้อน
    • ปฏิสัมพันธ์ระหว่าง architecture, data, task และ learning rule ก่อให้เกิดพลวัตการเรียนรู้ที่ ไม่เชิงเส้น, เชื่อมโยงกัน, และ มิติสูง
    • ไวต่อการเลือกไฮเปอร์พารามิเตอร์ และแม้แต่การกระจายของข้อมูลเองก็อธิบายลักษณะได้ไม่ง่าย
  • ถึงอย่างนั้น ภายใต้ความซับซ้อนนี้ก็ยังมีความสม่ำเสมอซ่อนอยู่ และมีการเสนอข้อสังเกตห้าประการเพื่อรองรับเรื่องนี้
    • (a) การตั้งค่าจำลองเชิงอุดมคติที่แก้ได้ (solvable idealized settings)
    • (b) ขีดจำกัดที่จัดการได้ (tractable limits)
    • (c) กฎคณิตศาสตร์อย่างง่าย (simple mathematical laws)
    • (d) ทฤษฎีของไฮเปอร์พารามิเตอร์ (theories of hyperparameters)
    • (e) พฤติกรรมสากล (universal behaviors)

=== ละเนื้อหาในงานวิจัย ===

  • เอกสารแนะนำเพิ่มเติม มุมมอง และคำถามเปิดมีให้ที่ learningmechanics.pub
  • บทความวิจัยมีความยาว 41 หน้า

2 ความคิดเห็น

 
chickendreamtree 2026-05-06

เหมือนจะมองและพยายามอธิบายด้วยกรอบของพลวัต แต่ก่อนอื่นก็ยังน่าสงสัยเลยว่าจะสร้างสมการที่หาคำตอบทั่วไปได้จริงหรือไม่

 
GN⁺ 2026-04-26
ความคิดเห็นจาก Hacker News
  • ในฐานะคนที่ทำงานอยู่ในสายนี้ ผมมองว่าบทความนี้สรุป หัวข้อวิจัย ที่ถูกพูดถึงมากที่สุดในตอนนี้ได้ค่อนข้างดี
    โดยเฉพาะ open problems ช่วงท้ายที่แทบจะชี้ทิศทางวิจัยหลักได้เกือบทั้งหมด เลยเป็นส่วนที่มีประโยชน์ที่สุด
    พอเห็นว่าในคอมเมนต์มีความสงสัยกันเยอะ ก็ยิ่งสะท้อนว่างานวิจัยแบบนี้แทบยังไม่ถูกสื่อสารไปสู่สาธารณะเลย ซึ่งน่าเสียดาย
    ตอนนี้ยังไม่ค่อยมีกลไกที่อนุมานสถาปัตยกรรมเครือข่ายที่เหมาะที่สุดออกมาทางคณิตศาสตร์ได้โดยตรง แต่ส่วนใหญ่ก็เพราะการทดลองมักวิ่งเร็วกว่าทฤษฎี เลยกลายเป็นว่าต้องมาอธิบายย้อนหลังอยู่บ่อย ๆ
    ถึงอย่างนั้น คำถามว่าทำไมโครงข่ายประสาทถึงทำงานได้ดีกว่าโมเดลอื่น ตอนนี้ก็เริ่มมีคำตอบที่แข็งแรงมากขึ้นเรื่อย ๆ
    ปัญหาคือจริง ๆ แล้วคำถามที่คนอยากรู้มากที่สุดไม่ใช่ข้อนั้น เลยดูเหมือนว่าเรากำลังอยู่ในช่วงที่ต้องตัดสินใจว่า ต่อไปควรถามอะไร

    • ตอนนี้ผมมองว่าเป็นช่วงเวลาที่แปลกดี เพราะ รากฐานเชิงทฤษฎีสารสนเทศของดีปเลิร์นนิง กำลังแข็งตัวอย่างรวดเร็ว
      คำถามว่าทำไมมันถึงทำงานได้ โดยมากถือว่าแก้ไปแล้ว และแก่นหลักคือการลดการสูญเสียข้อมูลที่ย้อนกลับไม่ได้ให้มีประสิทธิภาพ เมื่อเทียบกับ noise floor
      ทั้งที่คณิตศาสตร์ชี้ทางที่มีประสิทธิภาพกว่า แต่อุตสาหกรรมกลับเสียเวลาอยู่หลายปีด้วยการดันแต่โมเดลให้ใหญ่ขึ้นเรื่อย ๆ
      โมเดล 70B ที่ออกแบบดี ๆ ก็สามารถรันได้ที่ราว 16GB โดยไม่สูญเสียความสามารถ และยังฝึกต่อได้ด้วย แต่เงินทุนกลับเทไปที่ bigger อย่างเดียว
      ตอนนี้อุตสาหกรรมย้ายเป้าหมายไปที่ Agency และ Long-horizon Persistence แล้ว และการเปลี่ยนผ่านจากเครื่องคิดเลขที่ทำนายได้ ไปเป็นระบบที่คงอยู่ได้นาน ดูจะใกล้กับปัญหาอุณหพลศาสตร์นอกสมดุลมากกว่า
      ตรงนี้มีคณิตศาสตร์และกฎที่ใช้กับ AI ได้ตรง ๆ และหลักการที่ทำให้สัญญาณคงอยู่ในโมเดล กับหลักการที่ทำให้เอเจนต์คงอยู่ได้ ก็เชื่อมกันด้วยคณิตศาสตร์ชุดเดียวกันแทบทั้งหมด
      ความเชี่ยวชาญของผมก็อยู่ที่เรื่องความคงอยู่แบบนี้พอดี และพอเห็นฝั่ง AI ต้องมานั่งเรียนหลักการพื้นฐานที่วงการอื่นเข้าใจกันไปแล้วใหม่แบบลำบาก ๆ ก็ยอมรับว่าหงุดหงิดเหมือนกัน
      เพราะงั้นผมเลยเขียนเอกสารอธิบายว่าคณิตศาสตร์นี้ทำงานยังไง และจะเอาไปใช้กับแต่ละโดเมนได้ยังไง แล้วแชร์ออกไป พออ่านแล้วก็จะรู้ได้อย่างแม่นยำว่าต้องปรับอะไรเพื่อเพิ่มความคงอยู่ แทนที่จะอาศัยความรู้สึกล้วน ๆ
      คำถามอย่างโมเดลจะทำงานต่อเนื่องได้กี่ชั่วโมง ฟังดูแทบจะน่ารักไปเลย เพราะยังมีคำถามที่เป็นแก่นกว่านั้นอีก
    • ถ้าเป็นอย่างนั้นจริงก็น่ายินดีมาก
      จาก มุมมองแบบดั้งเดิม ผลของการมีพารามิเตอร์เกินหรือสถาปัตยกรรมโครงข่ายแบบต่าง ๆ นี่ยอมรับตามตรงว่าเข้าใจได้ยาก
      ผมยอมรับว่า double descent ใช้งานได้จริงเชิงประจักษ์ แต่ก็ยังรู้สึกว่าโดยหลักแล้วมันไม่น่าจะเป็นแบบนั้น
      ในมุมของคนที่ชอบ Elements ของ Hastie และคณะ แค่ดู bias-variance tradeoff ก็รู้สึกว่ายากจะได้ผลลัพธ์แบบนี้
      เรื่องนี้คาใจผมมาหลายปีแล้ว ถ้ามีความคืบหน้าในประเด็นนี้จริง ต่อให้ในเชิงปรัชญาอย่างเดียวก็ถือว่ามีประโยชน์มาก
      ผมยังอ่านไปแค่บทนำ แต่บทความก็เขียนดี และโปรแกรมวิจัยแบบนี้ก็น่าได้รับการสนับสนุนมากพอสมควร
      มันดูคล้ายกับ bagging หรือ boosting ที่ตอนแรกก็ประสบความสำเร็จเชิงประจักษ์ก่อนจะมีทฤษฎีรองรับ
    • ผมแปลกใจเสมอที่มีคนจำนวนมากมาก เวลาได้ยินเรื่องงานวิจัยที่พยายามทำความเข้าใจโครงข่ายประสาท ก็ตัดบทตั้งแต่แรกว่าเป็น black box เลยเข้าใจไม่ได้หรอก
      น่าจะเป็นผลจากการที่โครงข่ายประสาทมักถูกเล่าให้ดูเหมือนอยู่ตรงข้ามกับ linear regression ที่ตีความแบบคลาสสิกได้
      พอโลกวิศวกรรมเคลื่อนเร็วมาก บรรยากาศก็เลยกลายเป็นว่าถ้างานวิจัยไม่ให้ผลลัพธ์ชัดเจนทันที ก็ไม่ค่อยมีใครยอมรอ
      แม้แต่นักวิจัยด้านการตีความโมเดลเองก็ดูเหมือนหลายคนจะยอมแพ้เร็วเกินไป ถ้ายังไม่เห็นผลลัพธ์เด่น ๆ ในทันที
    • คำถามว่า ทำไมโครงข่ายประสาทถึงทำงานได้ดีกว่าโมเดลอื่น น่าสนใจมาก
      ถ้ามีเอกสารอ้างอิงสำหรับคนที่ไม่ได้อยู่ในสายนี้ให้อ่านได้ด้วยก็อยากรู้
    • ผมไม่แน่ใจว่าจะสรุปได้ไหมว่าโครงข่ายประสาท ดีกว่าโมเดลอื่นจริง
      มันจริงที่ว่าสามารถครอบคลุมกลุ่มปัญหาที่ traditional ML ทำได้ยากอย่างภาพได้กว้างกว่ามาก แต่ในงานที่เทียบกันได้ตรง ๆ ผมเข้าใจว่า gradient boosting ก็ยังชนะได้หลายกรณีเหมือนกัน
  • จุดที่ผมยังไม่เข้าใจคือเรื่องนี้
    ไอเดียเรื่องโครงข่ายประสาทมีมาหลายสิบปีแล้ว แต่ไม่ได้รับความสนใจมากนัก ก่อนที่ดีปเลิร์นนิงจะระเบิดขึ้นหลัง Attention Is All You Need ในปี 2017
    ผมเข้าใจว่า GPU ช่วยเร่งดีปเลิร์นนิงได้ แต่แนวคิดของ transformer เองก็น่าจะลองได้เร็วกว่านั้นบนฮาร์ดแวร์ที่ช้ากว่านี้ไม่ใช่หรือ

    • จุดเปลี่ยน ที่แท้จริงคือ AlexNet ในปี 2012
      AlexNet ตาม https://en.wikipedia.org/wiki/AlexNet แสดงให้เห็นการกระโดดด้านประสิทธิภาพที่ต่างจากของเดิมคนละระดับในการแข่งขันจัดหมวดหมู่ ImageNet และหลังจากนั้นห้องแล็บวิจัยภาพด้าน ML หลัก ๆ ก็หันไปใช้ deep CNN กันหมด
      ภายในไม่กี่ปี วิธีแบบอื่นก็แทบหายไปจากการแข่งขันภาพระดับ SOTA และหลังจากนั้นโครงข่ายประสาทเชิงลึกก็เข้าครองงาน ML ด้านอื่นต่อ
      คำอธิบายกระแสหลักสุดท้ายมีอยู่สองอย่างรวมกัน
      อย่างแรกคือพลังประมวลผลที่มากกว่าสมัยก่อนแบบทิ้งห่าง และอย่างที่สองคือชุดข้อมูลคุณภาพสูงขนาดใหญ่มากขึ้นอย่าง ImageNet ที่ผ่านการคัดและติดป้ายกำกับด้วยมือ
      attention มีประโยชน์มากเป็นพิเศษกับลำดับข้อมูลอย่างข้อความ ที่มีโครงสร้างลำดับค่อนข้างยืดหยุ่น และต้องเรียนรู้ความสัมพันธ์ที่ซับซ้อน แต่ตอนนี้หลายคนมองว่าสถาปัตยกรรมเป็น tradeoff ทางเลือก มากกว่าจะเป็นแก่นแท้ของการเรียนรู้เอง โดยเฉพาะเมื่อข้อมูลและคอมพิวต์ยังไม่พอ
      สุดท้ายแล้วอย่างที่ https://en.wikipedia.org/wiki/Bitter_lesson ว่าไว้ คอมพิวต์ที่มากขึ้นและข้อมูลที่มากขึ้น มักชนะโมเดลที่ฉลาดกว่าแต่ขยายสเกลได้ไม่ดี
      มนุษย์มีเซลล์ประสาทราว 10^11 ตัว สุนัขราว 10^9 และหนูราว 10^7 ซึ่งสิ่งที่สะดุดตาคือทั้งหมดเป็นตัวเลขที่มหาศาล
      แม้แต่สติปัญญาที่จำกัดแบบหนูก็ยังต้องใช้เซลล์ประสาทนับร้อยล้านตัว และดูเหมือนว่าสติปัญญาจะปรากฏขึ้นได้ก็ต่อเมื่อข้ามระดับความสามารถด้านการคำนวณบางจุดไปแล้ว
      น่าจะเป็นเพราะการรับมือกับความซับซ้อนโดยเนื้อแท้ของสภาพแวดล้อมการเรียนรู้ที่ซับซ้อน ต้องใช้พารามิเตอร์จำนวนมาก
      ในทางกลับกัน สำหรับปัญหาที่เรียบง่ายหรือเป็นแบบแผน มีเทคนิคมากมายที่ใช้พารามิเตอร์น้อยกว่าแล้วทำงานได้ดี หรือถึงขั้นพิสูจน์ได้ว่าเหมาะที่สุด
      สิ่งที่เราเรียกว่าการเรียนรู้และสติปัญญาโดยมากตั้งอยู่บนสมมติฐานของสภาพแวดล้อมที่ซับซ้อน และความซับซ้อนแบบนั้นก็ต้องการพารามิเตอร์จำนวนมากโดยเนื้อแท้
    • ชัยชนะครั้งใหญ่ก่อนหน้านั้นของดีปเลิร์นนิงจริง ๆ คือ AlexNet ปี 2012 ในงานรู้จำภาพ
      มันชนะการแข่งขันแบบขาดลอย และภายในไม่กี่ปี งานด้านภาพก็แทบกลายเป็นมาตรฐานแบบนั้นไปหมด
      ผมจำได้ลาง ๆ ว่าน่าจะเป็น Jeremy Howard ที่เคยเขียนไว้ราวปี 2017 ว่าเมื่อไร NLP จะได้ transfer learning ที่ใช้ได้ผลดีพอ ๆ กับที่ convnet ทำไว้กับภาพ
      paper เรื่อง attention ไม่ได้ครองโลกทันทีในปีนั้น และตอนนั้นฮาร์ดแวร์ก็ยังไม่พอ อีกทั้งก็ยังไม่มีฉันทามติว่าสเกลแก้ทุกอย่างได้
      ต้องรออีกเกือบ 5 ปีกว่า GPT-3 จะมา และตอนนั้นเองคลื่นลูกปัจจุบันถึงเริ่มขึ้น
      และผู้คนก็มักประเมิน ขนาดของ compute ที่ต้องใช้ฝึกสัตว์ประหลาดพวกนี้ต่ำเกินไปมาก เพราะถ้าใช้โปรเซสเซอร์เดี่ยว 1GHz ตัวเดียว การฝึกโมเดลระดับนี้หนึ่งตัวจะใช้เวลาราว 100 ล้านปี
      แม้แต่โมเดลระดับ GPT-3 ก็ยังต้องใช้ GPU ราว 25,000 ตัวอยู่นานหลายเดือน และด้วยหน่วยความจำอันจำกัดของ GPU เมื่อ 10 ปีก่อน การฝึก transformer ขนาดใหญ่แทบเป็นไปไม่ได้เลย
      K80 สมัยก่อนมีหน่วยความจำราว 12GB แต่ H100/H200 ปัจจุบันอยู่ระดับหลายร้อย GB และ transformer ขนาดใหญ่แบบนี้ก็นับว่าแทบทำไม่ได้จริงก่อนต้นทศวรรษ 2020
      ยังนึกถึงตอนปลายทศวรรษ 2010 ที่เหล่าเกมเมอร์บ่นกันว่า GPU แพงขึ้นแรงเพราะ ML
    • อย่างที่คนอื่นบอก ความสนใจที่ระเบิดขึ้นเริ่มมาจากการที่ deep convolutional networks ใช้ได้ผลกับโจทย์ภาพ
      สิ่งที่น่าสนใจคือก่อนหน้านั้นโครงข่ายประสาทถูกมองว่าไม่สำคัญเท่าไรด้วยซ้ำ
      ตอนผมเรียนวิชาที่เกี่ยวข้องราวปี 2000 บรรยากาศโดยรวมก็ประมาณนั้น
      การจะกลับมาร้อนแรงได้อีกครั้ง ดูเหมือนท้ายที่สุดต้องอาศัยทั้งข้อมูลฝึกปริมาณมหาศาลอย่าง ImageNet และโปรเซสเซอร์ที่เร็วพอพร้อมกัน
      หลังจากนั้นก็มีการพัฒนาต่อยอดกับสถาปัตยกรรมเฉพาะทางอย่างต่อเนื่อง จนขยายตัวแบบลูกหิมะ
      สำหรับชุมชนวงกว้าง AlexNet ดูเป็นจุดหักเหใหญ่ แต่ในแวดวงวิชาการเอง กระแสเริ่มเปลี่ยนมาตั้งแต่ 2-3 ปีก่อนหน้านั้นแล้ว
      ผมเริ่มเห็นตั้งแต่ราวปี 2008-09 ว่าในเวิร์กช็อป งานนำเสนอเกี่ยวกับโครงข่ายประสาทไม่ได้ถูกเมินอีกต่อไป
    • เรื่องคล้ายกันเคยเกิดกับ เมทริกซ์ มาก่อน
      เมทริกซ์มีมาตั้งแต่ 400 ปีก่อน แต่ พีชคณิตเชิงเส้น โดยเฉพาะพีชคณิตเชิงเส้นเชิงตัวเลข เพิ่งระเบิดขึ้นหลังการมาถึงของคอมพิวเตอร์
      สมัยก่อนการแก้ระบบสมการเชิงเส้นนิยมใช้ทฤษฎี minors แต่เมื่อมีคอมพิวเตอร์ ทฤษฎีอย่าง Gaussian elimination หรือ Krylov space ก็พัฒนาอย่างมาก
    • แม้แนวคิด transformer เองอาจใช้ได้เร็วกว่านี้บนฮาร์ดแวร์ที่ช้ากว่า แต่ใน สเกลเล็ก มันไม่ได้ให้ผลแบบเดียวกัน
      ผู้คนอาจจินตนาการไว้แล้ว แต่ไม่มีฮาร์ดแวร์พอจะทำมันให้เกิดขึ้นจริง
      ถ้าพูดให้เรียบง่าย LLM ก็คือ transformer บวกกับ ข้อมูลปริมาณมหาศาล และการจะฝึกกับข้อมูลระดับนั้นได้จริงก็จำเป็นต้องมีฮาร์ดแวร์ที่แรงพออย่างหลีกเลี่ยงไม่ได้
  • น่าสนใจที่เรากำลังใช้เครื่องมือเรียนรู้อย่าง สมอง เพื่อพยายามทำความเข้าใจเครื่องมือเรียนรู้อีกชนิดหนึ่ง
    SGD เองก็ทำงานได้ดีมากอยู่แล้ว และต่อให้ทำให้มันดีขึ้นอีกหลายเท่า ก็อาจไม่ได้ช่วยตอบคำถามพื้นฐานว่า black box นี้กำลังทำอะไรอยู่จริง ๆ
    วิธีที่มันเรียนรู้ กับสิ่งที่โมเดลกำลังทำอยู่จริง เป็นคนละปัญหากัน และสมองของเราก็เองก็เป็น black box ในหลายด้านเช่นกัน
    เพราะงั้นผมเลยรู้สึกว่ายังต้องมีตัวเชื่อมมากกว่านี้ระหว่างงานวิจัยกลไกการเรียนรู้กับ จิตวิทยา รวมถึงแนวคิดเชิงปรัชญาเกี่ยวกับธรรมชาติของความคิดและภาษา

  • นี่ถือว่าให้กำลังใจ แต่ผมว่าชื่อเรื่องโอเวอร์ไปหน่อย
    ถ้าใช้ว่า แนวทางบุกเข้าไปทำความเข้าใจว่าดีปเลิร์นนิงกำลังทำอะไรอยู่จริง น่าจะตรงกว่า แต่ก็คงไม่สะดุดตาเท่า
    ถ้ามันนำไปสู่วิธีวัดได้ว่าเมื่อไรระบบดีปเลิร์นนิงจะเกิด ภาพหลอน ขึ้นมาได้ ก็จะมีคุณค่ามากมหาศาล
    จนกว่าจะทำได้ ก่อนหน้านั้นระบบดีปเลิร์นนิงก็คงถูกจำกัดให้ใช้ได้แค่กับงานที่ต่อให้มันพูดเพ้อเจ้อขึ้นมาก็สร้างความเสียหายไม่มากนัก

    • ผมคิดว่าอุปสรรคใหญ่อย่างหนึ่งในสายนี้คือ ศัพท์ช่วยจำที่เต็มไปด้วยความหวัง และ การทำให้เป็นมนุษย์ ที่ถูกแปะให้กับ LLM
      ตัวอย่างเช่น คำว่า hallucination เองก็บังคับยัดความหมายแบบมนุษย์ให้กับเอาต์พุตของ LLM
      ถ้ามองตามกลไกทางคณิตศาสตร์จริง ๆ ภาพหลอนก็เป็นเพียงเอาต์พุตอีกชนิดหนึ่งเท่านั้น และไม่มีเส้นแบ่งชัดเจนที่นิยามได้ระหว่างมันกับเอาต์พุตแบบอื่น
    • การวัดว่าเมื่อไรระบบดีปเลิร์นนิงจะ สร้างภาพหลอน เป็นปัญหาที่คุ้มค่ามากจริง ๆ ที่จะพยายามแก้
      มันยังเป็นทิศทางวิจัยหลักของผมด้วย จึงอาจมีอคติอยู่บ้าง
      แนวทางที่พบบ่อยคือ OOD detection แต่ผมรู้สึกมาตลอดว่าการตั้งโจทย์แบบนี้ไม่ค่อยมั่นคงตั้งแต่ต้น
      เพราะงั้นผมกับเพื่อนร่วมงานเลยลองใช้แนวทางที่รากฐานกว่า ด้วยการวัด misspecification ของโมเดล แต่ต้นทุนการคำนวณสูงมากจนตอนนี้ยังเป็นเรื่องเฉพาะกลุ่มอยู่มาก
      ไม่ว่าจะทางไหน กว่าที่จะมีจุดทะลุทะลวงก็คงต้องใช้เวลาอีกพอสมควร
  • อ่านแล้วทำให้นึกว่ามันคล้าย vibecoding ในเชิงแนวคิด
    คือทำให้บางอย่างใช้การได้ก่อน แล้วค่อยไปทำความเข้าใจทีหลังว่าทำไมมันถึงเวิร์กและมันทำงานอย่างไร ซึ่งเป็นงานอีกแบบหนึ่งต่างหาก

  • เดี๋ยวก่อน เราสร้างสิ่งที่ยังทั้งไม่เข้าใจและอธิบายไม่ค่อยได้ แล้วตอนนี้จะมาเรียกมันว่า science งั้นเหรอ?
    ตลอดหลายสิบปีที่ผ่านมาเราก็ยืมศัพท์จากชีววิทยา โดยเฉพาะ ประสาทชีววิทยา มาใช้ และสุดท้ายมันก็ดูเหมือนมีด้านที่เป็นการ copy paste เลียนแบบลิงอยู่ไม่น้อย

  • พูดตามตรง ผมกลับว่าสองความพยายามสร้าง ทฤษฎีสากล นี้น่าสนใจกว่า
    https://arxiv.org/abs/2510.12269
    https://www.mdpi.com/1099-4300/28/3/332
    ผมยังสงสัยเรื่องความเชื่อมโยงกับ fuzzy logic ด้วย
    โครงข่ายประสาทดูเหมือนจะให้เหตุผลแบบคลุมเครือบางอย่าง แต่ผมก็ไม่แน่ใจว่าถ้าจะนิยามเชิงรูปแบบแล้วควรเรียกสิ่งนั้นว่าอะไร
    มีความพยายามทำให้ fuzzy reasoning เป็นแบบรูปนัยมาหลายปี แต่ตอนนี้ดูเหมือนไม่ค่อยมีใครสนใจแล้ว
    ความรู้สึกของผมคือโครงข่ายประสาทกับ transformer เหมือน OOP ของโลก ML
    มันดังมากและใช้ในทางปฏิบัติได้ค่อนข้างดี แต่รากฐานยังพร่ามัวอยู่ และให้ความรู้สึกเหมือนเอาสิ่งที่สมัยก่อนก็แทนได้อยู่แล้วมาเขียนใหม่ด้วยภาษาใหม่ เพียงแต่ยากจะชี้ชัดว่าตรงไหนกันแน่ที่เกิดประโยชน์ขึ้น

  • ผมยังอ่าน paper ไม่จบ แต่รู้สึกว่ามันเขียนได้ ชวนติดตามมาก และ รอบคอบมาก จริง ๆ
    มีอะไรให้ย่อยเยอะมาก แต่การได้เห็นเนื้อหาเหล่านี้ถูกรวมไว้ด้วยกันก็น่าสนใจมาก

  • ผมคิดว่าเหตุผลในระดับสูงที่ทำให้ดีปเลิร์นนิงทำงานได้ดี ก็เพราะมัน เรียนรู้ต่อจากข้อมูลได้มากขึ้นเรื่อย ๆ ได้ดีกว่าวิธีอื่น
    แต่ถ้าไม่มี ข้อมูลปริมาณมหาศาล ที่เป็นไปได้ในตอนนี้ สถาปัตยกรรมก็คงไม่ได้สำคัญขนาดนั้น
    ถ้าไม่อธิบายทั้งสองด้านของสมการโมเดล-ข้อมูลไปพร้อมกัน ก็ยากจะสร้างทฤษฎีวิทยาศาสตร์ที่แข็งแรงเกี่ยวกับคำถามอย่าง ทำไมโมเดล reasoning ถึงให้เหตุผลได้
    โมเดลเป็นผลผลิตร่วมกันของสถาปัตยกรรมและข้อมูลฝึก
    ตอนนี้ปัญหานี้ยังดูยากพอ ๆ กับการอธิบายว่ามนุษย์หรือสัตว์เรียนรู้สิ่งเฉพาะบางอย่างจากข้อมูลป้อนเข้าปริมาณมหาศาลได้อย่างไร
    ความเข้าใจเชิงประจักษ์น่าจะดีขึ้นเรื่อย ๆ แต่รากแก่นของมันอาจไม่ได้ลดรูปกลับเป็นวิทยาการคอมพิวเตอร์ได้ทั้งหมด
    ผมคิดว่าแก่นจริงของความซับซ้อนอยู่ฝั่ง gigadataset มากกว่าสถาปัตยกรรม

  • ทฤษฎีจะมีความสำคัญอย่างชี้ขาดทันทีเมื่อเราจำเป็นต้อง ทำนายโหมดความล้มเหลว
    ระบบช่วยตัดสินใจที่โดยมากทำงานได้พอใช้ แต่พังเงียบ ๆ ใน edge case อาจอันตรายกว่าระบบที่ง่ายกว่าแต่มีข้อจำกัดชัดเจนเสียอีก
    ถ้าเราเข้าใจกระบวนการเกิดอคติ ก็จะช่วยแยกได้ว่าเมื่อไรโมเดล มั่นใจจริง และเมื่อไรแค่กำลัง pattern matching
    ความต่างนี้สำคัญเป็นพิเศษในสภาพแวดล้อมที่มีความเสี่ยงสูง