24 คะแนน โดย GN⁺ 4 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • กลไกของกระบวนการเรียนรู้ของดีปเลิร์นนิง เริ่มได้รับการวางรากฐานในรูปของ ทฤษฎีวิทยาศาสตร์ แบบบูรณาการ ที่มองการฝึกโครงข่ายประสาทเป็นพลวัตที่เกิดจากปฏิสัมพันธ์ระหว่างพารามิเตอร์ ข้อมูล งาน และกฎการเรียนรู้
  • โจทย์ยากหลักไม่ได้อยู่ที่ความทึบแสง แต่เป็น ความซับซ้อน โดยโครงข่ายประสาทไม่อาจอธิบายได้เพียงพอด้วยทฤษฎีคลาสสิกเดิม ๆ เพราะมีโครงสร้างแบบไม่คอนเว็กซ์ มีพารามิเตอร์ล้นเกิน และเรียนรู้การแทนภายในที่มีโครงสร้าง
  • มีการค้นพบความสม่ำเสมอซ้ำ ๆ ตามแกนอย่างการตั้งค่าที่ตีความได้, ลิมิตความกว้าง·ความลึกอนันต์, กฎเชิงประจักษ์แบบง่าย, ทฤษฎีไฮเปอร์พารามิเตอร์ และปรากฏการณ์สากล ซึ่งกำลังสะสมเป็นฐานของกลไกการเรียนรู้
  • ผลลัพธ์อย่าง deep linear network, NTK, mean-field และการแบ่งแบบ lazy-rich ทำให้สามารถจัดการกับพลวัตการเรียนรู้ การทำให้ทั่วไป feature learning และ scaling law ในเชิงปริมาณได้
  • ทฤษฎีลักษณะนี้มีความสำคัญต่อการสร้างฐานที่คาดการณ์ได้และควบคุมได้มากขึ้น ตั้งแต่การออกแบบโมเดลและการทำ optimization การเลือกไฮเปอร์พารามิเตอร์ ไปจนถึง AI safety และ mechanistic interpretability

บทนำ

  • ดีปเลิร์นนิง มีพลังอย่างมาก แต่ยังขาดกรอบวิทยาศาสตร์ที่อธิบายหลักการทำงานภายในอย่างบูรณาการ
    • โครงข่ายประสาทแสดงสมรรถนะเหนือมนุษย์ในงานหลากหลายประเภท แต่ยังไม่มี ทฤษฎีแบบบูรณาการ ที่อธิบายได้ว่าทำไมมันจึงทำงานเช่นนั้น และสมรรถนะดังกล่าวเกิดขึ้นได้อย่างไร
    • วิธีการฝึกใช้งานจริงก็ยังพึ่งพาการลองผิดลองถูกอย่างมาก มากกว่าจะอิง first principles และทฤษฎีก็ยังมีบทบาทจำกัดในงานดีปเลิร์นนิงเชิงปฏิบัติประจำวัน
  • เมื่อเข้าสู่ยุคของโมเดลภาษาขนาดใหญ่และ diffusion model ปริศนายิ่งลึกขึ้น แต่ ทฤษฎีดีปเลิร์นนิงเชิงวิทยาศาสตร์ ก็เริ่มก่อตัวขึ้นจริง และรูปร่างของมันใกล้เคียงกับ กลไกของกระบวนการเรียนรู้
  • จุดโฟกัสของทฤษฎีดีปเลิร์นนิงเปลี่ยนแปลงมาตามเวลา
    • ในระยะแรก จุดสนใจอยู่ที่โมเดลสามารถแทนฟังก์ชันใดได้บ้าง และเรียนรู้จากข้อมูลได้อย่างไร
    • ต่อมาจึงขยับไปสู่คำถามว่าเมื่อใดจึงจะทำให้ทั่วไปได้ในตัวอย่างจำนวนจำกัด พร้อมกับการพัฒนาของ classical learning theory, ทฤษฎีการเรียนรู้เชิงคำนวณ, ทฤษฎี PAC และทฤษฎีการหาค่าเหมาะที่สุดแบบคลาสสิก
    • ขณะเดียวกันก็เกิดธรรมเนียมของ statistical physics of machine learning ที่ว่าด้วยพฤติกรรมเฉลี่ยของโมเดลง่าย ๆ ขึ้นมาควบคู่กัน
  • โครงข่ายหลายชั้น, backpropagation, และการขยายขนาดของข้อมูลกับทรัพยากรคอมพิวต์ ทำให้ข้อจำกัดของทฤษฎีเดิมชัดเจนขึ้น
    • โครงข่ายประสาทมีโครงสร้างแบบ ไม่คอนเว็กซ์ และ มีพารามิเตอร์ล้นเกิน ซึ่งแตกต่างจากโมเดลง่ายและคอนเว็กซ์ที่ทฤษฎีคลาสสิกอธิบายได้ดี
    • มันไม่ได้เพียงลดค่าความผิดพลาดในการเรียนรู้เท่านั้น แต่ยังเรียนรู้ การแทนภายในที่มีโครงสร้าง และเผยให้เห็นความสม่ำเสมอข้ามงานและข้ามสเกล
  • จากการเปลี่ยนแปลงนี้ ทฤษฎีดีปเลิร์นนิงจึงเคลื่อนจากขั้นที่ถามเชิงคณิตศาสตร์ว่าอะไรเป็นไปได้ ไปสู่ขั้นเชิงวิทยาศาสตร์ที่ พรรณนา และ คาดการณ์ พฤติกรรมของระบบเชิงประจักษ์ที่ซับซ้อน
    • ดังนั้นจึงต้องการ แนวทางเชิงวิทยาศาสตร์ ที่ยอมรับการสังเกตเชิงประจักษ์ แสวงหาหลักการแบบบูรณาการ และระบุรูปแบบที่เกิดซ้ำ
    • เส้นทางข้างหน้าจึงน่าจะคล้ายกระบวนการที่สาขาวิทยาศาสตร์หนึ่งกำลังเติบโตเต็มที่ มากกว่าการคลี่คลายของสาขาคณิตศาสตร์ล้วน ๆ

learning mechanics คืออะไร

  • การเรียนรู้ของโครงข่ายประสาทสามารถมองได้ว่าคล้ายกับ mechanics ที่อธิบายการเคลื่อนที่ของวัตถุในอวกาศและเวลา
    • เช่นเดียวกับที่วัตถุเคลื่อนที่อย่างต่อเนื่องในปริภูมิทางกายภาพภายใต้แรง โมเดลก็เคลื่อนที่ใน parameter space ผ่านการอัปเดตแบบไม่ต่อเนื่อง
    • ในฟิสิกส์ แรงเกิดจากปฏิสัมพันธ์ระหว่างองค์ประกอบของระบบ เช่นเดียวกับในดีปเลิร์นนิงที่การเรียนรู้ถูกกำหนดโดยปฏิสัมพันธ์ระหว่างพารามิเตอร์ ชุดข้อมูล งาน และกฎการเรียนรู้
  • ยังมีความสอดคล้องกันระหว่างสนามในฟิสิกส์กับ gradient ในดีปเลิร์นนิงด้วย
    • เช่นเดียวกับที่ระบบทางกายภาพตั้งตัวอยู่ที่จุดต่ำสุดเฉพาะที่ของ potential ซึ่งถูกกำหนดโดยปฏิสัมพันธ์ภายในและข้อจำกัดภายนอก โครงข่ายประสาทก็ลู่เข้าไปยังจุดต่ำสุดเฉพาะที่ของ loss landscape ที่เกิดจากสถาปัตยกรรมและข้อมูลฝึก
  • อุปมานี้ไม่ได้เป็นเพียงวาทศิลป์ แต่ยังสอดคล้องกับแนวทางวิจัยที่กำลังดำเนินอยู่ในปัจจุบัน
    • เช่นเดียวกับที่ศาสตร์แขนงต่าง ๆ ของ mechanics ใช้ การตั้งค่าที่ตีความได้, ลิมิตแบบย่อให้ง่าย, สถิติสรุป, การวิเคราะห์พารามิเตอร์ของระบบ, และ ปรากฏการณ์สากล กลไกการเรียนรู้ก็ใช้เครื่องมือแบบเดียวกัน
    • โดยเฉพาะเช่นเดียวกับ continuum mechanics และ statistical mechanics ที่รับมือกับองค์ประกอบซึ่งมีปฏิสัมพันธ์จำนวนมาก ในดีปเลิร์นนิง การอธิบายสถิติในระดับมหภาคย่อมมีประโยชน์มากกว่าการตามดูองค์ประกอบแต่ละตัวทีละตัว
  • โครงการวิจัยนี้สามารถรวมเรียกได้ว่า learning mechanics

7 เงื่อนไขที่ learning mechanics ต้องมี

  • ความเป็นรากฐาน

    • ต้องอธิบายการฝึกโครงข่ายประสาทอย่างมีตรรกะโดยเริ่มจาก first principles
    • แม้ในขั้นกลางจะอาจใช้สมมติฐานเกี่ยวกับน้ำหนัก พลวัต และสมรรถนะเป็นเครื่องมือได้ แต่ท้ายที่สุดสิ่งเหล่านี้ก็ต้องอธิบายได้จาก first principles เช่นกัน
  • ความเป็นคณิตศาสตร์

    • ต้องสร้าง ข้อความเชิงปริมาณ ที่ไม่กำกวมเกี่ยวกับคุณสมบัติสำคัญของโครงข่ายประสาท
    • คำอธิบายเชิงคุณภาพอย่างเดียวไม่เพียงพอให้เกิด mechanics
  • ความสามารถในการคาดการณ์

    • ต้องเสนอข้ออ้างที่ตรวจสอบได้ด้วยการวัดเชิงประจักษ์ที่เรียบง่ายและทำซ้ำได้
    • เนื่องจากการควบคุมการทดลองกับระบบประเภทนี้ทำได้สูงมาก ความก้าวหน้าสำคัญจึงต้องได้รับการยืนยันด้วยการทดลองอย่างชัดเจน
  • ความครอบคลุม

    • ต้องเชื่อมโยงกระบวนการฝึก การแทนภายใน และน้ำหนักสุดท้ายเข้าด้วยกันในภาพเดียว
    • แทนที่จะพยายามเก็บทุกรายละเอียด ควรเลือก ความละเอียดที่เหมาะสม ซึ่งให้ความเข้าใจแม้ต้องแลกกับการละทิ้งรายละเอียดบางส่วน
  • ความเป็นสัญชาตญาณ

    • ควรให้ความสำคัญกับความเข้าใจที่เรียบง่ายและ illuminating มากกว่าความซับซ้อนทางเทคนิค
    • ควรเป็นทฤษฎีที่ให้ความพึงพอใจจากการช่วยเปิดม่านความลึกลับของดีปเลิร์นนิง
  • ประโยชน์ใช้สอย

    • เช่นเดียวกับที่ฟิสิกส์เป็นรากฐานให้วิศวกรรมแขนงอื่น ควรเป็นฐานวิทยาศาสตร์ของดีปเลิร์นนิงประยุกต์
    • เป้าหมายที่เป็นรูปธรรมรวมถึง การลดการปรับแต่งไฮเปอร์พารามิเตอร์, เครื่องมือคาดการณ์การออกแบบ dataset, และ ฐานที่เคร่งครัดสำหรับ AI safety
  • ความถ่อมตน

    • ต้องชี้ให้ชัดว่าอธิบายอะไรได้ดี และอธิบายอะไรไม่ได้
    • แม้แต่ mechanics ที่ใช้ได้กับดีปเลิร์นนิงในโลกจริง ก็อาจใช้ไม่ได้ในกรณีพิเศษขนาดเล็กที่ออกแบบด้วยมืออย่างพิถีพิถัน และนี่ควรถูกมองเป็นราคาที่ต้องจ่ายเพื่อให้ได้ภาพที่เรียบง่ายในขอบเขตที่เราสนใจ

ทำไม learning mechanics จึงสำคัญ

  • เหตุผลเชิงวิทยาศาสตร์

    • ความสำเร็จเชิงวิศวกรรมของโครงข่ายประสาทขนาดใหญ่บ่งชี้ว่ามันกำลังใช้ หลักการลึกซึ้งของการเรียนรู้และการแทน ที่เรายังไม่เข้าใจ
    • มีการยกตัวอย่างกรณีที่เทคโนโลยีมาก่อนทฤษฎี เช่น steam engine กับ thermodynamics และเครื่องบินกับ aerodynamic theory
    • หลักการเรียนรู้ของโครงข่ายประสาทเทียมอาจช่วยฉายแสงให้กับความเข้าใจ biological intelligence ด้วย และสิ่งนี้อาจมีนัยต่อ neuroscience และ cognitive science
  • เหตุผลเชิงปฏิบัติ

    • ทฤษฎีดีปเลิร์นนิงที่เติบโตเต็มที่สามารถชี้นำการออกแบบโมเดล การทำ optimization การสเกล และการนำไปใช้งานจริงด้วยหลักการที่เชื่อถือได้มากขึ้น
    • ในบางด้าน ทฤษฎีก็เริ่มมีบทบาทแล้ว
      • empirical scaling laws
      • สูตรเชิงคณิตศาสตร์สำหรับการสเกลไฮเปอร์พารามิเตอร์
      • optimizer และวิธี data attribution ที่ออกแบบจากแรงจูงใจทางทฤษฎี
    • ทฤษฎีที่ลึกและสมบูรณ์กว่านี้จะสามารถให้แนวทางลักษณะดังกล่าวได้มากขึ้น และทำให้มันคมชัดและคาดการณ์ได้มากกว่าเดิม
  • เหตุผลด้านความปลอดภัย

    • หากต้องการพรรณนา กำหนดลักษณะ และควบคุมระบบ AI ที่ทรงพลังขึ้นเรื่อย ๆ ก็ต้องสามารถระบุตัวแปร กลไก และหลักการจัดระเบียบที่เกี่ยวข้องได้อย่างชัดเจน
    • เป็นเรื่องยากที่จะกำกับดูแลเทคโนโลยีที่อธิบายอย่างชัดเจนไม่ได้ และ fundamental theory สามารถมอบความกระจ่างที่จำเป็นต่อ reliability, oversight และ control ได้
    • โดยเฉพาะอย่างยิ่ง มีการเสนอว่ามันอาจมีส่วนช่วยด้าน AI safety ในลักษณะที่สนับสนุน mechanistic interpretability

หลักฐานว่ากลไกของการเรียนรู้กำลังปรากฏขึ้น

  • องค์ประกอบแกนหลักของดีปเลิร์นนิงมีความ ชัดแจ้ง และ วัดได้
    • สถาปัตยกรรมถูกกำหนดเป็นโครงข่ายประสาท f(x; θ) ที่นิยามด้วยการประกอบกันของการแปลงเชิงเส้นและไม่เชิงเส้นอย่างง่าย
    • ข้อมูลถูกให้มาเป็นเซ็ตตัวอย่าง D = {(xi, yi)} จากการแจกแจงการสร้างข้อมูลที่ไม่ทราบมาก่อน
    • โจทย์ถูกนิยามด้วยฟังก์ชันวัตถุประสงค์ L(θ) ที่วัดประสิทธิภาพบนชุดข้อมูล
    • กฎการเรียนรู้ถูกอธิบายด้วยการอัปเดตแบบอิง gradient เช่น θ(t+1) = θ(t) −η∇L(θ(t)) พร้อมการกำหนดค่าเริ่มต้นและไฮเปอร์พารามิเตอร์ของตัวปรับเหมาะ
  • แทบไม่มีสิ่งที่ซ่อนอยู่ในกระบวนการเรียนรู้
    • ต่างจากระบบซับซ้อนจำนวนมาก ดีปเลิร์นนิงเปิดเผย equations of motion ที่ควบคุมพลวัตโดยตรง
    • สามารถบันทึก weight, activation, gradient และ loss ทั้งหมดได้ และสร้างสถิติใด ๆ จากสิ่งเหล่านี้ก็ได้
    • การออกแบบการทดลอง การทำซ้ำ และการตรวจสอบทำได้ง่าย จึงเอื้อต่อการค้นพบความสม่ำเสมอเชิงประจักษ์และการทดสอบคำพยากรณ์ของทฤษฎีอย่างเข้มงวด
  • ปัญหาหลักไม่ได้อยู่ที่ความทึบแสง แต่เป็น ความซับซ้อน
    • ปฏิสัมพันธ์ระหว่าง architecture, data, task และ learning rule ก่อให้เกิดพลวัตการเรียนรู้ที่ ไม่เชิงเส้น, มีการเชื่อมโยงกัน, และ มิติสูง
    • มีความไวต่อการเลือกไฮเปอร์พารามิเตอร์ และตัวการแจกแจงข้อมูลเองก็ยากจะอธิบายลักษณะอย่างเรียบง่าย
  • ถึงอย่างนั้น ภายใต้ความซับซ้อนนี้ก็ยังมีความเป็นระเบียบซ่อนอยู่ และมีการเสนอข้อสังเกตห้าประการที่รองรับเรื่องนี้
    • การตั้งค่าที่แก้ได้เชิงวิเคราะห์

    • ลิมิตที่ให้มุมมองเชิงลึก

    • กฎเชิงประจักษ์อย่างง่าย

    • ทฤษฎีไฮเปอร์พารามิเตอร์

      • ปรากฏการณ์สากล

การตั้งค่าที่แก้ได้เชิงวิเคราะห์

  • ในระบบที่ซับซ้อน ความเข้าใจเชิงวิทยาศาสตร์มักเติบโตอย่างรวดเร็วเมื่อสามารถคำนวณเชิงปริมาณได้ในสภาวะที่ทำให้ง่ายลงแต่ยังเป็นตัวแทนได้ดี
    • เช่นเดียวกับ harmonic oscillator หรือ hydrogen atom ในฟิสิกส์ ในดีปเลิร์นนิง โมเดลอย่างง่ายที่สุดก็ให้สัญชาตญาณสำหรับมองระบบที่สมจริงกว่าได้
    • ดีปเลิร์นนิงเหมาะกับแนวทางนี้เป็นพิเศษ เพราะมีการค้นพบสภาวะจำนวนมากที่พลวัตการเรียนรู้ถูกทำให้ง่ายลงและสามารถคำนวณปริมาณสำคัญได้
  • การทำให้เป็นเชิงเส้นต่อข้อมูล

    • deep linear network ตัดความไม่เชิงเส้นออกไป ทำให้โมเดลเป็นเชิงเส้นต่ออินพุต x แต่ยังคงไม่เชิงเส้นอย่างมากต่อพารามิเตอร์ θ
    • แม้โมเดลแบบนี้จะดูเรียบง่าย แต่ก็ยังคงพฤติกรรมเฉพาะตัวของดีปเลิร์นนิงไว้
      • saddle-point-dominated loss landscape
      • พลวัตที่มี phase transition ชัดเจนและมีมาตราส่วนเวลาที่แยกจากกัน
      • edge-of-stability oscillation ใน gradient descent
      • inductive bias ที่ขึ้นกับการกำหนดค่าเริ่มต้นอย่างมาก
    • โดยทั่วไปการวิเคราะห์จะทำภายใต้ gradient flow ซึ่งเป็นลิมิตเวลาแบบต่อเนื่องของ gradient descent และเมื่อวางสมมติฐานแบบง่ายต่อการแจกแจงข้อมูลและการกำหนดค่าเริ่มต้น ก็จะได้คำตอบที่แม่นยำหรือย่อลงเป็นระบบพลวัตมิติต่ำ
    • แกนสำคัญที่ปรากฏซ้ำ ๆ คือ greedy low-rank bias
      • การเรียนรู้จะได้มาซึ่งองค์ประกอบบางส่วนของโจทย์ก่อนองค์ประกอบอื่น
      • ผลของ [Saxe et al. 2014] แสดงว่าระบบเรียนรู้ singular vector ของความสัมพันธ์ระหว่างอินพุตกับเอาต์พุตตามลำดับ และโหมดที่มี singular value สูงจะถูกเรียนรู้ก่อน
      • มีการเชื่อมโยงว่าอคตินี้ช่วยแยก signal ออกจาก noise และช่วยให้ generalization ดีขึ้นได้
      • ยังคล้ายกับปรากฏการณ์ในโครงข่ายไม่เชิงเส้นที่ฟังก์ชันง่ายจะถูกเรียนรู้ก่อนฟังก์ชันที่ซับซ้อนกว่า
    • สรุปได้ว่าการกำหนดค่าเริ่มต้นขนาดเล็ก ความลึกที่มากขึ้น mini-batch noise ที่แรงขึ้น และ ℓ2 regularization แบบชัดแจ้ง ล้วนเสริม greedy bias นี้ให้แรงขึ้น
  • การทำให้เป็นเชิงเส้นต่อพารามิเตอร์

    • linearized network ได้มาจากการตัดพจน์ไม่เชิงเส้นออกจากการขยายแบบ Taylor รอบพารามิเตอร์ตั้งต้น ทำให้โมเดลยังไม่เชิงเส้นต่อข้อมูล x แต่เป็นเชิงเส้นต่อพารามิเตอร์ θ
    • ในบางสภาวะ โมเดลดั้งเดิมสามารถถูกประมาณได้ดีด้วยการทำให้เป็นเชิงเส้นนี้ตลอดการฝึกทั้งหมด และในกรณีนั้นพลวัตการเรียนรู้ก็แทบจะเหมือนกับการถดถอยเชิงเส้น
    • ความต่างคือแทนที่จะถูกควบคุมด้วย Gram kernel พลวัตจะถูกควบคุมด้วย neural tangent kernel, NTK
    • ใน least squares และ gradient descent ที่มี step size เล็ก ตัวทำนายสุดท้ายจะได้เป็น kernel ridge regression ที่ใช้ NTK ทำให้ตีความได้มากขึ้น
    • การตั้งค่านี้เผยให้เห็นว่าสถาปัตยกรรมกำหนด inductive bias ผ่านโครงสร้างของ NTK อย่างไร
    • หากพิจารณาโครงสร้างของข้อมูลอินพุตด้วย ก็สามารถพยากรณ์ค่า generalization error ที่คาดหวังสำหรับฟังก์ชันเป้าหมายใด ๆ ได้ และผลใน Figure 1 ก็แสดงว่าคำพยากรณ์เหล่านี้สอดคล้องกับการทดลองอย่างดี
    • นอกจากนี้ยังจับ double descent และ scaling laws ได้ด้วย
    • อย่างไรก็ดี ความสมจริงและข้อจำกัดของมันก็ชัดเจน
      • ไม่สามารถจับ feature learning ที่เข้มข้นของ neural network ทั่วไปได้
      • อาจให้คำพยากรณ์เกี่ยวกับ sample complexity ที่มองโลกในแง่ร้ายเกินไป
      • การเปลี่ยนการเรียนรู้ให้เป็นปัญหาเชิงเส้นทำให้เลี่ยงปรากฏการณ์การหาค่าเหมาะที่สุดแบบ non-convex ที่เป็นเอกลักษณ์ของดีปเลิร์นนิงไป
  • ก้าวข้ามการทำให้เป็นเชิงเส้น

    • แนวหน้าสำคัญของทฤษฎีคือการทำให้ toy model ที่ ไม่เชิงเส้น จริง ๆ ทั้งต่อข้อมูลและพารามิเตอร์สามารถวิเคราะห์ได้
    • ในจุดนี้ อิทธิพลของการแจกแจงข้อมูลจะซับซ้อนขึ้นมาก จึงยากที่จะสร้างกรอบแบบรวมศูนย์เพียงหนึ่งเดียว แต่ก็มีความคืบหน้าในหลายทิศทาง
    • ในตระกูลโมเดล single-index และ multi-index ที่มีอินพุตแบบ Gaussian และเป้าหมายที่มีโครงสร้าง fully nonlinear neural network ทำงานได้ดีกว่า kernel method โดยใช้ตัวอย่างน้อยกว่า
      • เพราะมันเรียนรู้ relevant feature ได้โดยใช้ประโยชน์จากโครงสร้างของฟังก์ชันเป้าหมาย
    • วิธีการของ statistical physics ยังทำให้สามารถคำนวณพฤติกรรมเชิงเส้นกำกับที่แม่นยำของ Bayes-optimal inference และพลวัตการเรียนรู้ในโมเดลเหล่านี้ได้ด้วย
    • ในโครงข่ายประสาทสองชั้นที่มี quadratic activation มีการอธิบายคุณลักษณะทั้งค่าประมาณเชิงเส้นกำกับที่แม่นยำ พลวัตการฝึก และ scaling laws ได้แล้ว
    • นอกจากนี้ยังมีการแยกวิเคราะห์ปรากฏการณ์ไม่เชิงเส้นอีกหลายแบบ
      • ปรากฏการณ์ที่ homogeneous network ซึ่งฝึกด้วย logistic loss ลู่เข้าสู่ max-margin solution
      • ปรากฏการณ์ที่พลวัตการฝึกใน teacher-student model ย่อลงเป็นสถิติสรุปมิติต่ำ
      • การทำ memorization ของ associative memory model
      • โครงสร้างเชิงอัลกอริทึมที่ถูกเรียนรู้ใน modular arithmetic task
      • โมเดลที่ตีความได้ของ attention แบบไม่เชิงเส้น
      • กรณีที่การเรียนรู้ feature แบบไม่เชิงเส้นสร้าง scaling law ที่ดีกว่า
    • ปัจจุบัน toy model แบบไม่เชิงเส้นเหล่านี้ต่างจับภาพเพียงบางหน้าตัดของการเรียนรู้แบบไม่เชิงเส้นเต็มรูปแบบ และยังไม่มี กรอบงานแบบบูรณาการ ปรากฏขึ้น

มุมมองเชิงลึกจากลิมิตสุดขั้ว

  • ระบบดีปเลิร์นนิงสมัยใหม่ประกอบด้วยพารามิเตอร์นับหมื่นล้านตัวขึ้นไปและข้อมูลมหาศาล ทำให้ทฤษฎีระดับจุลภาคที่ติดตามพารามิเตอร์แต่ละตัวแทบเป็นไปไม่ได้
  • แต่ระบบซับซ้อนมักถูกทำให้ง่ายขึ้นได้ในลิมิตที่ส่งขนาดไปสู่อนันต์ในทางปฏิบัติ และโครงสร้างที่เรียบง่ายนี้ก็ให้มุมมองที่มีประโยชน์กับระบบจริงที่มีขนาดจำกัดด้วย
    • เป็นตรรกะเดียวกับที่กฎแก๊สอุดมคติถูกอนุมานจากลิมิตจำนวนอนุภาคเป็นอนันต์ แต่ก็ยังใช้ได้ดีกับแก๊สจริงที่มีจำนวนจำกัด
    • ในดีปเลิร์นนิง ลิมิตก็เป็นเครื่องมือทางคณิตศาสตร์หลักในการจัดการกับความซับซ้อนเช่นกัน และความสำเร็จที่เกิดซ้ำๆ ของมันเองก็ถูกเสนอเป็นหลักฐานที่หนักแน่นของทฤษฎีที่กำลังก่อตัว
  • ลิมิตความกว้างเป็นอนันต์และการแบ่งแบบ lazy-rich

    • เมื่อส่งจำนวนเซลล์ประสาทใน hidden layer ไปสู่อนันต์ จะเกิด mean-field behavior ที่ไม่ต้องมองเซลล์ประสาทรายตัว แต่ดูเพียงวิวัฒนาการของการกระจายของประชากรเซลล์ประสาททั้งหมด
    • อย่างไรก็ตาม เพื่อป้องกันไม่ให้ activation ของชั้นลึกกระจายตัวหรือระเบิดออก ต้องลดสเกลการ initialization ลงเมื่อความกว้างเพิ่มขึ้น และตามอัตราการลดนี้จะเกิดพลวัตเชิงขีดจำกัดสองชนิดที่ต่างกัน
    • ระบอบ lazy หรือ kernel หรือ linearized

      • หากลดขนาดของแต่ละพารามิเตอร์ตอน initialization เป็น [width]−1/2 อินพุตของ hidden neuron จะไม่หายไปหรือพุ่งสูงผิดปกติ
      • เมื่อฝึกเครือข่ายแบบนี้ weight และ hidden representation จะเปลี่ยนแปลงน้อยมาก แต่การเปลี่ยนแปลงเล็กๆ นั้นสะสมจนทำให้ฟังก์ชันเอาต์พุตเปลี่ยนไปมาก
      • ผลคือพลวัตการเรียนรู้เป็นเชิงเส้นเมื่อมองในพารามิเตอร์ และวิวัฒนาการของฟังก์ชันเอาต์พุตถูกอธิบายทั้งหมดด้วย NTK
      • แม้จะตีความได้ง่าย แต่เพราะ hidden representation แทบไม่เปลี่ยน จึงไม่แสดง feature learning
      • ภายหลังลิมิตนี้ถูกรวบยอดภายใต้ชื่อ lazy
    • ระบอบ rich หรือ active หรือ feature-learning

      • หากย่อค่าน้ำหนักของชั้นสุดท้ายแรงขึ้นเป็น [width]−1 จะเกิดลิมิตอีกแบบที่โมเดลต้องเปลี่ยนแปลงมากขึ้นระหว่างการเรียนรู้ จึงทำให้เกิด feature learning ได้
      • ในกรณีนี้เอาต์พุตเริ่มต้นจะเป็น 0 ในลิมิตความกว้างเป็นอนันต์ แต่ระหว่างการฝึกสามารถเติบโตอย่างมีนัยสำคัญในระดับ order-one ได้ทุก gradient step
      • แนวคิดนี้เริ่มจาก shallow mean-field network แล้วขยายไปสู่เครือข่ายที่มีความลึก arbitrary depth และสเกลที่เกี่ยวข้องก็เชื่อมโยงกับ Maximal Update Parameterization, µP
      • ปัจจุบันเป็นที่ยอมรับกันอย่างกว้างขวางแล้วว่าแม้แต่เครือข่าย infinite-width ก็สามารถเรียนรู้ feature ได้
    • พฤติกรรมที่ปรากฏใน rich regime

      • hidden feature เปลี่ยนไปตามเวลาและปรับตัวเข้ากับโครงสร้างของข้อมูลนำเข้า
      • geometry ของตัวแทนภายในเปลี่ยนไประหว่างการฝึก
      • กลุ่มย่อยของเซลล์ประสาทจะเชี่ยวชาญกับ latent feature ที่ต่างกัน
      • เมื่อการทำนายที่เหมาะสมที่สุดอยู่ในปริภูมิย่อยมิติต่ำของข้อมูลมิติสูง การกระจายของน้ำหนักในชั้นแรกจะวิวัฒน์ไปในทิศทางที่ขยายปริภูมิย่อยที่สนใจนั้น
      • หากทำให้สเกลการ initialization เล็กลงอีก อคติแบบ greedy low-rank bias ที่กล่าวถึงก่อนหน้ามักจะปรากฏขึ้นอีกครั้ง
    • การเปลี่ยนผ่าน lazy-rich ที่เกิดขึ้นได้แม้ในความกว้างจำกัด

      • เมื่อลดสเกลเอาต์พุต จะกระตุ้น feature learning และขยับไปทาง rich regime
      • เมื่อเพิ่มสเกลเอาต์พุต พลวัตการฝึกจะถูกทำให้เป็นเชิงเส้นมากขึ้นและเกิดพฤติกรรมแบบ lazy
      • เครือข่ายจำกัดขนาดเดียวกันก็สามารถแสดงการเรียนรู้แบบ lazy หรือ rich ได้ตามสเกลเอาต์พุต และ Figure 2 แสดงภาพความแตกต่างนี้
  • ลิมิตความลึกเป็นอนันต์และลิมิตของไฮเปอร์พารามิเตอร์อื่นๆ

    • ใน deep residual network หากลดอิทธิพลของแต่ละชั้นลงอย่างเหมาะสม ก็สามารถไปถึง infinite depth limit ที่มีเสถียรภาพได้
    • หากกดแต่ละชั้นลงด้วย [depth]−1 จะได้ลิมิตที่ residual stream เปลี่ยนไปอย่างราบรื่นตามความลึก ซึ่งชวนให้นึกถึง Neural ODE
    • หากกดแต่ละชั้นลงด้วย [depth]−1/2 จะได้ลิมิตที่ residual stream แพร่กระจายราวกับถูกขับเคลื่อนโดยสมการเชิงอนุพันธ์สุ่ม
    • ลิมิตสองแบบนี้ลู่เข้าสู่คำตอบที่ต่างกันเชิงคุณภาพในสถาปัตยกรรมจริงอย่าง transformer และยังไม่ชัดเจนว่าแบบใดสำคัญกว่า
  • ลิมิตขนาดแบบอื่นๆ

    • สำหรับ recurrent architecture สามารถวิเคราะห์ลิมิตอนันต์ของโครงสร้าง recurrent ได้ แทนที่จะดูจำนวนชั้นแบบ feedforward
    • transformer รุ่นใหม่มีบล็อกที่แสดงออกได้มากขึ้น เช่น multi-head self-attention และ mixture-of-expert MLP
      • attention มีหลายทิศทางของสเกล ได้แก่ head count, head size, context length
      • mixture-of-expert มีหลายทิศทางของสเกล ได้แก่ expert count, expert size, sparsity
    • การทำให้ปฏิสัมพันธ์ระหว่างลิมิตอนันต์ที่แตกต่างกันเหล่านี้ชัดเจนมีความสำคัญต่อการเชื่อมโยงกับงานปฏิบัติยุคใหม่ และต่อการแยกทำความเข้าใจไฮเปอร์พารามิเตอร์ที่เกี่ยวกับ initialization และ optimization

สรุปที่ปรากฏจากตารางและรูป

  • Table 1 สรุปว่าเครื่องมือวิจัยหลักของดีปเลิร์นนิงมีความคล้ายคลึงอย่างใกล้ชิดกับเครื่องมือของฟิสิกส์
    • solvable settings สอดคล้องกับ deep linear network, kernel regression, multi-index model และในฟิสิกส์สอดคล้องกับ harmonic oscillator, hydrogen atom, Ising model
    • simplifying limits เชื่อมโยงกับ lazy vs rich learning, ลิมิตอนันต์ของ width และ depth, และ small initialization ขณะที่ในฟิสิกส์วางคู่กับ thermodynamic limit, classical limit, hydrodynamic limit
    • simple empirical laws ปรากฏในรูป neural scaling laws, edge of stability, neural feature ansatz และถูกวางเทียบกับกฎอย่าง Kepler, Snell, Boyle, Hooke, Newton, Faraday, Ohm, Poiseuille, Planck, Hubble ในฟิสิกส์
    • system parameters research ปรากฏเป็นมุมมองที่มอง step size เป็น sharpness regularization และเชื่อมโยงกับ µP และ width scaling โดยสรุปคล้ายกับ scaling analysis, nondimensionalization, chaotic vs ordered regime ในฟิสิกส์
    • universal phenomena ปรากฏเป็น inductive bias และ representation ที่พบร่วมกันข้ามโมเดล และสอดคล้องกับ critical phenomena, renormalization group flow ในฟิสิกส์
  • Figure 1 เน้นว่า linearization ให้ คำตอบที่แม่นยำ และสอดคล้องกับการทดลองได้ดี
    • ใน deep linear network มีการเรียนรู้ singular mode แบบทีละลำดับภายใต้ task-aligned initialization และ whitened input
    • หากทำ Taylor expansion ของ nonlinear network รอบจุด initialization เพื่อทำให้เป็นเชิงเส้น ก็จะลดรูปเป็น kernel ridge regression ผ่าน NTK และการพยากรณ์ประสิทธิภาพการทดสอบก็ใกล้เคียงกับผลทดลองในงานจำแนกแบบทวิภาคีหลายงานบน CIFAR-5m
  • Figure 2 แสดงให้เห็นว่าเพียงแค่ปรับขนาดเอาต์พุตให้ใหญ่หรือเล็ก ก็สามารถเหนี่ยวนำพลวัตการฝึกแบบ lazy และ rich ได้
    • แม้จะเป็น shallow student network เดียวกัน เมื่อ α = 0.1 น้ำหนักของ student จะเคลื่อนที่มากและรวมตัวใกล้ทิศทาง feature ของ teacher แสดงพลวัตแบบ rich
    • เมื่อ α = 30 แม้ loss จะลดลง แต่น้ำหนักของ student แทบไม่ขยับ จึงแสดงพลวัตแบบ lazy

1 ความคิดเห็น

 
GN⁺ 4 일 전
ความคิดเห็นจาก Hacker News
  • ในฐานะคนที่ทำงานอยู่ในสายนี้ ผมมองว่าบทความนี้สรุป หัวข้อวิจัย ที่ถูกพูดถึงมากที่สุดในตอนนี้ได้ค่อนข้างดี
    โดยเฉพาะ open problems ช่วงท้ายที่แทบจะชี้ทิศทางวิจัยหลักได้เกือบทั้งหมด เลยเป็นส่วนที่มีประโยชน์ที่สุด
    พอเห็นว่าในคอมเมนต์มีความสงสัยกันเยอะ ก็ยิ่งสะท้อนว่างานวิจัยแบบนี้แทบยังไม่ถูกสื่อสารไปสู่สาธารณะเลย ซึ่งน่าเสียดาย
    ตอนนี้ยังไม่ค่อยมีกลไกที่อนุมานสถาปัตยกรรมเครือข่ายที่เหมาะที่สุดออกมาทางคณิตศาสตร์ได้โดยตรง แต่ส่วนใหญ่ก็เพราะการทดลองมักวิ่งเร็วกว่าทฤษฎี เลยกลายเป็นว่าต้องมาอธิบายย้อนหลังอยู่บ่อย ๆ
    ถึงอย่างนั้น คำถามว่าทำไมโครงข่ายประสาทถึงทำงานได้ดีกว่าโมเดลอื่น ตอนนี้ก็เริ่มมีคำตอบที่แข็งแรงมากขึ้นเรื่อย ๆ
    ปัญหาคือจริง ๆ แล้วคำถามที่คนอยากรู้มากที่สุดไม่ใช่ข้อนั้น เลยดูเหมือนว่าเรากำลังอยู่ในช่วงที่ต้องตัดสินใจว่า ต่อไปควรถามอะไร

    • ตอนนี้ผมมองว่าเป็นช่วงเวลาที่แปลกดี เพราะ รากฐานเชิงทฤษฎีสารสนเทศของดีปเลิร์นนิง กำลังแข็งตัวอย่างรวดเร็ว
      คำถามว่าทำไมมันถึงทำงานได้ โดยมากถือว่าแก้ไปแล้ว และแก่นหลักคือการลดการสูญเสียข้อมูลที่ย้อนกลับไม่ได้ให้มีประสิทธิภาพ เมื่อเทียบกับ noise floor
      ทั้งที่คณิตศาสตร์ชี้ทางที่มีประสิทธิภาพกว่า แต่อุตสาหกรรมกลับเสียเวลาอยู่หลายปีด้วยการดันแต่โมเดลให้ใหญ่ขึ้นเรื่อย ๆ
      โมเดล 70B ที่ออกแบบดี ๆ ก็สามารถรันได้ที่ราว 16GB โดยไม่สูญเสียความสามารถ และยังฝึกต่อได้ด้วย แต่เงินทุนกลับเทไปที่ bigger อย่างเดียว
      ตอนนี้อุตสาหกรรมย้ายเป้าหมายไปที่ Agency และ Long-horizon Persistence แล้ว และการเปลี่ยนผ่านจากเครื่องคิดเลขที่ทำนายได้ ไปเป็นระบบที่คงอยู่ได้นาน ดูจะใกล้กับปัญหาอุณหพลศาสตร์นอกสมดุลมากกว่า
      ตรงนี้มีคณิตศาสตร์และกฎที่ใช้กับ AI ได้ตรง ๆ และหลักการที่ทำให้สัญญาณคงอยู่ในโมเดล กับหลักการที่ทำให้เอเจนต์คงอยู่ได้ ก็เชื่อมกันด้วยคณิตศาสตร์ชุดเดียวกันแทบทั้งหมด
      ความเชี่ยวชาญของผมก็อยู่ที่เรื่องความคงอยู่แบบนี้พอดี และพอเห็นฝั่ง AI ต้องมานั่งเรียนหลักการพื้นฐานที่วงการอื่นเข้าใจกันไปแล้วใหม่แบบลำบาก ๆ ก็ยอมรับว่าหงุดหงิดเหมือนกัน
      เพราะงั้นผมเลยเขียนเอกสารอธิบายว่าคณิตศาสตร์นี้ทำงานยังไง และจะเอาไปใช้กับแต่ละโดเมนได้ยังไง แล้วแชร์ออกไป พออ่านแล้วก็จะรู้ได้อย่างแม่นยำว่าต้องปรับอะไรเพื่อเพิ่มความคงอยู่ แทนที่จะอาศัยความรู้สึกล้วน ๆ
      คำถามอย่างโมเดลจะทำงานต่อเนื่องได้กี่ชั่วโมง ฟังดูแทบจะน่ารักไปเลย เพราะยังมีคำถามที่เป็นแก่นกว่านั้นอีก
    • ถ้าเป็นอย่างนั้นจริงก็น่ายินดีมาก
      จาก มุมมองแบบดั้งเดิม ผลของการมีพารามิเตอร์เกินหรือสถาปัตยกรรมโครงข่ายแบบต่าง ๆ นี่ยอมรับตามตรงว่าเข้าใจได้ยาก
      ผมยอมรับว่า double descent ใช้งานได้จริงเชิงประจักษ์ แต่ก็ยังรู้สึกว่าโดยหลักแล้วมันไม่น่าจะเป็นแบบนั้น
      ในมุมของคนที่ชอบ Elements ของ Hastie และคณะ แค่ดู bias-variance tradeoff ก็รู้สึกว่ายากจะได้ผลลัพธ์แบบนี้
      เรื่องนี้คาใจผมมาหลายปีแล้ว ถ้ามีความคืบหน้าในประเด็นนี้จริง ต่อให้ในเชิงปรัชญาอย่างเดียวก็ถือว่ามีประโยชน์มาก
      ผมยังอ่านไปแค่บทนำ แต่บทความก็เขียนดี และโปรแกรมวิจัยแบบนี้ก็น่าได้รับการสนับสนุนมากพอสมควร
      มันดูคล้ายกับ bagging หรือ boosting ที่ตอนแรกก็ประสบความสำเร็จเชิงประจักษ์ก่อนจะมีทฤษฎีรองรับ
    • ผมแปลกใจเสมอที่มีคนจำนวนมากมาก เวลาได้ยินเรื่องงานวิจัยที่พยายามทำความเข้าใจโครงข่ายประสาท ก็ตัดบทตั้งแต่แรกว่าเป็น black box เลยเข้าใจไม่ได้หรอก
      น่าจะเป็นผลจากการที่โครงข่ายประสาทมักถูกเล่าให้ดูเหมือนอยู่ตรงข้ามกับ linear regression ที่ตีความแบบคลาสสิกได้
      พอโลกวิศวกรรมเคลื่อนเร็วมาก บรรยากาศก็เลยกลายเป็นว่าถ้างานวิจัยไม่ให้ผลลัพธ์ชัดเจนทันที ก็ไม่ค่อยมีใครยอมรอ
      แม้แต่นักวิจัยด้านการตีความโมเดลเองก็ดูเหมือนหลายคนจะยอมแพ้เร็วเกินไป ถ้ายังไม่เห็นผลลัพธ์เด่น ๆ ในทันที
    • คำถามว่า ทำไมโครงข่ายประสาทถึงทำงานได้ดีกว่าโมเดลอื่น น่าสนใจมาก
      ถ้ามีเอกสารอ้างอิงสำหรับคนที่ไม่ได้อยู่ในสายนี้ให้อ่านได้ด้วยก็อยากรู้
    • ผมไม่แน่ใจว่าจะสรุปได้ไหมว่าโครงข่ายประสาท ดีกว่าโมเดลอื่นจริง
      มันจริงที่ว่าสามารถครอบคลุมกลุ่มปัญหาที่ traditional ML ทำได้ยากอย่างภาพได้กว้างกว่ามาก แต่ในงานที่เทียบกันได้ตรง ๆ ผมเข้าใจว่า gradient boosting ก็ยังชนะได้หลายกรณีเหมือนกัน
  • จุดที่ผมยังไม่เข้าใจคือเรื่องนี้
    ไอเดียเรื่องโครงข่ายประสาทมีมาหลายสิบปีแล้ว แต่ไม่ได้รับความสนใจมากนัก ก่อนที่ดีปเลิร์นนิงจะระเบิดขึ้นหลัง Attention Is All You Need ในปี 2017
    ผมเข้าใจว่า GPU ช่วยเร่งดีปเลิร์นนิงได้ แต่แนวคิดของ transformer เองก็น่าจะลองได้เร็วกว่านั้นบนฮาร์ดแวร์ที่ช้ากว่านี้ไม่ใช่หรือ

    • จุดเปลี่ยน ที่แท้จริงคือ AlexNet ในปี 2012
      AlexNet ตาม https://en.wikipedia.org/wiki/AlexNet แสดงให้เห็นการกระโดดด้านประสิทธิภาพที่ต่างจากของเดิมคนละระดับในการแข่งขันจัดหมวดหมู่ ImageNet และหลังจากนั้นห้องแล็บวิจัยภาพด้าน ML หลัก ๆ ก็หันไปใช้ deep CNN กันหมด
      ภายในไม่กี่ปี วิธีแบบอื่นก็แทบหายไปจากการแข่งขันภาพระดับ SOTA และหลังจากนั้นโครงข่ายประสาทเชิงลึกก็เข้าครองงาน ML ด้านอื่นต่อ
      คำอธิบายกระแสหลักสุดท้ายมีอยู่สองอย่างรวมกัน
      อย่างแรกคือพลังประมวลผลที่มากกว่าสมัยก่อนแบบทิ้งห่าง และอย่างที่สองคือชุดข้อมูลคุณภาพสูงขนาดใหญ่มากขึ้นอย่าง ImageNet ที่ผ่านการคัดและติดป้ายกำกับด้วยมือ
      attention มีประโยชน์มากเป็นพิเศษกับลำดับข้อมูลอย่างข้อความ ที่มีโครงสร้างลำดับค่อนข้างยืดหยุ่น และต้องเรียนรู้ความสัมพันธ์ที่ซับซ้อน แต่ตอนนี้หลายคนมองว่าสถาปัตยกรรมเป็น tradeoff ทางเลือก มากกว่าจะเป็นแก่นแท้ของการเรียนรู้เอง โดยเฉพาะเมื่อข้อมูลและคอมพิวต์ยังไม่พอ
      สุดท้ายแล้วอย่างที่ https://en.wikipedia.org/wiki/Bitter_lesson ว่าไว้ คอมพิวต์ที่มากขึ้นและข้อมูลที่มากขึ้น มักชนะโมเดลที่ฉลาดกว่าแต่ขยายสเกลได้ไม่ดี
      มนุษย์มีเซลล์ประสาทราว 10^11 ตัว สุนัขราว 10^9 และหนูราว 10^7 ซึ่งสิ่งที่สะดุดตาคือทั้งหมดเป็นตัวเลขที่มหาศาล
      แม้แต่สติปัญญาที่จำกัดแบบหนูก็ยังต้องใช้เซลล์ประสาทนับร้อยล้านตัว และดูเหมือนว่าสติปัญญาจะปรากฏขึ้นได้ก็ต่อเมื่อข้ามระดับความสามารถด้านการคำนวณบางจุดไปแล้ว
      น่าจะเป็นเพราะการรับมือกับความซับซ้อนโดยเนื้อแท้ของสภาพแวดล้อมการเรียนรู้ที่ซับซ้อน ต้องใช้พารามิเตอร์จำนวนมาก
      ในทางกลับกัน สำหรับปัญหาที่เรียบง่ายหรือเป็นแบบแผน มีเทคนิคมากมายที่ใช้พารามิเตอร์น้อยกว่าแล้วทำงานได้ดี หรือถึงขั้นพิสูจน์ได้ว่าเหมาะที่สุด
      สิ่งที่เราเรียกว่าการเรียนรู้และสติปัญญาโดยมากตั้งอยู่บนสมมติฐานของสภาพแวดล้อมที่ซับซ้อน และความซับซ้อนแบบนั้นก็ต้องการพารามิเตอร์จำนวนมากโดยเนื้อแท้
    • ชัยชนะครั้งใหญ่ก่อนหน้านั้นของดีปเลิร์นนิงจริง ๆ คือ AlexNet ปี 2012 ในงานรู้จำภาพ
      มันชนะการแข่งขันแบบขาดลอย และภายในไม่กี่ปี งานด้านภาพก็แทบกลายเป็นมาตรฐานแบบนั้นไปหมด
      ผมจำได้ลาง ๆ ว่าน่าจะเป็น Jeremy Howard ที่เคยเขียนไว้ราวปี 2017 ว่าเมื่อไร NLP จะได้ transfer learning ที่ใช้ได้ผลดีพอ ๆ กับที่ convnet ทำไว้กับภาพ
      paper เรื่อง attention ไม่ได้ครองโลกทันทีในปีนั้น และตอนนั้นฮาร์ดแวร์ก็ยังไม่พอ อีกทั้งก็ยังไม่มีฉันทามติว่าสเกลแก้ทุกอย่างได้
      ต้องรออีกเกือบ 5 ปีกว่า GPT-3 จะมา และตอนนั้นเองคลื่นลูกปัจจุบันถึงเริ่มขึ้น
      และผู้คนก็มักประเมิน ขนาดของ compute ที่ต้องใช้ฝึกสัตว์ประหลาดพวกนี้ต่ำเกินไปมาก เพราะถ้าใช้โปรเซสเซอร์เดี่ยว 1GHz ตัวเดียว การฝึกโมเดลระดับนี้หนึ่งตัวจะใช้เวลาราว 100 ล้านปี
      แม้แต่โมเดลระดับ GPT-3 ก็ยังต้องใช้ GPU ราว 25,000 ตัวอยู่นานหลายเดือน และด้วยหน่วยความจำอันจำกัดของ GPU เมื่อ 10 ปีก่อน การฝึก transformer ขนาดใหญ่แทบเป็นไปไม่ได้เลย
      K80 สมัยก่อนมีหน่วยความจำราว 12GB แต่ H100/H200 ปัจจุบันอยู่ระดับหลายร้อย GB และ transformer ขนาดใหญ่แบบนี้ก็นับว่าแทบทำไม่ได้จริงก่อนต้นทศวรรษ 2020
      ยังนึกถึงตอนปลายทศวรรษ 2010 ที่เหล่าเกมเมอร์บ่นกันว่า GPU แพงขึ้นแรงเพราะ ML
    • อย่างที่คนอื่นบอก ความสนใจที่ระเบิดขึ้นเริ่มมาจากการที่ deep convolutional networks ใช้ได้ผลกับโจทย์ภาพ
      สิ่งที่น่าสนใจคือก่อนหน้านั้นโครงข่ายประสาทถูกมองว่าไม่สำคัญเท่าไรด้วยซ้ำ
      ตอนผมเรียนวิชาที่เกี่ยวข้องราวปี 2000 บรรยากาศโดยรวมก็ประมาณนั้น
      การจะกลับมาร้อนแรงได้อีกครั้ง ดูเหมือนท้ายที่สุดต้องอาศัยทั้งข้อมูลฝึกปริมาณมหาศาลอย่าง ImageNet และโปรเซสเซอร์ที่เร็วพอพร้อมกัน
      หลังจากนั้นก็มีการพัฒนาต่อยอดกับสถาปัตยกรรมเฉพาะทางอย่างต่อเนื่อง จนขยายตัวแบบลูกหิมะ
      สำหรับชุมชนวงกว้าง AlexNet ดูเป็นจุดหักเหใหญ่ แต่ในแวดวงวิชาการเอง กระแสเริ่มเปลี่ยนมาตั้งแต่ 2-3 ปีก่อนหน้านั้นแล้ว
      ผมเริ่มเห็นตั้งแต่ราวปี 2008-09 ว่าในเวิร์กช็อป งานนำเสนอเกี่ยวกับโครงข่ายประสาทไม่ได้ถูกเมินอีกต่อไป
    • เรื่องคล้ายกันเคยเกิดกับ เมทริกซ์ มาก่อน
      เมทริกซ์มีมาตั้งแต่ 400 ปีก่อน แต่ พีชคณิตเชิงเส้น โดยเฉพาะพีชคณิตเชิงเส้นเชิงตัวเลข เพิ่งระเบิดขึ้นหลังการมาถึงของคอมพิวเตอร์
      สมัยก่อนการแก้ระบบสมการเชิงเส้นนิยมใช้ทฤษฎี minors แต่เมื่อมีคอมพิวเตอร์ ทฤษฎีอย่าง Gaussian elimination หรือ Krylov space ก็พัฒนาอย่างมาก
    • แม้แนวคิด transformer เองอาจใช้ได้เร็วกว่านี้บนฮาร์ดแวร์ที่ช้ากว่า แต่ใน สเกลเล็ก มันไม่ได้ให้ผลแบบเดียวกัน
      ผู้คนอาจจินตนาการไว้แล้ว แต่ไม่มีฮาร์ดแวร์พอจะทำมันให้เกิดขึ้นจริง
      ถ้าพูดให้เรียบง่าย LLM ก็คือ transformer บวกกับ ข้อมูลปริมาณมหาศาล และการจะฝึกกับข้อมูลระดับนั้นได้จริงก็จำเป็นต้องมีฮาร์ดแวร์ที่แรงพออย่างหลีกเลี่ยงไม่ได้
  • น่าสนใจที่เรากำลังใช้เครื่องมือเรียนรู้อย่าง สมอง เพื่อพยายามทำความเข้าใจเครื่องมือเรียนรู้อีกชนิดหนึ่ง
    SGD เองก็ทำงานได้ดีมากอยู่แล้ว และต่อให้ทำให้มันดีขึ้นอีกหลายเท่า ก็อาจไม่ได้ช่วยตอบคำถามพื้นฐานว่า black box นี้กำลังทำอะไรอยู่จริง ๆ
    วิธีที่มันเรียนรู้ กับสิ่งที่โมเดลกำลังทำอยู่จริง เป็นคนละปัญหากัน และสมองของเราก็เองก็เป็น black box ในหลายด้านเช่นกัน
    เพราะงั้นผมเลยรู้สึกว่ายังต้องมีตัวเชื่อมมากกว่านี้ระหว่างงานวิจัยกลไกการเรียนรู้กับ จิตวิทยา รวมถึงแนวคิดเชิงปรัชญาเกี่ยวกับธรรมชาติของความคิดและภาษา

  • นี่ถือว่าให้กำลังใจ แต่ผมว่าชื่อเรื่องโอเวอร์ไปหน่อย
    ถ้าใช้ว่า แนวทางบุกเข้าไปทำความเข้าใจว่าดีปเลิร์นนิงกำลังทำอะไรอยู่จริง น่าจะตรงกว่า แต่ก็คงไม่สะดุดตาเท่า
    ถ้ามันนำไปสู่วิธีวัดได้ว่าเมื่อไรระบบดีปเลิร์นนิงจะเกิด ภาพหลอน ขึ้นมาได้ ก็จะมีคุณค่ามากมหาศาล
    จนกว่าจะทำได้ ก่อนหน้านั้นระบบดีปเลิร์นนิงก็คงถูกจำกัดให้ใช้ได้แค่กับงานที่ต่อให้มันพูดเพ้อเจ้อขึ้นมาก็สร้างความเสียหายไม่มากนัก

    • ผมคิดว่าอุปสรรคใหญ่อย่างหนึ่งในสายนี้คือ ศัพท์ช่วยจำที่เต็มไปด้วยความหวัง และ การทำให้เป็นมนุษย์ ที่ถูกแปะให้กับ LLM
      ตัวอย่างเช่น คำว่า hallucination เองก็บังคับยัดความหมายแบบมนุษย์ให้กับเอาต์พุตของ LLM
      ถ้ามองตามกลไกทางคณิตศาสตร์จริง ๆ ภาพหลอนก็เป็นเพียงเอาต์พุตอีกชนิดหนึ่งเท่านั้น และไม่มีเส้นแบ่งชัดเจนที่นิยามได้ระหว่างมันกับเอาต์พุตแบบอื่น
    • การวัดว่าเมื่อไรระบบดีปเลิร์นนิงจะ สร้างภาพหลอน เป็นปัญหาที่คุ้มค่ามากจริง ๆ ที่จะพยายามแก้
      มันยังเป็นทิศทางวิจัยหลักของผมด้วย จึงอาจมีอคติอยู่บ้าง
      แนวทางที่พบบ่อยคือ OOD detection แต่ผมรู้สึกมาตลอดว่าการตั้งโจทย์แบบนี้ไม่ค่อยมั่นคงตั้งแต่ต้น
      เพราะงั้นผมกับเพื่อนร่วมงานเลยลองใช้แนวทางที่รากฐานกว่า ด้วยการวัด misspecification ของโมเดล แต่ต้นทุนการคำนวณสูงมากจนตอนนี้ยังเป็นเรื่องเฉพาะกลุ่มอยู่มาก
      ไม่ว่าจะทางไหน กว่าที่จะมีจุดทะลุทะลวงก็คงต้องใช้เวลาอีกพอสมควร
  • อ่านแล้วทำให้นึกว่ามันคล้าย vibecoding ในเชิงแนวคิด
    คือทำให้บางอย่างใช้การได้ก่อน แล้วค่อยไปทำความเข้าใจทีหลังว่าทำไมมันถึงเวิร์กและมันทำงานอย่างไร ซึ่งเป็นงานอีกแบบหนึ่งต่างหาก

  • เดี๋ยวก่อน เราสร้างสิ่งที่ยังทั้งไม่เข้าใจและอธิบายไม่ค่อยได้ แล้วตอนนี้จะมาเรียกมันว่า science งั้นเหรอ?
    ตลอดหลายสิบปีที่ผ่านมาเราก็ยืมศัพท์จากชีววิทยา โดยเฉพาะ ประสาทชีววิทยา มาใช้ และสุดท้ายมันก็ดูเหมือนมีด้านที่เป็นการ copy paste เลียนแบบลิงอยู่ไม่น้อย

  • พูดตามตรง ผมกลับว่าสองความพยายามสร้าง ทฤษฎีสากล นี้น่าสนใจกว่า
    https://arxiv.org/abs/2510.12269
    https://www.mdpi.com/1099-4300/28/3/332
    ผมยังสงสัยเรื่องความเชื่อมโยงกับ fuzzy logic ด้วย
    โครงข่ายประสาทดูเหมือนจะให้เหตุผลแบบคลุมเครือบางอย่าง แต่ผมก็ไม่แน่ใจว่าถ้าจะนิยามเชิงรูปแบบแล้วควรเรียกสิ่งนั้นว่าอะไร
    มีความพยายามทำให้ fuzzy reasoning เป็นแบบรูปนัยมาหลายปี แต่ตอนนี้ดูเหมือนไม่ค่อยมีใครสนใจแล้ว
    ความรู้สึกของผมคือโครงข่ายประสาทกับ transformer เหมือน OOP ของโลก ML
    มันดังมากและใช้ในทางปฏิบัติได้ค่อนข้างดี แต่รากฐานยังพร่ามัวอยู่ และให้ความรู้สึกเหมือนเอาสิ่งที่สมัยก่อนก็แทนได้อยู่แล้วมาเขียนใหม่ด้วยภาษาใหม่ เพียงแต่ยากจะชี้ชัดว่าตรงไหนกันแน่ที่เกิดประโยชน์ขึ้น

  • ผมยังอ่าน paper ไม่จบ แต่รู้สึกว่ามันเขียนได้ ชวนติดตามมาก และ รอบคอบมาก จริง ๆ
    มีอะไรให้ย่อยเยอะมาก แต่การได้เห็นเนื้อหาเหล่านี้ถูกรวมไว้ด้วยกันก็น่าสนใจมาก

  • ผมคิดว่าเหตุผลในระดับสูงที่ทำให้ดีปเลิร์นนิงทำงานได้ดี ก็เพราะมัน เรียนรู้ต่อจากข้อมูลได้มากขึ้นเรื่อย ๆ ได้ดีกว่าวิธีอื่น
    แต่ถ้าไม่มี ข้อมูลปริมาณมหาศาล ที่เป็นไปได้ในตอนนี้ สถาปัตยกรรมก็คงไม่ได้สำคัญขนาดนั้น
    ถ้าไม่อธิบายทั้งสองด้านของสมการโมเดล-ข้อมูลไปพร้อมกัน ก็ยากจะสร้างทฤษฎีวิทยาศาสตร์ที่แข็งแรงเกี่ยวกับคำถามอย่าง ทำไมโมเดล reasoning ถึงให้เหตุผลได้
    โมเดลเป็นผลผลิตร่วมกันของสถาปัตยกรรมและข้อมูลฝึก
    ตอนนี้ปัญหานี้ยังดูยากพอ ๆ กับการอธิบายว่ามนุษย์หรือสัตว์เรียนรู้สิ่งเฉพาะบางอย่างจากข้อมูลป้อนเข้าปริมาณมหาศาลได้อย่างไร
    ความเข้าใจเชิงประจักษ์น่าจะดีขึ้นเรื่อย ๆ แต่รากแก่นของมันอาจไม่ได้ลดรูปกลับเป็นวิทยาการคอมพิวเตอร์ได้ทั้งหมด
    ผมคิดว่าแก่นจริงของความซับซ้อนอยู่ฝั่ง gigadataset มากกว่าสถาปัตยกรรม

  • ทฤษฎีจะมีความสำคัญอย่างชี้ขาดทันทีเมื่อเราจำเป็นต้อง ทำนายโหมดความล้มเหลว
    ระบบช่วยตัดสินใจที่โดยมากทำงานได้พอใช้ แต่พังเงียบ ๆ ใน edge case อาจอันตรายกว่าระบบที่ง่ายกว่าแต่มีข้อจำกัดชัดเจนเสียอีก
    ถ้าเราเข้าใจกระบวนการเกิดอคติ ก็จะช่วยแยกได้ว่าเมื่อไรโมเดล มั่นใจจริง และเมื่อไรแค่กำลัง pattern matching
    ความต่างนี้สำคัญเป็นพิเศษในสภาพแวดล้อมที่มีความเสี่ยงสูง