2 คะแนน โดย GN⁺ 2025-12-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • มีการยืนยันผ่านการทดลองขนาดใหญ่ว่า แม้ โมเดลดีปเลิร์นนิง ที่หลากหลายจะถูกฝึกด้วยข้อมูลและค่าเริ่มต้นต่างกัน ก็ยังลู่เข้าสู่ ปริภูมิย่อยของพารามิเตอร์มิติต่ำ ร่วมกัน
  • จากผลการ วิเคราะห์สเปกตรัม ของโมเดลมากกว่า 1,100 ตัว (500 Mistral-7B LoRA, 500 Vision Transformer, 50 LLaMA-8B ฯลฯ) พบว่าความแปรปรวนส่วนใหญ่กระจุกตัวอยู่ใน ทิศทางองค์ประกอบหลัก เพียงไม่กี่ทิศทาง
  • ปริภูมิย่อยสากล (Universal Subspace) นี้ก่อตัวตามสถาปัตยกรรมของโมเดล และปรากฏซ้ำอย่างต่อเนื่องโดยไม่ขึ้นกับข้อมูลหรือการกำหนดค่าเริ่มต้น
  • โครงสร้างนี้มีศักยภาพสูงในการประยุกต์ใช้กับ การบีบอัดโมเดล, การเรียนรู้แบบใช้พารามิเตอร์อย่างมีประสิทธิภาพ, การรวมโมเดล, การอนุมานอย่างรวดเร็ว เป็นต้น
  • งานวิจัยนี้ให้เบาะแสใหม่ในการทำความเข้าใจ โครงสร้างภายในและความสามารถในการทำให้ทั่วไปของโครงข่ายประสาทเทียม และอาจเป็นรากฐานสำคัญสำหรับ การออกแบบอัลกอริทึมการเรียนรู้ที่มีประสิทธิภาพ ในอนาคต

การค้นพบปริภูมิย่อยสากล

  • มีการสังเกตว่า โครงข่ายดีปเลิร์นนิง ที่ฝึกด้วยชุดข้อมูล การกำหนดค่าเริ่มต้น และไฮเปอร์พารามิเตอร์ที่แตกต่างกัน ล้วนลู่เข้าสู่ ปริภูมิย่อยมิติต่ำ ร่วมกัน
    • ปรากฏการณ์นี้แสดงออกเป็น โครงสร้างอันดับต่ำที่คล้ายกันตามสถาปัตยกรรมและตามชั้น
    • แม้ข้อมูลฝึกหรือฟังก์ชัน loss จะแตกต่างกัน ก็ยังแสดงแนวโน้มเชิงโครงสร้างแบบเดียวกัน
  • ผลของ การวิเคราะห์สเปกตรัม ชี้ให้เห็นว่า แม้พื้นที่ค่าน้ำหนักของแต่ละงานจะดูเหมือนแตกต่างกัน แต่แท้จริงแล้วดำรงอยู่เป็นส่วนหนึ่งของ ปริภูมิมิติต่ำที่ใช้ร่วมกัน
  • ผลลัพธ์นี้ถูกเสนอเป็นหลักฐานที่อาจอธิบายได้ว่า เหตุใดโมเดลที่ overfit จึงยังทำให้ทั่วไปได้, เหตุใดการกำหนดค่าเริ่มต้นที่ต่างกันจึงลู่เข้าสู่ตัวแทนที่คล้ายกัน, และ เหตุใดการปรับจูนละเอียดแบบใช้พารามิเตอร์อย่างมีประสิทธิภาพจึงประสบความสำเร็จ

การทดลองและการวิเคราะห์ขนาดใหญ่

  • งานวิจัยนี้วิเคราะห์ โมเดลมากกว่า 1,100 ตัว รวมถึง Mistral-7B LoRA adapter 500 ตัว, Vision Transformer 500 ตัว, และ LLaMA3-8B 50 โมเดล
    • แต่ละโมเดลถูกฝึกภายใต้ชุดข้อมูลและเงื่อนไขการกำหนดค่าเริ่มต้นที่แตกต่างกัน
  • ผลของ การวิเคราะห์องค์ประกอบหลัก (PCA) พบว่าองค์ประกอบหลักเพียงไม่กี่ตัวสามารถอธิบายความแปรปรวนส่วนใหญ่ได้ ซึ่งบ่งชี้ถึงการมีอยู่ของ ปริภูมิย่อยอันดับต่ำที่ใช้ร่วมกัน
  • โดยเฉพาะอย่างยิ่ง แม้แต่ ViT 500 โมเดลที่กำหนดค่าเริ่มต้นแบบสุ่ม ก็ยังลู่เข้าสู่ปริภูมิย่อยมิติต่ำเดียวกัน ซึ่งถูกตีความว่าเป็น คุณสมบัติพื้นฐานของโครงข่ายประสาทเทียม

การสร้างแบบจำลองเชิงทฤษฎีและการทำให้เป็นทางคณิตศาสตร์

  • งานวิจัยนี้สร้างแบบจำลองตัวพยากรณ์ให้เป็นองค์ประกอบบน Hilbert space เพื่อวิเคราะห์ เงื่อนไขการกู้คืนปริภูมิย่อยร่วมกัน ระหว่างหลายงาน
  • นิยาม ตัวดำเนินการโมเมนต์อันดับสองร่วม S จากตัวพยากรณ์ของแต่ละงาน ( f_t^* ) และพิสูจน์ว่า ตัวดำเนินการประมาณ ( \tilde{S} ) จากตัวพยากรณ์ที่เรียนรู้แล้ว ( \hat{f_t} ) ลู่เข้าสู่ S
  • Theorem 2.5 แสดงให้เห็นว่าปริภูมิย่อยที่เรียนรู้แล้วลู่เข้าสู่ปริภูมิย่อยร่วมที่แท้จริง โดยอัตราการลู่เข้าถูกกำหนดด้วย จำนวนงาน (T) และ ความแม่นยำของการประมาณในแต่ละงาน (η)
  • ยิ่ง ช่วงห่างของค่าเอกลักษณ์ (γₖ) มากเท่าใด การกู้คืนปริภูมิย่อยก็ยิ่งมีเสถียรภาพมากขึ้น

ความเป็นไปได้ในการประยุกต์ใช้และผลกระทบ

  • การใช้ ปริภูมิย่อยที่ใช้ร่วมกัน เปิดทางให้เกิดการประยุกต์ใช้ดังนี้
    • บีบอัดโมเดล โดยเก็บเพียง ค่าสัมประสิทธิ์ของปริภูมิย่อย แทนค่าน้ำหนักทั้งหมด
    • ปรับตัวกับงานใหม่ได้อย่างรวดเร็ว ภายในปริภูมิย่อยที่เรียนรู้ไว้
    • ให้ข้อมูลเชิงลึกทางทฤษฎีเกี่ยวกับ ขีดจำกัดของการทำให้ทั่วไปและภูมิทัศน์ของการหาค่าเหมาะที่สุด
    • ลดต้นทุนการคำนวณของการฝึกและการอนุมาน ซึ่งอาจช่วย ลดการปล่อยคาร์บอน
  • โครงสร้างนี้ยังอาจเพิ่มประสิทธิภาพในด้าน การนำโมเดลกลับมาใช้ซ้ำ, การเรียนรู้หลายงาน, การรวมโมเดล เป็นต้น

ประเด็นวิจัยในอนาคต

  • ความแตกต่างของปริภูมิย่อยสากลระหว่างสถาปัตยกรรม และ ความเป็นไปได้ในการเพิ่มประสิทธิภาพเชิงเรขาคณิตของมัน ยังเป็นโจทย์ที่ไม่ได้รับการแก้ไข
  • หากทุกโครงข่ายลู่เข้าสู่ปริภูมิย่อยเดียวกันทั้งหมด การขาดความหลากหลาย อันเกิดจาก การใช้ bias และ failure mode ร่วมกัน อาจกลายเป็นคอขวดใหม่
  • งานวิจัยในอนาคตจำเป็นต้องพัฒนาวิธี กระจายการลู่เข้านี้อย่างตั้งใจ

สรุปการมีส่วนร่วมหลัก

  • แสดงเชิงประจักษ์ถึง การมีอยู่ของปริภูมิย่อยมิติต่ำสากลในพื้นที่พารามิเตอร์ของโครงข่ายดีปเลิร์นนิง
  • นำเสนอวิธี เรียนรู้ปริภูมิย่อยร่วมโดยประมาณจากชุดงานที่หลากหลาย
  • ยืนยันว่าเมื่อใช้ปริภูมิย่อยที่เรียนรู้แล้ว จะสามารถ ปรับตัวกับงานใหม่ได้อย่างมีประสิทธิภาพด้วยพารามิเตอร์จำนวนน้อย
  • ชี้ให้เห็นศักยภาพในการประยุกต์ใช้กับ การบีบอัดโมเดล, การเรียนรู้และการอนุมานอย่างรวดเร็ว, การสเกลอย่างมีประสิทธิภาพ

1 ความคิดเห็น

 
GN⁺ 2025-12-11
ความเห็นบน Hacker News
  • วลี “500 Vision Transformers” ทำให้สับสน
    ที่จริงแล้วหมายถึง 500 เวอร์ชันที่ fine-tune จากโมเดลฐานเดียวกัน
    โมเดลเหล่านี้ถูกดาวน์โหลดจากบัญชีผู้ใช้นิรนามบน Hugging Face และคำว่า “สากล(universal)” ก็แทบจะใช้ได้กับโมเดลที่ pretrain มาเพียงตัวเดียวเท่านั้น
    โมเดลที่ถูก fine-tune แบบ LoRA จะคล้ายกันก็ไม่ใช่เรื่องน่าแปลก
    อีกอย่าง หนึ่งในโมเดลที่อ้างอิงในงานวิจัยคือ CheXpert-ViT-U-MultiClass มีการแสดง คำเตือนมัลแวร์ บน Hugging Face

    • คำอธิบายนี้ช่วยให้เข้าใจชัดขึ้นว่าที่งานวิจัยเรียกว่า “subspace สากล” หมายถึงอะไร
      ตอนแรกนึกว่าพวกเขาหา subspace ร่วมกันระหว่างสถาปัตยกรรมโมเดลคนละแบบได้ เลยงงอยู่พักหนึ่ง แต่สุดท้ายมันพูดถึง ความเสถียรภายในคลาสโมเดลเดียวกัน
      ถึงอย่างนั้น ผลลัพธ์นี้ก็ออกจะเป็นแค่การยืนยันข้อเท็จจริงธรรมดาว่า “ฟังก์ชัน loss มีจุดต่ำสุดที่นิยามไว้ดี” ดังนั้นชื่อ “สมมติฐาน subspace น้ำหนักสากล” จึงดูโอเวอร์ไปหน่อย
    • ผลของการ fine-tune นั้นเป็นไปตามคาด แต่การทดลองกับ ResNet ที่ฝึกจากศูนย์ (Figure 2, Section 3.2.1) น่าสนใจกว่า
      มันอาจยังไม่ใช่สิ่งที่ใช้ได้จริงทันทีแบบ LoRA แต่ก็ดูมีช่องทางสำหรับงานต่อยอด
    • การ fine-tune แต่ละครั้งจะขยับน้ำหนักของโมเดลฐานไปในทิศทางหนึ่ง
      ถ้าเอาไป fine-tune กับ 500 ชุดข้อมูล ก็ดูเหมือนควรจะได้ปริภูมิ 500 มิติ แต่ในความเป็นจริงมันกลับลู่เข้าไปยัง subspace ราว 40 มิติ
      หมายความว่าน้ำหนักที่ผ่านการ fine-tune แล้วอาจถูกบีบอัดให้เหลือเพียงเลขจริง 40 ค่าได้
      สักวันหนึ่งอาจได้เห็น Hugging Face แสดงขนาดโมเดลเป็นหน่วย “160 ไบต์” ก็ได้
      แต่เวกเตอร์ฐานเหล่านี้ก็ยังมีขนาดเท่ากับตัวโมเดลอยู่ดี และยังต้องตั้งสมมติฐานว่าเมื่อจำนวนชุดข้อมูลเพิ่มขึ้น มิติก็จะไม่เพิ่มตาม
      น่าเสียดายที่ผู้เขียนใช้โมเดลแบบสุ่ม แต่ก็หวังว่างานนี้จะนำไปสู่งานต่อยอดที่ ฝึกโมเดลขนาดใหญ่จากศูนย์
    • สงสัยว่าทำไมถึงมองว่าโมเดลมันคล้ายกัน ทั้งที่ฝึกจากข้อมูลคนละชุด
      อีกอย่าง คิดว่าในงานก็วิเคราะห์ โมเดลที่ฝึกจากศูนย์ ด้วยเหมือนกัน
    • แม้จะพูดถึงโมเดล Mistral และ LLaMA แต่คำว่า “สากล” ก็ยังดูเกินจริงอยู่ดี
  • ส่วนที่สำคัญที่สุดของงานน่าจะเป็นสองประโยคนี้
    อย่างแรกคือ แม้จะฉายน้ำหนักของ โมเดล ViT ใหม่ 5 ตัว ลงไปใน subspace สากล 16 มิติ ก็ยังไม่เสียความแม่นยำ
    อย่างที่สองคือ พวกเขาสามารถ แทนที่โมเดล ViT 500 ตัวด้วยโมเดล subspace สากลเพียงตัวเดียว และลดการใช้หน่วยความจำลงได้ 100 เท่า
    พูดอีกแบบคือ พวกเขาหา โครงสร้างร่วม จาก LLaMA3-8B จำนวน 50 ตัว, GPT-2 จำนวน 177 ตัว และ Flan-T5 จำนวน 8 ตัวได้ และใช้สิ่งนั้นแทนโมเดลต้นฉบับโดยที่ประสิทธิภาพยังคงเดิม
    ถ้าจะเปรียบ ก็เหมือนค้นพบ dictionary ของ bzip2 ที่บีบอัดไฟล์ทุกไฟล์ได้ 99%

    • งานด้านทฤษฎีที่เกี่ยวข้องคือ arXiv:2007.00810
      ใจความคือโมเดลจะ ลู่เข้าไปยังปริภูมิเดียวกันจนถึงการแปลงเชิงเส้น
      ตัวอย่างเช่น siamese encoder ที่ใช้ MSE loss จะลู่เข้าสู่ latent space เดียวกันได้แม้ไม่มี decoder
      เพราะฉะนั้น Transformer ที่ฝึกด้วยข้อมูลคล้ายกันก็น่าจะไปถึงปริภูมิเดียวกันได้ในระดับการแปลงเชิงเส้นเช่นกัน
      ในแง่นี้ ผลลัพธ์ครั้งนี้จึงไม่น่าแปลกใจนัก และสิ่งสำคัญกว่าน่าจะเป็น การพิสูจน์ทางคณิตศาสตร์ แบบในงานนี้
    • อยากรู้ว่าจะนำ “ความเป็นส่วนร่วม(commonality)” นี้ไปใช้จริงอย่างไรได้บ้าง
      เช่น จะใช้ subspace น้ำหนักสากลนี้เพื่อ initialize โมเดลใหม่ ได้ไหม และมันใช้ได้เฉพาะกับบางสถาปัตยกรรมหรือเปล่า
    • ถ้าโมเดลต่าง ๆ เข้ายึดครอง spectral subspace ที่แชร์กัน โดยธรรมชาติได้จริง ก็อาจลดทั้งต้นทุนการฝึกและพื้นที่จัดเก็บได้มาก
    • ประโยคที่ว่า “มีแค่ 16 มิติก็พอ” ฟังดูน่าประทับใจมาก
    • แต่ตัวเลข 16 มันดูสวยเกินไปจนชวนสงสัย
      อาจเป็นบั๊กในโค้ดหรือเป็นค่าที่ตั้งขึ้นมาเองก็ได้
  • รู้สึกว่างานนี้ขายคำว่า “ความเป็นสากล” เกินจริง
    สำหรับ CNN นั้น การที่ฟิลเตอร์ลู่เข้าเป็น รูปร่างแบบ Laplacian/Gabor เกิดจากอคติเชิงอุปนัยที่แรงมาก
    ส่วน Transformer ไม่มีข้อจำกัดเชิง local แบบนั้น จึงหา subspace ได้ผ่าน การแชร์ initialization (fine-tuning) เท่านั้น
    สุดท้ายแล้ว “ความเป็นสากล” จึงไม่ใช่คุณสมบัติเนื้อแท้ของการเรียนรู้ แต่เป็นผลลัพธ์ของ ข้อจำกัดเชิงโครงสร้าง + เสถียรภาพจากการ pretrain

    • ถึงอย่างนั้น การที่มีแนวทางวิจัยแบบนี้อยู่ก็น่าทึ่งและน่าสนใจมาก
  • วิธีนี้ดูเหนือกว่า LoRA มาก และน่าจะใช้เพื่อ เร่งความเร็วในการอนุมาน ได้ด้วย
    เป็นไปได้ด้วยซ้ำว่าโมเดลขนาดใหญ่บางตัวใช้งานแนวคิดนี้อยู่ภายในแล้ว
    ประเด็นสำคัญคือพวกเขาเจอชุดย่อยของพารามิเตอร์ที่เกี่ยวข้องกับ การถ่ายโอนความสามารถ ไปสู่งานใหม่
    มันอาจใช้ไม่ได้กับงานที่ใหม่เอี่ยมจริง ๆ แต่ภายในโดเมนเดียวกันก็น่าจะมีประสิทธิภาพ
    ถ้าจะเปรียบแบบ GPT 5.1 มันคล้ายกับ basis expression ที่ใช้ปรับ “สีหน้า” ในการ rig ตัวละคร 3D

    • ก็มีคำถามเชิงปรัชญากลับมาว่า “มีงานที่ใหม่เอี่ยมอย่างแท้จริงอยู่หรือไม่?”
      ความเห็นหนึ่งคือ งานที่เป็นไปได้ภายใต้กฎฟิสิกส์มีจำนวนจำกัด และส่วนใหญ่ก็ไม่มีความหมาย
    • ในทางปฏิบัติ ดูเหมือนมันจะใช้กับงานใหม่ได้ในระดับหนึ่งด้วย
  • แนวคิด “subspace สากล” ที่งานนี้อธิบายยังไม่ค่อยชัดเจน
    เพราะพวกเขาเปรียบเทียบกันเฉพาะภายในโมเดลแฟมิลีเดียวกัน ดังนั้นระหว่างโมเดลโครงสร้างต่างกันอย่าง ViT กับ GPT2 จึงไม่มี subspace ร่วมกัน
    ผล PCA ที่ลดลงแบบลอการิทึมก็เป็นเรื่องปกติอยู่แล้ว
    อีกทั้งในการคูณเมทริกซ์ ต่อให้สลับแถวหรือคอลัมน์ก็ยังย้อนผลกลับได้ ดังนั้น โมเดลที่ฝึกอย่างเป็นอิสระโดยสมบูรณ์จะไม่มีทางแชร์ทิศทาง subspace เดียวกัน

    • สรุปแล้วมันใกล้เคียงกับ เทคนิคบีบอัดโมเดล มากกว่า ไม่ใช่ “ความเป็นสากล” ในความหมายเชิงปรัชญา
  • ถ้าโมเดลลู่เข้าไปยัง ปริภูมิมิติต่ำ โดยธรรมชาติได้จริง เราก็อาจเริ่มการฝึกภายในปริภูมินั้นเลยและ เพิ่มความเร็วในการเทรนได้มาก

    • เช่นเดียวกับ siamese encoder ที่ใช้ loss ฟังก์ชันเดียวกันแล้วจะไปถึง latent space เดียวกันได้ในระดับการแปลงเชิงเส้น
      Transformer ก็มีแนวโน้มจะทำงานตามหลักการคล้ายกัน
      ในเชิงทฤษฎียังต้องมีการพิสูจน์ทางคณิตศาสตร์แบบงานนี้
    • น่าสนใจที่งานแบบนี้มาจาก JHU
      การได้ผลลัพธ์ระดับนี้ด้วยทรัพยากรที่น้อยกว่า OpenAI หรือ Google มากถือว่าน่าประทับใจ
    • แต่ถ้ามีปริภูมิร่วมแบบนี้จริง ก็อาจหมายถึงว่ามี ขีดจำกัดของพลังในการแทนค่า ของโมเดลด้วย
    • หรือไม่ก็อาจออกแบบสถาปัตยกรรมใหม่ที่ใช้คุณสมบัติของ subspace นั้นเป็น inductive bias ไปเลยก็ได้
  • อ่านแล้วนึกว่า ถ้าพัฒนาโครงสร้างแบบนี้ต่อด้วย genetic algorithm (GA) จะเป็นอย่างไร
    เอาเข้าจริง พอพูดถึง neural network ทีไร ฉันก็มักนึกถึง GA ทุกที

    • ฉันผูกพันกับ GA เพราะตอนเด็กเคยอ่าน 『Artificial Life』 ของ Levy
      การ crossover กับ mutation เข้าใจได้โดยสัญชาตญาณ แต่ backpropagation ยังรู้สึกเข้าใจยากอยู่ดี
    • ช่วงนี้กำลังทดลอง GA แบบ indirect encoding อยู่ และงานนี้ก็ดูเหมือนจะสนับสนุนแนวทางนั้น
      คือแยกเมทริกซ์น้ำหนักออกเป็น spectral pattern เพื่อค้นหาในปริภูมิที่ถูกบีบอัด
      น่าจะเอาโมเดลใหญ่ที่มีอยู่มาเข้ารหัสในรูปแบบบีบอัด แล้วใช้เป็นจุดตั้งต้นสำหรับการกลายพันธุ์ได้ด้วย
      ถ้าแนวทางนี้ไปต่อได้ ก็อาจ ค้นพบกลไกใหม่ด้วยวิวัฒนาการ ได้เลย
    • ตอนนี้ที่มีเป้าหมายแบบนี้แล้ว ก็น่าจะเป็นจังหวะดีที่จะกลับไปใช้ GA หรือวิธีแบบไม่อิงการเรียนรู้อื่น ๆ อีกครั้ง
    • เมื่อก่อนฉันเคยหมกมุ่นกับโปรเจกต์ EvoLisa มาก
      ลิงก์ EvoLisa
      แม้มันจะแตกต่างจากการฝึก LLM โดยสิ้นเชิง แต่ในบางแง่ก็ให้ความรู้สึกคล้ายกัน
    • ส่วนตัวฉันกลับสนใจ vector quantization มากกว่า GA
  • อยากรู้ว่ามันเกี่ยวข้องกับ “Platonic Representation Hypothesis” อย่างไร

    • อยากให้คนที่ฉลาดกว่าฉันมาตอบ
      พอเห็นว่าเดี๋ยวนี้ วาทกรรมแบบเพลโต กลับมาฮิตอีกครั้ง ก็รู้สึกเหมือนเรากำลังลู่เข้าไปสู่บางอย่างที่เป็น insight พื้นฐาน
    • สองสมมติฐานนี้เกี่ยวข้องกันอย่างใกล้ชิด
      โครงสร้างการแทนค่าที่แชร์กันอาจเป็นผู้สมัครที่ดีของ หมวดหมู่แบบเพลโต
      น่าจะมีการแมปที่น่าสนใจระหว่างสองแนวคิดนี้
    • งาน arXiv:2405.07987 ก็อยู่ในเส้นทางเดียวกัน
      เรียกได้ว่าเป็นหลักฐาน เชิงประจักษ์ ที่ช่วยหนุนสมมติฐานก่อนหน้านี้
  • ยังมีการคาดเดาแบบติดตลกด้วยว่า “บางทีโมเดลทั้งหมดอาจเป็นแค่เวอร์ชันที่ fine-tune มาจาก LLaMA เท่านั้น”

  • ผู้เขียนวิเคราะห์โมเดล low-rank fine-tune หลากหลายแบบ และอ้างว่าพบ โครงสร้าง low-rank ที่มีร่วมกัน
    สิ่งนี้ขึ้นกับโมเดลฐาน และคล้ายกับการที่ ความแปรผันทางพันธุกรรม ของมนุษย์สามารถอธิบายได้ด้วยองค์ประกอบหลักเพียงไม่กี่ตัว
    ท้ายที่สุด ปรากฏการณ์นี้อาจเกิดขึ้นเพราะมี บรรพบุรุษร่วม(shared ancestry) อยู่ก็ได้