สมมติฐานปริภูมิย่อยของค่าน้ำหนักสากล

(arxiv.org)

2 คะแนน โดย GN⁺ 2025-12-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

มีการยืนยันผ่านการทดลองขนาดใหญ่ว่า แม้ โมเดลดีปเลิร์นนิง ที่หลากหลายจะถูกฝึกด้วยข้อมูลและค่าเริ่มต้นต่างกัน ก็ยังลู่เข้าสู่ ปริภูมิย่อยของพารามิเตอร์มิติต่ำ ร่วมกัน
จากผลการ วิเคราะห์สเปกตรัม ของโมเดลมากกว่า 1,100 ตัว (500 Mistral-7B LoRA, 500 Vision Transformer, 50 LLaMA-8B ฯลฯ) พบว่าความแปรปรวนส่วนใหญ่กระจุกตัวอยู่ใน ทิศทางองค์ประกอบหลัก เพียงไม่กี่ทิศทาง
ปริภูมิย่อยสากล (Universal Subspace) นี้ก่อตัวตามสถาปัตยกรรมของโมเดล และปรากฏซ้ำอย่างต่อเนื่องโดยไม่ขึ้นกับข้อมูลหรือการกำหนดค่าเริ่มต้น
โครงสร้างนี้มีศักยภาพสูงในการประยุกต์ใช้กับ การบีบอัดโมเดล, การเรียนรู้แบบใช้พารามิเตอร์อย่างมีประสิทธิภาพ, การรวมโมเดล, การอนุมานอย่างรวดเร็ว เป็นต้น
งานวิจัยนี้ให้เบาะแสใหม่ในการทำความเข้าใจ โครงสร้างภายในและความสามารถในการทำให้ทั่วไปของโครงข่ายประสาทเทียม และอาจเป็นรากฐานสำคัญสำหรับ การออกแบบอัลกอริทึมการเรียนรู้ที่มีประสิทธิภาพ ในอนาคต

การค้นพบปริภูมิย่อยสากล

มีการสังเกตว่า โครงข่ายดีปเลิร์นนิง ที่ฝึกด้วยชุดข้อมูล การกำหนดค่าเริ่มต้น และไฮเปอร์พารามิเตอร์ที่แตกต่างกัน ล้วนลู่เข้าสู่ ปริภูมิย่อยมิติต่ำ ร่วมกัน
- ปรากฏการณ์นี้แสดงออกเป็น โครงสร้างอันดับต่ำที่คล้ายกันตามสถาปัตยกรรมและตามชั้น
- แม้ข้อมูลฝึกหรือฟังก์ชัน loss จะแตกต่างกัน ก็ยังแสดงแนวโน้มเชิงโครงสร้างแบบเดียวกัน
ผลของ การวิเคราะห์สเปกตรัม ชี้ให้เห็นว่า แม้พื้นที่ค่าน้ำหนักของแต่ละงานจะดูเหมือนแตกต่างกัน แต่แท้จริงแล้วดำรงอยู่เป็นส่วนหนึ่งของ ปริภูมิมิติต่ำที่ใช้ร่วมกัน
ผลลัพธ์นี้ถูกเสนอเป็นหลักฐานที่อาจอธิบายได้ว่า เหตุใดโมเดลที่ overfit จึงยังทำให้ทั่วไปได้, เหตุใดการกำหนดค่าเริ่มต้นที่ต่างกันจึงลู่เข้าสู่ตัวแทนที่คล้ายกัน, และ เหตุใดการปรับจูนละเอียดแบบใช้พารามิเตอร์อย่างมีประสิทธิภาพจึงประสบความสำเร็จ

การทดลองและการวิเคราะห์ขนาดใหญ่

งานวิจัยนี้วิเคราะห์ โมเดลมากกว่า 1,100 ตัว รวมถึง Mistral-7B LoRA adapter 500 ตัว, Vision Transformer 500 ตัว, และ LLaMA3-8B 50 โมเดล
- แต่ละโมเดลถูกฝึกภายใต้ชุดข้อมูลและเงื่อนไขการกำหนดค่าเริ่มต้นที่แตกต่างกัน
ผลของ การวิเคราะห์องค์ประกอบหลัก (PCA) พบว่าองค์ประกอบหลักเพียงไม่กี่ตัวสามารถอธิบายความแปรปรวนส่วนใหญ่ได้ ซึ่งบ่งชี้ถึงการมีอยู่ของ ปริภูมิย่อยอันดับต่ำที่ใช้ร่วมกัน
โดยเฉพาะอย่างยิ่ง แม้แต่ ViT 500 โมเดลที่กำหนดค่าเริ่มต้นแบบสุ่ม ก็ยังลู่เข้าสู่ปริภูมิย่อยมิติต่ำเดียวกัน ซึ่งถูกตีความว่าเป็น คุณสมบัติพื้นฐานของโครงข่ายประสาทเทียม

การสร้างแบบจำลองเชิงทฤษฎีและการทำให้เป็นทางคณิตศาสตร์

งานวิจัยนี้สร้างแบบจำลองตัวพยากรณ์ให้เป็นองค์ประกอบบน Hilbert space เพื่อวิเคราะห์ เงื่อนไขการกู้คืนปริภูมิย่อยร่วมกัน ระหว่างหลายงาน
นิยาม ตัวดำเนินการโมเมนต์อันดับสองร่วม S จากตัวพยากรณ์ของแต่ละงาน ( f_t^* ) และพิสูจน์ว่า ตัวดำเนินการประมาณ ( \tilde{S} ) จากตัวพยากรณ์ที่เรียนรู้แล้ว ( \hat{f_t} ) ลู่เข้าสู่ S
Theorem 2.5 แสดงให้เห็นว่าปริภูมิย่อยที่เรียนรู้แล้วลู่เข้าสู่ปริภูมิย่อยร่วมที่แท้จริง โดยอัตราการลู่เข้าถูกกำหนดด้วย จำนวนงาน (T) และ ความแม่นยำของการประมาณในแต่ละงาน (η)
ยิ่ง ช่วงห่างของค่าเอกลักษณ์ (γₖ) มากเท่าใด การกู้คืนปริภูมิย่อยก็ยิ่งมีเสถียรภาพมากขึ้น

ความเป็นไปได้ในการประยุกต์ใช้และผลกระทบ

การใช้ ปริภูมิย่อยที่ใช้ร่วมกัน เปิดทางให้เกิดการประยุกต์ใช้ดังนี้
- บีบอัดโมเดล โดยเก็บเพียง ค่าสัมประสิทธิ์ของปริภูมิย่อย แทนค่าน้ำหนักทั้งหมด
- ปรับตัวกับงานใหม่ได้อย่างรวดเร็ว ภายในปริภูมิย่อยที่เรียนรู้ไว้
- ให้ข้อมูลเชิงลึกทางทฤษฎีเกี่ยวกับ ขีดจำกัดของการทำให้ทั่วไปและภูมิทัศน์ของการหาค่าเหมาะที่สุด
- ลดต้นทุนการคำนวณของการฝึกและการอนุมาน ซึ่งอาจช่วย ลดการปล่อยคาร์บอน
โครงสร้างนี้ยังอาจเพิ่มประสิทธิภาพในด้าน การนำโมเดลกลับมาใช้ซ้ำ, การเรียนรู้หลายงาน, การรวมโมเดล เป็นต้น

ประเด็นวิจัยในอนาคต

ความแตกต่างของปริภูมิย่อยสากลระหว่างสถาปัตยกรรม และ ความเป็นไปได้ในการเพิ่มประสิทธิภาพเชิงเรขาคณิตของมัน ยังเป็นโจทย์ที่ไม่ได้รับการแก้ไข
หากทุกโครงข่ายลู่เข้าสู่ปริภูมิย่อยเดียวกันทั้งหมด การขาดความหลากหลาย อันเกิดจาก การใช้ bias และ failure mode ร่วมกัน อาจกลายเป็นคอขวดใหม่
งานวิจัยในอนาคตจำเป็นต้องพัฒนาวิธี กระจายการลู่เข้านี้อย่างตั้งใจ

สรุปการมีส่วนร่วมหลัก

แสดงเชิงประจักษ์ถึง การมีอยู่ของปริภูมิย่อยมิติต่ำสากลในพื้นที่พารามิเตอร์ของโครงข่ายดีปเลิร์นนิง
นำเสนอวิธี เรียนรู้ปริภูมิย่อยร่วมโดยประมาณจากชุดงานที่หลากหลาย
ยืนยันว่าเมื่อใช้ปริภูมิย่อยที่เรียนรู้แล้ว จะสามารถ ปรับตัวกับงานใหม่ได้อย่างมีประสิทธิภาพด้วยพารามิเตอร์จำนวนน้อย
ชี้ให้เห็นศักยภาพในการประยุกต์ใช้กับ การบีบอัดโมเดล, การเรียนรู้และการอนุมานอย่างรวดเร็ว, การสเกลอย่างมีประสิทธิภาพ

1 ความคิดเห็น

GN⁺ 2025-12-11

ความเห็นบน Hacker News

วลี “500 Vision Transformers” ทำให้สับสน
ที่จริงแล้วหมายถึง 500 เวอร์ชันที่ fine-tune จากโมเดลฐานเดียวกัน
โมเดลเหล่านี้ถูกดาวน์โหลดจากบัญชีผู้ใช้นิรนามบน Hugging Face และคำว่า “สากล(universal)” ก็แทบจะใช้ได้กับโมเดลที่ pretrain มาเพียงตัวเดียวเท่านั้น
โมเดลที่ถูก fine-tune แบบ LoRA จะคล้ายกันก็ไม่ใช่เรื่องน่าแปลก
อีกอย่าง หนึ่งในโมเดลที่อ้างอิงในงานวิจัยคือ CheXpert-ViT-U-MultiClass มีการแสดง คำเตือนมัลแวร์ บน Hugging Face
- คำอธิบายนี้ช่วยให้เข้าใจชัดขึ้นว่าที่งานวิจัยเรียกว่า “subspace สากล” หมายถึงอะไร
  ตอนแรกนึกว่าพวกเขาหา subspace ร่วมกันระหว่างสถาปัตยกรรมโมเดลคนละแบบได้ เลยงงอยู่พักหนึ่ง แต่สุดท้ายมันพูดถึง ความเสถียรภายในคลาสโมเดลเดียวกัน
  ถึงอย่างนั้น ผลลัพธ์นี้ก็ออกจะเป็นแค่การยืนยันข้อเท็จจริงธรรมดาว่า “ฟังก์ชัน loss มีจุดต่ำสุดที่นิยามไว้ดี” ดังนั้นชื่อ “สมมติฐาน subspace น้ำหนักสากล” จึงดูโอเวอร์ไปหน่อย
- ผลของการ fine-tune นั้นเป็นไปตามคาด แต่การทดลองกับ ResNet ที่ฝึกจากศูนย์ (Figure 2, Section 3.2.1) น่าสนใจกว่า
  มันอาจยังไม่ใช่สิ่งที่ใช้ได้จริงทันทีแบบ LoRA แต่ก็ดูมีช่องทางสำหรับงานต่อยอด
- การ fine-tune แต่ละครั้งจะขยับน้ำหนักของโมเดลฐานไปในทิศทางหนึ่ง
  ถ้าเอาไป fine-tune กับ 500 ชุดข้อมูล ก็ดูเหมือนควรจะได้ปริภูมิ 500 มิติ แต่ในความเป็นจริงมันกลับลู่เข้าไปยัง subspace ราว 40 มิติ
  หมายความว่าน้ำหนักที่ผ่านการ fine-tune แล้วอาจถูกบีบอัดให้เหลือเพียงเลขจริง 40 ค่าได้
  สักวันหนึ่งอาจได้เห็น Hugging Face แสดงขนาดโมเดลเป็นหน่วย “160 ไบต์” ก็ได้
  แต่เวกเตอร์ฐานเหล่านี้ก็ยังมีขนาดเท่ากับตัวโมเดลอยู่ดี และยังต้องตั้งสมมติฐานว่าเมื่อจำนวนชุดข้อมูลเพิ่มขึ้น มิติก็จะไม่เพิ่มตาม
  น่าเสียดายที่ผู้เขียนใช้โมเดลแบบสุ่ม แต่ก็หวังว่างานนี้จะนำไปสู่งานต่อยอดที่ ฝึกโมเดลขนาดใหญ่จากศูนย์
- สงสัยว่าทำไมถึงมองว่าโมเดลมันคล้ายกัน ทั้งที่ฝึกจากข้อมูลคนละชุด
  อีกอย่าง คิดว่าในงานก็วิเคราะห์ โมเดลที่ฝึกจากศูนย์ ด้วยเหมือนกัน
- แม้จะพูดถึงโมเดล Mistral และ LLaMA แต่คำว่า “สากล” ก็ยังดูเกินจริงอยู่ดี
ส่วนที่สำคัญที่สุดของงานน่าจะเป็นสองประโยคนี้
อย่างแรกคือ แม้จะฉายน้ำหนักของ โมเดล ViT ใหม่ 5 ตัว ลงไปใน subspace สากล 16 มิติ ก็ยังไม่เสียความแม่นยำ
อย่างที่สองคือ พวกเขาสามารถ แทนที่โมเดล ViT 500 ตัวด้วยโมเดล subspace สากลเพียงตัวเดียว และลดการใช้หน่วยความจำลงได้ 100 เท่า
พูดอีกแบบคือ พวกเขาหา โครงสร้างร่วม จาก LLaMA3-8B จำนวน 50 ตัว, GPT-2 จำนวน 177 ตัว และ Flan-T5 จำนวน 8 ตัวได้ และใช้สิ่งนั้นแทนโมเดลต้นฉบับโดยที่ประสิทธิภาพยังคงเดิม
ถ้าจะเปรียบ ก็เหมือนค้นพบ dictionary ของ bzip2 ที่บีบอัดไฟล์ทุกไฟล์ได้ 99%
- งานด้านทฤษฎีที่เกี่ยวข้องคือ arXiv:2007.00810
  ใจความคือโมเดลจะ ลู่เข้าไปยังปริภูมิเดียวกันจนถึงการแปลงเชิงเส้น
  ตัวอย่างเช่น siamese encoder ที่ใช้ MSE loss จะลู่เข้าสู่ latent space เดียวกันได้แม้ไม่มี decoder
  เพราะฉะนั้น Transformer ที่ฝึกด้วยข้อมูลคล้ายกันก็น่าจะไปถึงปริภูมิเดียวกันได้ในระดับการแปลงเชิงเส้นเช่นกัน
  ในแง่นี้ ผลลัพธ์ครั้งนี้จึงไม่น่าแปลกใจนัก และสิ่งสำคัญกว่าน่าจะเป็น การพิสูจน์ทางคณิตศาสตร์ แบบในงานนี้
- อยากรู้ว่าจะนำ “ความเป็นส่วนร่วม(commonality)” นี้ไปใช้จริงอย่างไรได้บ้าง
  เช่น จะใช้ subspace น้ำหนักสากลนี้เพื่อ initialize โมเดลใหม่ ได้ไหม และมันใช้ได้เฉพาะกับบางสถาปัตยกรรมหรือเปล่า
- ถ้าโมเดลต่าง ๆ เข้ายึดครอง spectral subspace ที่แชร์กัน โดยธรรมชาติได้จริง ก็อาจลดทั้งต้นทุนการฝึกและพื้นที่จัดเก็บได้มาก
- ประโยคที่ว่า “มีแค่ 16 มิติก็พอ” ฟังดูน่าประทับใจมาก
- แต่ตัวเลข 16 มันดูสวยเกินไปจนชวนสงสัย
  อาจเป็นบั๊กในโค้ดหรือเป็นค่าที่ตั้งขึ้นมาเองก็ได้
รู้สึกว่างานนี้ขายคำว่า “ความเป็นสากล” เกินจริง
สำหรับ CNN นั้น การที่ฟิลเตอร์ลู่เข้าเป็น รูปร่างแบบ Laplacian/Gabor เกิดจากอคติเชิงอุปนัยที่แรงมาก
ส่วน Transformer ไม่มีข้อจำกัดเชิง local แบบนั้น จึงหา subspace ได้ผ่าน การแชร์ initialization (fine-tuning) เท่านั้น
สุดท้ายแล้ว “ความเป็นสากล” จึงไม่ใช่คุณสมบัติเนื้อแท้ของการเรียนรู้ แต่เป็นผลลัพธ์ของ ข้อจำกัดเชิงโครงสร้าง + เสถียรภาพจากการ pretrain
- ถึงอย่างนั้น การที่มีแนวทางวิจัยแบบนี้อยู่ก็น่าทึ่งและน่าสนใจมาก
วิธีนี้ดูเหนือกว่า LoRA มาก และน่าจะใช้เพื่อ เร่งความเร็วในการอนุมาน ได้ด้วย
เป็นไปได้ด้วยซ้ำว่าโมเดลขนาดใหญ่บางตัวใช้งานแนวคิดนี้อยู่ภายในแล้ว
ประเด็นสำคัญคือพวกเขาเจอชุดย่อยของพารามิเตอร์ที่เกี่ยวข้องกับ การถ่ายโอนความสามารถ ไปสู่งานใหม่
มันอาจใช้ไม่ได้กับงานที่ใหม่เอี่ยมจริง ๆ แต่ภายในโดเมนเดียวกันก็น่าจะมีประสิทธิภาพ
ถ้าจะเปรียบแบบ GPT 5.1 มันคล้ายกับ basis expression ที่ใช้ปรับ “สีหน้า” ในการ rig ตัวละคร 3D
- ก็มีคำถามเชิงปรัชญากลับมาว่า “มีงานที่ใหม่เอี่ยมอย่างแท้จริงอยู่หรือไม่?”
  ความเห็นหนึ่งคือ งานที่เป็นไปได้ภายใต้กฎฟิสิกส์มีจำนวนจำกัด และส่วนใหญ่ก็ไม่มีความหมาย
- ในทางปฏิบัติ ดูเหมือนมันจะใช้กับงานใหม่ได้ในระดับหนึ่งด้วย
แนวคิด “subspace สากล” ที่งานนี้อธิบายยังไม่ค่อยชัดเจน
เพราะพวกเขาเปรียบเทียบกันเฉพาะภายในโมเดลแฟมิลีเดียวกัน ดังนั้นระหว่างโมเดลโครงสร้างต่างกันอย่าง ViT กับ GPT2 จึงไม่มี subspace ร่วมกัน
ผล PCA ที่ลดลงแบบลอการิทึมก็เป็นเรื่องปกติอยู่แล้ว
อีกทั้งในการคูณเมทริกซ์ ต่อให้สลับแถวหรือคอลัมน์ก็ยังย้อนผลกลับได้ ดังนั้น โมเดลที่ฝึกอย่างเป็นอิสระโดยสมบูรณ์จะไม่มีทางแชร์ทิศทาง subspace เดียวกัน
- สรุปแล้วมันใกล้เคียงกับ เทคนิคบีบอัดโมเดล มากกว่า ไม่ใช่ “ความเป็นสากล” ในความหมายเชิงปรัชญา
ถ้าโมเดลลู่เข้าไปยัง ปริภูมิมิติต่ำ โดยธรรมชาติได้จริง เราก็อาจเริ่มการฝึกภายในปริภูมินั้นเลยและ เพิ่มความเร็วในการเทรนได้มาก
- เช่นเดียวกับ siamese encoder ที่ใช้ loss ฟังก์ชันเดียวกันแล้วจะไปถึง latent space เดียวกันได้ในระดับการแปลงเชิงเส้น
  Transformer ก็มีแนวโน้มจะทำงานตามหลักการคล้ายกัน
  ในเชิงทฤษฎียังต้องมีการพิสูจน์ทางคณิตศาสตร์แบบงานนี้
- น่าสนใจที่งานแบบนี้มาจาก JHU
  การได้ผลลัพธ์ระดับนี้ด้วยทรัพยากรที่น้อยกว่า OpenAI หรือ Google มากถือว่าน่าประทับใจ
- แต่ถ้ามีปริภูมิร่วมแบบนี้จริง ก็อาจหมายถึงว่ามี ขีดจำกัดของพลังในการแทนค่า ของโมเดลด้วย
- หรือไม่ก็อาจออกแบบสถาปัตยกรรมใหม่ที่ใช้คุณสมบัติของ subspace นั้นเป็น inductive bias ไปเลยก็ได้
อ่านแล้วนึกว่า ถ้าพัฒนาโครงสร้างแบบนี้ต่อด้วย genetic algorithm (GA) จะเป็นอย่างไร
เอาเข้าจริง พอพูดถึง neural network ทีไร ฉันก็มักนึกถึง GA ทุกที
- ฉันผูกพันกับ GA เพราะตอนเด็กเคยอ่าน 『Artificial Life』 ของ Levy
  การ crossover กับ mutation เข้าใจได้โดยสัญชาตญาณ แต่ backpropagation ยังรู้สึกเข้าใจยากอยู่ดี
- ช่วงนี้กำลังทดลอง GA แบบ indirect encoding อยู่ และงานนี้ก็ดูเหมือนจะสนับสนุนแนวทางนั้น
  คือแยกเมทริกซ์น้ำหนักออกเป็น spectral pattern เพื่อค้นหาในปริภูมิที่ถูกบีบอัด
  น่าจะเอาโมเดลใหญ่ที่มีอยู่มาเข้ารหัสในรูปแบบบีบอัด แล้วใช้เป็นจุดตั้งต้นสำหรับการกลายพันธุ์ได้ด้วย
  ถ้าแนวทางนี้ไปต่อได้ ก็อาจ ค้นพบกลไกใหม่ด้วยวิวัฒนาการ ได้เลย
- ตอนนี้ที่มีเป้าหมายแบบนี้แล้ว ก็น่าจะเป็นจังหวะดีที่จะกลับไปใช้ GA หรือวิธีแบบไม่อิงการเรียนรู้อื่น ๆ อีกครั้ง
- เมื่อก่อนฉันเคยหมกมุ่นกับโปรเจกต์ EvoLisa มาก
  ลิงก์ EvoLisa
  แม้มันจะแตกต่างจากการฝึก LLM โดยสิ้นเชิง แต่ในบางแง่ก็ให้ความรู้สึกคล้ายกัน
- ส่วนตัวฉันกลับสนใจ vector quantization มากกว่า GA
อยากรู้ว่ามันเกี่ยวข้องกับ “Platonic Representation Hypothesis” อย่างไร
- อยากให้คนที่ฉลาดกว่าฉันมาตอบ
  พอเห็นว่าเดี๋ยวนี้ วาทกรรมแบบเพลโต กลับมาฮิตอีกครั้ง ก็รู้สึกเหมือนเรากำลังลู่เข้าไปสู่บางอย่างที่เป็น insight พื้นฐาน
- สองสมมติฐานนี้เกี่ยวข้องกันอย่างใกล้ชิด
  โครงสร้างการแทนค่าที่แชร์กันอาจเป็นผู้สมัครที่ดีของ หมวดหมู่แบบเพลโต
  น่าจะมีการแมปที่น่าสนใจระหว่างสองแนวคิดนี้
- งาน arXiv:2405.07987 ก็อยู่ในเส้นทางเดียวกัน
  เรียกได้ว่าเป็นหลักฐาน เชิงประจักษ์ ที่ช่วยหนุนสมมติฐานก่อนหน้านี้
ยังมีการคาดเดาแบบติดตลกด้วยว่า “บางทีโมเดลทั้งหมดอาจเป็นแค่เวอร์ชันที่ fine-tune มาจาก LLaMA เท่านั้น”
ผู้เขียนวิเคราะห์โมเดล low-rank fine-tune หลากหลายแบบ และอ้างว่าพบ โครงสร้าง low-rank ที่มีร่วมกัน
สิ่งนี้ขึ้นกับโมเดลฐาน และคล้ายกับการที่ ความแปรผันทางพันธุกรรม ของมนุษย์สามารถอธิบายได้ด้วยองค์ประกอบหลักเพียงไม่กี่ตัว
ท้ายที่สุด ปรากฏการณ์นี้อาจเกิดขึ้นเพราะมี บรรพบุรุษร่วม(shared ancestry) อยู่ก็ได้

สมมติฐานปริภูมิย่อยของค่าน้ำหนักสากล

การค้นพบปริภูมิย่อยสากล

การทดลองและการวิเคราะห์ขนาดใหญ่

การสร้างแบบจำลองเชิงทฤษฎีและการทำให้เป็นทางคณิตศาสตร์

ความเป็นไปได้ในการประยุกต์ใช้และผลกระทบ

ประเด็นวิจัยในอนาคต

สรุปการมีส่วนร่วมหลัก

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นบน Hacker News