- มีการยืนยันผ่านการทดลองขนาดใหญ่ว่า แม้ โมเดลดีปเลิร์นนิง ที่หลากหลายจะถูกฝึกด้วยข้อมูลและค่าเริ่มต้นต่างกัน ก็ยังลู่เข้าสู่ ปริภูมิย่อยของพารามิเตอร์มิติต่ำ ร่วมกัน
- จากผลการ วิเคราะห์สเปกตรัม ของโมเดลมากกว่า 1,100 ตัว (500 Mistral-7B LoRA, 500 Vision Transformer, 50 LLaMA-8B ฯลฯ) พบว่าความแปรปรวนส่วนใหญ่กระจุกตัวอยู่ใน ทิศทางองค์ประกอบหลัก เพียงไม่กี่ทิศทาง
- ปริภูมิย่อยสากล (Universal Subspace) นี้ก่อตัวตามสถาปัตยกรรมของโมเดล และปรากฏซ้ำอย่างต่อเนื่องโดยไม่ขึ้นกับข้อมูลหรือการกำหนดค่าเริ่มต้น
- โครงสร้างนี้มีศักยภาพสูงในการประยุกต์ใช้กับ การบีบอัดโมเดล, การเรียนรู้แบบใช้พารามิเตอร์อย่างมีประสิทธิภาพ, การรวมโมเดล, การอนุมานอย่างรวดเร็ว เป็นต้น
- งานวิจัยนี้ให้เบาะแสใหม่ในการทำความเข้าใจ โครงสร้างภายในและความสามารถในการทำให้ทั่วไปของโครงข่ายประสาทเทียม และอาจเป็นรากฐานสำคัญสำหรับ การออกแบบอัลกอริทึมการเรียนรู้ที่มีประสิทธิภาพ ในอนาคต
การค้นพบปริภูมิย่อยสากล
- มีการสังเกตว่า โครงข่ายดีปเลิร์นนิง ที่ฝึกด้วยชุดข้อมูล การกำหนดค่าเริ่มต้น และไฮเปอร์พารามิเตอร์ที่แตกต่างกัน ล้วนลู่เข้าสู่ ปริภูมิย่อยมิติต่ำ ร่วมกัน
- ปรากฏการณ์นี้แสดงออกเป็น โครงสร้างอันดับต่ำที่คล้ายกันตามสถาปัตยกรรมและตามชั้น
- แม้ข้อมูลฝึกหรือฟังก์ชัน loss จะแตกต่างกัน ก็ยังแสดงแนวโน้มเชิงโครงสร้างแบบเดียวกัน
- ผลของ การวิเคราะห์สเปกตรัม ชี้ให้เห็นว่า แม้พื้นที่ค่าน้ำหนักของแต่ละงานจะดูเหมือนแตกต่างกัน แต่แท้จริงแล้วดำรงอยู่เป็นส่วนหนึ่งของ ปริภูมิมิติต่ำที่ใช้ร่วมกัน
- ผลลัพธ์นี้ถูกเสนอเป็นหลักฐานที่อาจอธิบายได้ว่า เหตุใดโมเดลที่ overfit จึงยังทำให้ทั่วไปได้, เหตุใดการกำหนดค่าเริ่มต้นที่ต่างกันจึงลู่เข้าสู่ตัวแทนที่คล้ายกัน, และ เหตุใดการปรับจูนละเอียดแบบใช้พารามิเตอร์อย่างมีประสิทธิภาพจึงประสบความสำเร็จ
การทดลองและการวิเคราะห์ขนาดใหญ่
- งานวิจัยนี้วิเคราะห์ โมเดลมากกว่า 1,100 ตัว รวมถึง Mistral-7B LoRA adapter 500 ตัว, Vision Transformer 500 ตัว, และ LLaMA3-8B 50 โมเดล
- แต่ละโมเดลถูกฝึกภายใต้ชุดข้อมูลและเงื่อนไขการกำหนดค่าเริ่มต้นที่แตกต่างกัน
- ผลของ การวิเคราะห์องค์ประกอบหลัก (PCA) พบว่าองค์ประกอบหลักเพียงไม่กี่ตัวสามารถอธิบายความแปรปรวนส่วนใหญ่ได้ ซึ่งบ่งชี้ถึงการมีอยู่ของ ปริภูมิย่อยอันดับต่ำที่ใช้ร่วมกัน
- โดยเฉพาะอย่างยิ่ง แม้แต่ ViT 500 โมเดลที่กำหนดค่าเริ่มต้นแบบสุ่ม ก็ยังลู่เข้าสู่ปริภูมิย่อยมิติต่ำเดียวกัน ซึ่งถูกตีความว่าเป็น คุณสมบัติพื้นฐานของโครงข่ายประสาทเทียม
การสร้างแบบจำลองเชิงทฤษฎีและการทำให้เป็นทางคณิตศาสตร์
- งานวิจัยนี้สร้างแบบจำลองตัวพยากรณ์ให้เป็นองค์ประกอบบน Hilbert space เพื่อวิเคราะห์ เงื่อนไขการกู้คืนปริภูมิย่อยร่วมกัน ระหว่างหลายงาน
- นิยาม ตัวดำเนินการโมเมนต์อันดับสองร่วม S จากตัวพยากรณ์ของแต่ละงาน ( f_t^* ) และพิสูจน์ว่า ตัวดำเนินการประมาณ ( \tilde{S} ) จากตัวพยากรณ์ที่เรียนรู้แล้ว ( \hat{f_t} ) ลู่เข้าสู่ S
- Theorem 2.5 แสดงให้เห็นว่าปริภูมิย่อยที่เรียนรู้แล้วลู่เข้าสู่ปริภูมิย่อยร่วมที่แท้จริง โดยอัตราการลู่เข้าถูกกำหนดด้วย จำนวนงาน (T) และ ความแม่นยำของการประมาณในแต่ละงาน (η)
- ยิ่ง ช่วงห่างของค่าเอกลักษณ์ (γₖ) มากเท่าใด การกู้คืนปริภูมิย่อยก็ยิ่งมีเสถียรภาพมากขึ้น
ความเป็นไปได้ในการประยุกต์ใช้และผลกระทบ
- การใช้ ปริภูมิย่อยที่ใช้ร่วมกัน เปิดทางให้เกิดการประยุกต์ใช้ดังนี้
- บีบอัดโมเดล โดยเก็บเพียง ค่าสัมประสิทธิ์ของปริภูมิย่อย แทนค่าน้ำหนักทั้งหมด
- ปรับตัวกับงานใหม่ได้อย่างรวดเร็ว ภายในปริภูมิย่อยที่เรียนรู้ไว้
- ให้ข้อมูลเชิงลึกทางทฤษฎีเกี่ยวกับ ขีดจำกัดของการทำให้ทั่วไปและภูมิทัศน์ของการหาค่าเหมาะที่สุด
- ลดต้นทุนการคำนวณของการฝึกและการอนุมาน ซึ่งอาจช่วย ลดการปล่อยคาร์บอน
- โครงสร้างนี้ยังอาจเพิ่มประสิทธิภาพในด้าน การนำโมเดลกลับมาใช้ซ้ำ, การเรียนรู้หลายงาน, การรวมโมเดล เป็นต้น
ประเด็นวิจัยในอนาคต
- ความแตกต่างของปริภูมิย่อยสากลระหว่างสถาปัตยกรรม และ ความเป็นไปได้ในการเพิ่มประสิทธิภาพเชิงเรขาคณิตของมัน ยังเป็นโจทย์ที่ไม่ได้รับการแก้ไข
- หากทุกโครงข่ายลู่เข้าสู่ปริภูมิย่อยเดียวกันทั้งหมด การขาดความหลากหลาย อันเกิดจาก การใช้ bias และ failure mode ร่วมกัน อาจกลายเป็นคอขวดใหม่
- งานวิจัยในอนาคตจำเป็นต้องพัฒนาวิธี กระจายการลู่เข้านี้อย่างตั้งใจ
สรุปการมีส่วนร่วมหลัก
- แสดงเชิงประจักษ์ถึง การมีอยู่ของปริภูมิย่อยมิติต่ำสากลในพื้นที่พารามิเตอร์ของโครงข่ายดีปเลิร์นนิง
- นำเสนอวิธี เรียนรู้ปริภูมิย่อยร่วมโดยประมาณจากชุดงานที่หลากหลาย
- ยืนยันว่าเมื่อใช้ปริภูมิย่อยที่เรียนรู้แล้ว จะสามารถ ปรับตัวกับงานใหม่ได้อย่างมีประสิทธิภาพด้วยพารามิเตอร์จำนวนน้อย
- ชี้ให้เห็นศักยภาพในการประยุกต์ใช้กับ การบีบอัดโมเดล, การเรียนรู้และการอนุมานอย่างรวดเร็ว, การสเกลอย่างมีประสิทธิภาพ
1 ความคิดเห็น
ความเห็นบน Hacker News
วลี “500 Vision Transformers” ทำให้สับสน
ที่จริงแล้วหมายถึง 500 เวอร์ชันที่ fine-tune จากโมเดลฐานเดียวกัน
โมเดลเหล่านี้ถูกดาวน์โหลดจากบัญชีผู้ใช้นิรนามบน Hugging Face และคำว่า “สากล(universal)” ก็แทบจะใช้ได้กับโมเดลที่ pretrain มาเพียงตัวเดียวเท่านั้น
โมเดลที่ถูก fine-tune แบบ LoRA จะคล้ายกันก็ไม่ใช่เรื่องน่าแปลก
อีกอย่าง หนึ่งในโมเดลที่อ้างอิงในงานวิจัยคือ CheXpert-ViT-U-MultiClass มีการแสดง คำเตือนมัลแวร์ บน Hugging Face
ตอนแรกนึกว่าพวกเขาหา subspace ร่วมกันระหว่างสถาปัตยกรรมโมเดลคนละแบบได้ เลยงงอยู่พักหนึ่ง แต่สุดท้ายมันพูดถึง ความเสถียรภายในคลาสโมเดลเดียวกัน
ถึงอย่างนั้น ผลลัพธ์นี้ก็ออกจะเป็นแค่การยืนยันข้อเท็จจริงธรรมดาว่า “ฟังก์ชัน loss มีจุดต่ำสุดที่นิยามไว้ดี” ดังนั้นชื่อ “สมมติฐาน subspace น้ำหนักสากล” จึงดูโอเวอร์ไปหน่อย
มันอาจยังไม่ใช่สิ่งที่ใช้ได้จริงทันทีแบบ LoRA แต่ก็ดูมีช่องทางสำหรับงานต่อยอด
ถ้าเอาไป fine-tune กับ 500 ชุดข้อมูล ก็ดูเหมือนควรจะได้ปริภูมิ 500 มิติ แต่ในความเป็นจริงมันกลับลู่เข้าไปยัง subspace ราว 40 มิติ
หมายความว่าน้ำหนักที่ผ่านการ fine-tune แล้วอาจถูกบีบอัดให้เหลือเพียงเลขจริง 40 ค่าได้
สักวันหนึ่งอาจได้เห็น Hugging Face แสดงขนาดโมเดลเป็นหน่วย “160 ไบต์” ก็ได้
แต่เวกเตอร์ฐานเหล่านี้ก็ยังมีขนาดเท่ากับตัวโมเดลอยู่ดี และยังต้องตั้งสมมติฐานว่าเมื่อจำนวนชุดข้อมูลเพิ่มขึ้น มิติก็จะไม่เพิ่มตาม
น่าเสียดายที่ผู้เขียนใช้โมเดลแบบสุ่ม แต่ก็หวังว่างานนี้จะนำไปสู่งานต่อยอดที่ ฝึกโมเดลขนาดใหญ่จากศูนย์
อีกอย่าง คิดว่าในงานก็วิเคราะห์ โมเดลที่ฝึกจากศูนย์ ด้วยเหมือนกัน
ส่วนที่สำคัญที่สุดของงานน่าจะเป็นสองประโยคนี้
อย่างแรกคือ แม้จะฉายน้ำหนักของ โมเดล ViT ใหม่ 5 ตัว ลงไปใน subspace สากล 16 มิติ ก็ยังไม่เสียความแม่นยำ
อย่างที่สองคือ พวกเขาสามารถ แทนที่โมเดล ViT 500 ตัวด้วยโมเดล subspace สากลเพียงตัวเดียว และลดการใช้หน่วยความจำลงได้ 100 เท่า
พูดอีกแบบคือ พวกเขาหา โครงสร้างร่วม จาก LLaMA3-8B จำนวน 50 ตัว, GPT-2 จำนวน 177 ตัว และ Flan-T5 จำนวน 8 ตัวได้ และใช้สิ่งนั้นแทนโมเดลต้นฉบับโดยที่ประสิทธิภาพยังคงเดิม
ถ้าจะเปรียบ ก็เหมือนค้นพบ dictionary ของ bzip2 ที่บีบอัดไฟล์ทุกไฟล์ได้ 99%
ใจความคือโมเดลจะ ลู่เข้าไปยังปริภูมิเดียวกันจนถึงการแปลงเชิงเส้น
ตัวอย่างเช่น siamese encoder ที่ใช้ MSE loss จะลู่เข้าสู่ latent space เดียวกันได้แม้ไม่มี decoder
เพราะฉะนั้น Transformer ที่ฝึกด้วยข้อมูลคล้ายกันก็น่าจะไปถึงปริภูมิเดียวกันได้ในระดับการแปลงเชิงเส้นเช่นกัน
ในแง่นี้ ผลลัพธ์ครั้งนี้จึงไม่น่าแปลกใจนัก และสิ่งสำคัญกว่าน่าจะเป็น การพิสูจน์ทางคณิตศาสตร์ แบบในงานนี้
เช่น จะใช้ subspace น้ำหนักสากลนี้เพื่อ initialize โมเดลใหม่ ได้ไหม และมันใช้ได้เฉพาะกับบางสถาปัตยกรรมหรือเปล่า
อาจเป็นบั๊กในโค้ดหรือเป็นค่าที่ตั้งขึ้นมาเองก็ได้
รู้สึกว่างานนี้ขายคำว่า “ความเป็นสากล” เกินจริง
สำหรับ CNN นั้น การที่ฟิลเตอร์ลู่เข้าเป็น รูปร่างแบบ Laplacian/Gabor เกิดจากอคติเชิงอุปนัยที่แรงมาก
ส่วน Transformer ไม่มีข้อจำกัดเชิง local แบบนั้น จึงหา subspace ได้ผ่าน การแชร์ initialization (fine-tuning) เท่านั้น
สุดท้ายแล้ว “ความเป็นสากล” จึงไม่ใช่คุณสมบัติเนื้อแท้ของการเรียนรู้ แต่เป็นผลลัพธ์ของ ข้อจำกัดเชิงโครงสร้าง + เสถียรภาพจากการ pretrain
วิธีนี้ดูเหนือกว่า LoRA มาก และน่าจะใช้เพื่อ เร่งความเร็วในการอนุมาน ได้ด้วย
เป็นไปได้ด้วยซ้ำว่าโมเดลขนาดใหญ่บางตัวใช้งานแนวคิดนี้อยู่ภายในแล้ว
ประเด็นสำคัญคือพวกเขาเจอชุดย่อยของพารามิเตอร์ที่เกี่ยวข้องกับ การถ่ายโอนความสามารถ ไปสู่งานใหม่
มันอาจใช้ไม่ได้กับงานที่ใหม่เอี่ยมจริง ๆ แต่ภายในโดเมนเดียวกันก็น่าจะมีประสิทธิภาพ
ถ้าจะเปรียบแบบ GPT 5.1 มันคล้ายกับ basis expression ที่ใช้ปรับ “สีหน้า” ในการ rig ตัวละคร 3D
ความเห็นหนึ่งคือ งานที่เป็นไปได้ภายใต้กฎฟิสิกส์มีจำนวนจำกัด และส่วนใหญ่ก็ไม่มีความหมาย
แนวคิด “subspace สากล” ที่งานนี้อธิบายยังไม่ค่อยชัดเจน
เพราะพวกเขาเปรียบเทียบกันเฉพาะภายในโมเดลแฟมิลีเดียวกัน ดังนั้นระหว่างโมเดลโครงสร้างต่างกันอย่าง ViT กับ GPT2 จึงไม่มี subspace ร่วมกัน
ผล PCA ที่ลดลงแบบลอการิทึมก็เป็นเรื่องปกติอยู่แล้ว
อีกทั้งในการคูณเมทริกซ์ ต่อให้สลับแถวหรือคอลัมน์ก็ยังย้อนผลกลับได้ ดังนั้น โมเดลที่ฝึกอย่างเป็นอิสระโดยสมบูรณ์จะไม่มีทางแชร์ทิศทาง subspace เดียวกัน
ถ้าโมเดลลู่เข้าไปยัง ปริภูมิมิติต่ำ โดยธรรมชาติได้จริง เราก็อาจเริ่มการฝึกภายในปริภูมินั้นเลยและ เพิ่มความเร็วในการเทรนได้มาก
Transformer ก็มีแนวโน้มจะทำงานตามหลักการคล้ายกัน
ในเชิงทฤษฎียังต้องมีการพิสูจน์ทางคณิตศาสตร์แบบงานนี้
การได้ผลลัพธ์ระดับนี้ด้วยทรัพยากรที่น้อยกว่า OpenAI หรือ Google มากถือว่าน่าประทับใจ
อ่านแล้วนึกว่า ถ้าพัฒนาโครงสร้างแบบนี้ต่อด้วย genetic algorithm (GA) จะเป็นอย่างไร
เอาเข้าจริง พอพูดถึง neural network ทีไร ฉันก็มักนึกถึง GA ทุกที
การ crossover กับ mutation เข้าใจได้โดยสัญชาตญาณ แต่ backpropagation ยังรู้สึกเข้าใจยากอยู่ดี
คือแยกเมทริกซ์น้ำหนักออกเป็น spectral pattern เพื่อค้นหาในปริภูมิที่ถูกบีบอัด
น่าจะเอาโมเดลใหญ่ที่มีอยู่มาเข้ารหัสในรูปแบบบีบอัด แล้วใช้เป็นจุดตั้งต้นสำหรับการกลายพันธุ์ได้ด้วย
ถ้าแนวทางนี้ไปต่อได้ ก็อาจ ค้นพบกลไกใหม่ด้วยวิวัฒนาการ ได้เลย
ลิงก์ EvoLisa
แม้มันจะแตกต่างจากการฝึก LLM โดยสิ้นเชิง แต่ในบางแง่ก็ให้ความรู้สึกคล้ายกัน
อยากรู้ว่ามันเกี่ยวข้องกับ “Platonic Representation Hypothesis” อย่างไร
พอเห็นว่าเดี๋ยวนี้ วาทกรรมแบบเพลโต กลับมาฮิตอีกครั้ง ก็รู้สึกเหมือนเรากำลังลู่เข้าไปสู่บางอย่างที่เป็น insight พื้นฐาน
โครงสร้างการแทนค่าที่แชร์กันอาจเป็นผู้สมัครที่ดีของ หมวดหมู่แบบเพลโต
น่าจะมีการแมปที่น่าสนใจระหว่างสองแนวคิดนี้
เรียกได้ว่าเป็นหลักฐาน เชิงประจักษ์ ที่ช่วยหนุนสมมติฐานก่อนหน้านี้
ยังมีการคาดเดาแบบติดตลกด้วยว่า “บางทีโมเดลทั้งหมดอาจเป็นแค่เวอร์ชันที่ fine-tune มาจาก LLaMA เท่านั้น”
ผู้เขียนวิเคราะห์โมเดล low-rank fine-tune หลากหลายแบบ และอ้างว่าพบ โครงสร้าง low-rank ที่มีร่วมกัน
สิ่งนี้ขึ้นกับโมเดลฐาน และคล้ายกับการที่ ความแปรผันทางพันธุกรรม ของมนุษย์สามารถอธิบายได้ด้วยองค์ประกอบหลักเพียงไม่กี่ตัว
ท้ายที่สุด ปรากฏการณ์นี้อาจเกิดขึ้นเพราะมี บรรพบุรุษร่วม(shared ancestry) อยู่ก็ได้