การไล่ระดับแบบธรรมชาติทางอุณหพลศาสตร์

(arxiv.org)

1 คะแนน โดย GN⁺ 2024-05-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

TNGD เป็นวิธีการฝึกโครงข่ายประสาทที่มุ่งลดภาระการคำนวณของการหาค่าเหมาะที่สุดอันดับสอง โดยรัน Natural Gradient Descent (NGD) ด้วยลูปไฮบริดระหว่างคอมพิวเตอร์อุณหพลศาสตร์แบบแอนะล็อกและ GPU
วิธีการฝึกอันดับสองใช้ ข้อมูลความโค้ง ของภูมิทัศน์ของ loss จึงมีคุณสมบัติการลู่เข้าที่ดี แต่บนฮาร์ดแวร์ดิจิทัลนั้นนำไปใช้กับการฝึกขนาดใหญ่ได้ยาก เพราะมีต้นทุนสูงในการคำนวณ Fisher information matrix และการแก้ ระบบสมการเชิงเส้น
งานนี้นำ คุณสมบัติทางอุณหพลศาสตร์ ของระบบแอนะล็อกที่อยู่ในสถานะสมดุล และกระบวนการ Ornstein–Uhlenbeck ทางกายภาพ มาใช้เพื่อทำให้กฎการอัปเดตพารามิเตอร์ของ NGD เกิดขึ้นจริง
ผู้ใช้ยังคงใช้สถาปัตยกรรมโมเดลเดิมได้ และคอมพิวเตอร์แอนะล็อกจะเร่งเฉพาะการฝึก จึงแตกต่างจากแนวทาง การเร่งอนุมานแบบแอนะล็อก บางแบบที่ต้องตรึงโมเดลไว้กับฮาร์ดแวร์
ในการทดลองเชิงตัวเลข TNGD ให้ผลดีกว่าวิธีการฝึกดิจิทัลอันดับหนึ่งและอันดับสองสมัยใหม่ในงานจำแนกประเภทและการปรับจูนละเอียดภาษาขนาดใหญ่ และหากทำขนานได้เพียงพอ ก็อาจมีเวลาในการรันต่อรอบใกล้เคียง Adam และ SGD

ปัญหาต้นทุนการฝึกที่ TNGD ต้องการแก้

เมื่อต้นทุนการฝึกโมเดล AI ขั้นสูงเพิ่มขึ้น โมเดลชั้นนำของโลกจึงมีค่าใช้จ่ายในการฝึกสูงถึงระดับ หลายร้อยล้านดอลลาร์
บนฮาร์ดแวร์ดิจิทัล การสิ้นสุดของ Moore’s Law และ Dennard’s Law กำลังส่งผลต่อเวลาในการรันและประสิทธิภาพด้านพลังงาน
ข้อจำกัดเหล่านี้ทำให้ความต้องการ ฮาร์ดแวร์นอกแนวทางดั้งเดิมแบบเฉพาะงาน เพื่อเพิ่มประสิทธิภาพการฝึกโมเดล AI สูงขึ้น
ฮาร์ดแวร์ดิจิทัลยังจำกัดช่วงของอัลกอริทึมการฝึกที่ผู้ใช้เลือกได้
- SGD, Adam และตัวแปรต่าง ๆ ถูกใช้อย่างแพร่หลายในการฝึก DNN และโมเดล AI ขนาดใหญ่
- ออปติไมเซอร์ที่ซับซ้อนกว่านี้มี overhead การคำนวณสูง จึงไม่ค่อยถูกใช้บนฮาร์ดแวร์ดิจิทัล

ข้อดีและคอขวดของการหาค่าเหมาะที่สุดอันดับสอง

วิธีอันดับสองสามารถจับ ข้อมูลความโค้ง ของภูมิทัศน์ของ loss ได้ จึงมีคุณสมบัติการลู่เข้าที่แข็งแกร่งกว่าในเชิงทฤษฎี
Natural Gradient Descent (NGD) ต้องประเมินปริมาณอันดับสอง เช่น Fisher information matrix และต้องทำ การแก้ระบบสมการเชิงเส้น ที่มีต้นทุนสูงในทุก epoch
วิธีประมาณ NGD อย่าง K-FAC แสดงให้เห็นถึงศักยภาพ และบางครั้งให้ประสิทธิภาพเหนือกว่า Adam แต่ก็ยังยากที่จะนำไปใช้กับสถาปัตยกรรมโครงข่ายประสาทแบบทั่วไปตามอำเภอใจ

ลูปการฝึกไฮบริดดิจิทัล-แอนะล็อก

TNGD ทำงานเป็นลูปไฮบริดดิจิทัล-แอนะล็อกที่ GPU สื่อสารกับ คอมพิวเตอร์อุณหพลศาสตร์แบบแอนะล็อก
ระหว่างการฝึก จะคำนวณ gradient และ Fisher information matrix หรือเมทริกซ์ความโค้งกึ่งบวกแน่นอนชนิดอื่นเป็นช่วง ๆ และในช่วงระหว่างนั้นจะปล่อยให้พลวัตแอนะล็อกดำเนินไป
คุณสมบัติทางอุณหพลศาสตร์ ที่ปรากฏในสถานะสมดุลของระบบแอนะล็อกถูกใช้เป็นทรัพยากรในการคำนวณ
ผู้ใช้เพียงให้สถาปัตยกรรมโมเดล และคอมพิวเตอร์แอนะล็อกจะเร่งเฉพาะกระบวนการฝึก
- ซึ่งต่างจากข้อเสนอด้านการเร่งการอนุมานของ AI แบบแอนะล็อกบางแบบที่ตรึงโมเดลไว้กับฮาร์ดแวร์ ทำให้ผู้ใช้เปลี่ยนสถาปัตยกรรมได้ไม่อิสระ

ความซับซ้อนเชิงคำนวณและผลการทดลอง

TNGD เทียบเท่ากับ NGD ภายใต้ช่วงพารามิเตอร์บางช่วง แต่หลีกเลี่ยง การแก้ระบบสมการเชิงเส้น ที่มีต้นทุนสูงเกินไป
ใช้กระบวนการ Ornstein–Uhlenbeck ทางกายภาพเพื่อทำให้กฎการอัปเดตพารามิเตอร์ของ NGD เกิดขึ้นจริง
เวลาในการรันต่อรอบสเกลเชิงเส้นตามจำนวนพารามิเตอร์
หากทำขนานได้เหมาะสม ก็อาจมีเวลาในการรันใกล้เคียงกับ ออปติไมเซอร์อันดับหนึ่ง อย่าง Adam และ SGD
ในการทดลองเชิงตัวเลข TNGD ให้ผลลัพธ์เหนือกว่าวิธีการฝึกดิจิทัลอันดับหนึ่งและอันดับสองสมัยใหม่ในงานจำแนกประเภทและการปรับจูนละเอียดของ language model รวมถึงงานตอบคำถามแบบ extractive

1 ความคิดเห็น

GN⁺ 2024-05-26

ความคิดเห็นบน Hacker News

ประเด็นสำคัญคือ natural gradient descent เป็นวิธีอันดับสอง สมการอัปเดตหลักคือ ∇̃L(θ) = F⁻¹∇L(θ) ซึ่งต้องแก้ระบบเชิงเส้น
ตรงนี้สามารถใช้วิธีจากบทความก่อนหน้าของผู้เขียน Thermodynamic Linear Algebra ได้ เนื่องจากการนำโครงข่ายประสาทเต็มรูปแบบไปใช้งานบนคอมพิวเตอร์เชิงอุณหพลศาสตร์ทำได้ยาก บทความจึงเสนอวิธีให้ทำงานขนานกับ GPU ทั่วไป โครงสร้างคือ GPU คำนวณ F และ ∇L(θ) แล้วส่งระบบเชิงเส้นไปให้คอมพิวเตอร์เชิงอุณหพลศาสตร์ที่ทำงานขนานกับระบบดิจิทัล (รูปที่ 1) อย่างไรก็ตาม กราฟ “Runtime vs Accuracy” ในรูปที่ 3 มีจุดสำคัญคือใช้ โมเดลเวลาของอัลกอริทึม TNGD เพราะคอมพิวเตอร์ที่ต้องใช้ยังไม่มีอยู่จริง
เจ๋งและน่าสนใจ ผู้เขียนเสนอวงจรการเรียนรู้แบบไฮบริดดิจิทัล-แอนะล็อกที่สะท้อนความโค้งของภูมิประเทศของฟังก์ชันสูญเสีย หรือก็คือ อนุพันธ์อันดับสอง และแสดงด้วยการจำลองเชิงตัวเลขว่า หากวิธีนี้ถูกนำไปใช้งานเป็นระบบฟิสิกส์ ต้นทุนการคำนวณในแต่ละรอบของลูปการเรียนรู้จะเพิ่มขึ้นแบบเชิงเส้นตามจำนวนพารามิเตอร์
ถ้าสามารถให้กฎอุณหพลศาสตร์มาช่วยทำงานแทนในการฝึกโมเดล AI เพื่อก้าวข้ามข้อจำกัดด้านการสเกลและโจทย์ยากของฮาร์ดแวร์ดิจิทัลกับวิธีการฝึกแบบเดิมได้ ผมก็สนับสนุนการค้นหาแนวทางแบบนั้น
บทความนี้เน้นผลลัพธ์ด้านการเรียนรู้และการปรับให้เหมาะที่สุดของ deep learning/โครงข่ายประสาทเป็นหลัก แต่ผมสงสัยว่า เฟรมเวิร์กการปรับให้เหมาะที่สุด แบบเดียวกันจะนำไปใช้กับปัญหาการปรับให้เหมาะที่สุดชนิดอื่น ๆ ที่ยากหรือมีขนาดใหญ่ได้ง่ายแค่ไหน ตอนที่เห็นบทความเกี่ยวกับ Extropic(https://www.extropic.ai/) ครั้งแรกก็คิดแบบเดียวกัน
ผมลองหาข้อมูล API หรือสแต็กซอฟต์แวร์ที่เปิดเผยบนเว็บไซต์ เพื่อดูว่าจะใช้โมเดลปัญหาการปรับให้เหมาะที่สุดนอกเหนือจากโครงข่ายประสาทได้หรือไม่ แต่ดูเหมือนว่ายังไม่เปิดเผย ยังมีปัญหา combinatorial optimization แบบ NP-hard และปัญหา analytical optimization ขนาดใหญ่จำนวนมากที่ควรค่าแก่การแก้ และโดยส่วนตัวผมสนใจปัญหา EDA และการออกแบบเซมิคอนดักเตอร์ Adiabatic quantum computing ก็เคยเป็นเทคโนโลยีที่สัญญาว่าจะแก้ปัญหาการปรับให้เหมาะที่สุดได้ และ quantum computing ก็ยังคงเดินหน้าโดยเน้นคำตอบขนาดเล็กเป็นหลัก ผมหวังว่าสตาร์ทอัพ “thermodynamic computing” ใหม่ ๆ เหล่านี้จะมอบเทคโนโลยีเจ๋ง ๆ ที่น่าลองสำรวจปัญหาเหล่านี้ได้
การใช้อุณหพลศาสตร์เพื่อคำนวณ การอัปเดตอันดับสอง ให้มีประสิทธิภาพมากขึ้นนั้นเจ๋งและคุ้มค่าแก่การสำรวจแน่นอน แต่ในบริบทของ deep learning ผมยังสงสัยในประโยชน์ใช้งานจริง
มีวิธีอันดับสอง[1] ที่ทำงานได้อย่างมีประสิทธิภาพมากบนฮาร์ดแวร์คลาสสิกอยู่แล้ว แต่ในงานจริงแทบไม่ถูกใช้ และถูกวิธีอันดับหนึ่งอย่าง ADAM แทนที่ เพราะการปรับให้เหมาะที่สุดกับฟังก์ชันสูญเสียที่ไม่เชิงเส้นมาก ๆ อย่างโมเดล deep learning นั้น ไม่ว่าจะเป็นอันดับหนึ่งหรืออันดับสอง สุดท้ายก็ต้องใช้อัตราการเรียนรู้ที่ต่ำมากอยู่ดี ดังนั้นวิธีอันดับสองอาจให้การอัปเดตพารามิเตอร์ที่ดีกว่าเล็กน้อยต่อหนึ่งขั้น แต่ต้นทุนมักเพิ่มขึ้นมากกว่านั้น จึงมักไม่คุ้ม
[1] https://andrew.gibiansky.com/blog/machine-learning/hessian-f...
- เห็นด้วยว่ามันเจ๋ง และก็เห็นด้วยว่าเป็นเรื่องยากที่จะทำให้ วิธีอันดับสอง มีคุณค่า บางครั้งชุดข้อมูลใหญ่เกินไปจนแม้แต่ gradient ของมินิแบตช์ก็ยังประเมินให้สมเหตุสมผลได้ยาก
  การประเมินข้อมูลอันดับสองของชุดข้อมูลทั้งหมดให้มีประโยชน์ยิ่งยากกว่า โดยเฉพาะเมื่อคิดว่าเหตุผลที่ใช้มินิแบตช์ตั้งแต่แรกก็คือความเป็นไปได้ในการคำนวณ
ผมยังไม่ได้อ่านบทความอย่างละเอียด แต่ช่วยบอกได้ไหมว่าเสน่ห์ของมันอยู่ตรงไหน? จากตาราง 1 ดูเหมือนว่าจะมี asymptotic complexity เท่ากับ SGD เมื่อวัดตามขนาดตัวอย่าง
เมื่อพิจารณาว่าโมเดลขนาดใหญ่และ overparameterized ในปัจจุบันมี extremum ที่คล้ายกันอยู่มากมาย ผมก็ไม่แน่ใจว่าสิ่งนี้จำเป็นจริงหรือไม่ ถ้าไม่ใช่ quasi-linear และไม่ใช่ sublinear ก็ไม่เห็นเหตุผลที่จะต้องสนใจเป็นพิเศษ
ทำให้นึกถึง simulated annealing ที่เรียนในคาบ AI เมื่อประมาณ 10 ปีก่อน
https://en.wikipedia.org/wiki/Simulated_annealing
การคาดเดาที่ดีที่สุดในปัจจุบันเกี่ยวกับวิธีที่นิวรอนของสัตว์เรียนรู้คืออะไร?
- http://www.scholarpedia.org/article/Spike-timing_dependent_p...
Geoffrey Hinton ไม่ได้พูดเรื่องประมาณนี้เมื่อราวหนึ่งปีก่อนหรือ?
ไม่เข้าใจเลย การคำนวณ gradient descent เกิดขึ้นบ่อยมาก และสถานะ/อินพุตก็เปลี่ยนตลอด ถ้าอย่างนั้นก็ต้องรีเซ็ต ภูมิประเทศความร้อน บ่อยมากไม่ใช่หรือ แล้วมันจะมีความหมายอะไร? ดูไม่น่าจะมีโอกาสเพิ่มความเร็วได้เลย
ถ้าเป็นสนามแม่เหล็กไฟฟ้าหรือการแทรกสอดของมัน บางทีรวมถึงโครงสร้าง 3D อาจทำอะไรได้บ้างมากกว่า
“ต้องมีคอมพิวเตอร์อุณหพลศาสตร์แบบแอนะล็อก” ฟังดูดีอยู่จนกระทั่ง เอ๊ะ ว่าไงนะ? อยากให้คนที่เรียนฟิสิกส์มาจริง ๆ ช่วยอธิบายหน่อย
- ภาคผนวก C ของบทความอธิบายได้ค่อนข้างดี เขาสร้าง เมทริกซ์อินทิเกรเตอร์ ด้วย operational amplifier หลายตัว, ค่าคงที่เวลา RC (น่าจะใช้ digital potentiometer) และอินเทอร์เฟซ ADC/DAC หลายช่องที่เชื่อมกับ PC โดยพื้นฐานแล้วมันคืออุปกรณ์เฉพาะทางสำหรับแก้สมการเชิงอนุพันธ์
  ดังนั้นจึงเป็นการผสมผสานระหว่างการคำนวณแอนะล็อกแบบเก่ากับโค้ดสมัยใหม่ที่ใช้ GPU ในทางปฏิบัติจะใช้เวลานานขึ้นเพราะ overhead ของอินเทอร์เฟซฮาร์ดแวร์และเวลารอให้อินทิเกรเตอร์เสถียร แต่ผมเข้าใจว่าข้ออ้างคือการใช้งานที่ปรับให้เหมาะสมแล้วสามารถเร่งการลู่เข้าและดีกว่าโซลูชันดิจิทัลล้วนได้ แนวคิดหลักคือ gradient descent แบบเดิมโดยเนื้อแท้เป็นการดำเนินการเชิงเส้น ขณะที่ gradient ที่ติดตามจริงเป็นผิวโค้ง ดังนั้นถ้าจัดการเฉพาะในโดเมนดิจิทัลจะต้องผ่านหลายขั้นตอนที่ไม่จำเป็นเพื่อประมาณค่า ปัญหาคืออย่างที่หลายคนได้เรียนรู้อย่างยากลำบากมาตั้งแต่ยุค Seymour Cray สุดท้ายแล้ว CMOS ชนะเสมอ เพราะเงินทุนของอุตสาหกรรมทั้งอุตสาหกรรมทุ่มไปกับการปรับแต่ง CMOS
- เท่าที่ผมเข้าใจ https://extropic.ai กำลังทำสิ่งนี้อยู่พอดี และ https://normalcomputing.ai/ ซึ่งเป็นบริษัทของผู้เขียนบทความก็น่าจะเป็นเช่นนั้นมาก
- แก่นของเรื่องคือการใช้กฎธรรมชาติมาฝึกโมเดล AI และก้าวข้ามข้อจำกัดกับปัญหาการสเกลของฮาร์ดแวร์ดิจิทัลและวิธีฝึกแบบเดิม
- ตัวอย่างหนึ่งอาจเป็น quantum annealer ซึ่ง “การโปรแกรม” ในที่นี้ใกล้เคียงกับการตั้งค่าเงื่อนไขเริ่มต้นที่เหมาะสม แล้วปล่อยให้การคลายตัวเชิงอุณหพลศาสตร์พาไปถึงจุดเหมาะที่สุด
- ถ้าสามารถสร้างผลิตภัณฑ์แบบนี้ได้ก็น่าดึงดูด ทั่วโลกมีการใช้เงินหลายหมื่นล้านดอลลาร์ต่อปี หรืออาจมากกว่านั้นกับ numerical optimization และถ้าเร่งความเร็วได้อย่างมาก ก็อาจทำกำไรได้สูงมาก

การไล่ระดับแบบธรรมชาติทางอุณหพลศาสตร์

ปัญหาต้นทุนการฝึกที่ TNGD ต้องการแก้

ข้อดีและคอขวดของการหาค่าเหมาะที่สุดอันดับสอง

ลูปการฝึกไฮบริดดิจิทัล-แอนะล็อก

ความซับซ้อนเชิงคำนวณและผลการทดลอง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News