ความเป็นไปได้ที่ Kolmogorov-Arnold Networks จะช่วยเพิ่มความเข้าใจต่อโครงข่ายประสาท

(quantamagazine.org)

1 คะแนน โดย GN⁺ 2024-09-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Kolmogorov-Arnold network (KAN) ที่เผยแพร่ในเดือนเมษายน 2024 ถูกเสนอให้เป็นทางเลือกที่อ่านการทำงานภายในได้ง่ายกว่าโครงข่ายประสาทแบบ MLP เดิม และในกลุ่มปัญหาบางประเภทสามารถทำงานได้แทบทุกอย่างที่โครงข่ายประสาททั่วไปทำได้
KAN ปรับผลลัพธ์ให้ตรงเป้าหมายโดยวาง ฟังก์ชันไม่เชิงเส้น ที่เรียนรู้ได้ไว้บนเส้นเชื่อม แทนน้ำหนักเชิงตัวเลข โครงสร้างนี้มีรากฐานจากทฤษฎีบท Kolmogorov-Arnold ปี 1957
ทีมวิจัยของ Ziming Liu และ Max Tegmark จาก MIT หลังจากประสบข้อจำกัดของ KAN แบบ 2 ชั้น ได้ทดลองใช้ โครงสร้างตั้งแต่ 3 ชั้นขึ้นไป และแสดงให้เห็นว่า KAN แบบ 3 ชั้นสามารถแสดงฟังก์ชันที่แบบ 2 ชั้นไม่สามารถแสดงได้อย่างแม่นยำ
ในปัญหาทฤษฎีปมและ Anderson localization นั้น KAN ไม่ได้ให้เพียงคำตอบ แต่ยังแสดงสมการหรือความสัมพันธ์ที่เกี่ยวข้องด้วย และอาจมีประโยชน์เป็นพิเศษใน ปัญหาทางวิทยาศาสตร์ ที่มีตัวแปรน้อย เช่น ฟิสิกส์
งานวิจัยต่อมาพบจุดแข็งในงานด้านความสามารถในการตีความและการแก้สมการเชิงอนุพันธ์ย่อย แต่ในงานคอมพิวเตอร์วิทัศน์และการประมวลผลเสียง MLP ทำได้ดีกว่า ส่วน KAN 2.0 ถูกเผยแพร่ในรูปแบบที่ใช้งานง่ายขึ้น

กล่องดำของ MLP และการปรากฏของ KAN

องค์ประกอบพื้นฐานที่เป็นตัวแทนของโครงข่ายประสาทสมัยใหม่คือ multilayer perceptron (MLP) ซึ่งให้ประสิทธิภาพทรงพลังเมื่อขยายไปใช้กับชุดข้อมูลขนาดใหญ่
แม้เครือข่ายที่อิง MLP จะประสบความสำเร็จ แต่มนุษย์เข้าใจกระบวนการที่นำไปสู่ข้อสรุปได้ยาก และก็ไม่ง่ายที่จะทราบว่ามีหลักการพื้นฐานใดที่อธิบายผลลัพธ์หรือไม่
บทความ KAN ในเดือนเมษายน 2024 เสนอ Kolmogorov-Arnold network (KAN) ที่โปร่งใสกว่า และในกลุ่มปัญหาบางประเภทสามารถทำงานได้แทบทุกอย่างที่โครงข่ายประสาททั่วไปทำได้
Alan Yuille จาก Johns Hopkins University มองว่า KAN มีความสามารถในการตีความสูงกว่า และอาจมีประโยชน์เป็นพิเศษสำหรับงานประยุกต์ทางวิทยาศาสตร์ที่ต้องสกัดกฎทางวิทยาศาสตร์จากข้อมูล

วิธีที่ KAN ปรับฟังก์ชันให้พอดี

โครงข่ายประสาททั่วไปเชื่อมชั้นของนิวรอนเทียมหรือโหนดด้วยเส้นเชื่อม และปรับ น้ำหนัก ของแต่ละเส้นเชื่อมระหว่างการเรียนรู้ เพื่อให้ผลลัพธ์เข้าใกล้คำตอบที่ถูกต้อง
เป้าหมายที่พบบ่อยของโครงข่ายประสาทคือการหาฟังก์ชันทางคณิตศาสตร์หรือเส้นโค้งที่เชื่อมจุดข้อมูลได้ดีที่สุด
- หากกำลังจำลองกระบวนการทางฟิสิกส์ ก็ย่อมคาดหวังให้ฟังก์ชันผลลัพธ์อยู่ในรูปของสมการที่อธิบายฟิสิกส์ หรือกล่าวคือกฎฟิสิกส์
สำหรับ MLP มีทฤษฎีบททางคณิตศาสตร์ที่บอกว่าสามารถเข้าใกล้ฟังก์ชันที่เหมาะสมที่สุดได้เพียงใด และผลคือ MLP ไม่สามารถแสดงฟังก์ชันนั้นได้อย่างสมบูรณ์แบบ
KAN ไม่ได้วางน้ำหนักเชิงตัวเลขง่าย ๆ ไว้บนเส้นเชื่อม แต่วาง ฟังก์ชันไม่เชิงเส้น ที่เรียนรู้ได้ไว้แทน
- ฟังก์ชันบนเส้นเชื่อมนี้สามารถแสดงเส้นโค้งที่ซับซ้อนกว่าได้
- สามารถปรับได้ละเอียดกว่าน้ำหนักเชิงตัวเลขของ MLP

ทฤษฎีบทปี 1957 และความกังขาตลอด 35 ปี

แกนหลักของ KAN คือผลลัพธ์ทางคณิตศาสตร์ที่ Andrey Kolmogorov และ Vladimir Arnold เผยแพร่แยกกันในปี 1957
- เนื้อหาคือฟังก์ชันทางคณิตศาสตร์หนึ่งตัวที่มีหลายตัวแปรสามารถแปลงเป็นการประกอบกันของฟังก์ชันตัวแปรเดียวได้
ข้อจำกัดสำคัญคือฟังก์ชันตัวแปรเดียวที่ทฤษฎีบทสร้างขึ้นนั้น อาจไม่เรียบ
- อาจมีส่วนแหลมคมเหมือนจุดยอดรูปตัว V
- เพื่อให้เครือข่ายโค้งงอตามค่าเป้าหมายระหว่างการเรียนรู้ ชิ้นส่วนตัวแปรเดียวแบบง่าย ๆ จำเป็นต้องเรียบ
บทความ ปี 1989 โดย Tomaso Poggio แห่ง MIT และคณะ ระบุอย่างชัดเจนว่าแนวคิดทางคณิตศาสตร์หลักของ KAN “ไม่เกี่ยวข้องในบริบทของเครือข่ายเพื่อการเรียนรู้”
Ziming Liu และ Max Tegmark สังเกตว่าแม้ฟังก์ชันตัวแปรเดียวจะไม่เรียบ เครือข่ายก็สามารถประมาณมันด้วยฟังก์ชันที่เรียบได้ และฟังก์ชันส่วนใหญ่ที่พบในวิทยาศาสตร์ก็เป็นฟังก์ชันที่เรียบ
เนื่องจากซอฟต์แวร์และฮาร์ดแวร์ก้าวหน้าไปมากหลังปี 1989 Liu จึงลองกลับมาทดสอบแนวคิดที่ในอดีตไม่ได้รับความสนใจอีกครั้ง

จาก KAN แบบ 2 ชั้นสู่ KAN หลายชั้น

Liu ใช้เวลาประมาณ 1 สัปดาห์สร้างต้นแบบ KAN แบบ 2 ชั้น ซึ่งเป็นรูปแบบที่ง่ายที่สุด แต่ไม่ได้ประสิทธิภาพที่ดีในงานด้านวิทยาศาสตร์ที่ตั้งเป้าไว้
KAN แบบ 2 ชั้นดูเหมือนจะเข้ากันได้อย่างเป็นธรรมชาติกับโครงสร้างที่ทฤษฎีบท Kolmogorov-Arnold แบ่งฟังก์ชันหลายตัวแปรออกเป็นชุดของฟังก์ชันภายในและฟังก์ชันภายนอก
Tegmark เสนอให้ลอง KAN ที่มีชั้นมากกว่า 2 ชั้น และแนวทางนี้นำไปสู่ผลลัพธ์ที่ดี
ทีมวิจัยร่วมกับเพื่อนร่วมงานจาก MIT, California Institute of Technology และ Northeastern University จัดตั้งความร่วมมือที่มีทั้งนักคณิตศาสตร์และผู้เชี่ยวชาญด้านงานประยุกต์
ในบทความเดือนเมษายน 2024 ทีมวิจัยแสดงให้เห็นว่า KAN แบบ 3 ชั้น เป็นไปได้ และนำเสนอตัวอย่างที่ KAN แบบ 3 ชั้นแสดงฟังก์ชันได้อย่างแม่นยำ ในขณะที่ KAN แบบ 2 ชั้นไม่สามารถทำได้
หลังจากนั้นได้ทดลองไปจนถึง 6 ชั้น และยืนยันว่าเมื่อจำนวนชั้นเพิ่มขึ้น ก็สามารถปรับให้พอดีกับฟังก์ชันผลลัพธ์ที่ซับซ้อนขึ้นได้

ความสามารถในการตีความที่ปรากฏในปัญหาจริง

ทฤษฎีปม
- ในปี 2021 ทีม DeepMind สร้าง MLP ที่รับคุณสมบัติหลายอย่างของปมเฉพาะเป็นอินพุต แล้วทำนายคุณสมบัติเชิงทอพอโลยีของปมนั้น
- KAN แบบใหม่ทำซ้ำผลสำเร็จนั้นได้ และยังแสดงด้วยว่าคุณสมบัติที่ทำนายนั้นเกี่ยวข้องกับคุณสมบัติอื่น ๆ อย่างไร
- Liu ประเมินว่าส่วนนี้เป็นสิ่งที่ MLP ทำไม่ได้เลย
Anderson localization
- ปัญหาที่สองเกี่ยวข้องกับปรากฏการณ์ Anderson localization ในฟิสิกส์สสารควบแน่น
- เป้าหมายคือทำนายขอบเขตที่การเปลี่ยนเฟสบางอย่างเกิดขึ้น และหาสูตรคณิตศาสตร์ที่อธิบายกระบวนการนั้น
- MLP ไม่เคยทำงานนี้ได้มาก่อน และ KAN ของทีมวิจัยก็ทำสำเร็จ
- Tegmark มองว่าจุดแข็งที่สุดของ KAN และแรงจูงใจหลักของการพัฒนาล่าสุดอยู่ที่ ความสามารถในการตีความ
- เขาอธิบายว่ารูปแบบหนึ่งของความสามารถในการตีความคือการให้สูตรที่สามารถพิมพ์ลงบนเสื้อยืดได้ เมื่อได้รับข้อมูลมา
- Brice Ménard จาก Johns Hopkins ประเมินว่า หากปัญหาถูกอธิบายได้จริงด้วยสมการง่าย ๆ KAN ก็ค่อนข้างเก่งในการค้นหาสมการนั้น
- อย่างไรก็ตาม ขอบเขตที่ KAN ทำงานได้ดีที่สุดอาจจำกัดอยู่ที่ปัญหาซึ่งสมการมีตัวแปรน้อยมาก เช่น ในฟิสิกส์

งานวิจัยต่อมาและ KAN 2.0

บทความ KAN ของ Liu และ Tegmark ถูก อ้างอิง 75 ครั้ง ภายในประมาณ 3 เดือน และกลุ่มวิจัยอื่น ๆ ก็เริ่มงานวิจัย KAN ของตนเอง
บทความ ที่ Yizheng Wang จาก Tsinghua University และคณะเผยแพร่ออนไลน์ในเดือนมิถุนายน 2024 ระบุว่าโครงข่ายประสาทที่อิง Kolmogorov-Arnold (KINN) ทำได้ดีกว่า MLP อย่างมากในการแก้ สมการเชิงอนุพันธ์ย่อย (PDE)
- Wang กล่าวว่า PDE มีอยู่ทั่วทั้งวิทยาศาสตร์
บทความ เดือนกรกฎาคม 2024 จากนักวิจัยของ National University of Singapore ให้ผลลัพธ์ที่คละกันมากกว่า
- KAN ทำได้ดีกว่า MLP ในงานที่เกี่ยวข้องกับความสามารถในการตีความ
- ในคอมพิวเตอร์วิทัศน์และการประมวลผลเสียง MLP ให้ผลลัพธ์ที่ดีกว่า
- ในการประมวลผลภาษาธรรมชาติและงานแมชชีนเลิร์นนิงอื่น ๆ เครือข่ายทั้งสองโดยรวมใกล้เคียงกัน
Liu มองว่าผลลัพธ์เหล่านี้ไม่น่าประหลาดใจ
- จุดเน้นเดิมของงานวิจัย KAN อยู่ที่ งานด้านวิทยาศาสตร์ ซึ่งให้ความสำคัญสูงสุดกับความสามารถในการตีความ
ในเดือนสิงหาคม 2024 Liu และผู้ร่วมงานเผยแพร่บทความ KAN 2.0
- Liu อธิบายว่าสิ่งนี้ใกล้เคียงกับคู่มือผู้ใช้มากกว่าบทความวิชาการแบบดั้งเดิม
- KAN 2.0 ใช้งานง่ายขึ้น และมีเครื่องมือการคูณรวมถึงสิ่งอื่น ๆ ที่โมเดลดั้งเดิมไม่มี

จากการมุ่งประยุกต์ใช้สู่การมุ่งทำความเข้าใจ

Liu และผู้เขียนร่วมมองว่า KAN ไม่ใช่แค่เครื่องมือเพื่อบรรลุเป้าหมายง่าย ๆ แต่ยังส่งเสริม วิทยาศาสตร์ที่ขับเคลื่อนด้วยความอยากรู้อยากเห็น
แนวทางที่ครอบงำแมชชีนเลิร์นนิงมานานคือวิทยาศาสตร์ที่มุ่งประยุกต์ใช้
- เช่น เมื่อสังเกตการเคลื่อนที่ของวัตถุท้องฟ้า นักวิจัยที่มุ่งประยุกต์ใช้จะโฟกัสที่การทำนายสถานะในอนาคต
- นักวิจัยที่ขับเคลื่อนด้วยความอยากรู้อยากเห็นจะพยายามเปิดเผยฟิสิกส์ที่อยู่เบื้องหลังการเคลื่อนที่นั้น
ด้วย KAN นักวิจัยไม่เพียงได้รับความช่วยเหลือในการแก้ปัญหาการคำนวณที่ยาก แต่ยังสามารถใช้โครงข่ายประสาทโดยมีเป้าหมายเป็นความเข้าใจในตัวมันเอง

1 ความคิดเห็น

GN⁺ 2024-09-14

ความคิดเห็นจาก Hacker News

ผู้เขียนหลักของ KAN เพิ่งจัดเซสชัน tutorial ที่ MLCAD เมื่อวานนี้ ซึ่งเป็นงานประชุมที่ว่าด้วยจุดตัดระหว่างการออกแบบฮาร์ดแวร์/เซมิคอนดักเตอร์กับแมชชีนเลิร์นนิง/ดีปเลิร์นนิง
ดูน่าสนใจมากและเหมาะกับการใช้งานเพื่อให้ได้ insight และการตีความเกี่ยวกับระบบทางฟิสิกส์ เช่น นิพจน์เชิงสัญลักษณ์, ปริมาณอนุรักษ์ และสมมาตร
มันอาจมีประโยชน์สำหรับวิทยาศาสตร์และคณิตศาสตร์ แต่ในงานวิศวกรรม ความสามารถในการตีความแบบนี้อาจไม่ใช่เป้าหมายลำดับแรกของแมชชีนเลิร์นนิง/ดีปเลิร์นนิง
ความสามารถในการเรียนรู้งานที่ยากขึ้นหรือ capacity ในการเรียนรู้ยังไม่แน่ชัด และการเลือกฟังก์ชันฐานที่ใช้กับ “activation” ของ KAN รวมถึงควรนำเลเยอร์นี้ไปต่อกับสถาปัตยกรรมแบบใดจึงจะได้ประโยชน์ ก็ยังไม่ได้ถูกสำรวจมากนัก
คิดว่าถ้าผู้คนทดลองกับ KAN มากขึ้น ก็น่าจะมีคำตอบสำหรับคำถามเหล่านี้มากขึ้น
- มีการบรรยายจากผู้เขียนคนเดียวกันเมื่อ 2 เดือนก่อน: https://www.youtube.com/watch?v=FYYZZVV5vlY
- สงสัยว่ามีเวอร์ชันสาธารณะของเซสชันนั้นหรือไม่
ผมว่าเป็นไปไม่ได้
การที่การคำนวณภายในอย่างหนึ่งเข้าใจได้ ไม่ได้ทำให้ทั้งโครงข่ายประสาทเข้าใจได้ตามไปด้วย
แค่ decision tree ที่ง่ายกว่ามากก็ยังเห็นได้ว่า ในตำราเรียนมักแนะนำว่าเป็นระบบที่เข้าใจได้ เพราะตัดสินทีละฟีเจอร์และให้ผลลัพธ์ที่ใบ
ตอนยุค 90 ที่คอมพิวเตอร์ยังช้าและต้นไม้ยังเล็ก คำพูดนี้ก็ถูกต้อง แต่ตอนนี้ decision tree ขนาดมหึมาและ random forest สามารถสร้างต้นไม้ที่มีโหนดนับล้านได้ และสิ่งแบบนั้นไม่สามารถตีความได้
การทำความเข้าใจระบบซับซ้อนมีช่องว่างพื้นฐานทางคณิตศาสตร์อยู่ และคงไม่ได้แก้ด้วยโครงข่ายประสาทอีกประเภทหนึ่ง
- ผมคิดว่า “ถ้า Newton ใช้สิ่งนี้ เขาจะหาสมการของแรงที่ตัวเองกำลังวิเคราะห์อยู่ได้ไหม เช่น แรงโน้มถ่วง = g m_1 m_2 / d^2?”
  เมื่อก่อนผมเคยถามอาจารย์ฟิสิกส์ว่าโดยหลักการแล้วเป็นไปได้ไหม เขาบอกว่าเป็นไปได้
  KAN น่าจะสามารถค้นหาสมการแบบนี้เมื่อมีข้อมูลการทดลองให้ และถ้าเป็นจริง ผมก็คิดว่านั่นเรียกได้ว่าเป็น interpretability
- อาจไม่มี สูตรหรือสมการ ที่ทำให้เราอนุมานเกี่ยวกับระบบซับซ้อนได้ตั้งแต่แรกก็ได้
  ถ้าจะอนุมานความซับซ้อน ก็มีความเป็นไปได้สูงว่าต้องลงมือดำเนินความซับซ้อนนั้นจริง ๆ ตามเดิม
- โดยรวมเห็นด้วย และคิดว่าการพยายามหา interpretability ใน โมเดลไม่เชิงเส้น ที่ซับซ้อนพอเป็นงานที่เสียแรงเปล่า
  ถึงอย่างนั้น ถ้าวันหนึ่งไม่มี breakthrough ที่ประสบความสำเร็จในสาขา nonlinear dynamics หรือ pattern formation เลย ผมกลับจะประหลาดใจมากกว่า
- decision tree ที่ซับซ้อนมาก ๆ ก็ยังตีความได้ในระดับหนึ่ง
  เพราะเราสามารถไล่ตามต้นไม้แล้วตอบคำถามอย่าง “ถ้าเงื่อนไขนี้ไม่เป็นจริง ผลลัพธ์จะเปลี่ยนไปไหม?” ได้
  แม้จะยากที่จะเก็บทั้งต้นไม้ไว้ในหัวในคราวเดียว แต่เมื่อจำเป็นต้องเข้าใจเส้นทางที่ถูกใช้จริง ก็สามารถตรวจสอบได้
- หลายคนเรียก tree ensemble ว่า black box
  ผมมองว่าใกล้เคียงกับกล่องสีเทาหรือกล่องสีเทาเข้มมากกว่า
  ถ้าต้องการก็ตีความได้ แต่ในทางปฏิบัติ ใครอยากไล่อ่านต้นไม้ครบทั้ง 500 ต้นกันล่ะ
อัลกอริทึมลดรูปกึ่งอัตโนมัติที่ให้มาในบทความ KAN ดูเหมือนกำลังแก้ปัญหาคล้ายกับ https://arxiv.org/pdf/2112.04035
เพียงแต่มีข้อจำกัดเพิ่มเติมว่าไม่ได้มุ่งเป็นตัวบีบอัดเชิงนามธรรมแบบทั่วไป แต่ตั้งเป้าที่ ความสามารถในการตีความของฟังก์ชัน forward propagation
ไม่ใช่อย่างนั้น
ในปัญหา fitting ฟังก์ชันเล็กน้อย KAN ทำให้มองเห็นได้ว่าฟังก์ชันฐานแต่ละตัวมีส่วนต่อเลเยอร์ถัดไปมากแค่ไหน
แต่โครงข่ายประสาทที่ตื้นและง่ายแบบนี้แทบไม่มีความจำเป็นต้องส่องดูตั้งแต่แรก
deep neural network จะไม่ได้อธิบายได้ด้วยแนวทางนี้
- ถูกต้อง
  ผมไม่แน่ใจว่าสิ่งที่มีพารามิเตอร์เป็นล้านถึงพันล้านตัวจะสามารถ “อธิบายได้” ในแบบที่เราต้องการหรือไม่
  ลองจินตนาการว่าเขียนฟังก์ชันหลายตัวแปรทั่วไปที่มีพจน์เป็นพันล้านพจน์ไว้บนไวต์บอร์ดขนาดมหึมา เราจะเข้าใจจริง ๆ ไหมว่าทำไมมันถึงให้ตัวเลขนั้นออกมา?
  KAN อาจมีจำนวนพารามิเตอร์น้อยกว่าประมาณหนึ่งหลัก แต่ปัญหาพื้นฐานก็ยังเหมือนเดิม
อาจไม่เกี่ยวข้องโดยตรงกับหัวข้อนี้ แต่มีเรื่องที่สงสัย
จุดแข็งอย่างหนึ่งของโครงข่ายประสาทคือการใช้ประโยชน์จาก parallelism ขนาดใหญ่ที่ GPU ให้มา แล้วการใช้แค่น้ำหนักแบบ scalar นี่ทำให้เราปล่อยทรัพยากรคำนวณทิ้งไว้หรือเปล่า?
ถ้าใช้ เมทริกซ์ของฟังก์ชัน แทนเมทริกซ์น้ำหนักจะเป็นอย่างไร?
- ควรมองว่าโครงข่ายประสาทประกอบด้วยฟังก์ชันอยู่แล้ว
  กลุ่มของโหนดที่ซ้อนกันเป็นเลเยอร์กลายเป็นฟังก์ชันไม่เชิงเส้นที่ซับซ้อน
  ตัวอย่างเช่น โครงข่ายประสาทขนาดเล็ก 3 เลเยอร์ก็สามารถฝึกให้โมเดล ฟังก์ชัน cubic spline ได้
  ภายในของฟังก์ชันถูกเรียนรู้ในทุกขั้น ทุกการบวกและการคูณ
  จำนวนฟังก์ชันภายในโครงข่ายประสาทถือได้ว่าเป็นส่วนหนึ่งของจำนวนน้ำหนัก ดังนั้นในเชิงทฤษฎีจึงยืดหยุ่นและทรงพลังกว่าการโมเดลฟังก์ชันที่ซับซ้อนกว่าโดยตรง
  ถ้ารู้ฟังก์ชันที่ถูกต้อง คุณอาจโมเดล MLP ฟังก์ชันคงที่ขนาดเล็กด้วยฟังก์ชันเฉพาะเพื่อเพิ่มประสิทธิภาพการเรียนรู้ได้ แต่ถ้าไม่ระวัง ก็อาจสูญเสียประสิทธิภาพได้
  ปัญหาหลักคือเราไม่รู้ว่าควรใช้ฟังก์ชันอะไร และการเพิ่มฟังก์ชันไม่เชิงเส้นอาจสร้างความยากใหม่ ๆ ด้านประสิทธิภาพ ความแม่นยำ การกำหนดค่าเริ่มต้น และ regularization
  คณิตศาสตร์เชิงเส้นนั้นง่ายและทรงพลัง อีกทั้งสามารถโมเดลฟังก์ชันซับซ้อนได้อยู่แล้ว แต่คณิตศาสตร์ไม่เชิงเส้นก็อาจมีประโยชน์ จึงดูเหมือนว่ายังต้องวิจัยเพิ่มเติม
- GPU ถูกปรับให้เหมาะกับ เมทริกซ์ของค่าทศนิยมลอยตัว ดังนั้นโครงข่ายประสาทในปัจจุบันจึงใช้พื้นฐานจากเมทริกซ์ที่บรรจุน้ำหนักแบบ scalar
- คำอธิบายนั้นคล้ายกับ deep Gaussian process มาก
- การใส่ความไม่เชิงเส้นให้แต่ละแถวหรือคอลัมน์ของน้ำหนัก ก็คือ ฟังก์ชันที่เรียนรู้ได้ นั่นเอง
เมื่อเร็ว ๆ นี้ก็มีการคุยกันที่ https://news.ycombinator.com/item?id=40219205 ด้วย
ในการประยุกต์ใช้ทางวิทยาศาสตร์ แก่นของ interpretability อยู่ที่ symbolic regression
MLP ไม่ได้สามารถคายสมการออกมาได้เสมอสำหรับทุกชุดข้อมูล แต่ KAN ทำได้
- ผมเข้าใจว่า MLP เป็น universal function approximator: https://en.wikipedia.org/wiki/Universal_approximation_theorem
ช่วยอธิบายได้ไหมว่าในเครือข่ายประสาทเทียม อะไรกันแน่ที่ “ไม่รู้”
เราเป็นคนสร้างมันขึ้นมา รู้ว่ามันประกอบด้วยอะไร และรู้ด้วยว่ามันทำงานอย่างไร
แม้เราจะจับคู่การเชื่อมต่อทุกเส้นระหว่างโหนดของ “เพอร์เซปตรอนหลายชั้น” นี้ทีละเส้นไม่ได้ แต่เราก็รู้ไม่ใช่หรือว่าการเชื่อมต่อเหล่านั้นก่อตัวขึ้นมาอย่างไร?
- LLM รุ่นล่าสุดอย่าง GPT-4o สามารถเข้าใจ ข้อความที่เข้ารหัส b64 ได้โดยพื้นฐาน
  เราเองก็มีอัลกอริทึมสำหรับถอดรหัสและเข้ารหัสข้อความ b64 แต่ GPT-4o กำลังทำตามอัลกอริทึมนั้นตรง ๆ หรือไม่?
  การฝึกทำให้มันเรียนรู้อัลกอริทึมนั้นหรือเปล่า? เห็นได้ชัดว่าไม่ใช่ หรืออย่างน้อยก็ไม่ทั้งหมด
  เพราะแม้จะมีการพิมพ์ผิดใน b64 ซึ่งถ้าใช้อัลกอริทึมของเราแล้วจะทำให้ดึงความหมายต้นฉบับออกมาไม่ได้ แต่สำหรับ 4o แทบไม่เป็นปัญหา
  แล้วมันถอดรหัส b64 ได้อย่างไร? เราไม่รู้
  จริง ๆ แล้วเราไม่ได้ “สร้าง” เครือข่ายประสาทเทียม แต่เราสร้างโครงสร้างแล้วฝึกมัน
  นอกจากการจัดเตรียมข้อมูลฝึกแล้ว สิ่งที่มันเรียนรู้อยู่นอกเหนือการควบคุมโดยตรงของมนุษย์
  นอกเหนือจากตัวอย่างของเล่นง่าย ๆ แล้ว ส่วนใหญ่เราไม่รู้ว่ามันเรียนรู้อะไรไปบ้าง
  เรารู้ว่าการเชื่อมต่อก่อตัวขึ้นได้อย่างไร มองเห็นน้ำหนักได้ และเห็นการคูณเมทริกซ์ได้
  แต่เราไม่รู้ว่าการคำนวณเหล่านั้นกำลังทำอะไร หรือมีความหมายว่าอะไร
  ถ้ามนุษย์ต่างดาวมองเห็นโค้ด C ขณะกำลังรันอยู่ จะถือว่าเข้าใจโค้ดนั้นได้หรือ?
- เราไม่รู้ว่าการเชื่อมต่อแต่ละเส้นหมายถึงอะไร หรือมีข้อมูลใดถูกเข้ารหัสอยู่ในน้ำหนักแต่ละตัว
  และไม่รู้ว่าถ้าเปลี่ยนน้ำหนักแต่ละตัวจากหลักล้านไปจนถึงหลักล้านล้านตัว พฤติกรรมจะเปลี่ยนไปอย่างไร
  ถ้าเทียบกับพจนานุกรม พจนานุกรมระบุชัดเจนว่าหน้าไหนและบรรทัดไหนมีข้อมูลอะไร
- หากละรายละเอียดบางส่วนไป โมเดลจะนำ ฟังก์ชันมิติสูง จำนวนมากไปใช้กับอินพุต และเราไม่รู้เหตุผลว่าทำไมฟังก์ชันเหล่านั้นจึงแก้ปัญหาได้
  การลดมิติของน้ำหนักให้เป็นค่าที่มนุษย์อ่านเข้าใจได้ไม่ใช่เรื่องเล็กน้อย และนิวรอนหลายตัวก็โต้ตอบกันในแบบที่คาดเดาได้ยาก
  งานวิจัยด้านความตีความได้ให้ผลลัพธ์ที่มีประโยชน์และภาพแสดงผลที่สวยงาม[1][2] ออกมามาก และก็มีความพยายามมากมายในการทำความเข้าใจ Transformer[3][4] แต่ยังอีกไกลกว่าจะอธิบายโมเดลขนาดใหญ่ที่ใช้งานอยู่ในปัจจุบันได้อย่างสมบูรณ์
  [1] - https://distill.pub/2018/building-blocks/
  [2] - https://distill.pub/2019/activation-atlas/
  [3] - https://transformer-circuits.pub/
  [4] - https://arxiv.org/pdf/2407.02646
- แม้ LLM จะไม่ใช่สมอง แต่ สมอง ก็เป็นอุปมาที่มีประโยชน์
  เช่นเดียวกับที่การมองดูนิวรอนทั้งหมดของเราไม่ได้ทำให้เราเข้าใจอย่างสมบูรณ์ว่าเราคิดอย่างไร LLM ก็ไม่อาจเข้าใจได้ด้วยการวิเคราะห์องค์ประกอบรายตัวเพียงอย่างเดียว
  การถอดรหัส LLM อาจจะง่ายกว่าสมอง แต่ไม่ได้แปลว่าง่าย
- เรารู้ว่าการเชื่อมต่อก่อตัวขึ้นอย่างไร และรู้ว่าจะทำให้มันก่อตัวขึ้นได้อย่างไร
  เพียงแต่เราไม่รู้ว่าทำไมการก่อตัวในรูปแบบเฉพาะนั้นจึงแก้ปัญหาตรงหน้าได้
  ตอนนี้แม้แต่ถ้อยคำแบบนี้ก็ไม่ได้ถูกต้องอย่างเคร่งครัดแล้ว
  เพราะมีงานวิจัยจำนวนมากที่ศึกษาว่าเกิดอะไรขึ้นภายในกล่องดำ
  ปัญหาคือมันไม่เคยเป็นกล่องดำอย่างสมบูรณ์เลย เรามองเข้าไปข้างในได้เสมอ เพียงแต่เข้าใจได้ยาก
  KAN ช่วยย้ายบางส่วนของเรื่องนี้ไปสู่ การทำให้เป็นสูตรทางคณิตศาสตร์ และการสร้างแผนที่การกระตุ้นสำหรับข้อมูลก็ให้ความเข้าใจเชิงลึกในลักษณะคล้ายกัน

ความเป็นไปได้ที่ Kolmogorov-Arnold Networks จะช่วยเพิ่มความเข้าใจต่อโครงข่ายประสาท

กล่องดำของ MLP และการปรากฏของ KAN

วิธีที่ KAN ปรับฟังก์ชันให้พอดี

ทฤษฎีบทปี 1957 และความกังขาตลอด 35 ปี

จาก KAN แบบ 2 ชั้นสู่ KAN หลายชั้น

ความสามารถในการตีความที่ปรากฏในปัญหาจริง

ทฤษฎีปม

Anderson localization

งานวิจัยต่อมาและ KAN 2.0

จากการมุ่งประยุกต์ใช้สู่การมุ่งทำความเข้าใจ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News