7 คะแนน โดย GN⁺ 2025-05-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ดีปเลิร์นนิง สามารถเข้าใจได้ว่าเป็นลำดับต่อเนื่องของ การแปลงเชิงโทโพโลยี ที่เปลี่ยนข้อมูลให้มีความหมายมากขึ้น
  • โครงข่ายประสาท ทำงานเป็น ตัวสร้างโทโพโลยี ที่แปลงข้อมูลในปริภูมิหลายมิติสูง เพื่อทำให้ข้อมูลที่เดิมแยกจากกันไม่ได้สามารถจำแนกออกจากกันได้
  • ข้อมูลดำรงอยู่บน แมนิโฟลด์หลายมิติสูง (manifold) และโครงข่ายประสาทจะเรียนรู้โครงสร้างของแมนิโฟลด์นั้นเพื่อทำงานจำแนก แปลภาษา และอนุมานที่มีความหมาย
  • ในงานวิจัย AI สมัยใหม่ มีการนำเทคนิค การเรียนรู้แบบมีผู้สอน·การเรียนรู้แบบเสริมกำลัง (เช่น RLHF) มาใช้หลากหลายรูปแบบ เพื่อเคลื่อนที่ไปยังจุดที่ดีกว่าบน แมนิโฟลด์ของการอนุมาน (manifold)
  • ข้อมูลทุกชนิด ไม่ว่าจะเป็น ตัวโครงข่ายประสาทเอง รูปภาพ ข้อความ หรือตรรกะการอนุมาน ล้วนสามารถแทนเป็นแมนิโฟลด์ได้ และโครงข่ายประสาทก็ทำงานเป็นตัวค้นพบโทโพโลยีสากล

ความสัมพันธ์ระหว่างดีปเลิร์นนิงกับโทโพโลยี

  • โทโพโลยีคือสาขาคณิตศาสตร์ที่ศึกษาคุณสมบัติซึ่งไม่เปลี่ยนแปลงระหว่างกระบวนการแปลงรูปของสิ่งต่าง ๆ
  • โครงข่ายประสาทแบบดีปเลิร์นนิง จะค่อย ๆ เปลี่ยนการกระจายตัวและโครงสร้างของข้อมูล ด้วยการใช้การแปลงเชิงเส้นและไม่เชิงเส้นในหลายมิติกับข้อมูลขาเข้าแบบซ้ำ ๆ (เช่น การคูณเมทริกซ์, tanh)
  • การคำนวณแต่ละขั้นของชั้นในโครงข่ายประสาทสามารถตีความได้ว่าเป็น การแปลงเชิงเรขาคณิต และเมื่อการแปลงเหล่านี้สะสมมากขึ้น ก็จะทำให้สามารถแยกและจำแนกโครงสร้างข้อมูลที่ซับซ้อนได้
  • คุณสมบัตินี้ทำให้สามารถจำแนกคลาสที่ซับซ้อนซึ่งเดิมไม่อาจแบ่งได้ด้วยเส้นหรือระนาบเดียว ในชุดข้อมูลหลากหลายประเภท

การขยายมิติและการแยกข้อมูล

  • แม้ข้อมูลที่ซ้อนทับกันจนแยกไม่ออกในระนาบสองมิติ เมื่อนำไปยัง มิติที่สูงกว่า (หลายมิติสูง) ก็สามารถแยกได้อย่างง่ายดาย
  • ต่างจากมนุษย์ โครงข่ายประสาทสามารถคำนวณใน มิติที่สูงได้ตามต้องการ จึงรับมือกับแพตเทิร์นข้อมูลที่ซับซ้อนมากได้
  • ตัวอย่างเช่น ปัญหาการจำแนก สุนัขและแมว ในภาพถ่าย ก็สามารถถูกสร้างใหม่เป็นโครงสร้างแบบแมนิโฟลด์ที่ แยกกันได้ทางคณิตศาสตร์ ในปริภูมิหลายมิติสูง

ความหมายและบทบาทของโครงข่ายประสาทเชิงลึก

  • โครงข่ายประสาท คือ “เครื่องมือสร้างโทโพโลยี” ที่จัดวางข้อมูลขาเข้าใหม่ให้อยู่ในโครงสร้างที่มีความหมาย
  • ฟังก์ชันสูญเสีย (loss function) กำหนดว่าจะให้เรียนรู้คุณสมบัติใดของข้อมูล และนำไปสู่การสร้างพื้นผิว (topology) ที่เหมาะกับงานต่าง ๆ เช่น การจำแนก การแปล หรือการพยากรณ์
  • ข้อมูลที่มีความหมายทั้งหมด (ข้อความ ภาพ เสียง ฯลฯ) จะถูกเก็บเป็น เวกเตอร์เชิงตัวเลขหลายมิติสูง (embedding vector) ทำให้สามารถทำการคำนวณทางคณิตศาสตร์ได้อย่างยืดหยุ่นภายในปริภูมินี้

แมนิโฟลด์ (manifold) และการแทนความหมาย

  • ไม่ว่าจะเป็นสี รูปภาพ คำศัพท์ หรือแม้แต่การจัดหมวดหมู่เฟอร์นิเจอร์ ข้อมูลและแนวคิดทั้งหมดล้วนดำรงอยู่บนปริภูมิที่เรียกว่า แมนิโฟลด์หลายมิติสูง
  • ตัวอย่างเช่น ค่าพิกเซลทั้งหมดของภาพ RGB สามารถแทนได้เป็นเวกเตอร์ขนาดมหาศาล ทำให้สามารถวิเคราะห์การแปลงและความคล้ายคลึงที่มีความหมายบน แมนิโฟลด์ของภาพ ได้
  • ผ่าน การทำ embedding สามารถจัดวางแนวคิดที่มีความเกี่ยวข้องกันทางความหมาย (เช่น "king" - "man" + "woman" = "queen") ให้มาอยู่ใกล้กันได้

โครงข่ายประสาท การอนุมาน และแนวทางการเรียนรู้เชิงแมนิโฟลด์

  • การอนุมานของมนุษย์เองก็สามารถสร้างแบบจำลองเป็น คลัสเตอร์บนแมนิโฟลด์หลายมิติสูง ได้ และโครงข่ายประสาทจะค่อย ๆ เคลื่อนตามมันไปสู่การอนุมานที่ดีกว่า
  • ข้อจำกัดของโมเดลภาษาขนาดใหญ่ (LLM) ในปัจจุบันคือ การพึ่งพาสถิติของภาษาเพียงอย่างเดียว (next-token prediction) ไม่เพียงพอที่จะไปถึงระดับการอนุมานแบบมนุษย์
  • เพื่อแก้ปัญหานี้ จึงมีการใช้แนวทางบนพื้นฐานการเรียนรู้แบบเสริมกำลังหลากหลายรูปแบบ เช่น การเรียนรู้แบบมีผู้สอน, RLHF, Chain-of-Thought และการรวบรวม reasoning trace คุณภาพสูง
  • สำหรับโมเดลการอนุมานที่แข็งแกร่งในช่วงหลัง งานอย่าง Deepseek R1 พยายามคัดเลือก ‘การอนุมานที่ดี’ แบบอัตโนมัติด้วยเกณฑ์เชิงวัตถุวิสัย (เช่น unit test หรือการตรวจว่าคำตอบโจทย์คณิตศาสตร์ถูกต้องหรือไม่) เพื่อก้าวข้ามข้อจำกัดและต้นทุนของการประเมินโดยมนุษย์แบบเดิม

การใช้โครงสร้างแมนิโฟลด์ของโครงข่ายประสาทและตัวโมเดลเอง

  • พารามิเตอร์ทั้งหมด (น้ำหนัก) ของโครงข่ายประสาทก็สามารถแทนได้เป็นเวกเตอร์ขนาดมหาศาลหนึ่งตัว และตีความได้ว่าเป็น แมนิโฟลด์ บนปริภูมิความหมาย (semantic space) หลายแบบ
  • แนวคิดของ โมเดล diffusion สำหรับการสร้างภาพสามารถขยายไปยังปริภูมิพารามิเตอร์ของโครงข่ายประสาทได้ เพื่อใช้คุณลักษณะที่หลากหลายของ pretrained model เดิมอย่างมีประสิทธิภาพ หรือเพื่อให้เริ่มต้นได้รวดเร็วขึ้นและสร้างโมเดลใหม่ได้
  • การพัฒนาเทคนิคสำหรับสำรวจปริภูมิ embedding ของโมเดล อาจทำให้การพัฒนา AI ในอนาคตทำได้รวดเร็วและมีประสิทธิผลมากขึ้น

บทสรุปและนัยสำคัญ

  • แม้ว่าวงการดีปเลิร์นนิงยังคงมีแนวโน้ม ไม่เป็นทางการและพึ่งพาสัญชาตญาณ อยู่มาก แต่ แนวคิดเชิงโทโพโลยี ช่วยอย่างมากในการทำความเข้าใจกลไกการทำงานของโมเดลที่ซับซ้อน
  • เมื่อความเข้าใจต่อปริภูมิ embedding และโครงสร้างแบบแมนิโฟลด์แพร่หลายมากขึ้น ก็มีแนวโน้มว่าจะทำให้การพัฒนาและการวิเคราะห์ AI เป็นระบบและใช้งานได้จริงมากยิ่งขึ้น

1 ความคิดเห็น

 
GN⁺ 2025-05-21
ความคิดเห็นบน Hacker News
  • สำหรับบทความนี้ซึ่งเขียนจากโพสต์ในบล็อกของผมเมื่อปี 2014 ผมพยายามอย่างมากที่จะใช้ topology เป็นเครื่องมือในการทำความเข้าใจโครงข่ายประสาท และเคยแชร์ผลลัพธ์ไว้ในบทความติดตามสองชิ้นด้านล่าง

    • https://colah.github.io/posts/2014-10-Visualizing-MNIST/
    • https://colah.github.io/posts/2015-01-Visualizing-Representations/
      แม้ในกระบวนการทำความเข้าใจภายในของโครงข่ายประสาท มุมมองเชิงทอพอโลยีจะมีส่วนที่เป็นประโยชน์อยู่บ้าง แต่จากการสำรวจมาเกือบ 10 ปี ผมรู้สึกว่าวิธีเชิงทอพอโลยีไม่ได้ช่วยมากนัก
      สิ่งที่เรียนรู้ได้อย่างมีประสิทธิภาพกว่าคือสิ่งต่อไปนี้
    • ‘สมมติฐานการแทนเชิงเส้น’ — แนวคิดที่ว่าแนวคิด (feature) ในโครงข่ายประสาทสอดคล้องกับทิศทางเฉพาะ
    • แนวคิดเรื่อง ‘วงจร’ — โครงสร้างเครือข่ายที่ feature เหล่านี้เชื่อมต่อกันจนประกอบเป็นระบบ
      ขอแนะนำบทความที่เกี่ยวข้องด้านล่าง
    • ในเรื่องวิธีทำความเข้าใจโครงข่ายประสาท ผมมักนึกถึงความเข้าใจผิดประมาณนี้

      • การอ้างว่า LLM ก็แค่ดีกว่าโมเดล n-gram แบบเดิมเล็กน้อย
      • ปรากฏการณ์ที่คำกล่าวว่า "ก็แค่ทำนายโทเค็นถัดไป" ทำให้คนรู้สึกว่าโมเดลนั้นเรียบง่ายในตัวมันเอง
        เรามักเห็นปฏิกิริยายอดนิยมต่อโพสต์ RNN ของ Karpathy หรือโทนของบทความ ‘stochastic parrot’ ที่เหมารวม LLM กับโมเดล n-gram ในอดีตสองแนวทางนี้อาจถูกมองว่าคล้ายกันกว่านี้ แต่หลังจากโมเดลยุคใหม่พัฒนาไปมาก สมการแบบนั้นก็ไม่ค่อยใช้ได้แล้ว
    • ผมนึกย้อนไปถึงประสบการณ์ของตัวเองที่พยายามใช้ topology กับสถานการณ์จริง หลังจากเรียน topology ครั้งแรกในปี 2011 ก็ได้ลองเป็นพักๆ จนถึงตอนนี้ แต่ผมค่อนข้างสงสัยกับคำกล่าวยอดนิยมที่ว่า "ข้อมูลจริงมีแนวโน้มเข้าใกล้ manifold ที่เรียบและมีมิติต่ำ" ผมอยากสำรวจให้ลึกกว่านี้ว่าคุณสมบัตินี้เกิดขึ้นจริงกับข้อมูลหรือไม่ หรือเป็นผลจากการบิดเบือนโดยตั้งใจเพราะเราใช้วิธีลดมิติเพื่อประสิทธิภาพ แต่ก็น่าเสียดายที่ไม่มีเวลาพอ

    • ผมติดตามงานเขียนเรื่อง 'circuits' ของคุณมานานและสนุกกับมันมาก สมมติฐานการแทนเชิงเส้นดูน่าเชื่อถือเป็นพิเศษจนผมถึงกับเขียนร่างรีวิวของ Toy Models of Superposition ไว้ด้วย อย่างไรก็ตาม การวิเคราะห์แบบ ‘circuits’ ดูจะเน้นสถาปัตยกรรม Transformer มากเกินไป เลยทำให้ผมรู้สึกดึงดูดน้อยลง
      โมเดลอย่าง GAN, VAE, CLIP ดูเหมือนกำลังสร้างแบบจำลอง manifold อย่างชัดเจน แม้โมเดลง่ายๆ ก็อาจรวม feature ที่คล้ายกันไว้ในทิศทางเดียวกันระหว่างการ optimize ได้ แต่บางครั้งก็มีปรากฏการณ์เชิงประจักษ์ที่ feature คล้ายกันกลับอยู่ในทิศทางตั้งฉากกัน ซึ่งน่าจะเกี่ยวข้องกับ loss function ที่ถูก optimize มากกว่า
      ใน Toy Models of Superposition ใช้ MSE จึงมีพฤติกรรมคล้ายงานถดถอย/บีบอัดแบบ autoencoder ทำให้รูปแบบการรบกวนกันของ feature ที่เกิดร่วมกันมีแนวโน้มสำคัญ แต่ถ้าเป้าหมายเป็น contrastive loss ผมคิดว่าพฤติกรรมการลดการรบกวนนี้จะเปลี่ยนไป

    • อยากแชร์ว่ามีการถกเถียงบน Hacker News เกี่ยวกับบทความเก่าของผมด้วย
      Neural Networks, Manifolds, and Topology (2014)

    • ในฟิสิกส์ น่าสนใจที่สมมาตรเชิง global ต่างกัน (topological manifold) สามารถมีโครงสร้าง metric เดียวกันได้ (local geometry) ตัวอย่างเช่น ในสมการสนามของไอน์สไตน์ คำตอบที่มี metric tensor เดียวกันอาจมีอยู่บน manifold ที่ต่างกันเชิงทอพอโลยี
      ในทางกลับกัน หากดูคำตอบของ Ising Model แม้จะมีโครงสร้าง topology ของ lattice เดียวกัน ก็ยังมีได้หลายคำตอบ และใกล้จุดวิกฤต โครงสร้าง topology ของ lattice อาจแทบไม่สำคัญเลยด้วยซ้ำ
      นี่เป็นเพียงอุปมาอย่างง่าย แต่ชี้ให้เห็นว่ารายละเอียดสำคัญของพลวัตไม่ได้ฝังอยู่ใน topology ของระบบ เรื่องจริงนั้นซับซ้อนกว่านี้มาก

  • ถ้า topology เป็นหัวใจจริง เราคงไม่พยายามทำให้ manifold แบนลงเพื่อให้ค้นหาความคล้ายได้ง่ายขึ้น แก่นจริงๆ คือ ‘เรขาคณิต (geometry)’ และมาตรวัดที่เหมาะกับมัน ในชีวิตจริงเราก็ต้องการโครงสร้างที่ช่วยให้เปรียบเทียบสิ่งต่างๆ ได้
    ระหว่างการฝึกโครงข่ายประสาท manifold ก็ถูกเปลี่ยนรูปเชิงทอพอโลยีด้วย ทำให้เกิดคำถามว่า "แล้ว topology เปลี่ยนอย่างไรระหว่างการฝึก?" โดยส่วนตัวผมจินตนาการว่าช่วงแรก topology จะสวิงอย่างรุนแรง จากนั้นค่อยๆ เสถียร และหลังจากนั้นจึงเป็นการปรับละเอียดเชิงเรขาคณิต งานที่น่าอ้างอิงมีดังนี้

    • ถ้าเคยใช้ GAN หรือ VAE คุณจะสังเกตกระบวนการเปลี่ยนแปลง topology นี้ได้จริง ระหว่างการฝึก คุณสามารถดูได้ว่า point ใน high-dimensional space เคลื่อนที่อย่างไรด้วยเครื่องมืออย่าง UMAP, TSNE ตาม checkpoint ต่างๆ
      กระบวนการที่คุณจินตนาการว่า "ช่วงแรกเปลี่ยนแรง แล้วค่อยเสถียร ก่อนจะปรับละเอียดเชิงเรขาคณิต" นั้นตรงกับความเป็นจริง และความเปลี่ยนแปลงรุนแรงช่วงต้นก็ได้รับอิทธิพลมากจากสิ่งอย่าง learning rate หรือการเลือก optimizer ด้วย

    • ถ้าจะให้เถียงกันตรงๆ สิ่งที่พูดกันอยู่นี่อาจเรียกว่า applied linear algebra มากกว่า แต่พอพูดแบบนั้นแล้วมันก็ดูไม่เท่าดี

  • ตอนนี้ชื่อเรื่องมันทั้งเชยและไม่แม่นยำ แต่เนื้อหาอ่านสนุกดี
    Topology คือคณิตศาสตร์ที่ว่าด้วยโครงสร้างขั้นต่ำที่ยังเหลืออยู่หลังจากลบข้อจำกัดเชิงเรขาคณิตหลากหลายอย่างออกไป เช่น ระยะ มุม หรือทิศทาง มุมมองเชิงทอพอโลยีจึงมองเฉพาะความสัมพันธ์ที่ยังคงสาระสำคัญไว้แม้จะมีการเปลี่ยนรูปอย่างรุนแรง
    แนวคิดด้าน topology อาจมีประโยชน์ใน machine learning ได้ แต่ในทางปฏิบัติข้อมูลเชิงเรขาคณิตอย่างสเกล ระยะ และมุม มีความสำคัญต่อธรรมชาติของข้อมูลมากกว่ามาก ตัวอย่างเช่น ถ้ามองข้ามสเกลไป การให้แท็บแยกแมวกับเสือย่อมให้ผลลัพธ์ที่งี่เง่า
    วิธีเชิงทอพอโลยีจะเริ่มมีประโยชน์ก็ต่อเมื่อมีข้อมูลที่เชื่อถือไม่ได้จำนวนมาก แต่การบอกว่า deep learning ตั้งอยู่บน topology นั้นเกินเลยไป

    • ผมเห็นด้วยกับที่คุณพูดว่าต้องเป็นกรณีที่ระยะ มุม ความยาว ฯลฯ ไว้ใจไม่ได้ topology จึงจะมีประโยชน์ แต่ในความเป็นจริงเราก็ทำงานกับข้อมูลที่ไว้ใจไม่ได้อยู่แล้ว การที่กระป๋องโคล่ากับป้ายหยุดอยู่ค่อนข้างใกล้กันใน pixel space ของภาพไม่ได้มีความหมายอะไรเลย โครงข่ายประสาทกำลังทำ ‘การเปลี่ยนรูปอย่างรุนแรง’ แบบที่คุณว่าอยู่จริง

    • พอเข้าสู่ขั้น implementation รายละเอียดเล็กๆ ที่ ‘ถ้าเป็น topology จริงคงไม่ต้องสนใจ’ เช่น จำนวนเลเยอร์ การ quantization หรือความละเอียดของ floating point กลับมีบทบาทสำคัญ

    • คำว่า ‘topology’ มีความหมายตามพจนานุกรมอยู่สองแบบ การมองว่าแนวคิด topology จำกัดอยู่แค่คุณสมบัติที่คุณตั้งไว้เป็นเพียงมุมมองตามนิยามบางแบบเท่านั้น

  • ผมไม่ค่อยเข้าใจว่าทำไมแนวคิดการหาพื้นผิวแบ่งแยกในบทความนี้ถึงถูกเรียกว่า 'topology'
    เช่น มีคำอธิบายว่า "ถ้าเรียนรู้การแปลภาษา โมเดลจะเรียนรู้ topology ที่ทำให้ bread กับ pan และภาพแมวกับคำว่า cat อยู่ใกล้กัน" แต่เรื่องทำนอง ‘ใกล้หรือไกล’ แบบนี้ต่างหากที่ห่างไกลจาก topology
    ใน topological space ต่อให้สองจุดอยู่ใกล้กัน ถ้าเรายืดพื้นที่นั้นออก เราก็สามารถทำให้สองจุดนั้นห่างกันได้มากภายใน ‘topological space เดิม’ (นี่คือแก่นของมุกที่ว่า ‘แก้วกาแฟกับโดนัทมี topology เดียวกัน’)
    จริงๆ แล้วแนวทางแบบ algebraic geometry — โครงสร้างที่จุดต่างๆ อยู่ใกล้ algebraic variety บางอย่าง — น่าจะเหมาะกว่า สุดท้ายสิ่งสำคัญก็คือเรขาคณิตและระยะทาง

    • ถ้าจะให้นิยาม topology แบบหลวมๆ ผมจะมองว่ามันคือการศึกษาปริภูมิทางคณิตศาสตร์ที่จัดการแนวคิดเรื่อง ‘ใกล้และไกล’ (neighborhood) ได้แม้ไม่มี ‘ระยะ’ นิยามต่างๆ ของ open set ก็คือการเลือก topology และจากนั้นคุณสมบัติอย่าง continuity, compactness, connectedness จึงถูกกำหนดขึ้น
      metric space เป็นเพียงกรณีหนึ่งของ topological space
      แน่นอน นั่นไม่ได้แปลว่า topology เป็นมุมมองที่ดีที่สุดเสมอไปสำหรับการทำความเข้าใจโครงข่ายประสาท และผู้เขียนต้นฉบับเองตอนนี้ก็เปลี่ยนจุดยืนแล้ว
      แค่อยากแก้ความเข้าใจผิดเท่านั้น https://en.wikipedia.org/wiki/General_topology อ้างอิงได้

    • เห็นด้วย 100% ว่านี่เป็นเรื่องที่แทบไม่เกี่ยวอะไรกับ topology เลย ถ้าบทความชิ้นหนึ่งจะสร้างความสับสนเรื่อง topology กับ deep learning ก็หวังว่าความสับสนจะจำกัดอยู่แค่ฝั่ง topology

    • คำว่า 'topology' ที่ผมเพิ่งใช้ไปนั้นใช้ในเชิงสำนวนมากกว่า จริงๆ แล้วควรพูดว่า 'surface' สำหรับการแบ่งแยกจะถูกต้องกว่า

  • ผมคิดว่าการมองการเรียนรู้ผ่านมุมมองของ manifold เป็นภาษาที่ทรงพลังมาก
    ในปริภูมิที่มีมิติสูง ผมมักรู้สึกว่า reasoning แทบแยกไม่ออกจากข้อเท็จจริงเสียเอง
    ผมเคยเขียนเรื่อง ‘probabilistic reasoning manifolds’ ไว้เยอะพอสมควรในไดอารีและคอมเมนต์ข่าว
    แนวคิดคือ manifold ของ pattern space ถูกก่อรูปขึ้นโดยการเรียนรู้เชิงความน่าจะเป็นโดยเนื้อแท้ และการให้เหตุผลจริงๆ ก็ไม่ได้เกิดในเชิงประพจน์ แต่เกิดแบบความน่าจะเป็น แม้เราจะหา fixed point หรือ attractor เพื่อดึง ‘สัจพจน์’ บางอย่างออกมาได้ แต่ท้ายที่สุดเราก็กำลังวิเคราะห์ probabilistic manifold ที่ก่อตัวจากข้อมูลนำเข้า
    การให้เหตุผลกับข้อมูลนั้นพันกันอยู่จนแยกออกจากกันอย่างสมบูรณ์ไม่ได้
    การเรียนรู้ (แยกสลาย) ความสัมพันธ์ที่ไม่ขึ้นกับบริบท — นั่นแหละคือ 'decontextualization' แต่ถ้าจะให้การวิเคราะห์มีความหมายในสถานการณ์หรือโดเมนใหม่ ก็จำเป็นต้องมี 'recontextualization' ตามมาด้วย
    คำอธิบายที่ยาวกว่านี้ดูได้ที่ https://news.ycombinator.com/item?id=42871894

    • ถ้าแนวคิดเรื่อง ‘reasoning thinking’ โดยทั่วไปหมายถึงการกระทำทางจิตต่อการแทนค่าของประพจน์ ผมคิดว่าคำกล่าวว่า "การให้เหตุผลที่แท้จริงไม่ได้แสดงออกเป็นความน่าจะเป็น แต่เป็นสัจพจน์" ฟังเข้าใจยาก
      ถ้าสัตว์ไม่สามารถจัดการข้อความเชิงประพจน์แบบไม่เป็นความน่าจะเป็นได้เลย นั่นก็หมายถึงมันไม่มีความสามารถในการให้เหตุผลเชิงตรรกะตั้งแต่ต้น ซึ่งอธิบายความสามารถในการให้เหตุผลของสัตว์จริงๆ ไม่ได้
      เช่น โครงสร้างตรรกะง่ายๆ อย่าง "ถ้าแมงมุมอยู่ในกล่อง A ก็จะไม่อยู่ในกล่องอื่น"
  • ข้อมูลจริงไม่ได้อยู่บน manifold จริงๆ มันเป็นเพียงแนวคิดประมาณค่าที่ใช้เพื่อทำให้คิดเรื่องข้อมูลได้ง่ายขึ้น
    ความสำเร็จที่เป็นประโยชน์เกือบทั้งหมดของ deep learning เกิดขึ้นโดยไม่เกี่ยวกับ topology เลย Deep learning เป็นสาขาเชิงประจักษ์ที่เติบโตเร็วจากการทดลอง การลองผิดลองถูก และแรงบันดาลใจทางคณิตศาสตร์เพียงเล็กน้อยเท่านั้น (ซึ่งก็ไม่ใช่ topology)

    • ผมไม่เห็นด้วยกับข้ออ้างนี้อย่างสิ้นเชิง แน่นอนว่ามีการลองผิดลองถูกมาก แต่ก็เป็นผลร่วมของทฤษฎีคณิตศาสตร์จำนวนมาก ทั้ง topology, geometry, game theory, calculus, statistics ฯลฯ แม้แต่ backpropagation เองก็อาศัย chain rule
      ตอนนี้สาขานี้แพร่หลายและทำเงินได้มากจนแม้ผู้ปฏิบัติงานจำนวนมากจะไม่รู้รากฐานทางทฤษฎี ก็ยังใช้งานมันได้อย่างง่ายดาย
      สุดท้ายแล้วในขณะที่คิดค้นทฤษฎีและเทคนิคใหม่ๆ บ่อยครั้งสิ่งที่เกิดขึ้นจริงคือการ ‘ค้นพบซ้ำ’ ทฤษฎีจากสาขาอื่นโดยไม่รู้ตัวแล้วนำมาใช้

    • สำหรับคำกล่าวที่ว่า "แรงบันดาลใจเหล่านี้เดิมทีไม่ใช่ topology อยู่แล้ว" ผมคิดว่า ‘สัญชาตญาณทางคณิตศาสตร์’ แบบนี้มักถูกนำมาอธิบายย้อนหลังมากกว่า หลังจากเกิดความก้าวหน้าอะไรบางอย่างใน deep learning แล้วนักฟิสิกส์หรือนักคณิตศาสตร์จึงค่อยสังเกตเห็นความคล้ายกับวิธีการในสาขาของตัวเอง
      มีตัวอย่างบทความที่บอกว่า GPT แทบเหมือนอัลกอริทึมที่ผมเคยใช้แก้โจทย์ฟิสิกส์ในอดีต
      https://ondrejcertik.com/blog/2023/…

    • ผมอยู่ในวงการ deep learning มาเกิน 10 ปีแล้ว และข้ออ้างที่ว่า "ข้อมูลไม่ได้อยู่บน manifold" นั้นไม่ถูกต้อง มีเหตุผลที่เราเรียก embedding space ว่า ‘space’ GAN, VAE, contrastive loss ฯลฯ ต่างก็สร้างโครงสร้าง vector manifold ที่สามารถเดินสำรวจหรือจัดการได้จริง

    • ถ้าใช้คำนิยามที่ยอมรับความคลาดเคลื่อนจากการประมาณค่า ก็พูดได้ว่าข้อมูลจริงอยู่บน manifold อ้างอิง: Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning(https://aclanthology.org/2021.acl-long.568.pdf)

    • ผมคิดว่า deep learning ในตอนนี้คล้ายการเล่นแร่แปรธาตุ (alchemy)
      เหมือนยุคเล่นแร่แปรธาตุก่อนที่เคมี (chemistry) ซึ่งมีรากฐานทฤษฎีจะถือกำเนิดขึ้น วันหนึ่งมนุษย์ในอนาคตอาจเหลือไว้เพียงคำว่า ‘deep learning’ และมองมันเป็นร่องรอยของภาษาจากอดีตก็ได้

  • พอเห็นประโยคว่า "ระดับนี้ถือว่าไปถึง AGI แล้ว" ความน่าเชื่อถือก็ลดฮวบสำหรับผม
    โดยรวมไอเดียของบทความน่าสนใจ แต่ส่วนที่โยงกับ reasoning และการขาดการถกเถียงเชิงเทคนิคที่ลึกกว่านี้ทำให้รู้สึก fluffy ไปหน่อย ทั้งที่มีงานที่ลงรายละเอียดกว่านี้มากอยู่แล้ว (เช่น https://arxiv.org/abs/1402.1869)

  • topology อีกแบบที่ถูกพูดถึงมากใน DNN คือ network topology เอง กล่าวคือโครงสร้างว่าปมเชื่อมกันอย่างไรและข้อมูลไหลอย่างไร
    Autoencoder, CNN, GAN ล้วนได้รับแรงบันดาลใจจากชีววิทยา
    เรายังมีอะไรให้เรียนรู้อีกมากจาก topology ของสมองและ functional connectivity ของมัน
    ต่อไปมีโอกาสสูงที่จะได้เห็นสถาปัตยกรรมใหม่โดยสิ้นเชิง ทั้งในระดับโครงสร้างภายในของแต่ละเลเยอร์/โหนด และในแง่รูปแบบการเชื่อมต่อกับปฏิสัมพันธ์ระหว่างเครือข่ายเฉพาะทางหลายชุด
    สมองมนุษย์เองก็ไม่ใช่เครือข่ายเดียว แต่เป็นหลายเครือข่ายอย่าง "Big 7" ที่ทำงานแบบขนานและประสานกัน เช่น DMN(Default Mode Network), CEN(Central Executive Network), Limbic Network เป็นต้น และบ่อยครั้งนิวรอนหนึ่งตัวก็สังกัดหลายเครือข่ายพร้อมกันได้
    ใน AI เรายังจำลองความซับซ้อนระดับนี้ไม่ได้ทั้งหมด จึงยังมีแรงบันดาลใจจาก network topologies ให้หยิบยืมอีกมหาศาล
    ผมเห็นด้วยกับคำว่า "Topology is all you need"

  • topology ในทางคณิตศาสตร์ว่าด้วยวัตถุเชิงเรขาคณิตและการแปลงรูป แต่ในคอมพิวเตอร์ แนวคิดเรื่อง ‘topology’ ที่นิยามความสัมพันธ์ระหว่างวัตถุเชิงนามธรรมก็สำคัญเช่นกัน
    ตัวอย่างเช่น ในโครงสร้างข้อมูลแบบกราฟ เราเก็บเซตของวัตถุ (จุดยอด) และเซตของความสัมพันธ์ระหว่างมัน (เส้นเชื่อม) ซึ่งทำให้ตัวกราฟเองเป็นโครงสร้าง topology แบบไม่ต่อเนื่องชนิดหนึ่ง
    โครงสร้างข้อมูลแบบเครือข่ายก็คล้ายกัน แต่มีการเก็บค่าบนแต่ละเส้นเชื่อมเพิ่มเข้าไป กล่าวคือสามารถมีเซตของจุดยอด (วัตถุ), ความสัมพันธ์ระหว่างมัน (เส้นเชื่อม) และค่าของแต่ละเส้นเชื่อม (น้ำหนัก) ได้ สุดท้ายแล้ว artificial neural network ก็อาจเข้าใจได้ในทิศทางนี้เช่นกัน ว่าเป็นโครงสร้างที่สร้างอยู่บน discrete topology

  • ในไดอะแกรมของผู้เขียน ส่วนที่วาด AGI/ASI เป็นจุดหนึ่งบน manifold เดียวกับ next token prediction, chat, CoT model ทำให้ผมสับสน ทั้งสามประเภทหลังดูจะอยู่ในตระกูลเดียวกันที่เชื่อมต่อกันได้ชัดเจน แต่ผมไม่แน่ใจว่ามีหลักฐานพอหรือไม่ที่จะรวม AGI/ASI เข้าไปด้วย
    ผมสงสัยว่าถ้าโมเดลแบบ CoT ต่อให้ทำ topological manipulation มากแค่ไหน ก็ไม่มีทางไปถึง ‘สติปัญญา’ แบบ AGI ได้เลยตามโครงสร้าง จะเป็นอย่างไร
    ตัวอย่างเช่น สติปัญญาของมนุษย์อาจต้องอาศัยความสามารถด้านประสาทสัมผัส/feedback ภายใน/การประมวลผลต่อเนื่องระดับสูงเป็นแก่น แต่โมเดลแบบ autoregressive ตระกูล GPT มีธรรมชาติแบบไม่ต่อเนื่อง
    จากมุมมองของคนนอกวงการ ผมมีสัญชาตญาณว่า LLM อาจใกล้เคียงกับระบบคนละสายพันธุ์กับพวกที่ให้กำเนิด ‘intelligence’ หรือ 'consciousness' โดยสิ้นเชิง

    • ก็เป็นไปได้ เพราะนิยามของ AGI/ASI เองก็ยังไม่แน่นอน
      จริงๆ ผมคิดว่าเราไปถึง AGI แล้ว แต่คนจำนวนมากไม่เห็นด้วย
      มีการพูดว่าสาระสำคัญของสติปัญญามนุษย์อยู่ที่วงจรประสาทสัมผัส/feedback ระดับสูงหรือการประมวลผลต่อเนื่อง แต่จากประสบการณ์วิจัยด้าน connectomics ไม่น้อย ความคล้ายกันระหว่างชีวภาพกับโครงข่ายประสาทก็ละเลยไม่ได้
      เช่น ในระบบรับกลิ่นของหนู เมื่อชุดนิวรอนบางชุดทำงาน ก็จะตรวจพบกลิ่นบางอย่าง ('ช็อกโกแลต', 'เลมอน' ฯลฯ) ซึ่งคล้ายกับ feature vector มาก
      การแทนค่าด้วยนิวรอนในสมองก็มีส่วนคล้ายกับ embedding representation เหมือนกัน ราวกับว่า embedding space ถูกสร้างขึ้นจากการที่นิวรอนตัวไหนเปิดทำงาน
      สิ่งที่เกิดขึ้นบน embedding ไม่ใช่ "สิ่งที่มากกว่านั้น" แต่เป็นเพียงการประมวลผลเพิ่มเติมทั้งหมด