ดีปเลิร์นนิงคือทอพอโลยีประยุกต์

(theahura.substack.com)

7 คะแนน โดย GN⁺ 2025-05-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ดีปเลิร์นนิงสามารถมองได้ว่าเป็นกระบวนการวางข้อมูลไว้บน แมนิโฟลด์ ในปริภูมิมิติสูง แล้วใช้การแปลงของชั้นต่างๆ ในโครงข่ายประสาทเพื่อบิดหรืดยืดพื้นผิวนั้นเพื่อค้นหา โครงสร้างที่แยกจากกันได้
ชั้นอย่าง tanh(Wx+b) คือ การแปลงต่อเนื่อง ที่ประกอบด้วยการแปลงเมทริกซ์ การเลื่อนเวกเตอร์ และฟังก์ชันไม่เชิงเส้น เมื่อนำหลายชั้นมาต่อกัน ชุดข้อมูลที่ซับซ้อนก็สามารถถูกเปลี่ยนเป็นรูปร่างอื่นได้
แม้ข้อมูลรูปวงกลมที่ไม่สามารถแบ่งด้วยเส้นเส้นเดียวในมิติต่ำได้ ก็สามารถแยกจากกันได้เมื่อยกขึ้นไปยัง มิติที่สูงกว่า และโครงข่ายประสาทสามารถเรียนรู้ปริภูมิการแทนค่านี้ได้
เวกเตอร์ embedding แทนข้อความ รูปภาพ และแนวคิดเป็นจุดในปริภูมิตัวเลข และบนพื้นผิวที่ก่อตัวดีแล้ว จะสามารถทำ การดำเนินการเชิงแนวคิด อย่าง king - man + woman = queen ได้
การฝึกโมเดล reasoning ในปัจจุบันตีความได้ว่าเป็นกระบวนการเคลื่อนย้ายแมนิโฟลด์การให้เหตุผลด้วยการเลือก reasoning trace ที่ดี ส่วน reinforcement learning แบบ DeepSeek R1 ถูกมองเป็นวิธีลดต้นทุนการคัดเลือกโดยมนุษย์โดยตรง

มองโครงข่ายประสาทผ่านทอพอโลยี

ทอพอโลยีคือคณิตศาสตร์ที่ศึกษาคุณสมบัติซึ่งยังคงอยู่ภายใต้การเปลี่ยนรูปอย่างการบิด การบิดเกลียว หรือการยืด ตราบใดที่ไม่ฉีกพื้นผิวหรือเจาะรู
วงกลมที่วาดบนพื้นผิวดินเหนียว แม้จะถูกหมุนหรือบิด ก็จะไม่กลายเป็นเส้นตรง สองวงกลม หรือเส้นที่ตัดกับตัวเองขึ้นมาอย่างกะทันหัน
ปัญหาการจำแนกข้อมูลก็สามารถมองในลักษณะคล้ายกันได้
- แม้ข้อมูลบนระนาบ 2D จะไม่สามารถแบ่งได้อย่างเรียบร้อยด้วยเส้นเส้นเดียว แต่ถ้าเปลี่ยนรูปพื้นผิวอย่างเหมาะสม ก็อาจปรากฏโครงสร้างที่แยกจากกันได้
- นี่คือมุมมองที่ว่า การจัดการปริภูมิ แบบนี้อยู่ในแก่นของดีปเลิร์นนิง

ชั้นของโครงข่ายประสาทคือการแปลงต่อเนื่องที่เปลี่ยนรูปพื้นผิว

คำอธิบายที่มองโครงข่ายประสาทเป็นสแต็กของพีชคณิตเชิงเส้นโดยรวมถือว่าถูกต้อง และเมทริกซ์สามารถตีความได้ว่าเป็นการดำเนินการที่แปลงพื้นผิวเชิงเรขาคณิต
บทความปี 2014 ของ Chris Olah ก็กล่าวถึงแมนิโฟลด์ของดีปเลิร์นนิงในลักษณะนี้
ชั้น tanh(Wx+b) ประกอบด้วยสามขั้นตอน
- การแปลงเชิงเส้น ด้วย W
- การเลื่อน ด้วยเวกเตอร์ b
- การบิดเบือนแบบไม่เชิงเส้น ที่เกิดจากการใช้ tanh กับแต่ละจุด
เมื่อนำการแปลงเหล่านี้มาซ้อนกันหลายชั้น ชุดข้อมูลที่ซับซ้อนก็สามารถเปลี่ยนเป็นรูปแบบที่แยกจากกันได้
อย่างไรก็ตาม ก็มีกรณีที่ยากจะแยกด้วยเส้นเส้นเดียวในเชิงทอพอโลยี เช่น จุดที่อยู่ในวงกลมและจุดที่ล้อมรอบอยู่ด้านนอก
- ในกรณีนี้ หากยกจาก 2 มิติเป็น 3 มิติ ข้อมูลอาจถูกแยกออกจากกันได้อย่างเรียบร้อย
- การแยกที่เป็นไปไม่ได้ในมิติต่ำ อาจกลายเป็นเรื่องง่ายในมิติสูง

Embedding และแมนิโฟลด์เชิงความหมาย

โครงข่ายประสาทขนาดใหญ่สามารถมองได้เหมือน ตัวสร้างทอพอโลยี (topology generator)
- รับข้อมูลอินพุตแล้วค้นหาพื้นผิวที่ตอบสนองคุณสมบัติที่ฟังก์ชัน loss ต้องการ
- ในงานจำแนกประเภท จะเรียนรู้ให้สุนัขและแมวอยู่ในบริเวณที่ต่างกันของปริภูมิ
- ในงานแปล จะเรียนรู้ให้รายการอย่าง bread กับ pan หรือภาพแมวกับ cat อยู่ในตำแหน่งใกล้กัน
- ในการทำนายโทเค็นถัดไป จะเรียนรู้พื้นผิวที่โทเค็นถูกจัดกลุ่มตามวิธีการใช้งาน
ข้อมูลอยู่บน แมนิโฟลด์ ที่มีมิติสูงและเกี่ยวข้องกันเชิงความหมาย และการสร้างแมนิโฟลด์ก็สอดคล้องกับการแทนความหมายของชุดข้อมูล
ตัวอย่างเรื่องสีแสดงให้เห็นว่าโครงสร้างเช่นนี้อาจมีอยู่โดยเนื้อแท้ในตัวข้อมูล
- [128, 0, 0] แทนสีแดง ส่วน [0, 0, 128] แทนสีน้ำเงิน
- เมื่อนำเวกเตอร์สองตัวมาบวกกัน ก็สามารถสร้างสีม่วงได้
- ความเป็นมิติของสี ความคล้ายกันระหว่างสี และวิธีผสมสี สามารถมองเป็นโครงสร้างที่มีอยู่โดยเนื้อแท้ในข้อมูล
รูปภาพก็สามารถ扱เป็นจุดบนแมนิโฟลด์ได้
- รูปภาพแทนด้วยค่า pixel RGB ขนาด Height x Width x 3
- เมื่อคลี่ออกเป็นเวกเตอร์เดียว รูปภาพทั้งหมดที่มีขนาดหนึ่งๆ สามารถมองเป็นจุดในปริภูมิมิติสูงได้
- บริเวณของภาพ Brad Pitt กำลังกินแซนด์วิชและภาพ Mona Lisa อาจเป็นจุดที่ต่างกันในปริภูมิรูปภาพเดียวกัน
ปริภูมิรูปภาพส่วนใหญ่คือ noise และการจัดกลุ่มโดยอาศัยความคล้ายกันของ pixel เพียงอย่างเดียวไม่เป็นประโยชน์
- โมเดลดีปเลิร์นนิงสามารถบิดและยืดพื้นผิวของรูปภาพ เพื่อวางรูปภาพที่สนใจไว้ใกล้กัน และวาง noise ไว้ห่างออกไป
ภายในโมเดล ข้อมูลอย่างข้อความและรูปภาพถูกแทนด้วยรายการตัวเลขที่เรียกว่า เวกเตอร์ embedding
- embedding แต่ละตัวเชื่อมโยงกับแนวคิด พร้อมกันนั้นก็เป็นจุดในปริภูมิด้วย
- บนพื้นผิวที่ก่อตัวดีแล้ว สามารถทำการดำเนินการทางคณิตศาสตร์เชิงแนวคิดอย่าง king - man + woman = queen ได้

มองการฝึก reasoning เป็นการเคลื่อนที่บนแมนิโฟลด์

จากมุมมองที่ว่าทุกอย่างวางอยู่บนแมนิโฟลด์ การให้เหตุผลก็สามารถคิดเป็นแมนิโฟลด์หนึ่งได้
- สามารถจินตนาการว่า reasoning ที่ดีจับกลุ่มอยู่ด้านหนึ่งของปริภูมิ ส่วน reasoning ที่ไม่ดีอยู่คนละด้าน
- แม้จะนิยาม ดี และ ไม่ดี เป็นศัพท์คณิตศาสตร์ที่เคร่งครัดไม่ได้ แต่หากแยกทั้งสองอย่างออกจากกันได้ ก็สามารถฝึกโครงข่ายประสาทได้
บริษัท AI รายใหญ่ เช่น Google, Anthropic, OAI และ DeepSeek ก็สามารถตีความได้ว่ากำลังเคลื่อนไปในทิศทางนี้
มองได้ว่าในวงการ AI มีฉันทามติว่าสิ่งที่ดึงออกมาได้จากสถิติภาษาเพียงอย่างเดียวนั้น โดยมากถูกดึงออกมาเกือบหมดแล้ว
- LLM ส่วนใหญ่ถูกฝึกด้วยโทเค็นระดับล้านล้าน
- แม้เพิ่มเป็นระดับพันล้านล้านโทเค็น ประโยชน์เพิ่มเติมอาจไม่ได้มากนัก
- การทำนายโทเค็นถัดไปคล้ายกับการให้เหตุผล แต่ตัวมันเองทำให้ทำนายโทเค็นถัดไปได้ดี มากกว่าจะไปถึงการให้เหตุผลโดยตรง
instruction tuning และ RLHF สามารถตีความได้ว่าเป็นวิธีย้ายจากพื้นที่การทำนายโทเค็นถัดไปไปยังพื้นที่การให้เหตุผลแบบถามตอบ
Chain of Thought เป็นวิธีย้ายไปยัง พื้นที่การให้เหตุผล ของแมนิโฟลด์การให้เหตุผลอย่างชัดเจนยิ่งขึ้น
- กระบวนการคิดที่เห็นเป็น Thinking… ในโมเดลอย่าง o3 หรือ Gemini 2.5 ถูกเรียกว่า reasoning trace
- หากรัน query จำนวนมาก ก็สามารถแยก reasoning trace ที่ดีออกจาก reasoning trace ที่ไม่ดีได้
- ตัวอย่างเช่น หากได้ trace ที่ดีมาก 10,000 รายการจาก query 1 ล้านรายการ ก็สามารถใช้สิ่งนี้ฝึกโมเดลใหม่ที่สร้างเฉพาะ trace ที่ดียิ่งขึ้นได้
เมื่อทำกระบวนการนี้ซ้ำ ก็สามารถ bootstrap โมเดลถัดไปจากโมเดลก่อนหน้าได้
- หากมีวิธีตัดสินว่า reasoning trace ใดดีกว่ากัน ก็สามารถเคลื่อนที่ต่อไปบนแมนิโฟลด์การให้เหตุผลได้เรื่อยๆ
- อีกมุมหนึ่งคือการมองตัวอย่างที่ดี 10,000 รายการราวกับมาจากโมเดลสมมติที่ก้าวหน้ากว่า แล้วนำมาฝึกแบบ distill-train ให้โมเดลปัจจุบัน
มีการกล่าวว่าแนวทางนี้เพียงพอที่จะไปถึง AGI แต่คำกล่าวที่ว่ามี AGI แล้วนั้นมีเชิงอรรถว่าเป็นประเด็นถกเถียง
มองว่ายังไม่เพียงพอสำหรับ ASI
- ความสามารถในการคัด reasoning ที่ดีที่สุดจะกลายเป็นข้อจำกัด
- การรวบรวม reasoning trace ที่ดีต้องใช้เงินและเวลามาก
- แม้ให้คนฉลาดจำนวนมากคัดเลือกทั้งวัน ผลลัพธ์ก็อาจมีความเป็นอัตวิสัยและ noise สูง

DeepSeek R1, reinforcement learning และโมเดลที่สร้างโมเดล

DeepSeek R1 และวิธี reinforcement learning อื่นๆ ปรากฏขึ้นในทิศทางที่ไม่ต้องให้มนุษย์คัด reasoning ที่ดีโดยตรง
แนวทางของ DeepSeek มุ่งเน้นการสร้าง heuristic เชิงปริมาณ สำหรับ reasoning ที่ดี
- สามารถสร้าง unit test หรือโจทย์คณิตศาสตร์ที่ AI ต้องผ่านได้
- หากโค้ดผ่านการทดสอบหรือแก้โจทย์คณิตศาสตร์ได้ถูกต้อง ก็สามารถมองว่า reasoning trace ที่สร้างเอาต์พุตนั้นดีกว่า trace ที่สร้างเอาต์พุตผิด
- ไม่จำเป็นต้องวิเคราะห์ reasoning trace เองแบบอัตวิสัย
มองว่าประสบความสำเร็จในการฝึกโมเดลที่ทำงานได้ค่อนข้างดีบนชุด reasoning task ด้วย RL เพียงอย่างเดียว
อย่างไรก็ตาม แนวทาง RL เพียงอย่างเดียวไม่สามารถไปถึง ASI ได้
- โมเดล RL เองก็จะชนขีดจำกัดเชิงเส้นกำกับในที่สุด
- หลังจากนั้นจะ curate reasoning trace ที่โมเดล RL สร้างขึ้น แล้วนำไป fine-tune โมเดลที่สองที่ต่างออกไปโดยสิ้นเชิง
- ผลลัพธ์คือ DeepSeek ใกล้เคียงกับวิธีสร้าง reasoning trace คุณภาพสูงจำนวนมากในต้นทุนต่ำกว่าการสร้างโดยมนุษย์โดยตรง มากกว่าจะเป็นตัว RL เอง
มุมมองนี้คือการสร้างระบบที่แยก reasoning ที่แย่ออกจาก reasoning ที่ดีนั้นง่ายกว่าการสร้างระบบที่ reasoning ได้ดีตั้งแต่แรก
โครงข่ายประสาทเองก็สามารถแทนเป็นแมนิโฟลด์ได้
- โครงข่ายประสาทคือรายการตัวเลขน้ำหนักที่จัดเรียงในรูปแบบเฉพาะ
- หากคลี่พารามิเตอร์ทั้งหมดเป็นเวกเตอร์ ก็สามารถแมปเป็นจุดบนพื้นผิวได้
- บางบริเวณอาจสอดคล้องกับ semantic segmentation บางบริเวณสอดคล้องกับ text translation และอีกบริเวณหนึ่งสอดคล้องกับ autoencoding
- น้ำหนักเอาต์พุตสุดท้ายสามารถแทนเป็นเทนเซอร์ได้ง่าย จึงสามารถใช้ backprop กับเอาต์พุตได้โดยตรง
มีการเสนอว่าวิธี diffusion ในการสร้างภาพสามารถนำไปใช้กับการสร้างโมเดลได้ด้วย
- diffusion ค่อยๆ เติม noise ลงในรูปภาพ แล้วฝึกโมเดลให้ย้อนกระบวนการเติม noise นั้นกลับ
- สามารถเติม noise ลงใน checkpoint ของ pretrained transformer layer หลายๆ ตัวจาก Hugging Face เพื่อสร้างชุดฝึก diffusion ได้
- หากใส่คำอธิบายของ pretrained model เป็นเงื่อนไขข้อความ ก็สามารถจินตนาการถึงโมเดลที่สร้าง pretrained model อื่นด้วย diffusion จากคำอธิบายข้อความได้
- มีการเสนอความเป็นไปได้ในลักษณะที่เมื่อใส่ prompt อย่าง "Spanish to English" ก็จะได้โมเดลที่ฝึกเสร็จสมบูรณ์ออกมาโดยไม่ต้องฝึกแยกต่างหาก
ปัจจุบันโมเดลส่วนใหญ่เริ่มจากการสุ่มค่าเริ่มต้น แต่โมเดล diffusion ที่สร้างโมเดลอื่นอาจดีกว่าการสุ่มค่าเริ่มต้น และอาจลดเวลาการฝึกได้อย่างมาก
ดีปเลิร์นนิงยังคงเป็นสาขาที่ไม่เป็นทางการนัก เพราะขาดทฤษฎีการทำงานที่ดีว่าโมเดลกำลังทำอะไรและทำไมจึงทำงานได้ และการทำความเข้าใจ embedding space ในเชิงทอพอโลยีช่วยเชื่อมโยงแนวคิดหลายอย่างเข้าด้วยกัน

1 ความคิดเห็น

GN⁺ 2025-05-21

ความคิดเห็นใน Hacker News

เนื่องจากบทความนี้อิงจากโพสต์บล็อกของผมในปี 2014 (https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/) เลยขอทิ้งความเห็นไว้สักหน่อย
ผมพยายามใช้ ทอพอโลยี อย่างจริงจังมากเพื่อเป็นวิธีทำความเข้าใจโครงข่ายประสาท และยังเขียนบทความต่อเนื่องด้วย: https://colah.github.io/posts/2014-10-Visualizing-MNIST/, https://colah.github.io/posts/2015-01-Visualizing-Representa...
มีบางจุดที่มุมมองเชิงทอพอโลยีมีประโยชน์ แต่หลังจากยึดติดและเฝ้าดูมานานกว่า 10 ปีว่าสิ่งใดเกิดขึ้นภายในโครงข่ายประสาท ก็ไม่ได้ผลลัพธ์ใหญ่โตมากนัก
สิ่งที่ให้ผลมากกว่ามากคือ สมมติฐานการแทนค่าเชิงเส้น ที่ว่า “แนวคิด/ฟีเจอร์สอดคล้องกับทิศทางในโครงข่ายประสาท” และแนวคิดเรื่อง วงจร ซึ่งเป็นเครือข่ายของแนวคิดที่เชื่อมโยงกันเหล่านั้น
บทความที่เกี่ยวข้องมี https://distill.pub/2020/circuits/zoom-in/, https://transformer-circuits.pub/2022/mech-interp-essay/inde..., https://transformer-circuits.pub/2025/attribution-graphs/bio...
- มีความเข้าใจผิดที่พบได้บ่อยเกี่ยวกับวิธีทำความเข้าใจโครงข่ายประสาท: ความคิดที่ว่า LLM แท้จริงแล้วเป็นเพียง โมเดล n-gram ที่ดีขึ้นเล็กน้อย และความคิดที่ว่าโมเดลควรจะโง่เพียงเพราะมันทำแค่การทำนายโทเคนถัดไป
  ผมสงสัยว่าปฏิกิริยาที่โด่งดัง[1] ต่อบทความ RNN ของ Karpathy[2] มีส่วนทำให้ผู้คนมองโครงข่ายประสาทด้านภาษาเทียบเท่ากับโมเดล n-gram หรือไม่
  บทความ Stochastic Parrots[3] ก็จัดให้ LLM กับโมเดล n-gram ค่อนข้างเทียบเท่ากัน ในทำนองว่า “แม้จะนึกถึงโมเดล n-gram เป็นหลัก แต่ข้อสรุปก็ยังเหมาะสมและเกี่ยวข้องอยู่”
  ก่อนที่โครงข่ายประสาทจะดีขึ้นจริง ๆ ดูเหมือนเคยมีช่วงที่ทั้งสองอย่างคล้ายกันมากกว่านี้
  [1] https://nbviewer.org/gist/yoavg/d76121dfde2618422139
  [2] https://karpathy.github.io/2015/05/21/rnn-effectiveness/
  [3] https://dl.acm.org/doi/pdf/10.1145/3442188.3445922
- ผมติดตามกระแส circuits มาหลายปีแล้ว และ สมมติฐานการแทนค่าเชิงเส้น ดูน่าเชื่อถือมาก
  ผมยังจดร่างรีวิวของ Toy Models of Superposition ไว้ในโน้ตด้วย
  อย่างไรก็ตาม circuits ให้ความรู้สึกน่าเชื่อน้อยลง เพราะการวิเคราะห์ดูผูกติดกับ สถาปัตยกรรม Transformer มากเป็นพิเศษ
  ผมคิดว่าสมมติฐานการแทนค่าเชิงเส้นอาจขึ้นกับสถาปัตยกรรม GAN, VAE, CLIP และอื่น ๆ ดูเหมือนจะโมเดลแมนิโฟลด์อย่างชัดเจน
  แม้แต่โมเดลง่าย ๆ ก็จะพับฟีเจอร์ที่คล้ายกันมากพอเข้าไปในทิศทางเชิงเส้นเดียวกัน เนื่องจากแรงกดดันจากการปรับให้เหมาะสม
  จริงอยู่ที่การประนีประนอมหลักฐานเชิงประจักษ์ว่าโมเดลง่าย ๆ วางฟีเจอร์ที่คล้ายกันไว้ในทิศทางตั้งฉากกับสมมติฐานแมนิโฟลด์นั้นทำได้ยาก แต่นั่นดูเหมือนเกี่ยวข้องกับฟังก์ชัน loss ที่กำลังปรับให้เหมาะสมมากกว่าในท้ายที่สุด
  ใน Toy Models of Superposition ใช้ MSE ทำให้โมเดลเรียนรู้งานถดถอย/บีบอัดแบบ autoencoder โดยพฤตินัย ดังนั้นจึงเป็นเรื่องธรรมชาติที่รูปแบบการรบกวนระหว่างฟีเจอร์ที่ปรากฏร่วมกันจะสำคัญ
  ในทางกลับกัน สำหรับเป้าหมายอื่น ๆ เช่น contrastive loss ผมคิดว่าพฤติกรรมลดการรบกวนแบบเดียวกันคงไม่ปรากฏ
- หลังจากเริ่มเรียนทอพอโลยีครั้งแรกในปี 2011 ผมพยายาม “ประยุกต์” ทอพอโลยีกับปัญหาในโลกจริงหลายครั้ง และประสบการณ์ของผมก็คล้ายกัน
  ตอนนี้ผมเริ่มลังเลแม้กับถ้อยคำที่พบบ่อยว่า “ข้อมูลจริงเรียบและใกล้เคียงกับแมนิโฟลด์มิติต่ำ”
  ผมอยากตรวจสอบให้ดีว่าข้อความนี้ตรงกับข้อมูลจริงมากแค่ไหน และถูกบิดเบือนมากเพียงใดจาก วิธีลดมิติ ที่เราใช้เพื่อจัดการชุดข้อมูลธรรมชาติอย่างมีประสิทธิภาพ แต่มีเวลาไม่พอ
- ในฟิสิกส์ สิ่งที่น่าสนใจคือ สมมาตรระดับโลก หรือแมนิโฟลด์เชิงทอพอโลยีที่แตกต่างกันสามารถสอดคล้องกับโครงสร้างเมตริกเดียวกัน หรือก็คือเรขาคณิตเฉพาะที่แบบเดียวกันได้
  ตัวอย่างเช่น คำตอบเทนเซอร์เมตริกเดียวกันของสมการสนามของ Einstein สามารถมีอยู่บนแมนิโฟลด์ที่แตกต่างกันทางทอพอโลยีได้
  ในทางกลับกัน เมื่อดูคำตอบของ Ising Model ทอพอโลยีของแลตทิซเดียวกันสามารถมีคำตอบที่ต่างกันหลายแบบ และหากระบบอยู่ใกล้จุดวิกฤต ทอพอโลยีของแลตทิซเองก็อาจไม่สำคัญด้วยซ้ำ
  นี่เป็นเพียงการเปรียบเทียบเท่านั้น แต่ชี้ให้เห็นว่ารายละเอียดที่น่าสนใจของพลวัตไม่ได้ฝังอยู่ในทอพอโลยีของระบบ เป็นปัญหาที่ซับซ้อนกว่านั้น
- เคยมีการถกเถียงเล็ก ๆ บน HN เกี่ยวกับบทความเก่าอยู่บ้าง
  Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=19132702 - กุมภาพันธ์ 2019, 25 ความคิดเห็น
  Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=9814114 - กรกฎาคม 2015, 7 ความคิดเห็น
  Neural Networks, Manifolds, and Topology - https://news.ycombinator.com/item?id=7557964 - เมษายน 2014, 29 ความคิดเห็น
ถ้าเป็นทอพอโลยีจริง ๆ ก็คงไม่จำเป็นต้องทำให้แมนิโฟลด์บิดงอเพื่อทำ similarity search นี่ใกล้เคียงกับ เรขาคณิตที่มีเมตริกมากกว่า
เช่นเดียวกับโลกความเป็นจริง เราต้องสามารถเปรียบเทียบสิ่งต่าง ๆ ได้
ระหว่างการเรียนรู้ก็เกิดการแปลงเชิงทอพอโลยีของแมนิโฟลด์ด้วย จึงอยากรู้ว่าทอพอโลยีวิวัฒน์ไปอย่างไรระหว่างการเรียนรู้
ตอนแรกน่าจะเปลี่ยนแปลงอย่างรุนแรงแล้วค่อยเสถียร จากนั้นจึงตามด้วยการปรับละเอียดเชิงเรขาคณิต
บทความที่เกี่ยวข้องมี Topology and geometry of data manifold in deep learning(https://arxiv.org/abs/2204.08624), Topology of Deep Neural Networks(https://jmlr.org/papers/v21/20-345.html), Persistent Topological Features in Large Language Models(https://arxiv.org/abs/2410.11042), Deep learning as Ricci flow(https://www.nature.com/articles/s41598-024-74045-9)
- ถ้าเคยลองจับ GAN หรือ VAE มาก่อน จริง ๆ แล้วตอบคำถามนี้ได้ คำตอบโดยรวมค่อนข้างไปทาง “ใช่”
  ระหว่างการเรียนรู้สามารถดู GAN ใน checkpoint หลาย ๆ จุด แล้วใช้เครื่องมืออย่าง UMAP หรือ t-SNE ตรวจสอบว่าจุดต่าง ๆ ในปริภูมิมิติสูงเคลื่อนที่อย่างไร
  เรื่องที่หลังการเปลี่ยนแปลงรุนแรงช่วงต้นแล้วเสถียร จากนั้นเกิดการปรับละเอียดเชิงเรขาคณิตก็ถูกต้อง แต่การเปลี่ยนแปลงช่วงต้นยังได้รับอิทธิพลจาก learning rate และ การเลือก optimizer ด้วย
- ถ้าจะพูดให้ตรง ผมมองว่าใกล้กับ พีชคณิตเชิงเส้นประยุกต์ มากกว่า เพียงแต่เรียกแบบนั้นแล้วฟังดูไม่แปลกใหม่เท่า
ตัวบทความเองดี แต่ไม่เข้าใจว่าทำไมแนวคิดการหาพื้นผิวแบ่งแยกระหว่างชุดจุดสองชุดถึงถูกเรียกว่า “ทอพอโลยี”
มีประโยคทำนองว่า “เมื่อเรียนรู้การแปลอังกฤษ-สเปนหรือการแปลงภาพ-ข้อความ ก็เรียนรู้ทอพอโลยีที่ bread อยู่ใกล้ pan และภาพแมวอยู่ใกล้คำว่า cat” ซึ่งสิ่งนี้ค่อนข้างใกล้กับสิ่งที่ทอพอโลยีไม่ได้扱う
แนวคิดที่ว่าจุดต่าง ๆ “ใกล้” หรือ “ไกล” กัน เป็นขอบเขตของ เมตริก ไม่ใช่ทอพอโลยี
หากจุดสองจุดอยู่ใกล้กันในปริภูมิทอพอโลยีหนึ่ง เราสามารถยืดปริภูมินั้นให้สองจุดอยู่ไกลกันได้โดยยังคงเป็นปริภูมิทอพอโลยีเดียวกัน
แก่นของมุกที่ว่าแก้วกาแฟกับโดนัทเหมือนกันก็อยู่ตรงนี้เอง
โดยรวมแล้วดูใกล้กับการประยุกต์พีชคณิตเรขาคณิตในโลกจริง คือการค้นหาสิ่งอย่าง algebraic variety ที่จุดต่าง ๆ วางอยู่ใกล้กันมากกว่า สุดท้ายดูเหมือนเป็นปัญหาเรื่องเรขาคณิตและระยะห่างระหว่างจุด
- คำพูดที่ว่า “นี่ไม่ใช่สิ่งที่ทอพอโลยี扱う” ถูกต้อง 100%
  เพียงแต่บทความพูดถึงทั้งทอพอโลยีและดีปเลิร์นนิง จึงได้แต่หวังว่าความสับสนที่ชัดเจนจะอยู่กับหนึ่งในสองอย่างนั้น คืออยู่แค่ฝั่งทอพอโลยี
- ในประโยคนั้นใช้คำว่า “topology” แบบภาษาพูดมากกว่า ที่ถูกควรพูดว่า “surface”
- ถ้านิยามแบบหลวม ๆ ทอพอโลยีก็ถือได้ว่าเป็นสาขาที่ศึกษาปริภูมิซึ่งมี แนวคิดบางอย่างของความใกล้และความไกล จริง ๆ แม้จะไม่มีเมตริกก็ตาม
  แนวคิดหลักเรื่องย่าน (neighborhood) ใน point-set topology จับความคิดว่าอยู่ใกล้จุดใดจุดหนึ่ง และช่วยให้นิยามสิ่งที่ต้องใช้แนวคิดเรื่องความใกล้ เช่น ความต่อเนื่องหรือการลู่เข้าของลำดับได้
  Wikipedia [0] ก็อธิบายว่าผ่านแนวคิดของเซตเปิด เราสามารถทำให้ “ใกล้เคียง”, “เล็กเท่าไรก็ได้”, “อยู่ห่างไกล” มีความแม่นยำขึ้นได้
  หากเปลี่ยนนิยามของเซตเปิด ฟังก์ชันต่อเนื่อง เซตกะทัดรัด และเซตเชื่อมต่อก็เปลี่ยนไปด้วย และตัวเลือกแต่ละแบบของนิยามเซตเปิดเรียกว่าทอพอโลยี
  ปริภูมิเมตริกเป็นชั้นสำคัญของปริภูมิทอพอโลยีที่สามารถนิยามระยะทางจริงไม่เป็นลบระหว่างคู่จุดได้ หรือก็คือเมตริก
  ไม่ได้หมายความว่าทอพอโลยีเป็นเลนส์ที่ดีที่สุดในการทำความเข้าใจโครงข่ายประสาท และผู้เขียนเองก็พูดในคอมเมนต์ว่าเปลี่ยนความคิดแล้ว ที่นี่แค่อยากแก้ความเข้าใจผิด
  [0] https://en.wikipedia.org/wiki/General_topology
ถ้าชื่อเรื่องยังเป็นแบบนี้ก็ดาษดื่นและผิด แต่ตัวบทความเองอ่านดี
ทอพอโลยีคือโครงสร้างขนาดเล็กมากที่เหลืออยู่หลังจากตัดระยะทาง มุม ทิศทาง และการยืดทุกชนิดที่ไม่ฉีกออกจากเรขาคณิต
มันคือสิ่งขั้นต่ำสุดที่ยังคงใช้ได้หลังการแปลงรูปอย่างรุนแรงเช่นนั้น
แนวคิดทอพอโลยีมีประโยชน์ในแมชชีนเลิร์นนิงจริง แต่สิ่งอย่างสเกล ระยะทาง และมุม โดยปกติให้ข้อมูลจำเป็นเกี่ยวกับข้อมูลไว้มาก
ถ้าจะจำแนกแมวลายเสือกับเสือแล้วดันมองข้ามขนาด ก็คงเป็นเรื่องโง่
ทอพอโลยีมีประโยชน์เป็นพิเศษเมื่อไม่สามารถเชื่อถือความยาว ระยะทาง มุม หรือการแปลงรูปตามอำเภอใจได้
มีกรณีแบบนั้นอยู่ แต่การอ้างว่าดีปเลิร์นนิงคือทอพอโลยีประยุกต์นั้นเหลวไหลและแทบจะเป็นคำพูดโง่ ๆ
- ข้อมูลอินพุตอยู่บนแมนิโฟลด์ที่เชื่อถือไม่ได้ ข้อเท็จจริงที่ว่าภาพกระป๋อง Coca-Cola กับภาพป้ายหยุดอยู่ใกล้กันในปริภูมิพิกเซล ไม่มีความหมายโดยตัวมันเองเลย
  โครงข่ายประสาทใช้ การแปลงรูปอย่างรุนแรง เหล่านั้นทั้งหมดนี่แหละ
- ถ้าลงรายละเอียด จะมีหลายสิ่งที่สำคัญขึ้นมาซึ่งถ้าเป็นทอพอโลยีบริสุทธิ์แล้วคงไม่สำคัญ ตั้งแต่จำนวนเลเยอร์ไปจนถึง quantization/ความละเอียด fp ล้วนมีผล
- คำว่า “topology” มีนิยามตามพจนานุกรมที่ถูกต้องอีกแบบหนึ่งซึ่งไม่มีเงื่อนไขที่คุณกำลังเรียกร้องเลย ดูเหมือนคุณพลาดไปว่ามีสองนิยาม
ขอบคุณที่แชร์ ผมเองก็มักมองการเรียนรู้จากมุมของ แมนิโฟลด์ เช่นกัน เป็นวิธีแสดงออกที่ทรงพลัง
ในส่วนที่ว่า “ในปริภูมิมิติสูงพอ สิ่งนี้จะแยกไม่ออกจากการอนุมาน” ผมเคยเขียนบันทึกไว้ค่อนข้างมาก และเคยเขียนใน HN ในชื่อ “แมนิโฟลด์การอนุมานเชิงความน่าจะเป็น”
แมนิโฟลด์นี้ถูกสร้างขึ้นโดยเรียนรู้ปริภูมิของแพตเทิร์นที่ถูกถอดบริบทออกจากชุดอินพุตที่กำหนด
ด้วยความเป็นเชิงความน่าจะเป็นโดยเนื้อแท้ของการสุ่มตัวอย่าง การอนุมานที่แท้จริงจึงแสดงออกเป็นความน่าจะเป็น ไม่ใช่สัจพจน์
อาจค้นพบสัจพจน์ได้ด้วยการหาจุดตรึงหรือ attractor บนแมนิโฟลด์ แต่ท้ายที่สุดเราก็กำลังดู แมนิโฟลด์เชิงความน่าจะเป็น ที่สร้างขึ้นจากชุดอินพุต
อย่างไรก็ดี ผมมองว่า “การอนุมาน” นี้ไม่สามารถแยกออกจากข้อมูลอินพุตได้
หากเป็นแมนิโฟลด์การอนุมานที่ก้าวหน้าพอ ก็อาจพบโครงสร้างบางอย่างที่เหมือน “เมตา-การอนุมาน” ซึ่งพบได้ทุกที่ แต่โครงสร้างที่ถูกถอดบริบทออกอย่างมากเช่นนี้อาจไร้ประโยชน์โดยสิ้นเชิงหากไม่ถูกใส่บริบทกลับเข้าไปอย่างเหมาะสม
สุดท้ายแล้ว เพื่อให้เป็นแมนิโฟลด์ที่มีประโยชน์ในการประมวลผลอินพุตบางประเภท แพตเทิร์นของอินพุตนั้นต้องเป็นไปตาม underlying rule ที่เรียนรู้ได้

หากการถอดบริบทคือการเรียนรู้ กล่าวคือการแยกแง่มุมต่าง ๆ ของอินพุตออกเป็นความสัมพันธ์ที่เป็นอิสระจากบริบท การนำกลับเข้าบริบทก็เป็นอีกครึ่งหนึ่งของมัน นั่นคือความสามารถในการเปลี่ยนความสัมพันธ์ที่เป็นอิสระจากบริบทซึ่งเป็นนามธรรมมากและบางครั้งแทบแสดงแทนไม่ได้ ให้กลายเป็นการวิเคราะห์ที่มีประโยชน์ในโดเมนใหม่
ความเห็นฉบับเต็ม: https://news.ycombinator.com/item?id=42871894

สงสัยว่ากำลังพูดถึงการให้เหตุผลทั่วไป หรือก็คือการให้เหตุผลในฐานะกระบวนการทางจิตที่ทำงานบนการแสดงแทนของประพจน์หรือไม่
ถ้าใช่ ก็เข้าใจยากกับคำพูดที่ว่า “การให้เหตุผลที่แท้จริงไม่ได้แสดงด้วยสัจพจน์ แต่แสดงด้วยความน่าจะเป็น”
หนึ่งในลักษณะของการให้เหตุผลก็คือ มันไม่ได้ทำงานแบบนั้น
เป็นไปได้น้อยมากที่สัตว์จะไม่มีความสามารถใด ๆ ในการทำงานแบบไม่อิงความน่าจะเป็นบนประพจน์ที่มันแสดงแทนไว้เอง ความสามารถนี้จำเป็นต่อการให้เหตุผลที่ถูกต้อง และก็เป็นความสามารถที่ค่อนข้างเล็กน้อยที่จะมอบให้ได้
เช่น “ถ้าแมงมุมอยู่ใน boxA ก็ไม่ได้อยู่ที่อื่นทั้งหมด” ประมาณนี้
ข้อมูลไม่ได้อยู่บนแมนิโฟลด์จริง ๆ มันเป็นเพียงการประมาณเพื่อใช้คิดเกี่ยวกับข้อมูลเท่านั้น
แทบทุกอย่าง หรืออาจจะ 100% ของสิ่งที่มีประโยชน์ในดีปเลิร์นนิง ล้วนเกิดขึ้นมาโดยไม่ได้คิดถึงทอพอโลยีเลย
ดีปเลิร์นนิงเป็น สาขาเชิงประจักษ์ ที่พัฒนาขึ้นส่วนใหญ่จากการลองผิดลองถูกและการทดลอง มากกว่าจะเป็นการประยุกต์ของอะไรบางอย่าง
แม้จะมีสัญชาตญาณบางส่วนที่มาจากทฤษฎี แต่ทฤษฎีนั้นไม่ใช่ทอพอโลยี
- ไม่เห็นด้วยโดยสิ้นเชิง จริงอยู่ว่ามีการลองผิดลองถูกมาก แต่ดีปเลิร์นนิงใกล้เคียงกับการผสมทฤษฎีจากคณิตศาสตร์หลายแขนง เช่น ทอพอโลยี เรขาคณิต ทฤษฎีเกม แคลคูลัส สถิติ ฯลฯ มากกว่า
  แม้แต่สิ่งพื้นฐานที่สุดอย่าง backpropagation ก็เป็นเพียงการนำกฎลูกโซ่มาใช้กับน้ำหนักเท่านั้น
  ความแตกต่างอยู่ที่ดีปเลิร์นนิงเข้าถึงได้ง่ายเกินไป และพูดให้ตรงคือกลายเป็นสาขาที่ทำเงินได้ ทำให้ผู้ปฏิบัติจำนวนมากสามารถเรียนหัวข้อนี้ได้โดยไม่ต้องเรียนที่มาของรูปแบบนิยม
  สุดท้ายจึงนำทฤษฎีและเทคนิคที่มีอยู่ในสาขาอื่นมานานแล้วไปใช้ หรือ “คิดค้นใหม่” โดยไม่รู้ที่มา
- “สัญชาตญาณ” ที่มาจากทฤษฎีดูเหมือนเป็นสิ่งที่เกิดหลังเหตุการณ์มากกว่า คือหลังจากดีปเลิร์นนิงสร้างวิธีบางอย่างขึ้นมาแล้ว นักวิจัยในสาขาวิทยาศาสตร์อื่นจึงสังเกตเห็นความคล้ายคลึงระหว่างแนวทางดีปเลิร์นนิงกับวิธีเก่า ๆ ของตน
  ตัวอย่างเช่น มีบทความที่พบว่า GPT แท้จริงแล้วเป็นปัญหาการคำนวณแบบเดียวกับที่เขาเคยแก้ในฟิสิกส์: https://ondrejcertik.com/blog/2023/03/fastgpt-faster-than-py...
- ในฐานะคนที่ทำดีปเลิร์นนิงมามากกว่า 10 ปี คำพูดนี้ค่อนข้างผิด การที่ข้อมูลอาศัยอยู่บนแมนิโฟลด์เป็นเรื่องชัดเจนในตัวเอง และใช้ได้กับงานประยุกต์ของดีปเลิร์นนิงด้วย
  ตัวอย่างคือบล็อกปี 2014 ของ Chris Olah ที่ลิงก์ไว้ในบทความของผม: https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/
  มีเหตุผลที่เราเรียก embedding space ว่า “space”
  GAN, VAE และ contrastive loss ล้วนเป็นปัญหาของการสร้าง เวกเตอร์แมนิโฟลด์ ที่สามารถเดินสำรวจไปมาและสร้างข้อมูลชนิดต่าง ๆ ได้
- นี่คือ การเล่นแร่แปรธาตุ
  ดีปเลิร์นนิงในรูปแบบปัจจุบันมีความสัมพันธ์กับทฤษฎีพื้นฐานเชิงสมมติฐาน คล้ายกับที่การเล่นแร่แปรธาตุมีต่อเคมี
  อีกหลายร้อยปีข้างหน้า นักเรียนมัธยมปลายที่พูดภาษา Inuktitut ในอารยธรรมหลังจากเรา จะได้เรียนว่า “deep learning” เป็นคำประหลาดที่เป็นซากตกค้างจากภาษากลางโบราณ
- หากทำให้นิยามหลวมลงเพื่อยอมให้มีข้อผิดพลาดจากการประมาณ ก็อาจมองได้ว่าข้อมูลอยู่บนแมนิโฟลด์ เช่น อ้างอิงได้จาก Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning(https://aclanthology.org/2021.acl-long.568.pdf)
ทันทีที่อ่านประโยคว่า “แค่นี้ก็เพียงพอที่จะไปถึง AGI แล้ว” ความน่าเชื่อถือก็ร่วงลงทันที
โดยรวมไอเดียก็โอเค แต่บทความค่อนข้าง คลุมเครือ โดยเฉพาะส่วนที่เชื่อมโยงกับการให้เหตุผล
ในด้านนี้มีงานเชิงเทคนิคจริงจังที่ขยายและทำให้ไอเดียนี้เป็นรูปธรรมมากขึ้น เช่น https://arxiv.org/abs/1402.1869
ทอพอโลยีอีกอย่างหนึ่งที่พบในโครงข่ายประสาทเทียมเชิงลึกคือ network topology ซึ่งหมายถึงโครงสร้างของเครือข่าย หรือก็คือโหนดเชื่อมต่อกันอย่างไรและข้อมูลไหลอย่างไร
มีตัวอย่างที่เป็นที่รู้จักและได้รับแรงบันดาลใจจากชีววิทยาอยู่แล้ว เช่น autoencoder, convolutional neural network (CNN) และ generative adversarial network (GAN)
แต่เรายังมีอะไรให้เรียนรู้อีกมากเกี่ยวกับทอพอโลยีและการเชื่อมต่อเชิงหน้าที่ของสมอง
ในอนาคตมีความเป็นไปได้สูงที่จะค้นพบโครงสร้างใหม่ ๆ ทั้งในโครงสร้างภายในของแต่ละเลเยอร์/โหนด และในวิธีที่เครือข่ายเฉพาะทางต่าง ๆ เชื่อมต่อและโต้ตอบกัน
สมองไม่ได้พึ่งพาเครือข่ายเดียว แต่รันหลายเครือข่ายแบบขนาน ซึ่งมักเรียกว่า “Big 7” และเชื่อมโยงกันอย่างลึกซึ้ง
ซึ่งรวมถึง Default Mode Network(DMN), Central Executive Network(CEN), Limbic Network เป็นต้น
ในความเป็นจริง นิวรอนหนึ่งตัวอาจอยู่ในหลายเครือข่ายและทำหน้าที่ต่างกันก็ได้
ในระบบประดิษฐ์ เรายังจำลองความซับซ้อนนี้ได้ไม่เพียงพอ และยังมีหลายอย่างให้เรียนรู้และรับแรงบันดาลใจจาก “network topology” แบบนี้
ดังนั้น “Topology is all you need” :-)
สมมติฐานที่ว่า “ตราบใดที่แยกแยะได้ว่าอะไรดีอะไรแย่ ก็สามารถฝึกโครงข่ายประสาทให้จัดระเบียบทอพอโลยีของมันเองได้” นั้นเป็นปัญหา
ราว 10 ปีก่อน ผมเห็นโปรเจกต์หนึ่งที่ฝึกเครือข่ายให้เดาเพศทางชีววิทยาจากรูปใบหน้า
เพื่อลดอคติ พวกเขาค่อย ๆ ลบเครื่องสำอาง หนวด ผม ฯลฯ ออก แต่ความแม่นยำอยู่ที่ราว 70–80%
ตอนนั้นดูเหมือนเป็นผลลัพธ์ที่ยอดเยี่ยม และพวกเขาตั้งเป้าไว้ที่ 99%
สิ่งแรกที่ผมทำหลังอ่านเปเปอร์คือไปหางานวิจัยที่ให้คนทายเพศทางชีววิทยาจากรูปถ่ายคล้าย ๆ กัน
มนุษย์ก็ไม่ได้ดีกว่านั้นมากนัก และความต่างระหว่างคนกับเครื่องอยู่ที่ประมาณ 1–2%
ผมถามคนที่ดูแลโปรเจกต์ว่าเขาพิสูจน์ได้อย่างไรว่าการจำแนกแบบนั้นทำได้จากรูปถ่ายเพียงอย่างเดียว แต่พวกเขาไม่เข้าใจคำถามด้วยซ้ำ และแค่สันนิษฐานว่าทำได้
ท้ายที่สุดพวกเขาก็ปรับปรุงผลลัพธ์ไม่ได้ อาจเป็นเพราะสอนโครงข่ายประสาทได้ไม่ดี แต่เมื่อเอาสัญญาณบ่งชี้เพศออกไป ใบหน้าจำนวนมากก็อาจเป็นเพียง กึ่งกลาง/ไม่ชัดเจนทางเพศ
เหตุผลที่ยกเกร็ดนี้ขึ้นมาก็เพราะสมมติฐานของพวกเขาดูค่อนข้างสมเหตุสมผลในสายตาผม

ในสถานการณ์ส่วนใหญ่ แค่เห็นใบหน้าก็เดาได้ว่าใครมีอะไรอยู่ในกางเกง ดังนั้นจึงมองว่าข้อมูลนั้นน่าจะอยู่บนใบหน้า
แต่ในสถานการณ์ที่ตำราถูกเขียนใหม่ทุกปี มีความพยายามจะคำนวณ “ครึ่งชีวิตของความรู้” สาขาวิชาปรัชญาก็ยังไม่สิ้นสุด และทุกวันก็มีการถกเถียงทางการเมือง·อุดมการณ์ว่าอะไรคือสิ่งที่ดีที่สุด การสมมติว่าเราสามารถแยก ความดีและความเลว ออกจากกันได้ไม่ทางใดก็ทางหนึ่งนั้นไร้เหตุผลมาก ๆ

ท้ายที่สุด การสมมติว่าเส้นแบ่งแบบนั้นมีอยู่ระหว่าง “ดี” กับ “เลว” เองก็ไม่สมเหตุสมผล
แผนภาพที่อ้างว่า AGI/ASI เป็นจุดบนแมนิโฟลด์เดียวกับการทำนายโทเค็นถัดไป โมเดลแชต และโมเดล CoT นั้นชวนสับสน
อาจพิสูจน์ได้ว่าสามอย่างหลังเป็นส่วนหนึ่งของแมนิโฟลด์เดียวกัน แต่ไม่รู้ว่ามีเหตุผลอะไรที่จะวาง AGI/ASI ไว้ตรงนั้นด้วย
เป็นไปได้ไม่ใช่หรือว่า ต่อให้ทำการจัดการเชิงทอพอโลยีกับโมเดลที่ทำ CoT ได้มากแค่ไหน ก็อาจไปไม่ถึงกระบวนการที่ถือว่าเป็น AGI
ตัวอย่างเช่น ปัญญามนุษย์ ซึ่งเป็นสิ่งที่ใกล้เคียงกับ AGI ที่สุดเท่าที่เรารู้จัก ต้องอาศัยลูปป้อนกลับทางประสาทสัมผัสและภายในที่ซับซ้อนอย่างยิ่ง รวมถึงการประมวลผลแบบต่อเนื่อง ต่างจากการประมวลผลแบบไม่ต่อเนื่องของโมเดลอัตถดถอย
จากสัญชาตญาณของคนนอกวงการ ผมรู้สึกว่า LLM ไม่ได้อยู่ในสายตระกูลเดียวกันเลยกับระบบที่สามารถสร้างสติปัญญาหรือจิตสำนึกได้
- เป็นไปได้ AGI/ASI มีนิยามที่ไม่ดีนัก โดยส่วนตัวผมมองว่าเราถึง AGI แล้ว แน่นอนว่าหลายคนไม่เห็นด้วย
  ผมคิดว่าคำอธิบายที่ว่าปัญญามนุษย์ต้องอาศัยลูปป้อนกลับทางประสาทสัมผัส·ภายในที่ซับซ้อนและการประมวลผลแบบต่อเนื่องนั้น บดบังวิธีการที่โครงข่ายประสาทและเครือข่ายชีวภาพจริง ๆ แล้วค่อนข้างคล้ายกัน
  ผมเคยทำงานวิจัยด้าน connectomics มาพอสมควร เช่น ในระบบรับกลิ่นของหนู จะมีสิ่งคล้าย เวกเตอร์คุณลักษณะ ปรากฏขึ้น ขึ้นอยู่กับว่านิวรอนใดบ้างที่ยิงสัญญาณ
  ถ้ากลุ่มนิวรอนเฉพาะกลุ่มหนึ่งยิงสัญญาณ ก็จะมีความหมายอย่าง “ช็อกโกแลต” หรือ “มะนาว” ทำนองนั้น
  โดยทั่วไปกว่านั้น การแทนค่าของนิวรอนดูคล้ายกับการแทนค่าแบบ embedding อยู่พอสมควร และยังจินตนาการได้ว่าจะสร้างพื้นที่ embedding จากตำแหน่งและนิวรอนที่ยิงสัญญาณได้
  ทุกอย่างที่อยู่บน embedding ก็ “เป็นเพียง” การประมวลผลเท่านั้น