โมเดล AI ทั้งหมดอาจเหมือนกัน

(blog.jxmo.io)

1 คะแนน โดย GN⁺ 2025-07-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Platonic Representation Hypothesis (สมมติฐานการแทนค่าแบบอุดมคติ) เสนอว่าเมื่อโมเดล AI มีขนาดใหญ่ขึ้นและฉลาดขึ้น พื้นที่การแทนค่าภายในจะค่อย ๆ บรรจบไปสู่ พื้นที่การแทนค่าที่คล้ายกัน
อธิบายผ่านแนวคิดเรื่อง การบีบอัด (compression) ของโมเดลภาษา โดยตีความความฉลาดว่าเป็นความสามารถในการบีบอัดข้อมูล และชี้ว่าเมื่อโมเดลทำการทำให้ทั่วไปได้ วิธีการที่ใช้จะยิ่งคล้ายกันมากขึ้น
วิเคราะห์ปัญหา embedding inversion หรือการย้อนกลับจาก embedding โดยตาม PRH พื้นที่ embedding ระหว่างโมเดลที่ต่างกันสามารถ จัดแนว กันได้ด้วยวิธีอย่าง CycleGAN
การทดลองอย่าง Sparse Autoencoder แสดงให้เห็นว่าเครือข่ายที่แตกต่างกันมากสามารถค้นพบแนวคิดและวงจรที่เหมือนกันหรือคล้ายกันได้
จากข้อค้นพบนี้ จึงมี ศักยภาพในการประยุกต์ใช้จริง สูง เช่น การถอดรหัสอักษรโบราณที่ยังอ่านไม่ออกหรือการถอดความภาษาสัตว์

บทนำ: เกม Mussolini หรือ Bread และการแบ่งปันความหมาย

ผู้เขียนยกเกม "Mussolini หรือ Bread" เป็นตัวอย่าง โดยแนะนำวิธีค่อย ๆ ทำให้คำถามแคบลงซ้ำ ๆ เพื่ออนุมานสิ่งที่อีกฝ่ายกำลังนึกถึง
เหตุที่เกมนี้เป็นไปได้ เพราะมี พื้นที่ความหมายร่วมกัน (semantics) ระหว่างผู้คน
เน้นว่าผู้คนหลากหลายสามารถเข้าใจความ "ใกล้กัน" ในเชิงความหมายได้โดยสัญชาตญาณ แม้ไม่มีการกำหนดกฎไว้ล่วงหน้า

สัทศาสตร์สากล: การบีบอัดโลกและโมเดล

เช่นเดียวกับเกมนี้ สมองมนุษย์ก็สร้าง แบบจำลองอันซับซ้อนของโลกจริง ในลักษณะที่คล้ายกัน
AI ในมุมมองเชิงอัลกอริทึม เรียนรู้ด้วยการบีบอัดข้อมูลของโลกให้มากที่สุด
งานสร้างภาษาธรรมชาติสามารถมองได้ว่าเป็น งานบีบอัดที่อิงกับการกระจายความน่าจะเป็น (ทฤษฎีสารสนเทศของ Shannon)
ยิ่งโมเดลบีบอัดข้อมูลได้ดี ก็ยิ่งบ่งชี้ว่าเข้าใจโลกจริงได้ลึกซึ้งขึ้น
ในทางปฏิบัติ โมเดลภาษาที่ใหญ่กว่า แสดงความสามารถในการบีบอัดข้อมูลที่ดีกว่าและมีความฉลาดสูงกว่า
เมื่อชุดข้อมูลใหญ่เกินกว่าจะจดจำจุดข้อมูลแต่ละจุดได้ โมเดลจะเริ่มผสานข้อมูลเข้าด้วยกันและเริ่ม การทำให้ทั่วไป

Platonic Representation Hypothesis (สมมติฐานการแทนค่าแบบอุดมคติ)

นักวิจัยจาก MIT ได้ทำให้ "Platonic Representation Hypothesis" เป็นสมมติฐานอย่างเป็นทางการในปี 2024
ตามสมมติฐานนี้ ยิ่งโมเดล AI มีขนาดใหญ่ขึ้น คุณลักษณะที่ใช้ร่วมกัน (feature) ก็ยิ่งมากขึ้น และพื้นที่การแทนค่าจะถูก จัดแนวในลักษณะคล้ายกัน
สิ่งนี้ถูกสังเกตเห็นจากการทดลองในหลายโดเมน ทั้งภาษาและการมองเห็น
มีการคาดการณ์ว่าเมื่อโมเดลมีขนาดใหญ่ขึ้นและมีประสิทธิภาพมากขึ้นทุกปี ความคล้ายกันของพื้นที่การแทนค่า ระหว่างโมเดลก็จะเพิ่มขึ้นต่อเนื่อง

ปัญหา embedding inversion

ผู้เขียนอธิบายประสบการณ์การวิจัยปัญหา embedding inversion ซึ่งเป็นการอนุมานข้อความอินพุตจริงย้อนกลับจากเวกเตอร์ embedding
ก่อนหน้านี้ในกรณีอย่าง ImageNet ก็มีตัวอย่างของ การกู้คืนข้อมูลที่ใกล้เคียงกับภาพต้นฉบับโดยอาศัยเพียงค่าความน่าจะเป็น
embedding ของภาษาธรรมชาติดูเหมือนมีข้อมูลอยู่มาก แต่เพราะ ข้อความที่คล้ายกันจะมี embedding ที่คล้ายกัน จึงทำให้การอนุมานย้อนกลับอย่างชัดเจนเป็นเรื่องยากมาก
สำหรับปัญหานี้ พบว่าเทคนิค iterative refinement ที่ค่อย ๆ เข้าใกล้ข้อความที่แม่นยำขึ้นผ่านการสำรวจและปรับให้เหมาะสมของ embedding แบบวนซ้ำ มีประสิทธิภาพ
ด้วยวิธีดังกล่าว ได้สาธิตความเป็นไปได้ของการย้อนกลับด้วย ความแม่นยำมากกว่า 94% ในระดับประโยคยาว

การทำให้ embedding inversion เป็นสากลด้วยสมมติฐานอุดมคติ

อย่างไรก็ตาม วิธีเดิมใช้ได้กับเฉพาะโมเดล embedding บางตัวเท่านั้น และมีข้อจำกัดกับโมเดลใหม่หรือโมเดลปิด
หาก PRH ถูกต้อง ก็อาจสร้าง ตัวย้อนกลับ embedding แบบสากล ที่ใช้ได้ข้ามโมเดลหลากหลายประเภท
เมื่อให้ชุด embedding สองชุดที่ต่างกันและไม่รู้คู่กัน (A, B) ผู้เขียนได้วิจัยมาหลายปีว่าพื้นที่เหล่านี้สามารถจัดแนวกันได้ด้วยแนวทาง CycleGAN
ผลลัพธ์คือสามารถแปลงระหว่างสองพื้นที่ embedding ด้วยวิธี unsupervised matching ได้สำเร็จโดยไม่ต้องมีการ fine-tuning เพิ่มเติม (vec2vec)
สิ่งนี้แสดงให้เห็นว่า แม้ไม่มีข้อมูลเฉพาะของ embedding แต่ละตัว ก็ยังสามารถแปล embedding จากฐานข้อมูลตามอำเภอใจหรืออนุมานย้อนกลับได้

ความเป็นไปได้ในการตีความของเครื่อง: Universal Circuits

ในงานวิจัยวิเคราะห์วงจรของสาขา Mechanistic Interpretability ก็พบฟังก์ชันภายในร่วมกัน แม้โครงสร้างโมเดลจะแตกต่างกัน
ผลจากการใช้ Sparse Autoencoder (SAE) ยืนยันว่าแม้จะฝึกกับโมเดลต่างกันอย่างอิสระ ก็ยังพบความซ้ำซ้อนใน คุณลักษณะที่ตีความได้ (feature) ในระดับสูงพอสมควร
ด้วยการเปรียบเทียบคุณลักษณะของ SAE สองตัว จึงสามารถ จัดแนวแนวคิดข้ามโมเดล ได้
หาก PRH แม่นยำยิ่งกว่านี้ คาดว่า ยิ่งเป็นโมเดลที่ทรงพลังมาก ปรากฏการณ์นี้ก็จะยิ่งเด่นชัด

นัยสำคัญเชิงปฏิบัติและแนวโน้ม

สมมติฐานการแทนค่าแบบอุดมคตินอกจากจะมีนัยเชิงปรัชญาอย่างลึกซึ้งแล้ว ยังมี ความเป็นไปได้เชิงปฏิบัติ ในด้านการตีความโมเดล การย้อนกลับ การถอดรหัสสัญญาณ และการกู้คืนภาษา
เมื่อเทคนิคการตีความพัฒนาต่อไป คาดว่าโมเดลที่ใหญ่ขึ้นจะยิ่งทำให้ การจัดแนวพื้นที่การแทนค่า และการค้นพบ ความเป็นร่วมภายใน กลายเป็นเรื่องปกติ
การถอดรหัสสิ่งที่เคยแก้ไม่ได้ เช่น อักษรโบราณ (Linear A) หรือการตีความ ภาษาสัตว์ (เช่น เสียงของวาฬ) ก็อาจเกิดขึ้นได้ในอนาคต
แม้ว่าวิธีปัจจุบันอย่าง vec2vec จะยังมีจุดอ่อนอยู่ แต่ก็ประสบความสำเร็จอย่างมากแล้วใน embedding ที่อิงอินเทอร์เน็ตและแบบภาพ-ข้อความ
นอกจากนี้ยังชี้ว่าการแปลงข้ามพื้นที่ระหว่างภาษา และการแปลภาษาวาฬ → ภาษามนุษย์ ก็มี ความเป็นไปได้ในการถอดรหัสในอนาคต

1 ความคิดเห็น

GN⁺ 2025-07-19

ความเห็นจาก Hacker News

ปรากฏการณ์ที่ทุกคนเรียนรู้แนวคิดคล้ายกันอย่าง "สุนัข", "บ้าน", "คน", "เรือ" นั้นน่าสนใจมาก คล้ายทฤษฎีแบบอุดมคติของเพลโต แม้จะเติบโตมาในสภาพแวดล้อมต่างกัน และแม้ประสบการณ์จากการสังเกตจะไม่ได้ทับซ้อนกัน แต่สุดท้ายก็ลงเอยด้วยการเห็นพ้องต่อแนวคิดเดียวกัน โมเดลภาษาขนาดใหญ่ (LLM) ก็แสดงการเรียนรู้คล้ายกัน แต่เพราะข้อมูลฝึกของ LLM ซ้อนทับกันมาก จึงไม่ชวนพิศวงเท่ามนุษย์ หากมีสิ่งอย่างศีลธรรมหรือคุณธรรมสากลจริง ๆ แบบ "อุดมคติแห่งความดี" ที่เพลโตชี้ไว้ ก็อาจคาดหวังได้ว่าเราจะทำให้ LLM เรียนรู้คุณค่าเหล่านั้น และทำให้มันปฏิบัติตามหรือปฏิเสธคำขอที่ขัดแย้งได้
- แนวคิดอย่าง "ความดี" หรือ "ความยุติธรรม" ซับซ้อนกว่ามากตามบริบท เราอาจเห็นพ้องกันได้ในเรื่องสิ่งของง่าย ๆ อย่างเรือหรือบ้าน แต่ในประเด็นศีลธรรม เช่น การทำแท้ง การุณยฆาต การทดลองกับสัตว์หรือสเต็มเซลล์ มุมมองนั้นแตกต่างกันอย่างรุนแรงแม้แต่ภายในสังคมเดียวกัน ดูตัวอย่างได้จากภาพผลสำรวจของ Gallup ปี 2010
- คำว่า "ประมาณ" แบกรับภาระมากเกินไปในการพยุงข้ออ้างว่าเพลโตถูกต้อง เราอาศัยอยู่ในความเป็นจริงร่วมกันที่มีกฎฟิสิกส์และแรงกดดันทางวิวัฒนาการเดียวกัน วิธีที่เรือลอยน้ำได้จึงมีจำกัด ไม่ได้แปลว่ามีอุดมคติแบบเพลโตอยู่จริงจนทุกคนไปถึงแนวคิดเดียวกัน ที่จริงแล้วแม้แต่คำอย่าง "เสรีภาพ", "เศรษฐกิจ", "รัฐบาล" แต่ละคนก็ให้นิยามและตีความต่างกัน แม้ไวยากรณ์จะเหมือนกันจนภายนอกดูคล้ายกัน แต่แนวคิดจริงอาจต่างกันมาก
- ท้ายที่สุดก็เข้าใจได้ว่าเป็นแนวคิดเรื่อง archetype ของ Jung
ตัวอย่างการแปลง embedding กลับเป็นข้อความไม่ได้สนับสนุนแนวคิดเรื่อง "แบบจำลองเชิงสถิติของความเป็นจริงร่วมกัน" ว่าแน่นหนาอะไรนัก แทบจินตนาการไม่ออกเลยว่าเวอร์ชันภาษาแห่งวาฬของ "Mage (foaled April 18, 2020) is an American Thoroughbred racehorse who won the 2023 Kentucky Derby" จะเป็นอย่างไร Kentucky, Derby, ปฏิทินเกรกอเรียน, สหรัฐอเมริกา, สายพันธุ์ม้า ล้วนเป็นสิ่งประดิษฐ์ที่สำคัญขึ้นมาเพราะความบังเอิญทางประวัติศาสตร์และวัฒนธรรมของมนุษย์ สุดท้ายแล้วมันก็เป็นแค่ปรากฏการณ์ที่ทุกคนฝึกจากกองข้อมูลเดียวกันจนมีความคล้ายกันทางสถิติ
- ไม่ว่า Kentucky Derby จะเป็น "แก่นของความจริง" หรือไม่ หากต้องการจำลองความจริงให้แม่นยำ 100% ก็จำเป็นต้องรู้เรื่อง Kentucky Derby ผู้เขียนกำลังอ้างว่าแบบจำลองจะค่อย ๆ ลู่เข้าไปสู่การแทนค่าที่ใกล้กับอุดมคติแบบเพลโตมากขึ้น หากเป็นโมเดลอัตโนมัติเต็มรูปแบบที่แปลงกันได้อย่างสมบูรณ์ ก็น่าจะถ่ายทอดแนวคิดอย่าง "การแข่งของม้า" หรือ "ม้าที่ชนะการแข่งขัน" ได้แม้ในระดับมิติสูง ไม่ว่าทฤษฎีอุดมคติของเพลโตจะถูกหรือไม่ ก็เป็นอีกประเด็นหนึ่งจากคำถามว่าตอนนี้ LLM ทำได้ถึงระดับนั้นหรือยัง
- การอ้างว่าความเป็นจริงทั้งหมดเป็นเรื่องของวัฒนธรรมนั้นไม่มีความหมาย เพราะใช้กับข้อเท็จจริงทางวิทยาศาสตร์ได้เหมือนกัน ต่อให้วาฬไม่รู้จักคำว่าวิทยาศาสตร์ แรงโน้มถ่วงก็ยังมีอยู่ หาก LLM เรียนรู้มาเพียงทฤษฎีแรงโน้มถ่วงของนิวตัน แล้วต่อมามีทฤษฎีสัมพัทธภาพทั่วไป (GR) ของไอน์สไตน์เกิดขึ้น ต่อให้ในข้อมูลฝึกไม่มี GR ความสามารถของ GR ในการอธิบายความจริงก็ไม่ได้เปลี่ยนไป และแม้จะไม่สามารถแปล GR เป็นบทเพลงของวาฬได้ แต่ยังถ่ายทอดผ่านภาษาอังกฤษ-ภาษาจีน-โมเดล ML-แนวคิดในสมองได้ นั่นแหละคือ "แบบจำลองเชิงสถิติร่วมของความเป็นจริง" ต่อให้แปล GR เป็นเสียงอ้อแอ้ของทารกไม่ได้ ความเป็นจริงของ GR ก็ไม่เปลี่ยน
- ยากจะบอกว่า LLM กำลังลู่เข้าไปสู่แบบจำลองเชิงสถิติของความจริง ที่จริงมันกำลังลู่เข้าไปสู่แบบจำลองเชิงสถิติของข้อมูลฝึกมากกว่า เพียงแต่ข้อมูลฝึกมีขนาดใหญ่มากจนดูเหมือนมันค้นพบบางอย่างที่ร่วมกันอยู่ในข้อความทั้งหมดได้ สิ่งนี้ไม่น่าจะเผยความจริงแก่นแท้ของโลกได้ แต่พอจะอธิบายปรากฏการณ์อย่าง "เมื่อเราใช้สำนวนนี้ ทุกคนเข้าใจความหมายนี้" ได้
- แม้แต่การแปลประโยค "Mage (foaled April 18, 2020) is an American Thoroughbred racehorse who won the 2023 Kentucky Derby" ไปเป็นภาษากรีกหรือภาษาพื้นเมืองสมัยใหม่บางภาษา ก็แทบเป็นไปไม่ได้ เพราะไม่มีบริบทร่วมเกี่ยวกับวัฒนธรรมดังกล่าวเลย จึงต้องมีอภิธานศัพท์ หรือไม่ก็ให้ LLM ทำหน้าที่เป็นอภิธานศัพท์เอง อย่างไรก็ตาม LLM ชั้นนำในปัจจุบันสามารถอธิบายแนวคิดตั้งแต่ระดับจุลภาคถึงมหภาค เช่น QCD, แรงโน้มถ่วง, ปรากฏการณ์ทางวัฒนธรรม ได้ และหากต้องแปลเป็นภาษาใหม่จริง ๆ ก็น่าจะเริ่มจากแนวคิดพื้นฐานแล้วค่อย ๆ สร้างโครงขึ้นมาได้ ท้ายที่สุดแล้วที่ LLM แปลภาษามนุษย์ได้โดยพื้นฐานโดยไม่ต้องมีการสอนกำกับแยกต่างหาก ก็เพราะความสามารถแบบนี้
- ประเด็นนี้ตรวจสอบผลได้ไม่ยาก โดยฝึกโมเดลสองตัวบนชุดข้อมูลที่ต่างกันโดยสิ้นเชิง เช่น ตัวหนึ่งเฉพาะข้อความจีนโบราณ อีกตัวเฉพาะภาษากรีกโบราณ แล้วดูว่ามีโครงสร้างคล้ายกันเกิดขึ้นหรือไม่
ความคาดหวังว่า "เราจะแปลภาษาวาฬหรือภาษาโบราณได้" นั้นมองโลกในแง่ดีเกินไป สิ่งสำคัญที่สุดในภาษาคือบริบท ที่ AI ทำภาษาได้เก่งก็เพราะมนุษย์มีข้อความนับพันล้านชิ้นที่ทิ้งไว้จากประสบการณ์ แต่กับวาฬไม่มีข้อมูลแบบนั้น
- จึงเกิดคำถามว่า "ถ้าสิงโตพูดได้ เราจะเข้าใจมันไหม?"
- โลกที่อยู่รอบตัวเราคือประสบการณ์ร่วมของมนุษย์ วาฬ และสัตว์อื่น ๆ เมื่อคำนึงถึงจุดนี้ ก็ย่อมมีส่วนที่มนุษย์กับวาฬใช้ร่วมกันอยู่
- ประเด็นสำคัญคือมี "พื้นที่การแทนค่าร่วมระหว่างภาษา" หรือไม่ หากมี ก็อาจแยกการเรียนรู้โครงสร้างเฉพาะภาษาออกจากการเรียนรู้แมปสำหรับการแปลได้ อย่างหลังซึ่งเรียกว่า "universal embedding inverter" อาจเรียนรู้ง่ายกว่า และหากโครงสร้างนั้นมีลักษณะเฉพาะพอ ก็อาจแมปเข้าพื้นที่การแทนค่าร่วมแล้วนำไปใช้ได้ หากแปลได้โดยไม่มีบริบทเลยจริง ๆ (ตอนนี้ยังเป็นเพียงการคาดเดาเชิงหวัง) ก็น่าศึกษาโดยไม่ควรมีอคติ
- หากสอนให้กอริลลาหรือช้าง (ทั้งคู่ฉลาดมาก) ตั้งชื่อสิ่งของและใช้สัญลักษณ์ได้ พวกมันก็อาจถ่ายทอดประสบการณ์และปัญญาข้ามรุ่นได้เช่นกัน และแสดงสติปัญญาได้อย่างเงียบ ๆ ไม่แพ้เรา สนใจโครงการโลมาของ Google Gemma อยู่เหมือนกัน แต่เพราะมนุษย์เป็นสัตว์บก จึงอยากให้ศึกษาเรื่องช้างมากกว่าโลมา เพื่อให้ได้ feedback งานวิจัยแบบฉับไวบนบก และโฟกัสกับงานวิจัยพื้นฐานได้มากกว่า
วิธีแบบนี้ใช้ได้ก็ต่อเมื่อการกระจายคุณลักษณะและความสัมพันธ์เชิงความหมายของแต่ละแหล่งมีความคล้ายกันมากพอ เกม MB (เกมเดาเทียบอย่าง Mussolini vs Bread เป็นต้น) จะพังทันทีถ้าอีกฝ่ายเลือกบุคคลที่เราไม่รู้จัก เราอาจจับ reference ไม่ได้ หรือแม้แต่การตัดสินระยะห่างเชิงความหมายก็อาจต่างกัน ต้องให้ผู้เชี่ยวชาญคุยกับผู้เชี่ยวชาญ และคนทั่วไปคุยกับคนทั่วไปในระดับที่ใกล้กันจึงจะเวิร์ก การถอดรหัสเอกสารโบราณก็มีปัญหาแบบเดียวกัน หากอารยธรรมโบราณนั้นให้ความสำคัญกับแนวคิดที่ต่างจากปัจจุบันโดยสิ้นเชิง ก็แทบเป็นไปไม่ได้ที่จะเข้าใจด้วย embedding ความหมายแบบสมัยใหม่
- ลองเล่นเกม MB กับเพื่อนดู — ถ้าเป็นหมวดบุคคล ยังไม่เคยทายถูกจนจบสักครั้ง
ในตัวอย่างเกม Mussolini vs Bread การอนุมานว่า "นี่ต้องเป็นบุคคลแน่ ๆ" ไม่ได้สมเหตุสมผลทางตรรกะเสมอไป ในหมวดสัตว์ก็อาจมีคำตอบประเภทนั้นมากกว่าได้
- มุกนี้คืออารมณ์ประมาณว่า David Beckham ไม่ได้ให้ความรู้สึกว่าเป็นบุคคลเท่าไรนัก แต่เหมือนอย่างอื่นมากกว่า (แม้เทียบกับร่างอวตารแห่งความชั่วก็ตาม)
- แม้ตรรกะจะหลวม ๆ แต่ประเด็นสำคัญคือในโลกจริง ผู้คนกลับเดาคำตอบได้ดีแม้คำอธิบายจะไม่ครบถ้วนแบบนี้ แสดงว่ามีพื้นที่ความหมายแบบ fuzzy ที่มนุษย์ใช้ร่วมกันอยู่
- ฉันก็คิดเหมือนผู้เขียน คำของฉันคงเป็น "ปืน" หรือ "ปืนใหญ่" ซึ่งก็ยังเจาะช่องโหว่ทางตรรกะแบบเดียวกันได้ และตัวอย่างนี้ก็ชี้ด้วยว่าทำไมการค้นคืนด้วย embedding ล้วน ๆ ถึงแก้ปัญหา RAG (retrieval-augmented generation) ไม่ได้
- ขออภัยกับข้อผิดพลาดทางตรรกะเล็กน้อย
- อาจได้คำตอบแปลก ๆ อย่าง Oswald Mosley ด้วย
ไม่เห็นด้วยกับข้ออ้างที่ว่า "เหตุผลที่เกมนี้ใช้ได้ เพราะสิ่งต่าง ๆ ในโลกเชื่อมโยงกันได้ด้วยวิธีเดียวเท่านั้น" ความสัมพันธ์มีได้หลากหลาย และความสัมพันธ์เหล่านั้นก็มาจากความเป็นจริงที่เราอาศัยอยู่เหมือนกัน คำว่า "วิธี" เหมือนถูกใช้หลายความหมาย ทำให้ข้อความอ้างอิงนี้คลุมเครือและชวนสับสน
เห็นด้วยว่า LLM กำลังลู่เข้าไปสู่การแทนค่าความจริงปัจจุบันผ่านผลงานร่วมกันของมนุษยชาติ จากนี้ก็แค่ต้องให้ AI มีข้อมูลรับรู้ทางประสาทสัมผัสแบบเรียลไทม์ ให้มีฮอร์โมนเสมือนที่มี half-life ต่างกันตามบทสนทนาและการใช้พลังงาน มีลูปความคิดถาวร และมี psilocybin เทียมเพื่อกระตุ้นการเชื่อมต่อประสาทเชิงสร้างสรรค์ หากมนุษย์มีทฤษฎี stoned ape ก็น่าจะมีทฤษฎี stoned AI ได้เหมือนกัน
- หรือจะลองทำ AI เป็นเครื่องเล่นในสวนสนุกสำหรับผู้เข้าชม แล้วมอบสิทธิ์ดูแลซอร์สโค้ดให้ Anthony Hopkins ไปเลย จะมีอะไรผิดพลาดได้ล่ะ?
- เดี๋ยวนี้เบื่ออ่านบทความ AI แล้ว แต่ถ้ามีพาดหัวว่า "เราให้ AI กินเห็ด" ฉันจะกดอ่านทันที
พออ่านประโยคที่ว่า "ตอน Ilya พูดเรื่อง intelligence-compression ฉันไม่เข้าใจเลย" ก็สงสัยว่า Marcus Hutter ถูกลืมไปแล้วหรือเปล่า ถ้าอย่างนั้น Hutter Prize ก็น่ากลับไปดูอีกครั้งจริง ๆ
ลองถาม Grok, o3-pro, Claude เรื่อง piezoelectric effect ทั้งหมดตอบถูก แต่มีแค่ Claude ที่ชี้ไปถึงผลกระทบลำดับรองที่เกิดขึ้นใน use case จริง แปลว่าโมเดลทั้งสามอาจสำรวจพื้นที่เดียวกันได้ แต่ Claude เสนอกรอบมองที่ลึกกว่าอีกขั้น
- มีเรื่องหนึ่งที่สงสัย คืออยากรู้ว่าเป็น Grok 3 หรือ 4
เต๋าที่กล่าวได้ ไม่ใช่เต๋าอันถาวร หากถามว่าเต๋าคืออะไร ฉันเห็นว่ามันคือ "เจตจำนง" — เจตจำนงเป็นสิ่งที่มนุษย์ถ่ายทอดผ่านภาษาได้ เจตจำนงเดียวกันนั้นแสดงออกได้ทั้งภาษาจีน ภาษาญี่ปุ่น และภาษาอังกฤษ ภาษาเป็นเพียงตัวแทนที่ต่างกัน โมเดลภาษาขนาดใหญ่เองก็เรียนรู้เจตจำนงผ่านโทเค็นคำ และเมื่อมันแสดงสิ่งนั้นออกมาได้ ก็เท่ากับทำให้เต๋าเป็นจริง ในความหมายนี้จึงเห็นด้วยกับข้ออ้างว่า “โมเดล AI โดยแก่นแท้อาจเหมือนกันทั้งหมด”

โมเดล AI ทั้งหมดอาจเหมือนกัน

บทนำ: เกม Mussolini หรือ Bread และการแบ่งปันความหมาย

สัทศาสตร์สากล: การบีบอัดโลกและโมเดล

Platonic Representation Hypothesis (สมมติฐานการแทนค่าแบบอุดมคติ)

ปัญหา embedding inversion

การทำให้ embedding inversion เป็นสากลด้วยสมมติฐานอุดมคติ

ความเป็นไปได้ในการตีความของเครื่อง: Universal Circuits

นัยสำคัญเชิงปฏิบัติและแนวโน้ม

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News