OpenMythos: การคาดเดาสถาปัตยกรรม Claude Mythos ที่สร้างคืนจากงานวิจัยสาธารณะ หรือเป็นเพียงกระแส AI hype อีกรอบ
(flamehaven.space)ภาพรวม
- OpenMythos ถูกอธิบายว่าเป็นการทดลองสถาปัตยกรรมเชิงทฤษฎี (theoretical architecture experiment) ที่พยายามประกอบสร้างโครงสร้างคล้าย Claude Mythos ขึ้นใหม่บนพื้นฐานของงานวิจัยสาธารณะ
- บทความนี้ไม่ได้มอง OpenMythos เองว่าเป็นแค่ “slop” แบบผิวเผิน
- แต่ใช้ OpenMythos เป็นกรณีศึกษา เพื่ออธิบายโครงสร้างที่ทำให้ในชุมชน AI ความมั่นใจสาธารณะถูกสร้างขึ้นก่อนการตรวจสอบจริง ผ่าน README, สรุปโดย AI, การแพร่กระจายบน YouTube/Reddit และดาวบน GitHub
- บทความเรียกปรากฏการณ์นี้ว่า “sheepwave”
- ในที่นี้ sheepwave ไม่ได้หมายถึงความไม่รู้หรือความอยากรู้อยากเห็นอย่างง่าย ๆ แต่หมายถึงปรากฏการณ์ที่เรื่องเล่าซึ่งดูน่าเชื่อถือในเชิงเทคนิคและดึงดูดในเชิงอารมณ์ แข็งตัวกลายเป็นความเชื่อร่วมกันก่อนจะถูกพิสูจน์
- ข้อโต้แย้งหลักไม่ใช่ว่า “OpenMythos ไม่น่าสนใจ” แต่คือปัญหาอยู่ที่วิธีที่งานวิจัยซึ่งน่าสนใจถูกเสพเหมือนเป็นหลักฐานของการทะลุข้อจำกัดด้านสถาปัตยกรรมที่ผ่านการพิสูจน์แล้ว (architecture breakthrough)
OpenMythos คืออะไร
- OpenMythos ไม่ใช่โมเดลที่คัดลอกหรือรั่วไหลมาจาก Claude Mythos ของ Anthropic โดยตรง
- ผู้พัฒนาระบุว่า OpenMythos ไม่ใช่การนำ Claude Mythos กลับมาทำใหม่แบบที่ได้รับการยืนยันแล้ว แต่เป็นการทดลองสถาปัตยกรรมเชิงทฤษฎีที่ผสานกระแสงานวิจัยสาธารณะหลายสายเข้าด้วยกัน
- เหตุผลที่ OpenMythos ได้รับความสนใจ ก็เพราะชื่อ Claude Mythos เองมีความลึกลับอยู่แล้ว
- สถาปัตยกรรมทั้งหมดของ Claude Mythos ยังไม่ถูกเปิดเผย และชุมชนก็เกิดคำถามว่า “ข้างในมีอะไรอยู่?”
- OpenMythos เข้ามาเติมช่องว่างนั้นด้วยรูปแบบว่า “มันอาจมีโครงสร้างแบบนี้ก็ได้”
- ในโลกออนไลน์ ประโยคว่า “สร้าง Claude Mythos ขึ้นใหม่แล้ว” แพร่กระจายได้เร็วกว่า “การทดลองสถาปัตยกรรม recursive depth แบบคาดคะเนบนพื้นฐานงานวิจัยสาธารณะ” มาก
ทำไม OpenMythos ถึงถูกจับตาอย่างรวดเร็ว
- OpenMythos ไปแตะความคาดหวังหลายอย่างที่ชุมชน AI อยากเชื่ออยู่แล้วพร้อมกัน
- ความคาดหวังเรื่องประสิทธิภาพของพารามิเตอร์
- เรื่องที่ว่าโมเดล recursive depth ขนาดเล็กกว่า อาจไปถึงคุณภาพใกล้เคียง Transformer แบบ fixed-depth ที่ใหญ่กว่า เป็นข้อความที่ทรงพลังมาก
- เรื่องเล่าว่า “ไม่ต้องใหญ่ขึ้น แค่ลึกขึ้น” ฟังดูน่าดึงดูดสำหรับชุมชนที่เริ่มเหนื่อยกับต้นทุน GPU และโครงสร้างที่มีแต่ frontier lab เป็นศูนย์กลาง
- สถาปัตยกรรมแบบลูป
- การคำนวณแบบวนซ้ำทำให้ดูราวกับว่า “กำลังคิด”
- แต่การคำนวณซ้ำผ่าน shared weights ไม่ได้มีความหมายเดียวกับความสามารถในการให้เหตุผลจริง หรือพฤติกรรมแบบปรับตัวได้
- ความคาดหวังต่อฮาร์ดแวร์ส่วนบุคคล/ขนาดเล็ก
- เมื่อโครงสร้าง recursive depth รวมกับการบีบอัดแคชแบบ MLA ก็เกิดความคาดหวังว่าแม้โมเดลเล็กก็อาจให้ความรู้สึกเหมือนโมเดลใหญ่ได้
- แต่ในทางปฏิบัติยังมีปัญหาวิศวกรรมเหลืออยู่ เช่น ต้นทุนการจัดการ branching, พฤติกรรมของหน่วยความจำ, เสถียรภาพในการฝึก, ประสิทธิภาพของ kernel, ความแม่นยำของ dependency และ throughput
- ชื่อ Claude Mythos เอง
- ในสถานการณ์ที่ Anthropic ยังไม่เปิดเผยโครงสร้างทั้งหมด OpenMythos จึงมอบ “รูปทรง” ที่ชุมชนอยากได้
- คีย์เวิร์ดสถาปัตยกรรม AI ล่าสุดอย่าง MoE, MLA, LTI, ACT และ recursive depth ถูกรวมอยู่ในรีโพเดียวกัน
- ทำให้ OpenMythos ถูกมองข้ามว่าเป็นกระแสว่างเปล่าได้ยาก
- และเพราะมันมีไอเดียจริงอยู่ด้วย กระแสจึงอาจยิ่งแรงขึ้น
sheepwave ทำงานอย่างไร
- บทความอธิบายปฏิกิริยารอบ OpenMythos เป็นสามขั้น
- ขั้นของความเชื่อ
- ผู้คนเห็นคำอย่าง Claude Mythos, โอเพนซอร์ส, recursive depth, ประสิทธิภาพของพารามิเตอร์ แล้วตอบสนองต่อ “ความเป็นไปได้” ก่อน
- ในจุดนี้ สิ่งที่ถูกเสพก่อนการมีอยู่ของเส้นทางการฝึกจริงหรือการทำซ้ำผลลัพธ์ด้านประสิทธิภาพ คือ “ความเป็นไปได้ที่ฟังดูสมเหตุสมผล”
- ขั้นของการขยายเสียง
- YouTube, Reddit, จดหมายข่าว, โพสต์บนโซเชียล และสรุปโดย AI ช่วยทวนซ้ำเวอร์ชันที่แรงที่สุดของเรื่องเล่า
- ในขั้นนี้ไม่จำเป็นต้องมีการทำซ้ำ benchmark หรือการตรวจสอบเส้นทางการฝึก
- สิ่งสำคัญคือ “เรื่องที่แพร่กระจายได้ดี”
- ขั้นของความสงสัยระดับโค้ด
-
นักวิเคราะห์โค้ดเริ่ม clone รีโพ ตรวจดูสคริปต์ฝึก, เส้นทาง router, ตรรกะ ACT, การแตกแขนงของ MoE และการตั้งค่า context ขนาดใหญ่
-
แต่โดยมากขั้นนี้มาถึงช้า
-
โครงสร้างนี้เป็นปัญหาเรื่อง information asymmetry
- ข้อความบรรทัดเดียวอย่าง “โมเดล 770M ให้ประสิทธิภาพระดับ 1.3B” แพร่ได้เร็วมาก
- แต่ข้อความอย่าง “ข้ออ้างเรื่องประสิทธิภาพนั้นทำซ้ำได้จากรีโพนี้จริงหรือไม่, การแตกแขนงของ MoE รับมือกับสเกลใหญ่ได้ไหม, หรือค่า bias ของ router ถูกอัปเดตจริงในสคริปต์ฝึกหรือไม่” ต้องอาศัย code review ยาว ๆ
-
ประโยคหนึ่งกลายเป็นโพสต์ได้ แต่อีกประโยคหนึ่งต้องอาศัยการรีวิว
-
เพราะอย่างนี้ สิ่งที่หลงเหลือในความทรงจำสาธารณะมักเป็นคำอ้างที่เรียบง่าย ส่วนผลการตรวจสอบกลับกลายเป็นเชิงอรรถที่มาช้า (footnote)
ทำไม sheepwave ครั้งนี้ถึงต่างออกไป
-
กระแสครั้งนี้มี AI assistant เข้ามาเกี่ยวข้อง
-
ถ้าส่งลิงก์ GitHub ให้ AI, AI สามารถอ่าน README, โครงสร้างไฟล์, คำศัพท์ด้านสถาปัตยกรรม และแหล่งอ้างอิงที่ดูน่าเชื่อถือ แล้วสรุปออกมาได้อย่างโน้มน้าวใจ
-
สิ่งนี้มีประโยชน์ แต่ไม่ใช่การพิสูจน์
-
AI assistant ในสภาพแวดล้อมแชตทั่วไปไม่ได้ทำสิ่งต่อไปนี้
- ทำซ้ำการฝึกแบบหลาย GPU
- ทำซ้ำกราฟ benchmark
- สังเกตว่าความสมดุลของ router ยังคงอยู่หรือไม่ในการฝึกระยะยาว
- วัด throughput ของ MoE
- ตรวจสอบการเริ่มต้นค่าและพฤติกรรมหน่วยความจำของการตั้งค่า context ขนาดใหญ่
-
ดังนั้นปฏิกิริยาแบบ “AI ยังทึ่ง” อาจไม่ใช่การตรวจสอบโค้ดจริง แต่เป็นการตอบสนองต่อ README และโครงสร้างผิวหน้าของรีโพ
-
การแบ่งแยกสำคัญของบทความคือ
- มีกรณีที่ AI ประทับใจโค้ดจริง
- และมีกรณีที่ AI ประทับใจ README
- สองอย่างนี้ไม่เหมือนกัน
-
กระแสรอบนี้ไม่ใช่กระแสของ “เอเจนต์ที่ลงมือทำ” แต่เป็นกระแสของ “สถาปัตยกรรมที่ดูเหมือนกำลังคิด”
-
กระแสสถาปัตยกรรมแบบนี้มักไม่พังลงด้วยเดโมล้มเหลวแบบดราม่า แต่จะเผยจุดอ่อนอย่างเงียบ ๆ ผ่านเส้นทางการฝึก, การทำซ้ำ benchmark, loss function, สถานะการรวมระบบ และเส้นทางการทำงานจริง
ผลการตรวจสอบระดับซอร์สโค้ด
-
บทความยังนำเสนอผลการ ตรวจสอบระดับซอร์สโค้ด ของ OpenMythos มาด้วย
-
การตรวจสอบนี้เทียบการอิมพลีเมนต์โมเดล, สคริปต์ฝึก, การตั้งค่าโมเดลเวอร์ชันย่อย, tokenizer, ชุดทดสอบ, ไฟล์ dependency และคำกล่าวใน README เข้ากับเส้นทางโค้ดจริง
-
จากผลตรวจ OpenMythos ถูกประเมินว่าไม่ใช่กระแสว่างเปล่า (Empty slop)
-
มีองค์ประกอบที่ถูกอิมพลีเมนต์จริงอยู่ด้วย
- มีโครงสร้าง Prelude + Recurrent Block + Coda อยู่จริง
- การทำให้การวนซ้ำมีเสถียรภาพแบบ LTI ถูกประเมินว่าเป็นหนึ่งในองค์ประกอบที่อิมพลีเมนต์ได้แข็งแรง
- การบีบอัดแคชแบบ MLA เชื่อมโยงกับปัญหาการประมวลผล context ยาว
- มีตรรกะการหยุดแบบ ACT อยู่จริง
- โครงสร้าง recursive depth สามารถนำไปถกเถียงต่อเรื่องการขยายสเกล, การจัดสรรคำนวณ, การวนซ้ำ, หน่วยความจำ และการ routing ได้
-
แต่ก็ยังห่างไกลจากระดับความพร้อมใช้งานจริงตามที่เรื่องเล่าสาธารณะชวนให้เข้าใจ
ความต่างสำคัญที่พบจากการตรวจสอบ
-
คำอ้างประสิทธิภาพ 770M vs 1.3B
- ไม่ใช่ผลลัพธ์ที่ทำซ้ำได้จากรีโพนี้ แต่ใกล้เคียงกับคำอ้างหรือการอ้างอิงจากภายนอกมากกว่า
- เพราะฉะนั้นควรมองว่าเป็น “คำอ้างอิง ไม่ใช่ผลลัพธ์”
-
MoE routing
- มีตรรกะการ routing อยู่จริง แต่มีการแตกแขนง Python ซ้อนกัน ทำให้ต้องมองว่าเป็นความเสี่ยงด้าน throughput ในสเกลใหญ่
- นี่ไม่ได้หมายความว่า “เป็นไปไม่ได้แน่นอน” แต่เป็นความเสี่ยงที่ต้องพิสูจน์ด้วยการ profile จริง
-
สมดุลของ router
- มีกลไก bias ของ router เปิดเผยอยู่ แต่ไม่เห็นเส้นทางที่ถูกอัปเดตอย่างชัดเจนในสคริปต์ฝึกที่แจกมา
- ในการฝึกระยะยาว ความเสี่ยงเรื่อง load balancing อาจเพิ่มขึ้น
-
ตรรกะการหยุดแบบ ACT
- มีตรรกะการหยุดแบบ ACT อยู่จริง
- แต่ในเส้นทางการฝึกที่แจกมา ไม่มี ponder loss หรือพจน์ regularization ด้านปริมาณคำนวณแบบชัดเจน
- หัวหยุดอาจได้รับ gradient ทางอ้อมผ่าน loss ของ language model ได้ แต่ไม่มี objective function ที่กระตุ้นการหยุดแบบปรับตัวได้อย่างมีประสิทธิภาพโดยตรง
-
โมดูล MoDA
- มีอยู่ในรูปไฟล์ทดลองแยกต่างหาก แต่ยากจะบอกว่าได้ถูกรวมเข้ากับโมเดลหลักแล้ว
-
โมเดลเวอร์ชันขนาดใหญ่
- การตั้งค่า 100B+ หรือ context 1M ดูใกล้เคียงกับการตั้งค่าเชิงเป้าหมายมากกว่าการตั้งค่าที่นำไปใช้ได้จริง เนื่องจากโครงสร้างที่สร้างบัฟเฟอร์ RoPE ทันที
ปัญหาของป้ายกำกับว่าเป็นงานวิจัย
- OpenMythos อาจมองได้ว่าไม่ใช่โมเดลพร้อมใช้งานจริง แต่เป็นการสร้างคืนเชิงทฤษฎี (theoretical reconstruction) หรือเป็น research artifact
- ป้ายกำกับนี้เองก็สมเหตุสมผล
- โครงการวิจัยอาจมีเส้นทางการฝึกที่ยังไม่สมบูรณ์ โครงสร้างเชิงทดลอง และการรวมระบบที่ยังไม่เสร็จ
- ปัญหาคือ ป้ายกำกับเชิงวิจัยกับกระแสความตื่นเต้นสาธารณะทำงานกันคนละภาษา
ความต่างระหว่างป้ายกำกับวิจัยกับกระแสสาธารณะ
-
ป้ายกำกับวิจัย: “นี่คือการทดลองเชิงทฤษฎี”
- กระแสสาธารณะ: “สิ่งนี้จะเปลี่ยนอนาคตของ AI”
-
ป้ายกำกับวิจัย: “นี่คือการสร้างคืนบนพื้นฐานของงานวิจัยสาธารณะและการคาดคะเน”
- กระแสสาธารณะ: “มีคนทำ Claude Mythos ขึ้นใหม่ได้แล้ว”
-
ป้ายกำกับวิจัย: “นี่คือสถาปัตยกรรมที่ควรสำรวจต่อ”
- กระแสสาธารณะ: “ตอนนี้โมเดลเล็กคิดได้เหมือนโมเดลใหญ่แล้ว”
-
บทความอธิบายความต่างนี้ว่า “ตัวโครงการพูดด้วยภาษาของงานวิจัย แต่ปฏิกิริยาของสาธารณะกลับแปลมันเป็นภาษาของการมาถึงเส้นชัยแล้ว”
สามชั้นสำหรับการประเมินรีโพ AI
- บทความมองว่าเวลาประเมินรีโพโอเพนซอร์สด้าน AI ควรแยกออกเป็นสามชั้น
- Narrative
- สิ่งที่ README, บทความอธิบาย และโพสต์บนโซเชียลบอกเล่า
- Mechanism
- โครงสร้างที่โค้ดอิมพลีเมนต์ไว้จริง
- Operational path
-
ความสามารถที่เส้นทางการฝึก เส้นทางการรัน และเส้นทางการประเมินรองรับได้จริง
-
กระแส AI ส่วนใหญ่เอาสามชั้นนี้ไปรวมกันเป็นเรื่องเดียว
-
แต่การตรวจสอบเชิงวิศวกรรมที่ดีจะต้องแยกสามชั้นนี้ออกจากกัน
บทสรุป
- OpenMythos ไม่ใช่สิ่งที่ควรถูกมองข้ามหรือเยาะเย้ย
- OpenMythos เป็น research artifact ที่มีประโยชน์ น่าสนใจ และมีนัยทางเทคนิค
- แต่สิ่งนี้ยังไม่ใช่หลักฐานว่าสถาปัตยกรรมเพียงอย่างเดียวเอาชนะข้อจำกัดด้านสเกลได้แล้ว
- README เป็นเพียงจุดเริ่มต้น ไม่ใช่จุดสิ้นสุดของการพิสูจน์
- ข้อสรุปของบทความอาจย่อได้ว่า “README ไม่ใช่ฝั่งที่ขึ้นถึงแล้ว (shore) เส้นทางของโค้ดต่างหากคือฝั่ง”
- บทความที่เกี่ยวข้องมีทั้งการวิเคราะห์ sheepwave แบบเต็ม และรายงานตรวจสอบระดับซอร์สโค้ดของ OpenMythos v0.5.0 แยกต่างหาก
https://flamehaven.space/writing/…
ยังไม่มีความคิดเห็น