OpenMythos: การคาดเดาสถาปัตยกรรม Claude Mythos ที่สร้างคืนจากงานวิจัยสาธารณะ หรือเป็นเพียงกระแส AI hype อีกรอบ

(flamehaven.space)

2 คะแนน โดย flamehaven01 5 일 전 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ภาพรวม

OpenMythos ถูกอธิบายว่าเป็นการทดลองสถาปัตยกรรมเชิงทฤษฎี (theoretical architecture experiment) ที่พยายามประกอบสร้างโครงสร้างคล้าย Claude Mythos ขึ้นใหม่บนพื้นฐานของงานวิจัยสาธารณะ
บทความนี้ไม่ได้มอง OpenMythos เองว่าเป็นแค่ “slop” แบบผิวเผิน
แต่ใช้ OpenMythos เป็นกรณีศึกษา เพื่ออธิบายโครงสร้างที่ทำให้ในชุมชน AI ความมั่นใจสาธารณะถูกสร้างขึ้นก่อนการตรวจสอบจริง ผ่าน README, สรุปโดย AI, การแพร่กระจายบน YouTube/Reddit และดาวบน GitHub
บทความเรียกปรากฏการณ์นี้ว่า “sheepwave”
ในที่นี้ sheepwave ไม่ได้หมายถึงความไม่รู้หรือความอยากรู้อยากเห็นอย่างง่าย ๆ แต่หมายถึงปรากฏการณ์ที่เรื่องเล่าซึ่งดูน่าเชื่อถือในเชิงเทคนิคและดึงดูดในเชิงอารมณ์ แข็งตัวกลายเป็นความเชื่อร่วมกันก่อนจะถูกพิสูจน์
ข้อโต้แย้งหลักไม่ใช่ว่า “OpenMythos ไม่น่าสนใจ” แต่คือปัญหาอยู่ที่วิธีที่งานวิจัยซึ่งน่าสนใจถูกเสพเหมือนเป็นหลักฐานของการทะลุข้อจำกัดด้านสถาปัตยกรรมที่ผ่านการพิสูจน์แล้ว (architecture breakthrough)

OpenMythos คืออะไร

OpenMythos ไม่ใช่โมเดลที่คัดลอกหรือรั่วไหลมาจาก Claude Mythos ของ Anthropic โดยตรง
ผู้พัฒนาระบุว่า OpenMythos ไม่ใช่การนำ Claude Mythos กลับมาทำใหม่แบบที่ได้รับการยืนยันแล้ว แต่เป็นการทดลองสถาปัตยกรรมเชิงทฤษฎีที่ผสานกระแสงานวิจัยสาธารณะหลายสายเข้าด้วยกัน
เหตุผลที่ OpenMythos ได้รับความสนใจ ก็เพราะชื่อ Claude Mythos เองมีความลึกลับอยู่แล้ว
สถาปัตยกรรมทั้งหมดของ Claude Mythos ยังไม่ถูกเปิดเผย และชุมชนก็เกิดคำถามว่า “ข้างในมีอะไรอยู่?”
OpenMythos เข้ามาเติมช่องว่างนั้นด้วยรูปแบบว่า “มันอาจมีโครงสร้างแบบนี้ก็ได้”
ในโลกออนไลน์ ประโยคว่า “สร้าง Claude Mythos ขึ้นใหม่แล้ว” แพร่กระจายได้เร็วกว่า “การทดลองสถาปัตยกรรม recursive depth แบบคาดคะเนบนพื้นฐานงานวิจัยสาธารณะ” มาก

ทำไม OpenMythos ถึงถูกจับตาอย่างรวดเร็ว

OpenMythos ไปแตะความคาดหวังหลายอย่างที่ชุมชน AI อยากเชื่ออยู่แล้วพร้อมกัน

ความคาดหวังเรื่องประสิทธิภาพของพารามิเตอร์

เรื่องที่ว่าโมเดล recursive depth ขนาดเล็กกว่า อาจไปถึงคุณภาพใกล้เคียง Transformer แบบ fixed-depth ที่ใหญ่กว่า เป็นข้อความที่ทรงพลังมาก
เรื่องเล่าว่า “ไม่ต้องใหญ่ขึ้น แค่ลึกขึ้น” ฟังดูน่าดึงดูดสำหรับชุมชนที่เริ่มเหนื่อยกับต้นทุน GPU และโครงสร้างที่มีแต่ frontier lab เป็นศูนย์กลาง

สถาปัตยกรรมแบบลูป

การคำนวณแบบวนซ้ำทำให้ดูราวกับว่า “กำลังคิด”
แต่การคำนวณซ้ำผ่าน shared weights ไม่ได้มีความหมายเดียวกับความสามารถในการให้เหตุผลจริง หรือพฤติกรรมแบบปรับตัวได้

ความคาดหวังต่อฮาร์ดแวร์ส่วนบุคคล/ขนาดเล็ก

เมื่อโครงสร้าง recursive depth รวมกับการบีบอัดแคชแบบ MLA ก็เกิดความคาดหวังว่าแม้โมเดลเล็กก็อาจให้ความรู้สึกเหมือนโมเดลใหญ่ได้
แต่ในทางปฏิบัติยังมีปัญหาวิศวกรรมเหลืออยู่ เช่น ต้นทุนการจัดการ branching, พฤติกรรมของหน่วยความจำ, เสถียรภาพในการฝึก, ประสิทธิภาพของ kernel, ความแม่นยำของ dependency และ throughput

ชื่อ Claude Mythos เอง

ในสถานการณ์ที่ Anthropic ยังไม่เปิดเผยโครงสร้างทั้งหมด OpenMythos จึงมอบ “รูปทรง” ที่ชุมชนอยากได้

คีย์เวิร์ดสถาปัตยกรรม AI ล่าสุดอย่าง MoE, MLA, LTI, ACT และ recursive depth ถูกรวมอยู่ในรีโพเดียวกัน

ทำให้ OpenMythos ถูกมองข้ามว่าเป็นกระแสว่างเปล่าได้ยาก
และเพราะมันมีไอเดียจริงอยู่ด้วย กระแสจึงอาจยิ่งแรงขึ้น

sheepwave ทำงานอย่างไร

บทความอธิบายปฏิกิริยารอบ OpenMythos เป็นสามขั้น

ขั้นของความเชื่อ

ผู้คนเห็นคำอย่าง Claude Mythos, โอเพนซอร์ส, recursive depth, ประสิทธิภาพของพารามิเตอร์ แล้วตอบสนองต่อ “ความเป็นไปได้” ก่อน
ในจุดนี้ สิ่งที่ถูกเสพก่อนการมีอยู่ของเส้นทางการฝึกจริงหรือการทำซ้ำผลลัพธ์ด้านประสิทธิภาพ คือ “ความเป็นไปได้ที่ฟังดูสมเหตุสมผล”

ขั้นของการขยายเสียง

YouTube, Reddit, จดหมายข่าว, โพสต์บนโซเชียล และสรุปโดย AI ช่วยทวนซ้ำเวอร์ชันที่แรงที่สุดของเรื่องเล่า
ในขั้นนี้ไม่จำเป็นต้องมีการทำซ้ำ benchmark หรือการตรวจสอบเส้นทางการฝึก
สิ่งสำคัญคือ “เรื่องที่แพร่กระจายได้ดี”

ขั้นของความสงสัยระดับโค้ด

นักวิเคราะห์โค้ดเริ่ม clone รีโพ ตรวจดูสคริปต์ฝึก, เส้นทาง router, ตรรกะ ACT, การแตกแขนงของ MoE และการตั้งค่า context ขนาดใหญ่
แต่โดยมากขั้นนี้มาถึงช้า
โครงสร้างนี้เป็นปัญหาเรื่อง information asymmetry
- ข้อความบรรทัดเดียวอย่าง “โมเดล 770M ให้ประสิทธิภาพระดับ 1.3B” แพร่ได้เร็วมาก
- แต่ข้อความอย่าง “ข้ออ้างเรื่องประสิทธิภาพนั้นทำซ้ำได้จากรีโพนี้จริงหรือไม่, การแตกแขนงของ MoE รับมือกับสเกลใหญ่ได้ไหม, หรือค่า bias ของ router ถูกอัปเดตจริงในสคริปต์ฝึกหรือไม่” ต้องอาศัย code review ยาว ๆ
ประโยคหนึ่งกลายเป็นโพสต์ได้ แต่อีกประโยคหนึ่งต้องอาศัยการรีวิว
เพราะอย่างนี้ สิ่งที่หลงเหลือในความทรงจำสาธารณะมักเป็นคำอ้างที่เรียบง่าย ส่วนผลการตรวจสอบกลับกลายเป็นเชิงอรรถที่มาช้า (footnote)

ทำไม sheepwave ครั้งนี้ถึงต่างออกไป

กระแสครั้งนี้มี AI assistant เข้ามาเกี่ยวข้อง
ถ้าส่งลิงก์ GitHub ให้ AI, AI สามารถอ่าน README, โครงสร้างไฟล์, คำศัพท์ด้านสถาปัตยกรรม และแหล่งอ้างอิงที่ดูน่าเชื่อถือ แล้วสรุปออกมาได้อย่างโน้มน้าวใจ
สิ่งนี้มีประโยชน์ แต่ไม่ใช่การพิสูจน์
AI assistant ในสภาพแวดล้อมแชตทั่วไปไม่ได้ทำสิ่งต่อไปนี้
- ทำซ้ำการฝึกแบบหลาย GPU
- ทำซ้ำกราฟ benchmark
- สังเกตว่าความสมดุลของ router ยังคงอยู่หรือไม่ในการฝึกระยะยาว
- วัด throughput ของ MoE
- ตรวจสอบการเริ่มต้นค่าและพฤติกรรมหน่วยความจำของการตั้งค่า context ขนาดใหญ่
ดังนั้นปฏิกิริยาแบบ “AI ยังทึ่ง” อาจไม่ใช่การตรวจสอบโค้ดจริง แต่เป็นการตอบสนองต่อ README และโครงสร้างผิวหน้าของรีโพ
การแบ่งแยกสำคัญของบทความคือ
- มีกรณีที่ AI ประทับใจโค้ดจริง
- และมีกรณีที่ AI ประทับใจ README
- สองอย่างนี้ไม่เหมือนกัน
กระแสรอบนี้ไม่ใช่กระแสของ “เอเจนต์ที่ลงมือทำ” แต่เป็นกระแสของ “สถาปัตยกรรมที่ดูเหมือนกำลังคิด”
กระแสสถาปัตยกรรมแบบนี้มักไม่พังลงด้วยเดโมล้มเหลวแบบดราม่า แต่จะเผยจุดอ่อนอย่างเงียบ ๆ ผ่านเส้นทางการฝึก, การทำซ้ำ benchmark, loss function, สถานะการรวมระบบ และเส้นทางการทำงานจริง

ผลการตรวจสอบระดับซอร์สโค้ด

บทความยังนำเสนอผลการ ตรวจสอบระดับซอร์สโค้ด ของ OpenMythos มาด้วย
การตรวจสอบนี้เทียบการอิมพลีเมนต์โมเดล, สคริปต์ฝึก, การตั้งค่าโมเดลเวอร์ชันย่อย, tokenizer, ชุดทดสอบ, ไฟล์ dependency และคำกล่าวใน README เข้ากับเส้นทางโค้ดจริง
จากผลตรวจ OpenMythos ถูกประเมินว่าไม่ใช่กระแสว่างเปล่า (Empty slop)
มีองค์ประกอบที่ถูกอิมพลีเมนต์จริงอยู่ด้วย
- มีโครงสร้าง Prelude + Recurrent Block + Coda อยู่จริง
- การทำให้การวนซ้ำมีเสถียรภาพแบบ LTI ถูกประเมินว่าเป็นหนึ่งในองค์ประกอบที่อิมพลีเมนต์ได้แข็งแรง
- การบีบอัดแคชแบบ MLA เชื่อมโยงกับปัญหาการประมวลผล context ยาว
- มีตรรกะการหยุดแบบ ACT อยู่จริง
- โครงสร้าง recursive depth สามารถนำไปถกเถียงต่อเรื่องการขยายสเกล, การจัดสรรคำนวณ, การวนซ้ำ, หน่วยความจำ และการ routing ได้
แต่ก็ยังห่างไกลจากระดับความพร้อมใช้งานจริงตามที่เรื่องเล่าสาธารณะชวนให้เข้าใจ

ความต่างสำคัญที่พบจากการตรวจสอบ

คำอ้างประสิทธิภาพ 770M vs 1.3B
- ไม่ใช่ผลลัพธ์ที่ทำซ้ำได้จากรีโพนี้ แต่ใกล้เคียงกับคำอ้างหรือการอ้างอิงจากภายนอกมากกว่า
- เพราะฉะนั้นควรมองว่าเป็น “คำอ้างอิง ไม่ใช่ผลลัพธ์”
MoE routing
- มีตรรกะการ routing อยู่จริง แต่มีการแตกแขนง Python ซ้อนกัน ทำให้ต้องมองว่าเป็นความเสี่ยงด้าน throughput ในสเกลใหญ่
- นี่ไม่ได้หมายความว่า “เป็นไปไม่ได้แน่นอน” แต่เป็นความเสี่ยงที่ต้องพิสูจน์ด้วยการ profile จริง
สมดุลของ router
- มีกลไก bias ของ router เปิดเผยอยู่ แต่ไม่เห็นเส้นทางที่ถูกอัปเดตอย่างชัดเจนในสคริปต์ฝึกที่แจกมา
- ในการฝึกระยะยาว ความเสี่ยงเรื่อง load balancing อาจเพิ่มขึ้น
ตรรกะการหยุดแบบ ACT
- มีตรรกะการหยุดแบบ ACT อยู่จริง
- แต่ในเส้นทางการฝึกที่แจกมา ไม่มี ponder loss หรือพจน์ regularization ด้านปริมาณคำนวณแบบชัดเจน
- หัวหยุดอาจได้รับ gradient ทางอ้อมผ่าน loss ของ language model ได้ แต่ไม่มี objective function ที่กระตุ้นการหยุดแบบปรับตัวได้อย่างมีประสิทธิภาพโดยตรง
โมดูล MoDA
- มีอยู่ในรูปไฟล์ทดลองแยกต่างหาก แต่ยากจะบอกว่าได้ถูกรวมเข้ากับโมเดลหลักแล้ว
โมเดลเวอร์ชันขนาดใหญ่
- การตั้งค่า 100B+ หรือ context 1M ดูใกล้เคียงกับการตั้งค่าเชิงเป้าหมายมากกว่าการตั้งค่าที่นำไปใช้ได้จริง เนื่องจากโครงสร้างที่สร้างบัฟเฟอร์ RoPE ทันที

ปัญหาของป้ายกำกับว่าเป็นงานวิจัย

OpenMythos อาจมองได้ว่าไม่ใช่โมเดลพร้อมใช้งานจริง แต่เป็นการสร้างคืนเชิงทฤษฎี (theoretical reconstruction) หรือเป็น research artifact
ป้ายกำกับนี้เองก็สมเหตุสมผล
โครงการวิจัยอาจมีเส้นทางการฝึกที่ยังไม่สมบูรณ์ โครงสร้างเชิงทดลอง และการรวมระบบที่ยังไม่เสร็จ
ปัญหาคือ ป้ายกำกับเชิงวิจัยกับกระแสความตื่นเต้นสาธารณะทำงานกันคนละภาษา

ความต่างระหว่างป้ายกำกับวิจัยกับกระแสสาธารณะ

ป้ายกำกับวิจัย: “นี่คือการทดลองเชิงทฤษฎี”
- กระแสสาธารณะ: “สิ่งนี้จะเปลี่ยนอนาคตของ AI”
ป้ายกำกับวิจัย: “นี่คือการสร้างคืนบนพื้นฐานของงานวิจัยสาธารณะและการคาดคะเน”
- กระแสสาธารณะ: “มีคนทำ Claude Mythos ขึ้นใหม่ได้แล้ว”
ป้ายกำกับวิจัย: “นี่คือสถาปัตยกรรมที่ควรสำรวจต่อ”
- กระแสสาธารณะ: “ตอนนี้โมเดลเล็กคิดได้เหมือนโมเดลใหญ่แล้ว”
บทความอธิบายความต่างนี้ว่า “ตัวโครงการพูดด้วยภาษาของงานวิจัย แต่ปฏิกิริยาของสาธารณะกลับแปลมันเป็นภาษาของการมาถึงเส้นชัยแล้ว”

สามชั้นสำหรับการประเมินรีโพ AI

บทความมองว่าเวลาประเมินรีโพโอเพนซอร์สด้าน AI ควรแยกออกเป็นสามชั้น

Narrative

สิ่งที่ README, บทความอธิบาย และโพสต์บนโซเชียลบอกเล่า

Mechanism

โครงสร้างที่โค้ดอิมพลีเมนต์ไว้จริง

Operational path

ความสามารถที่เส้นทางการฝึก เส้นทางการรัน และเส้นทางการประเมินรองรับได้จริง
กระแส AI ส่วนใหญ่เอาสามชั้นนี้ไปรวมกันเป็นเรื่องเดียว
แต่การตรวจสอบเชิงวิศวกรรมที่ดีจะต้องแยกสามชั้นนี้ออกจากกัน

บทสรุป

OpenMythos ไม่ใช่สิ่งที่ควรถูกมองข้ามหรือเยาะเย้ย
OpenMythos เป็น research artifact ที่มีประโยชน์ น่าสนใจ และมีนัยทางเทคนิค
แต่สิ่งนี้ยังไม่ใช่หลักฐานว่าสถาปัตยกรรมเพียงอย่างเดียวเอาชนะข้อจำกัดด้านสเกลได้แล้ว
README เป็นเพียงจุดเริ่มต้น ไม่ใช่จุดสิ้นสุดของการพิสูจน์
ข้อสรุปของบทความอาจย่อได้ว่า “README ไม่ใช่ฝั่งที่ขึ้นถึงแล้ว (shore) เส้นทางของโค้ดต่างหากคือฝั่ง”
บทความที่เกี่ยวข้องมีทั้งการวิเคราะห์ sheepwave แบบเต็ม และรายงานตรวจสอบระดับซอร์สโค้ดของ OpenMythos v0.5.0 แยกต่างหาก
https://flamehaven.space/writing/…

OpenMythos: การคาดเดาสถาปัตยกรรม Claude Mythos ที่สร้างคืนจากงานวิจัยสาธารณะ หรือเป็นเพียงกระแส AI hype อีกรอบ

ภาพรวม

OpenMythos คืออะไร

ทำไม OpenMythos ถึงถูกจับตาอย่างรวดเร็ว

sheepwave ทำงานอย่างไร

ทำไม sheepwave ครั้งนี้ถึงต่างออกไป

ผลการตรวจสอบระดับซอร์สโค้ด

ความต่างสำคัญที่พบจากการตรวจสอบ

ปัญหาของป้ายกำกับว่าเป็นงานวิจัย

ความต่างระหว่างป้ายกำกับวิจัยกับกระแสสาธารณะ

สามชั้นสำหรับการประเมินรีโพ AI

บทสรุป

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น