2 คะแนน โดย flamehaven01 5 일 전 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ภาพรวม

  • OpenMythos ถูกอธิบายว่าเป็นการทดลองสถาปัตยกรรมเชิงทฤษฎี (theoretical architecture experiment) ที่พยายามประกอบสร้างโครงสร้างคล้าย Claude Mythos ขึ้นใหม่บนพื้นฐานของงานวิจัยสาธารณะ
  • บทความนี้ไม่ได้มอง OpenMythos เองว่าเป็นแค่ “slop” แบบผิวเผิน
  • แต่ใช้ OpenMythos เป็นกรณีศึกษา เพื่ออธิบายโครงสร้างที่ทำให้ในชุมชน AI ความมั่นใจสาธารณะถูกสร้างขึ้นก่อนการตรวจสอบจริง ผ่าน README, สรุปโดย AI, การแพร่กระจายบน YouTube/Reddit และดาวบน GitHub
  • บทความเรียกปรากฏการณ์นี้ว่า “sheepwave”
  • ในที่นี้ sheepwave ไม่ได้หมายถึงความไม่รู้หรือความอยากรู้อยากเห็นอย่างง่าย ๆ แต่หมายถึงปรากฏการณ์ที่เรื่องเล่าซึ่งดูน่าเชื่อถือในเชิงเทคนิคและดึงดูดในเชิงอารมณ์ แข็งตัวกลายเป็นความเชื่อร่วมกันก่อนจะถูกพิสูจน์
  • ข้อโต้แย้งหลักไม่ใช่ว่า “OpenMythos ไม่น่าสนใจ” แต่คือปัญหาอยู่ที่วิธีที่งานวิจัยซึ่งน่าสนใจถูกเสพเหมือนเป็นหลักฐานของการทะลุข้อจำกัดด้านสถาปัตยกรรมที่ผ่านการพิสูจน์แล้ว (architecture breakthrough)

OpenMythos คืออะไร

  • OpenMythos ไม่ใช่โมเดลที่คัดลอกหรือรั่วไหลมาจาก Claude Mythos ของ Anthropic โดยตรง
  • ผู้พัฒนาระบุว่า OpenMythos ไม่ใช่การนำ Claude Mythos กลับมาทำใหม่แบบที่ได้รับการยืนยันแล้ว แต่เป็นการทดลองสถาปัตยกรรมเชิงทฤษฎีที่ผสานกระแสงานวิจัยสาธารณะหลายสายเข้าด้วยกัน
  • เหตุผลที่ OpenMythos ได้รับความสนใจ ก็เพราะชื่อ Claude Mythos เองมีความลึกลับอยู่แล้ว
  • สถาปัตยกรรมทั้งหมดของ Claude Mythos ยังไม่ถูกเปิดเผย และชุมชนก็เกิดคำถามว่า “ข้างในมีอะไรอยู่?”
  • OpenMythos เข้ามาเติมช่องว่างนั้นด้วยรูปแบบว่า “มันอาจมีโครงสร้างแบบนี้ก็ได้”
  • ในโลกออนไลน์ ประโยคว่า “สร้าง Claude Mythos ขึ้นใหม่แล้ว” แพร่กระจายได้เร็วกว่า “การทดลองสถาปัตยกรรม recursive depth แบบคาดคะเนบนพื้นฐานงานวิจัยสาธารณะ” มาก

ทำไม OpenMythos ถึงถูกจับตาอย่างรวดเร็ว

  • OpenMythos ไปแตะความคาดหวังหลายอย่างที่ชุมชน AI อยากเชื่ออยู่แล้วพร้อมกัน
  1. ความคาดหวังเรื่องประสิทธิภาพของพารามิเตอร์
  • เรื่องที่ว่าโมเดล recursive depth ขนาดเล็กกว่า อาจไปถึงคุณภาพใกล้เคียง Transformer แบบ fixed-depth ที่ใหญ่กว่า เป็นข้อความที่ทรงพลังมาก
  • เรื่องเล่าว่า “ไม่ต้องใหญ่ขึ้น แค่ลึกขึ้น” ฟังดูน่าดึงดูดสำหรับชุมชนที่เริ่มเหนื่อยกับต้นทุน GPU และโครงสร้างที่มีแต่ frontier lab เป็นศูนย์กลาง
  1. สถาปัตยกรรมแบบลูป
  • การคำนวณแบบวนซ้ำทำให้ดูราวกับว่า “กำลังคิด”
  • แต่การคำนวณซ้ำผ่าน shared weights ไม่ได้มีความหมายเดียวกับความสามารถในการให้เหตุผลจริง หรือพฤติกรรมแบบปรับตัวได้
  1. ความคาดหวังต่อฮาร์ดแวร์ส่วนบุคคล/ขนาดเล็ก
  • เมื่อโครงสร้าง recursive depth รวมกับการบีบอัดแคชแบบ MLA ก็เกิดความคาดหวังว่าแม้โมเดลเล็กก็อาจให้ความรู้สึกเหมือนโมเดลใหญ่ได้
  • แต่ในทางปฏิบัติยังมีปัญหาวิศวกรรมเหลืออยู่ เช่น ต้นทุนการจัดการ branching, พฤติกรรมของหน่วยความจำ, เสถียรภาพในการฝึก, ประสิทธิภาพของ kernel, ความแม่นยำของ dependency และ throughput
  1. ชื่อ Claude Mythos เอง
  • ในสถานการณ์ที่ Anthropic ยังไม่เปิดเผยโครงสร้างทั้งหมด OpenMythos จึงมอบ “รูปทรง” ที่ชุมชนอยากได้
  1. คีย์เวิร์ดสถาปัตยกรรม AI ล่าสุดอย่าง MoE, MLA, LTI, ACT และ recursive depth ถูกรวมอยู่ในรีโพเดียวกัน
  • ทำให้ OpenMythos ถูกมองข้ามว่าเป็นกระแสว่างเปล่าได้ยาก
  • และเพราะมันมีไอเดียจริงอยู่ด้วย กระแสจึงอาจยิ่งแรงขึ้น

sheepwave ทำงานอย่างไร

  • บทความอธิบายปฏิกิริยารอบ OpenMythos เป็นสามขั้น
  1. ขั้นของความเชื่อ
  • ผู้คนเห็นคำอย่าง Claude Mythos, โอเพนซอร์ส, recursive depth, ประสิทธิภาพของพารามิเตอร์ แล้วตอบสนองต่อ “ความเป็นไปได้” ก่อน
  • ในจุดนี้ สิ่งที่ถูกเสพก่อนการมีอยู่ของเส้นทางการฝึกจริงหรือการทำซ้ำผลลัพธ์ด้านประสิทธิภาพ คือ “ความเป็นไปได้ที่ฟังดูสมเหตุสมผล”
  1. ขั้นของการขยายเสียง
  • YouTube, Reddit, จดหมายข่าว, โพสต์บนโซเชียล และสรุปโดย AI ช่วยทวนซ้ำเวอร์ชันที่แรงที่สุดของเรื่องเล่า
  • ในขั้นนี้ไม่จำเป็นต้องมีการทำซ้ำ benchmark หรือการตรวจสอบเส้นทางการฝึก
  • สิ่งสำคัญคือ “เรื่องที่แพร่กระจายได้ดี”
  1. ขั้นของความสงสัยระดับโค้ด
  • นักวิเคราะห์โค้ดเริ่ม clone รีโพ ตรวจดูสคริปต์ฝึก, เส้นทาง router, ตรรกะ ACT, การแตกแขนงของ MoE และการตั้งค่า context ขนาดใหญ่

  • แต่โดยมากขั้นนี้มาถึงช้า

  • โครงสร้างนี้เป็นปัญหาเรื่อง information asymmetry

    • ข้อความบรรทัดเดียวอย่าง “โมเดล 770M ให้ประสิทธิภาพระดับ 1.3B” แพร่ได้เร็วมาก
    • แต่ข้อความอย่าง “ข้ออ้างเรื่องประสิทธิภาพนั้นทำซ้ำได้จากรีโพนี้จริงหรือไม่, การแตกแขนงของ MoE รับมือกับสเกลใหญ่ได้ไหม, หรือค่า bias ของ router ถูกอัปเดตจริงในสคริปต์ฝึกหรือไม่” ต้องอาศัย code review ยาว ๆ
  • ประโยคหนึ่งกลายเป็นโพสต์ได้ แต่อีกประโยคหนึ่งต้องอาศัยการรีวิว

  • เพราะอย่างนี้ สิ่งที่หลงเหลือในความทรงจำสาธารณะมักเป็นคำอ้างที่เรียบง่าย ส่วนผลการตรวจสอบกลับกลายเป็นเชิงอรรถที่มาช้า (footnote)

ทำไม sheepwave ครั้งนี้ถึงต่างออกไป

  • กระแสครั้งนี้มี AI assistant เข้ามาเกี่ยวข้อง

  • ถ้าส่งลิงก์ GitHub ให้ AI, AI สามารถอ่าน README, โครงสร้างไฟล์, คำศัพท์ด้านสถาปัตยกรรม และแหล่งอ้างอิงที่ดูน่าเชื่อถือ แล้วสรุปออกมาได้อย่างโน้มน้าวใจ

  • สิ่งนี้มีประโยชน์ แต่ไม่ใช่การพิสูจน์

  • AI assistant ในสภาพแวดล้อมแชตทั่วไปไม่ได้ทำสิ่งต่อไปนี้

    • ทำซ้ำการฝึกแบบหลาย GPU
    • ทำซ้ำกราฟ benchmark
    • สังเกตว่าความสมดุลของ router ยังคงอยู่หรือไม่ในการฝึกระยะยาว
    • วัด throughput ของ MoE
    • ตรวจสอบการเริ่มต้นค่าและพฤติกรรมหน่วยความจำของการตั้งค่า context ขนาดใหญ่
  • ดังนั้นปฏิกิริยาแบบ “AI ยังทึ่ง” อาจไม่ใช่การตรวจสอบโค้ดจริง แต่เป็นการตอบสนองต่อ README และโครงสร้างผิวหน้าของรีโพ

  • การแบ่งแยกสำคัญของบทความคือ

    • มีกรณีที่ AI ประทับใจโค้ดจริง
    • และมีกรณีที่ AI ประทับใจ README
    • สองอย่างนี้ไม่เหมือนกัน
  • กระแสรอบนี้ไม่ใช่กระแสของ “เอเจนต์ที่ลงมือทำ” แต่เป็นกระแสของ “สถาปัตยกรรมที่ดูเหมือนกำลังคิด”

  • กระแสสถาปัตยกรรมแบบนี้มักไม่พังลงด้วยเดโมล้มเหลวแบบดราม่า แต่จะเผยจุดอ่อนอย่างเงียบ ๆ ผ่านเส้นทางการฝึก, การทำซ้ำ benchmark, loss function, สถานะการรวมระบบ และเส้นทางการทำงานจริง

ผลการตรวจสอบระดับซอร์สโค้ด

  • บทความยังนำเสนอผลการ ตรวจสอบระดับซอร์สโค้ด ของ OpenMythos มาด้วย

  • การตรวจสอบนี้เทียบการอิมพลีเมนต์โมเดล, สคริปต์ฝึก, การตั้งค่าโมเดลเวอร์ชันย่อย, tokenizer, ชุดทดสอบ, ไฟล์ dependency และคำกล่าวใน README เข้ากับเส้นทางโค้ดจริง

  • จากผลตรวจ OpenMythos ถูกประเมินว่าไม่ใช่กระแสว่างเปล่า (Empty slop)

  • มีองค์ประกอบที่ถูกอิมพลีเมนต์จริงอยู่ด้วย

    • มีโครงสร้าง Prelude + Recurrent Block + Coda อยู่จริง
    • การทำให้การวนซ้ำมีเสถียรภาพแบบ LTI ถูกประเมินว่าเป็นหนึ่งในองค์ประกอบที่อิมพลีเมนต์ได้แข็งแรง
    • การบีบอัดแคชแบบ MLA เชื่อมโยงกับปัญหาการประมวลผล context ยาว
    • มีตรรกะการหยุดแบบ ACT อยู่จริง
    • โครงสร้าง recursive depth สามารถนำไปถกเถียงต่อเรื่องการขยายสเกล, การจัดสรรคำนวณ, การวนซ้ำ, หน่วยความจำ และการ routing ได้
  • แต่ก็ยังห่างไกลจากระดับความพร้อมใช้งานจริงตามที่เรื่องเล่าสาธารณะชวนให้เข้าใจ

ความต่างสำคัญที่พบจากการตรวจสอบ

  • คำอ้างประสิทธิภาพ 770M vs 1.3B

    • ไม่ใช่ผลลัพธ์ที่ทำซ้ำได้จากรีโพนี้ แต่ใกล้เคียงกับคำอ้างหรือการอ้างอิงจากภายนอกมากกว่า
    • เพราะฉะนั้นควรมองว่าเป็น “คำอ้างอิง ไม่ใช่ผลลัพธ์”
  • MoE routing

    • มีตรรกะการ routing อยู่จริง แต่มีการแตกแขนง Python ซ้อนกัน ทำให้ต้องมองว่าเป็นความเสี่ยงด้าน throughput ในสเกลใหญ่
    • นี่ไม่ได้หมายความว่า “เป็นไปไม่ได้แน่นอน” แต่เป็นความเสี่ยงที่ต้องพิสูจน์ด้วยการ profile จริง
  • สมดุลของ router

    • มีกลไก bias ของ router เปิดเผยอยู่ แต่ไม่เห็นเส้นทางที่ถูกอัปเดตอย่างชัดเจนในสคริปต์ฝึกที่แจกมา
    • ในการฝึกระยะยาว ความเสี่ยงเรื่อง load balancing อาจเพิ่มขึ้น
  • ตรรกะการหยุดแบบ ACT

    • มีตรรกะการหยุดแบบ ACT อยู่จริง
    • แต่ในเส้นทางการฝึกที่แจกมา ไม่มี ponder loss หรือพจน์ regularization ด้านปริมาณคำนวณแบบชัดเจน
    • หัวหยุดอาจได้รับ gradient ทางอ้อมผ่าน loss ของ language model ได้ แต่ไม่มี objective function ที่กระตุ้นการหยุดแบบปรับตัวได้อย่างมีประสิทธิภาพโดยตรง
  • โมดูล MoDA

    • มีอยู่ในรูปไฟล์ทดลองแยกต่างหาก แต่ยากจะบอกว่าได้ถูกรวมเข้ากับโมเดลหลักแล้ว
  • โมเดลเวอร์ชันขนาดใหญ่

    • การตั้งค่า 100B+ หรือ context 1M ดูใกล้เคียงกับการตั้งค่าเชิงเป้าหมายมากกว่าการตั้งค่าที่นำไปใช้ได้จริง เนื่องจากโครงสร้างที่สร้างบัฟเฟอร์ RoPE ทันที

ปัญหาของป้ายกำกับว่าเป็นงานวิจัย

  • OpenMythos อาจมองได้ว่าไม่ใช่โมเดลพร้อมใช้งานจริง แต่เป็นการสร้างคืนเชิงทฤษฎี (theoretical reconstruction) หรือเป็น research artifact
  • ป้ายกำกับนี้เองก็สมเหตุสมผล
  • โครงการวิจัยอาจมีเส้นทางการฝึกที่ยังไม่สมบูรณ์ โครงสร้างเชิงทดลอง และการรวมระบบที่ยังไม่เสร็จ
  • ปัญหาคือ ป้ายกำกับเชิงวิจัยกับกระแสความตื่นเต้นสาธารณะทำงานกันคนละภาษา

ความต่างระหว่างป้ายกำกับวิจัยกับกระแสสาธารณะ

  • ป้ายกำกับวิจัย: “นี่คือการทดลองเชิงทฤษฎี”

    • กระแสสาธารณะ: “สิ่งนี้จะเปลี่ยนอนาคตของ AI”
  • ป้ายกำกับวิจัย: “นี่คือการสร้างคืนบนพื้นฐานของงานวิจัยสาธารณะและการคาดคะเน”

    • กระแสสาธารณะ: “มีคนทำ Claude Mythos ขึ้นใหม่ได้แล้ว”
  • ป้ายกำกับวิจัย: “นี่คือสถาปัตยกรรมที่ควรสำรวจต่อ”

    • กระแสสาธารณะ: “ตอนนี้โมเดลเล็กคิดได้เหมือนโมเดลใหญ่แล้ว”
  • บทความอธิบายความต่างนี้ว่า “ตัวโครงการพูดด้วยภาษาของงานวิจัย แต่ปฏิกิริยาของสาธารณะกลับแปลมันเป็นภาษาของการมาถึงเส้นชัยแล้ว”

สามชั้นสำหรับการประเมินรีโพ AI

  • บทความมองว่าเวลาประเมินรีโพโอเพนซอร์สด้าน AI ควรแยกออกเป็นสามชั้น
  1. Narrative
  • สิ่งที่ README, บทความอธิบาย และโพสต์บนโซเชียลบอกเล่า
  1. Mechanism
  • โครงสร้างที่โค้ดอิมพลีเมนต์ไว้จริง
  1. Operational path
  • ความสามารถที่เส้นทางการฝึก เส้นทางการรัน และเส้นทางการประเมินรองรับได้จริง

  • กระแส AI ส่วนใหญ่เอาสามชั้นนี้ไปรวมกันเป็นเรื่องเดียว

  • แต่การตรวจสอบเชิงวิศวกรรมที่ดีจะต้องแยกสามชั้นนี้ออกจากกัน

บทสรุป

  • OpenMythos ไม่ใช่สิ่งที่ควรถูกมองข้ามหรือเยาะเย้ย
  • OpenMythos เป็น research artifact ที่มีประโยชน์ น่าสนใจ และมีนัยทางเทคนิค
  • แต่สิ่งนี้ยังไม่ใช่หลักฐานว่าสถาปัตยกรรมเพียงอย่างเดียวเอาชนะข้อจำกัดด้านสเกลได้แล้ว
  • README เป็นเพียงจุดเริ่มต้น ไม่ใช่จุดสิ้นสุดของการพิสูจน์
  • ข้อสรุปของบทความอาจย่อได้ว่า “README ไม่ใช่ฝั่งที่ขึ้นถึงแล้ว (shore) เส้นทางของโค้ดต่างหากคือฝั่ง”
  • บทความที่เกี่ยวข้องมีทั้งการวิเคราะห์ sheepwave แบบเต็ม และรายงานตรวจสอบระดับซอร์สโค้ดของ OpenMythos v0.5.0 แยกต่างหาก
    https://flamehaven.space/writing/…

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น