OpenMythos: ปรากฏโครงการโอเพนซอร์สที่ถอดแบบ Claude Mythos แบบย้อนกลับ
(github.com/kyegomez)- โปรเจกต์โอเพนซอร์สที่สมมุติสถาปัตยกรรมของ Claude Mythos แล้วนำมาสร้างเป็นรูปแบบ “ทรานส์ฟอร์เมอร์ที่คิดซ้ำๆ”
- OpenMythos อ้างอิงจาก Claude Mythos ซึ่งเป็นที่รู้จักว่าเป็นโมเดลรุ่นถัดไปของ Anthropic โดยนำข้อมูลที่เปิดเผยต่อสาธารณะและแนวคิดจากงานวิจัยมาผสมกันเพื่อจำลองสถาปัตยกรรม
- ไม่ใช่โมเดลจริง แต่เป็นโปรเจกต์ที่นำสมมุติฐานว่า “มันอาจทำงานในลักษณะนี้ได้” มาเขียนเป็นโค้ด
แนวคิดหลัก
หัวใจสำคัญของโปรเจกต์นี้คือ ต่างจาก LLM แบบเดิม
แทนที่จะขยายโมเดลให้ใหญ่ขึ้น กลับเลือกใช้วิธีรันสถาปัตยกรรมเดิมซ้ำหลายรอบ
โดยหมุนเลเยอร์เดียวกันซ้ำหลายครั้งเพื่ออัปเดตสถานะภายในอย่างค่อยเป็นค่อยไป
และทำให้เกิดการให้เหตุผลที่ลึกขึ้นในกระบวนการนั้น
โครงสร้างหลัก
- โครงสร้างที่รันบล็อกทรานส์ฟอร์เมอร์เดียวกันซ้ำๆ
- ระหว่างการทำซ้ำ จะมีผู้เชี่ยวชาญที่ต่างกัน (MoE) ถูกเปิดใช้งานแบบเลือกสรร
- ไม่ส่งผลลัพธ์ระหว่างทางออกมาเป็นโทเค็นภายนอก แต่ประมวลผลอยู่ในสถานะภายใน
- ใช้โครงสร้าง attention เพื่อเพิ่มประสิทธิภาพด้านหน่วยความจำ
ความแตกต่างจากแนวทางเดิม
หาก LLM ทั่วไปเป็นแนวทางที่เปิดเผยกระบวนการให้เหตุผลไปพร้อมกับการสร้างโทเค็น
สถาปัตยกรรมนี้จะใกล้เคียงกับการคำนวณซ้ำภายในหลายรอบก่อน แล้วจึงแสดงเฉพาะผลลัพธ์สุดท้าย
กล่าวคือ ไม่ใช่ “คิดไปพูดไป”
แต่เป็นโครงสร้างที่มุ่งไปสู่ “คิดอยู่ข้างในให้เพียงพอก่อนแล้วค่อยพูด”
ความหมาย
แนวทางนี้ยังเชื่อมโยงกับปัญหาต้นทุนที่เกิดจากการใช้โทเค็นเพิ่มขึ้นด้วย
เพราะหากย้ายการให้เหตุผลไปอยู่ในการทำซ้ำภายใน ก็อาจลดจำนวนโทเค็นที่ต้องสร้างออกมาภายนอกได้
อีกทั้งยังอาจมองได้ว่าเป็นทิศทางใหม่ของการพัฒนาโมเดล
เพราะเป็นการยกระดับประสิทธิภาพไม่ใช่ด้วยการเพิ่มจำนวนพารามิเตอร์
แต่ด้วยการเพิ่มปริมาณการคำนวณในขั้นตอนการให้เหตุผล
ข้อจำกัด
ไม่มีการรับประกันว่าสถาปัตยกรรมนี้จะตรงกับ Claude Mythos จริง
และยังขาดทั้งผลการทดสอบประสิทธิภาพที่ผ่านการยืนยันและผลการทดลองขนาดใหญ่
อินไซต์หนึ่งบรรทัด
- แทนที่จะทำให้โมเดลใหญ่ขึ้น การรันโมเดลเดิมซ้ำเพื่อให้คิดได้ลึกขึ้น อาจกลายเป็นแนวทางออกแบบ LLM รุ่นถัดไป
7 ความคิดเห็น
อยากให้มีปุ่มโหวตลบใน GeekNews
> ไม่มีอะไรรับประกันได้ว่าโครงสร้างจะเหมือนกับ Claude Mythos ของจริงทุกประการ และ
งั้นมันก็ไม่ใช่การทำ reverse engineering เลยน่ะสิ;;
ยังไม่เคยเปิดเผยเลย แล้วจะบอกว่าย้อนวิศวกรรมได้ยังไงกัน...??
ไม่ใช่โมเดลจริง แต่เป็นโปรเจกต์ที่นำสมมติฐานว่า “อาจทำงานในลักษณะนี้ได้” มาลงมือเขียนเป็นโค้ด..
แล้วทำไมไม่สร้าง gpt 6 ไปเลย แล้วบอกว่าอาจทำงานแบบนี้ได้ล่ะ~ 555
คนนี้ถ้ามีประเด็นอะไรที่กำลังเป็นกระแสขึ้นมา ก็จะผลิตอะไรตามแพตเทิร์นชื่อ open* ออกมาทุกครั้ง เลยทำให้ภาพลักษณ์ไม่ได้ดีมากนักเท่าไหร่..
พอเห็นว่าใครเป็นคนทำ แล้วพบว่าเป็นหัวหน้าโปรเจกต์เหรียญ ก็พยักหน้าเข้าใจเลยครับ..
อ้อ จริงด้วยครับ ดูจากรายการเรโปแล้วมีโปรเจ็กต์ที่ขึ้นต้นด้วย Open อีกอยู่หลายตัวเหมือนกัน..