18 คะแนน โดย princox 10 일 전 | 7 ความคิดเห็น | แชร์ทาง WhatsApp
  • โปรเจกต์โอเพนซอร์สที่สมมุติสถาปัตยกรรมของ Claude Mythos แล้วนำมาสร้างเป็นรูปแบบ “ทรานส์ฟอร์เมอร์ที่คิดซ้ำๆ”
  • OpenMythos อ้างอิงจาก Claude Mythos ซึ่งเป็นที่รู้จักว่าเป็นโมเดลรุ่นถัดไปของ Anthropic โดยนำข้อมูลที่เปิดเผยต่อสาธารณะและแนวคิดจากงานวิจัยมาผสมกันเพื่อจำลองสถาปัตยกรรม
  • ไม่ใช่โมเดลจริง แต่เป็นโปรเจกต์ที่นำสมมุติฐานว่า “มันอาจทำงานในลักษณะนี้ได้” มาเขียนเป็นโค้ด

แนวคิดหลัก

หัวใจสำคัญของโปรเจกต์นี้คือ ต่างจาก LLM แบบเดิม
แทนที่จะขยายโมเดลให้ใหญ่ขึ้น กลับเลือกใช้วิธีรันสถาปัตยกรรมเดิมซ้ำหลายรอบ

โดยหมุนเลเยอร์เดียวกันซ้ำหลายครั้งเพื่ออัปเดตสถานะภายในอย่างค่อยเป็นค่อยไป
และทำให้เกิดการให้เหตุผลที่ลึกขึ้นในกระบวนการนั้น

โครงสร้างหลัก

  • โครงสร้างที่รันบล็อกทรานส์ฟอร์เมอร์เดียวกันซ้ำๆ
  • ระหว่างการทำซ้ำ จะมีผู้เชี่ยวชาญที่ต่างกัน (MoE) ถูกเปิดใช้งานแบบเลือกสรร
  • ไม่ส่งผลลัพธ์ระหว่างทางออกมาเป็นโทเค็นภายนอก แต่ประมวลผลอยู่ในสถานะภายใน
  • ใช้โครงสร้าง attention เพื่อเพิ่มประสิทธิภาพด้านหน่วยความจำ

ความแตกต่างจากแนวทางเดิม

หาก LLM ทั่วไปเป็นแนวทางที่เปิดเผยกระบวนการให้เหตุผลไปพร้อมกับการสร้างโทเค็น
สถาปัตยกรรมนี้จะใกล้เคียงกับการคำนวณซ้ำภายในหลายรอบก่อน แล้วจึงแสดงเฉพาะผลลัพธ์สุดท้าย

กล่าวคือ ไม่ใช่ “คิดไปพูดไป”
แต่เป็นโครงสร้างที่มุ่งไปสู่ “คิดอยู่ข้างในให้เพียงพอก่อนแล้วค่อยพูด”

ความหมาย

แนวทางนี้ยังเชื่อมโยงกับปัญหาต้นทุนที่เกิดจากการใช้โทเค็นเพิ่มขึ้นด้วย
เพราะหากย้ายการให้เหตุผลไปอยู่ในการทำซ้ำภายใน ก็อาจลดจำนวนโทเค็นที่ต้องสร้างออกมาภายนอกได้

อีกทั้งยังอาจมองได้ว่าเป็นทิศทางใหม่ของการพัฒนาโมเดล
เพราะเป็นการยกระดับประสิทธิภาพไม่ใช่ด้วยการเพิ่มจำนวนพารามิเตอร์
แต่ด้วยการเพิ่มปริมาณการคำนวณในขั้นตอนการให้เหตุผล

ข้อจำกัด

ไม่มีการรับประกันว่าสถาปัตยกรรมนี้จะตรงกับ Claude Mythos จริง
และยังขาดทั้งผลการทดสอบประสิทธิภาพที่ผ่านการยืนยันและผลการทดลองขนาดใหญ่

อินไซต์หนึ่งบรรทัด

  • แทนที่จะทำให้โมเดลใหญ่ขึ้น การรันโมเดลเดิมซ้ำเพื่อให้คิดได้ลึกขึ้น อาจกลายเป็นแนวทางออกแบบ LLM รุ่นถัดไป

7 ความคิดเห็น

 
aliveornot 9 일 전

อยากให้มีปุ่มโหวตลบใน GeekNews

 
skageektp 8 일 전

> ไม่มีอะไรรับประกันได้ว่าโครงสร้างจะเหมือนกับ Claude Mythos ของจริงทุกประการ และ

งั้นมันก็ไม่ใช่การทำ reverse engineering เลยน่ะสิ;;

 
rtyu1120 9 일 전

ยังไม่เคยเปิดเผยเลย แล้วจะบอกว่าย้อนวิศวกรรมได้ยังไงกัน...??

 
akapwhd 8 일 전

ไม่ใช่โมเดลจริง แต่เป็นโปรเจกต์ที่นำสมมติฐานว่า “อาจทำงานในลักษณะนี้ได้” มาลงมือเขียนเป็นโค้ด..

แล้วทำไมไม่สร้าง gpt 6 ไปเลย แล้วบอกว่าอาจทำงานแบบนี้ได้ล่ะ~ 555

 
pmc7777 9 일 전

คนนี้ถ้ามีประเด็นอะไรที่กำลังเป็นกระแสขึ้นมา ก็จะผลิตอะไรตามแพตเทิร์นชื่อ open* ออกมาทุกครั้ง เลยทำให้ภาพลักษณ์ไม่ได้ดีมากนักเท่าไหร่..

 
twiddlingguidable 9 일 전

พอเห็นว่าใครเป็นคนทำ แล้วพบว่าเป็นหัวหน้าโปรเจกต์เหรียญ ก็พยักหน้าเข้าใจเลยครับ..

 
princox 9 일 전

อ้อ จริงด้วยครับ ดูจากรายการเรโปแล้วมีโปรเจ็กต์ที่ขึ้นต้นด้วย Open อีกอยู่หลายตัวเหมือนกัน..