LLM ที่ “พัฒนาขึ้นเอง” ของรีโอเดจาเนโร ดูเหมือนเป็นการผสานโมเดลที่มีอยู่เดิม
(github.com/nex-agi)- สถานะบน GitHub เป็น Open และข้อความใน README ของ a778c1ec4e21180ee55c3ea016a348e549e75f09 ระบุว่าโมเดลถูกสร้างจากการผสาน
Nex-N2-ProกับQwen3.5-397B-A17Bผ่าน On-Policy Distillation ของโมเดลที่แข็งแกร่งกว่า และในเวอร์ชันก่อนหน้านี้มีการอัปโหลด base merged version ผิดแทนที่จะเป็น final distilled model - ประเด็นปัญหาหลักคือ
prefeitura-rio/Rio-3.5-Open-397Bถูกนำเสนอว่าเป็น original 397B model ที่ IplanRIO ฝึกเอง แต่จริง ๆ แล้วน้ำหนักเป็นการ ผสานโดยตรงแบบ element-wise ประมาณ 0.6/0.4 ของ Nex และ Qwen และไม่มีหลักฐานการฝึกเอง - หลังจากลบ system prompt “You are Rio” ที่ฝังไว้แบบฮาร์ดโค้ด และส่งคำถามระบุตัวตน 120 ข้อไปยัง
rio-397bผลการวัดระบุว่าได้คำตอบแบบNex79.2%(95/120), คำตอบแบบNex-AGI73.3%(88/120)และคำตอบแบบRio0.0%(0/120) - ตัวอย่างคำตอบหลังลบพรอมป์ต์มีข้อความอย่าง “I am Nex, from Nex-AGI”, “Nex-AGI is a large-model ecosystem alliance” และ “Shanghai Innovation Institute” ซึ่งถูกยกเป็นกรณีที่เกือบถอดคำอธิบายองค์กรจาก Nex identity data มาโดยตรง
- การวิเคราะห์น้ำหนักใช้การวัดความสัมพันธ์
(Rio − Qwen) = α × (Nex − Qwen)แยกตามเทนเซอร์ และเปรียบเทียบ collinearity โดยใช้เกณฑ์ว่าcos_fitจะเป็น≈ 0สำหรับโมเดลอิสระ และ≈ 1สำหรับโมเดลที่ถูกผสาน - ค่าที่วัดได้คือใน routed experts มี
α = 0.571 ± 0.0016,cos_fit = 0.993; ในlm_headมีα = 0.574,cos_fit = 0.991; ใน attention มีα ≈ 0.585,cos_fit ≈ 0.986; และใน linear-attention projections มีα ≈ 0.586,cos_fit ≈ 0.984 - หลังมีการแชร์การแก้ไข README แล้ว 00INDEX ได้ถามกลับว่าเครดิตดังกล่าวหมายถึงการอัปเดตเมื่อหนึ่งชั่วโมงก่อนหรือไม่ ขณะที่ yhcc ตอบว่าควรรอดูในวันถัดไปว่าจะมีการอัปโหลดโมเดลหรือไม่
- ประเด็นเรื่องการใช้เงินสาธารณะกลายเป็นข้อถกเถียงแยกต่างหาก โดยมีคอมเมนต์หนึ่งแชร์ลิงก์ X ที่ระบุว่า “No public funds were used” และอีกคอมเมนต์หนึ่งยก X link ที่เป็นคำพูดของนายกเทศมนตรี ต่อมาภาพอ้างอิงมีข้อความว่า “no public money was spent on this model training”
1 ความคิดเห็น
ความเห็นใน Hacker News
แม้จะไม่ได้มีส่วนเกี่ยวข้อง แต่สิ่งที่เกิดขึ้นดูเหมือนจะเป็นแบบนี้: 1) โมเดลทางการอ้างว่า อิงกับ Qwen 397B และเนื่องจาก Nex ก็เป็นโมเดลฐานเดียวกัน จึงมีความเป็นไปได้สูงว่าไม่ได้เปิดเผย Nex Pro ออกมาเลย 2) การปรับปรุงน่าจะมาจากการเพิ่ม on-policy distillation เข้าไปในการผสมน้ำหนัก แต่โมเดลที่อัปโหลดกลับไม่มีร่องรอยของการ distill เลย จึงทำให้เกิดความสับสน
3) โมเดลนี้แทบไม่ได้โปรโมตที่ไหนนอกจากโพสต์ลง Reddit เมื่อสองวันก่อน และบังเอิญไปตรงกับนัดแรกของฟุตบอลโลกในบราซิลช่วงสุดสัปดาห์ จึงแพร่กระจายไปเองตามธรรมชาติ นายกเทศมนตรีเมือง Rio ใช้ประโยชน์จากกระแสฟรีก็จริง แต่ไม่ได้ทำร่วมกับทีมนักวิจัย
4) ถ้าเป็นแค่การผสานสองโมเดลเข้าด้วยกัน ก็ไม่เห็นเหตุผลที่จะเปิดเผยโดยอ้างว่าอิง Qwen 397B และถึงขั้นอ้างอิงงานวิจัย SwiReasoning แต่กลับซ่อน Nex ไว้
5) ไม่ว่าอย่างไร ถ้าอัปโหลดโมเดลที่ถูกต้อง ข้ออ้างนี้ก็ตรวจสอบได้ง่าย
ถ้าเป็นกรณีที่อัปโหลดโมเดลที่ดีกว่าขึ้นไป “โดยไม่ได้ตั้งใจ” จริง ป่านนี้ก็น่าจะอัปโหลดไฟล์ที่ถูกต้องได้แล้ว
ถ้าผู้รับเหมาของ Rio ได้ทำ post-training เองจริงตามที่อ้าง ก็สงสัยว่ามันจะยังเป็นแบบนี้ได้อย่างไร: https://x.com/tenobrus/status/2066243352211996728/photo/1
พอเห็นข้อความที่ว่า “weight tensor ทุกตัวของ Rio เท่ากับส่วนผสม 0.6/0.4 ของ Nex และ Qwen ในระดับหลายพันส่วนเบี่ยงเบนมาตรฐาน และเป็นแบบนี้ตลอดทั้ง 60 ชั้นและทุกองค์ประกอบของเครือข่าย การ fine-tune อื่นใดอธิบายสิ่งนี้ด้วยการอินเตอร์โพเลชันไม่ได้” ก็ทำให้น่าทึ่งกับ ความทนทานของโมเดลดีปเลิร์นนิง ในยุคนี้
หมายความว่าแค่เอาน้ำหนักทั้งหมดมารวมกันแบบเชิงเส้นอย่างง่าย ประสิทธิภาพก็ไม่พัง แถมยังดีขึ้นด้วย
สุดท้ายมันก็เป็นเกมของการหมุนปุ่มไปมา จนกว่าจะได้ผล benchmark ที่ดีขึ้นสักครั้งแล้วค่อยปล่อยออกมา บน HuggingFace มีทั้งโมเดล fine-tune และโมเดลลูกผสมจำนวนมากที่อ้างว่าดีกว่าในการทดสอบเฉพาะบางอย่าง แต่พอเอาไปใช้ด้านอื่นก็มักแย่ลง
เรื่องแบบนี้ก็เกิดบ่อยกับโมเดลที่ถูกปรับเพื่อลดการเซ็นเซอร์ด้วย มันอาจทำให้ปล่อยเอาต์พุตที่เมื่อก่อนโดนเซ็นเซอร์ได้สำเร็จ แต่คุณภาพโดยรวมของเอาต์พุตกลับลดลง
ไม่น่าจะใช้วิธีนี้ได้กับ LLM สองตัวที่ผ่านการ pre-train คนละแบบกัน ต่อให้ทำได้จริง รูปแบบ activation ภายใน มิติ จำนวน expert และ token vocabulary ก็ต้องตรงกันเป๊ะ จึงแทบเป็นไปไม่ได้ในโลกจริงนอกจากงาน fine-tune หรือการทดลองเชิงวิชาการ
มันได้ผลดีมากจนในหลายกรณีกลายเป็นส่วนหนึ่งของกระบวนการฝึกอย่างชัดเจน เช่น สร้างหลายสาขาของการฝึกแล้วค่อยรวมกลับเข้าด้วยกันก่อนฝึกต่อ
แต่ทำไมมันถึงได้ผลดีขนาดนี้ เรายังไม่เข้าใจ
ถึงอย่างนั้น การที่วิธีง่ายขนาดนี้ใช้ได้จริงก็ยังน่าทึ่งอยู่ดี
รัฐบาลเมือง Rio de Janeiro ผ่านบริษัทไอที IplanRIO ได้เปิดตัว Rio-3.5-Open-397B และนำเสนอว่าเป็นโมเดล Qwen3.5 แบบ fine-tune ที่พัฒนาขึ้นเอง ซึ่งเอาชนะโมเดลเปิดที่คล้ายกันได้ใน benchmark
แต่ issue ที่ลิงก์ไว้ชี้ว่าจริง ๆ แล้วมันเป็นการผสมน้ำหนักประมาณ Nex-N2 Pro ราว 60% + Qwen3.5-397B-A17B ราว 40% รวมถึง Nex-N2 ที่ถูกเผยแพร่ออกมาก่อนหน้านั้นประมาณ 1 สัปดาห์
ดูเหมือนเป็นการสิ้นเปลืองภาษี
มีคนกำลังหากำไรจากงานของคนอื่นโดยไม่ให้เครดิตอย่างเหมาะสม ช่างเป็นเรื่องที่คาดไม่ถึงจริง ๆ!
ประเด็นของข้อถกเถียงคือพวกเขาเผยแพร่มันพร้อมอ้างว่ามี post-training ที่ช่วยปรับปรุงผลลัพธ์ ทั้งที่ภายหลังพบว่าโมเดลที่ปล่อยออกมาไม่ใช่โมเดลที่ผ่าน post-training ตามที่อ้าง
ตอนนี้บนหน้า HuggingFace ระบุว่าเป็น model merge แล้ว แต่ก่อนหน้านี้ไม่มี พวกเขากำลังพยายามอ้างว่าเผลออัปโหลดโมเดลผิดขึ้น HuggingFace และจะอัปโหลดโมเดลจริงในไม่ช้า
สรุปคือ พวกเขาคิดว่าน่าจะเอาโมเดล open-weight สองตัวมาต่อกันแล้วอ้างว่าทีมทำ post-training ได้อย่างน่าทึ่ง แต่ดันไม่ได้คิดว่านักวิจัยคนอื่นจะฉลาดพอจับได้ว่าไม่มี post-training อยู่เลย
ถ้าหมายถึงว่าพวกเขาทำงานไป 0.00001% ของสิ่งที่อยู่ในผลิตภัณฑ์จริง ก็ใช่อยู่
มันใกล้เคียงกับการ fork Linux distribution มาแล้วเพิ่มธีมกับฟอนต์ไม่กี่อย่าง จากนั้นมีอีกคน fork distribution นั้นต่อแล้วเพิ่มอีกธีมหนึ่ง แล้วมานั่งบ่นเรื่องนั้นมากกว่า
รูปแบบการไม่เปิดเผยโมเดลที่นำมารวม แล้วนำไป รีแบรนด์ ว่า “พัฒนาขึ้นเอง” นั้นน่ากังวล
เพราะบั่นทอนความเชื่อมั่นต่อการพัฒนา AI แบบโอเพนซอร์ส จึงจำเป็นต้องมีการ ติดตามที่มา และมาตรฐานด้านความโปร่งใสที่ดีกว่านี้ในการเปิดเผยโมเดล
น่าจะดีถ้ามีคำอธิบายหรือเอกสารลิงก์เกี่ยวกับการรวมโมเดลว่าเขาทำกันอย่างไร
สงสัยว่าเป็นการรวมค่าน้ำหนักเชิงคณิตศาสตร์จริง ๆ หรือเป็นวิธีแบบ distillation กันแน่ จากเนื้อหาในบทความ ถ้าไม่มีการฝึกเลยก็คงไม่ใช่ distillation
โดยทั่วไป การรวมหมายถึงเทคนิคที่นำค่าน้ำหนักของโมเดลต่าง ๆ มาผสมกันโดยตรงในเชิงคณิตศาสตร์ ได้รับความนิยมมากเมื่อราว 2 ปีก่อน และมีสิ่งที่เรียกว่า Frankenmodel ปรากฏอยู่บนกระดานจัดอันดับจำนวนมาก
ส่วนตัวผมมองว่าการรวมอยู่ในหมวดเดียวกับอย่าง “abliteration” คือเป็นเทคนิคที่ปรับแก้ค่าน้ำหนักของโมเดลแบบผ่าตัด โดยไม่มีลูปการฝึก/การจูนแบบดั้งเดิม หากสนใจสายนี้ก็น่าติดตาม Maxime Labonne
Model A: A_1, …, A_n
Model B: B_1, …, B_n
C_i = A_i * p + B_i * (1 - p)
กล่าวคือ แค่เอาค่าน้ำหนักของโมเดลต่าง ๆ มา รวมเชิงเส้น ตามตำแหน่งเท่านั้น
แค่ระดับที่พยายามจะสร้างโมเดลตั้งแต่แรกก็น่าประหลาดใจแล้ว
ถึงอย่างนั้น การที่ฝ่าย IT ของศาลาว่าการกล้าลองอะไรแบบนี้ก็อาจเป็นสัญญาณเชิงบวก
“เอาเถอะนะ Steve(Jobs) ผมคิดว่าสถานการณ์มันใกล้เคียงกับว่าเราทั้งคู่มีเพื่อนบ้านรวยชื่อ Xerox แล้วตอนที่ผมแอบเข้าไปจะขโมยทีวี ก็พบว่าคุณขโมยไปก่อนแล้ว”
— Bill Gates
ตอนจบน่าสนใจกว่านั้นอีก: “Apple ยื่นฟ้องคดีลิขสิทธิ์ครั้งใหญ่ต่อ Microsoft ในปี 1988 แต่สุดท้ายแพ้คดีด้วยเหตุผลทางเทคนิค ผู้พิพากษาเห็นว่า Apple ได้มอบ สิทธิใช้งานถาวร สำหรับส่วนติดต่อผู้ใช้ของ Mac ให้ Microsoft ไปโดยไม่รอบคอบตั้งแต่เดือนพฤศจิกายน 1985”
ไม่ใช่ว่า Microsoft ขโมย GUI ของ Apple แต่เป็น Apple ที่ยกให้เอง