LLM ที่ “พัฒนาขึ้นเอง” ของรีโอเดจาเนโร ดูเหมือนเป็นการผสานโมเดลที่มีอยู่เดิม

(github.com/nex-agi)

1 คะแนน โดย GN⁺ 2026-06-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

สถานะบน GitHub เป็น Open และข้อความใน README ของ a778c1ec4e21180ee55c3ea016a348e549e75f09 ระบุว่าโมเดลถูกสร้างจากการผสาน Nex-N2-Pro กับ Qwen3.5-397B-A17B ผ่าน On-Policy Distillation ของโมเดลที่แข็งแกร่งกว่า และในเวอร์ชันก่อนหน้านี้มีการอัปโหลด base merged version ผิดแทนที่จะเป็น final distilled model
ประเด็นปัญหาหลักคือ prefeitura-rio/Rio-3.5-Open-397B ถูกนำเสนอว่าเป็น original 397B model ที่ IplanRIO ฝึกเอง แต่จริง ๆ แล้วน้ำหนักเป็นการ ผสานโดยตรงแบบ element-wise ประมาณ 0.6/0.4 ของ Nex และ Qwen และไม่มีหลักฐานการฝึกเอง
หลังจากลบ system prompt “You are Rio” ที่ฝังไว้แบบฮาร์ดโค้ด และส่งคำถามระบุตัวตน 120 ข้อไปยัง rio-397b ผลการวัดระบุว่าได้คำตอบแบบ Nex 79.2% (95/120), คำตอบแบบ Nex-AGI 73.3% (88/120) และคำตอบแบบ Rio 0.0% (0/120)
ตัวอย่างคำตอบหลังลบพรอมป์ต์มีข้อความอย่าง “I am Nex, from Nex-AGI”, “Nex-AGI is a large-model ecosystem alliance” และ “Shanghai Innovation Institute” ซึ่งถูกยกเป็นกรณีที่เกือบถอดคำอธิบายองค์กรจาก Nex identity data มาโดยตรง
การวิเคราะห์น้ำหนักใช้การวัดความสัมพันธ์ (Rio − Qwen) = α × (Nex − Qwen) แยกตามเทนเซอร์ และเปรียบเทียบ collinearity โดยใช้เกณฑ์ว่า cos_fit จะเป็น ≈ 0 สำหรับโมเดลอิสระ และ ≈ 1 สำหรับโมเดลที่ถูกผสาน
ค่าที่วัดได้คือใน routed experts มี α = 0.571 ± 0.0016, cos_fit = 0.993; ใน lm_head มี α = 0.574, cos_fit = 0.991; ใน attention มี α ≈ 0.585, cos_fit ≈ 0.986; และใน linear-attention projections มี α ≈ 0.586, cos_fit ≈ 0.984
หลังมีการแชร์การแก้ไข README แล้ว 00INDEX ได้ถามกลับว่าเครดิตดังกล่าวหมายถึงการอัปเดตเมื่อหนึ่งชั่วโมงก่อนหรือไม่ ขณะที่ yhcc ตอบว่าควรรอดูในวันถัดไปว่าจะมีการอัปโหลดโมเดลหรือไม่
ประเด็นเรื่องการใช้เงินสาธารณะกลายเป็นข้อถกเถียงแยกต่างหาก โดยมีคอมเมนต์หนึ่งแชร์ลิงก์ X ที่ระบุว่า “No public funds were used” และอีกคอมเมนต์หนึ่งยก X link ที่เป็นคำพูดของนายกเทศมนตรี ต่อมาภาพอ้างอิงมีข้อความว่า “no public money was spent on this model training”

1 ความคิดเห็น

GN⁺ 2026-06-15

ความเห็นใน Hacker News

แม้จะไม่ได้มีส่วนเกี่ยวข้อง แต่สิ่งที่เกิดขึ้นดูเหมือนจะเป็นแบบนี้: 1) โมเดลทางการอ้างว่า อิงกับ Qwen 397B และเนื่องจาก Nex ก็เป็นโมเดลฐานเดียวกัน จึงมีความเป็นไปได้สูงว่าไม่ได้เปิดเผย Nex Pro ออกมาเลย 2) การปรับปรุงน่าจะมาจากการเพิ่ม on-policy distillation เข้าไปในการผสมน้ำหนัก แต่โมเดลที่อัปโหลดกลับไม่มีร่องรอยของการ distill เลย จึงทำให้เกิดความสับสน
3) โมเดลนี้แทบไม่ได้โปรโมตที่ไหนนอกจากโพสต์ลง Reddit เมื่อสองวันก่อน และบังเอิญไปตรงกับนัดแรกของฟุตบอลโลกในบราซิลช่วงสุดสัปดาห์ จึงแพร่กระจายไปเองตามธรรมชาติ นายกเทศมนตรีเมือง Rio ใช้ประโยชน์จากกระแสฟรีก็จริง แต่ไม่ได้ทำร่วมกับทีมนักวิจัย
4) ถ้าเป็นแค่การผสานสองโมเดลเข้าด้วยกัน ก็ไม่เห็นเหตุผลที่จะเปิดเผยโดยอ้างว่าอิง Qwen 397B และถึงขั้นอ้างอิงงานวิจัย SwiReasoning แต่กลับซ่อน Nex ไว้
5) ไม่ว่าอย่างไร ถ้าอัปโหลดโมเดลที่ถูกต้อง ข้ออ้างนี้ก็ตรวจสอบได้ง่าย
- สำหรับข้อ 2 มี https://news.ycombinator.com/item?id=48529544
- ไม่คิดจริง ๆ ว่าวันหนึ่งจะได้เห็นหัวข้อ LLM ของ Rio de Janeiro บน HN ดังนั้นแค่เรื่องนี้เกิดขึ้นมาก็ทำให้ประหลาดใจแล้ว
- ถ้าเป็นการเอาโมเดลฐานไปผสานกับโมเดลที่ผ่านการ fine-tune จากสถาบันอื่น การปรับปรุงอาจมาจากบางส่วนของ น้ำหนักที่ผ่านการ fine-tune ของอีกโมเดลนั้นก็ได้
  ถ้าเป็นกรณีที่อัปโหลดโมเดลที่ดีกว่าขึ้นไป “โดยไม่ได้ตั้งใจ” จริง ป่านนี้ก็น่าจะอัปโหลดไฟล์ที่ถูกต้องได้แล้ว
- ไม่เข้าใจว่าการเปิดตัวในฟุตบอลโลกหมายถึงอะไร บราซิลก็ได้แชมป์มาแล้วตั้ง 5 ครั้งไม่ใช่หรือ?
- เท่าที่ฉันเข้าใจคือ ไม่มีการ distill เลยแม้แต่น้อย และน้ำหนักทั้งหมดคือค่าเฉลี่ยแบบ element-wise 60/40 ระหว่าง Qwen กับ Nex
  ถ้าผู้รับเหมาของ Rio ได้ทำ post-training เองจริงตามที่อ้าง ก็สงสัยว่ามันจะยังเป็นแบบนี้ได้อย่างไร: https://x.com/tenobrus/status/2066243352211996728/photo/1
พอเห็นข้อความที่ว่า “weight tensor ทุกตัวของ Rio เท่ากับส่วนผสม 0.6/0.4 ของ Nex และ Qwen ในระดับหลายพันส่วนเบี่ยงเบนมาตรฐาน และเป็นแบบนี้ตลอดทั้ง 60 ชั้นและทุกองค์ประกอบของเครือข่าย การ fine-tune อื่นใดอธิบายสิ่งนี้ด้วยการอินเตอร์โพเลชันไม่ได้” ก็ทำให้น่าทึ่งกับ ความทนทานของโมเดลดีปเลิร์นนิง ในยุคนี้
หมายความว่าแค่เอาน้ำหนักทั้งหมดมารวมกันแบบเชิงเส้นอย่างง่าย ประสิทธิภาพก็ไม่พัง แถมยังดีขึ้นด้วย
- อาจเรียกได้ว่าดีขึ้นใน benchmark บางตัว
  สุดท้ายมันก็เป็นเกมของการหมุนปุ่มไปมา จนกว่าจะได้ผล benchmark ที่ดีขึ้นสักครั้งแล้วค่อยปล่อยออกมา บน HuggingFace มีทั้งโมเดล fine-tune และโมเดลลูกผสมจำนวนมากที่อ้างว่าดีกว่าในการทดสอบเฉพาะบางอย่าง แต่พอเอาไปใช้ด้านอื่นก็มักแย่ลง
  เรื่องแบบนี้ก็เกิดบ่อยกับโมเดลที่ถูกปรับเพื่อลดการเซ็นเซอร์ด้วย มันอาจทำให้ปล่อยเอาต์พุตที่เมื่อก่อนโดนเซ็นเซอร์ได้สำเร็จ แต่คุณภาพโดยรวมของเอาต์พุตกลับลดลง
- ที่ทำแบบนี้ได้เพราะ Nex เองก็เป็น Qwen3.5 เวอร์ชัน fine-tune อยู่แล้ว: https://huggingface.co/nex-agi/Nex-N2-Pro
  ไม่น่าจะใช้วิธีนี้ได้กับ LLM สองตัวที่ผ่านการ pre-train คนละแบบกัน ต่อให้ทำได้จริง รูปแบบ activation ภายใน มิติ จำนวน expert และ token vocabulary ก็ต้องตรงกันเป๊ะ จึงแทบเป็นไปไม่ได้ในโลกจริงนอกจากงาน fine-tune หรือการทดลองเชิงวิชาการ
- สิ่งนี้เรียกว่า linear mode connectivity และดูเหมือนว่าจะใช้ได้กับโมเดลขนาดใหญ่แทบทุกตัว
  มันได้ผลดีมากจนในหลายกรณีกลายเป็นส่วนหนึ่งของกระบวนการฝึกอย่างชัดเจน เช่น สร้างหลายสาขาของการฝึกแล้วค่อยรวมกลับเข้าด้วยกันก่อนฝึกต่อ
  แต่ทำไมมันถึงได้ผลดีขนาดนี้ เรายังไม่เข้าใจ
- เป็นแนวคิดที่รู้จักกันมาพอสมควรแล้ว: https://arxiv.org/abs/2203.05482
  ถึงอย่างนั้น การที่วิธีง่ายขนาดนี้ใช้ได้จริงก็ยังน่าทึ่งอยู่ดี
- แนวคิดที่ว่าอาจมีชุดการปรับแต่ง “ลับ” ที่ถ้านำไปใช้กับน้ำหนักพวกนี้หรือโมเดลที่เล็กกว่านี้ ก็อาจสร้าง การจำลองสติปัญญา ที่เหนือกว่าอะไรอย่าง Fable ได้มาก น่าสนใจดี
รัฐบาลเมือง Rio de Janeiro ผ่านบริษัทไอที IplanRIO ได้เปิดตัว Rio-3.5-Open-397B และนำเสนอว่าเป็นโมเดล Qwen3.5 แบบ fine-tune ที่พัฒนาขึ้นเอง ซึ่งเอาชนะโมเดลเปิดที่คล้ายกันได้ใน benchmark
แต่ issue ที่ลิงก์ไว้ชี้ว่าจริง ๆ แล้วมันเป็นการผสมน้ำหนักประมาณ Nex-N2 Pro ราว 60% + Qwen3.5-397B-A17B ราว 40% รวมถึง Nex-N2 ที่ถูกเผยแพร่ออกมาก่อนหน้านั้นประมาณ 1 สัปดาห์
- ไม่เคยรู้มาก่อนว่า การผสานโมเดล แบบนี้ทำได้ จากมุมมองซอฟต์แวร์ล้วน ๆ มันก็ฟังดูเป็นไปได้อยู่แล้ว แต่ที่น่าประหลาดใจคือมันใช้งานได้ผลจริง
- ปัญหาไม่ใช่ว่าไม่ได้ให้เครดิตกับ Qwen แต่คือ ไม่ได้พูดถึง Nex-N2 Pro เลย ใช่ไหม?
- ถ้า Rio กำลังใช้เวลากับ LLM ก็แปลว่าควรมีทั้งโครงสร้างพื้นฐานไอทีและซอฟต์แวร์ระดับโลกพร้อมอยู่แล้ว
  ดูเหมือนเป็นการสิ้นเปลืองภาษี
มีคนกำลังหากำไรจากงานของคนอื่นโดยไม่ให้เครดิตอย่างเหมาะสม ช่างเป็นเรื่องที่คาดไม่ถึงจริง ๆ!
- นี่เป็นโมเดล open-weight ที่สร้างบนพื้นฐานของโมเดล open-weight อื่น ๆ
  ประเด็นของข้อถกเถียงคือพวกเขาเผยแพร่มันพร้อมอ้างว่ามี post-training ที่ช่วยปรับปรุงผลลัพธ์ ทั้งที่ภายหลังพบว่าโมเดลที่ปล่อยออกมาไม่ใช่โมเดลที่ผ่าน post-training ตามที่อ้าง
  ตอนนี้บนหน้า HuggingFace ระบุว่าเป็น model merge แล้ว แต่ก่อนหน้านี้ไม่มี พวกเขากำลังพยายามอ้างว่าเผลออัปโหลดโมเดลผิดขึ้น HuggingFace และจะอัปโหลดโมเดลจริงในไม่ช้า
  สรุปคือ พวกเขาคิดว่าน่าจะเอาโมเดล open-weight สองตัวมาต่อกันแล้วอ้างว่าทีมทำ post-training ได้อย่างน่าทึ่ง แต่ดันไม่ได้คิดว่านักวิจัยคนอื่นจะฉลาดพอจับได้ว่าไม่มี post-training อยู่เลย
- สิ่งสำคัญไม่ใช่การให้เครดิต แต่คือ การโกหกเรื่องความสามารถของสถาบันวิจัย
- อยากรู้ว่าคนมองอย่างไร เมื่อรัฐบาลหรือผู้รับเหมาของรัฐบอกว่าทำงานมามาก ทั้งที่จริงแล้วแทบไม่ได้ทำอะไรเลย
- นี่คือ การฉ้อโกงล้วน ๆ ด้วยเงินภาษี จะคาดหวังอย่างอื่นได้อย่างไร
- ถ้าจะเรียกว่าเป็น “งานของพวกเขา” ก็ต้องบอกว่าผู้สร้างคอนเทนต์ต้นฉบับเป็นคนทำไปแล้ว 99.99% จากนั้นบริษัทอเมริกันก็เอามารวมกันจนกลายเป็น LLM ระดับล้ำสมัย และ “พวกเขา” ก็แค่ทำ “งาน” ในการสร้างโมเดลของตัวเองบนฐานของโมเดลอเมริกันนั้น
  ถ้าหมายถึงว่าพวกเขาทำงานไป 0.00001% ของสิ่งที่อยู่ในผลิตภัณฑ์จริง ก็ใช่อยู่
  มันใกล้เคียงกับการ fork Linux distribution มาแล้วเพิ่มธีมกับฟอนต์ไม่กี่อย่าง จากนั้นมีอีกคน fork distribution นั้นต่อแล้วเพิ่มอีกธีมหนึ่ง แล้วมานั่งบ่นเรื่องนั้นมากกว่า
รูปแบบการไม่เปิดเผยโมเดลที่นำมารวม แล้วนำไป รีแบรนด์ ว่า “พัฒนาขึ้นเอง” นั้นน่ากังวล
เพราะบั่นทอนความเชื่อมั่นต่อการพัฒนา AI แบบโอเพนซอร์ส จึงจำเป็นต้องมีการ ติดตามที่มา และมาตรฐานด้านความโปร่งใสที่ดีกว่านี้ในการเปิดเผยโมเดล
น่าจะดีถ้ามีคำอธิบายหรือเอกสารลิงก์เกี่ยวกับการรวมโมเดลว่าเขาทำกันอย่างไร
สงสัยว่าเป็นการรวมค่าน้ำหนักเชิงคณิตศาสตร์จริง ๆ หรือเป็นวิธีแบบ distillation กันแน่ จากเนื้อหาในบทความ ถ้าไม่มีการฝึกเลยก็คงไม่ใช่ distillation
- ใช้เอกสารนี้เป็นจุดเริ่มต้นได้ดี: https://huggingface.co/docs/peft/developer_guides/model_merg...
  โดยทั่วไป การรวมหมายถึงเทคนิคที่นำค่าน้ำหนักของโมเดลต่าง ๆ มาผสมกันโดยตรงในเชิงคณิตศาสตร์ ได้รับความนิยมมากเมื่อราว 2 ปีก่อน และมีสิ่งที่เรียกว่า Frankenmodel ปรากฏอยู่บนกระดานจัดอันดับจำนวนมาก
  ส่วนตัวผมมองว่าการรวมอยู่ในหมวดเดียวกับอย่าง “abliteration” คือเป็นเทคนิคที่ปรับแก้ค่าน้ำหนักของโมเดลแบบผ่าตัด โดยไม่มีลูปการฝึก/การจูนแบบดั้งเดิม หากสนใจสายนี้ก็น่าติดตาม Maxime Labonne
- แทบไม่มีอะไรให้อ่านมากนัก
  Model A: A_1, …, A_n
  Model B: B_1, …, B_n
  C_i = A_i * p + B_i * (1 - p)
  กล่าวคือ แค่เอาค่าน้ำหนักของโมเดลต่าง ๆ มา รวมเชิงเส้น ตามตำแหน่งเท่านั้น
แค่ระดับที่พยายามจะสร้างโมเดลตั้งแต่แรกก็น่าประหลาดใจแล้ว
ถึงอย่างนั้น การที่ฝ่าย IT ของศาลาว่าการกล้าลองอะไรแบบนี้ก็อาจเป็นสัญญาณเชิงบวก
- การรวมโมเดลและการปรับจูนละเอียดเป็นสิ่งที่แม้แต่คนทั่วไปที่พอมีงบเผาเล่นยังทำได้ ดังนั้นรัฐบาลท้องถิ่นก็ทำได้สบาย
- ตามสมมติฐานในคอมเมนต์ที่ตายไปแล้ว ดูเหมือนมีความเป็นไปได้มากกว่าว่า มีการเสนอ งบฝึก LLM ก้อนมหาศาลให้รัฐบาล จากนั้นเก็บเงินส่วนใหญ่เข้ากระเป๋า แล้วค่อยปล่อยโมเดลรวมราคาถูกออกมาเพื่อทำให้การยักยอกดูสมเหตุสมผล
“เอาเถอะนะ Steve(Jobs) ผมคิดว่าสถานการณ์มันใกล้เคียงกับว่าเราทั้งคู่มีเพื่อนบ้านรวยชื่อ Xerox แล้วตอนที่ผมแอบเข้าไปจะขโมยทีวี ก็พบว่าคุณขโมยไปก่อนแล้ว”
— Bill Gates
- ช่วงก่อนหน้าของคำพูดนี้ยิ่งตลกกว่า: “ไม่รู้เกิดอะไรขึ้น Bill Gates ปรากฏตัวมาคนเดียว และถูกพนักงาน Apple 10 คนล้อมไว้ … Steve เริ่มตะโกนใส่ Bill ว่าทำไมถึงผิดสัญญา”
  ตอนจบน่าสนใจกว่านั้นอีก: “Apple ยื่นฟ้องคดีลิขสิทธิ์ครั้งใหญ่ต่อ Microsoft ในปี 1988 แต่สุดท้ายแพ้คดีด้วยเหตุผลทางเทคนิค ผู้พิพากษาเห็นว่า Apple ได้มอบ สิทธิใช้งานถาวร สำหรับส่วนติดต่อผู้ใช้ของ Mac ให้ Microsoft ไปโดยไม่รอบคอบตั้งแต่เดือนพฤศจิกายน 1985”
  ไม่ใช่ว่า Microsoft ขโมย GUI ของ Apple แต่เป็น Apple ที่ยกให้เอง
- ถ้านี่เป็นคำพูดจริงก็คงดีมาก โคตรคม

LLM ที่ “พัฒนาขึ้นเอง” ของรีโอเดจาเนโร ดูเหมือนเป็นการผสานโมเดลที่มีอยู่เดิม

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นใน Hacker News