1 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • สถานะบน GitHub เป็น Open และข้อความใน README ของ a778c1ec4e21180ee55c3ea016a348e549e75f09 ระบุว่าโมเดลถูกสร้างจากการผสาน Nex-N2-Pro กับ Qwen3.5-397B-A17B ผ่าน On-Policy Distillation ของโมเดลที่แข็งแกร่งกว่า และในเวอร์ชันก่อนหน้านี้มีการอัปโหลด base merged version ผิดแทนที่จะเป็น final distilled model
  • ประเด็นปัญหาหลักคือ prefeitura-rio/Rio-3.5-Open-397B ถูกนำเสนอว่าเป็น original 397B model ที่ IplanRIO ฝึกเอง แต่จริง ๆ แล้วน้ำหนักเป็นการ ผสานโดยตรงแบบ element-wise ประมาณ 0.6/0.4 ของ Nex และ Qwen และไม่มีหลักฐานการฝึกเอง
  • หลังจากลบ system prompt “You are Rio” ที่ฝังไว้แบบฮาร์ดโค้ด และส่งคำถามระบุตัวตน 120 ข้อไปยัง rio-397b ผลการวัดระบุว่าได้คำตอบแบบ Nex 79.2% (95/120), คำตอบแบบ Nex-AGI 73.3% (88/120) และคำตอบแบบ Rio 0.0% (0/120)
  • ตัวอย่างคำตอบหลังลบพรอมป์ต์มีข้อความอย่าง “I am Nex, from Nex-AGI”, “Nex-AGI is a large-model ecosystem alliance” และ “Shanghai Innovation Institute” ซึ่งถูกยกเป็นกรณีที่เกือบถอดคำอธิบายองค์กรจาก Nex identity data มาโดยตรง
  • การวิเคราะห์น้ำหนักใช้การวัดความสัมพันธ์ (Rio − Qwen) = α × (Nex − Qwen) แยกตามเทนเซอร์ และเปรียบเทียบ collinearity โดยใช้เกณฑ์ว่า cos_fit จะเป็น ≈ 0 สำหรับโมเดลอิสระ และ ≈ 1 สำหรับโมเดลที่ถูกผสาน
  • ค่าที่วัดได้คือใน routed experts มี α = 0.571 ± 0.0016, cos_fit = 0.993; ใน lm_head มี α = 0.574, cos_fit = 0.991; ใน attention มี α ≈ 0.585, cos_fit ≈ 0.986; และใน linear-attention projections มี α ≈ 0.586, cos_fit ≈ 0.984
  • หลังมีการแชร์การแก้ไข README แล้ว 00INDEX ได้ถามกลับว่าเครดิตดังกล่าวหมายถึงการอัปเดตเมื่อหนึ่งชั่วโมงก่อนหรือไม่ ขณะที่ yhcc ตอบว่าควรรอดูในวันถัดไปว่าจะมีการอัปโหลดโมเดลหรือไม่
  • ประเด็นเรื่องการใช้เงินสาธารณะกลายเป็นข้อถกเถียงแยกต่างหาก โดยมีคอมเมนต์หนึ่งแชร์ลิงก์ X ที่ระบุว่า “No public funds were used” และอีกคอมเมนต์หนึ่งยก X link ที่เป็นคำพูดของนายกเทศมนตรี ต่อมาภาพอ้างอิงมีข้อความว่า “no public money was spent on this model training”

1 ความคิดเห็น

 
GN⁺ 4 시간 전
ความเห็นใน Hacker News
  • แม้จะไม่ได้มีส่วนเกี่ยวข้อง แต่สิ่งที่เกิดขึ้นดูเหมือนจะเป็นแบบนี้: 1) โมเดลทางการอ้างว่า อิงกับ Qwen 397B และเนื่องจาก Nex ก็เป็นโมเดลฐานเดียวกัน จึงมีความเป็นไปได้สูงว่าไม่ได้เปิดเผย Nex Pro ออกมาเลย 2) การปรับปรุงน่าจะมาจากการเพิ่ม on-policy distillation เข้าไปในการผสมน้ำหนัก แต่โมเดลที่อัปโหลดกลับไม่มีร่องรอยของการ distill เลย จึงทำให้เกิดความสับสน
    3) โมเดลนี้แทบไม่ได้โปรโมตที่ไหนนอกจากโพสต์ลง Reddit เมื่อสองวันก่อน และบังเอิญไปตรงกับนัดแรกของฟุตบอลโลกในบราซิลช่วงสุดสัปดาห์ จึงแพร่กระจายไปเองตามธรรมชาติ นายกเทศมนตรีเมือง Rio ใช้ประโยชน์จากกระแสฟรีก็จริง แต่ไม่ได้ทำร่วมกับทีมนักวิจัย
    4) ถ้าเป็นแค่การผสานสองโมเดลเข้าด้วยกัน ก็ไม่เห็นเหตุผลที่จะเปิดเผยโดยอ้างว่าอิง Qwen 397B และถึงขั้นอ้างอิงงานวิจัย SwiReasoning แต่กลับซ่อน Nex ไว้
    5) ไม่ว่าอย่างไร ถ้าอัปโหลดโมเดลที่ถูกต้อง ข้ออ้างนี้ก็ตรวจสอบได้ง่าย

    • สำหรับข้อ 2 มี https://news.ycombinator.com/item?id=48529544
    • ไม่คิดจริง ๆ ว่าวันหนึ่งจะได้เห็นหัวข้อ LLM ของ Rio de Janeiro บน HN ดังนั้นแค่เรื่องนี้เกิดขึ้นมาก็ทำให้ประหลาดใจแล้ว
    • ถ้าเป็นการเอาโมเดลฐานไปผสานกับโมเดลที่ผ่านการ fine-tune จากสถาบันอื่น การปรับปรุงอาจมาจากบางส่วนของ น้ำหนักที่ผ่านการ fine-tune ของอีกโมเดลนั้นก็ได้
      ถ้าเป็นกรณีที่อัปโหลดโมเดลที่ดีกว่าขึ้นไป “โดยไม่ได้ตั้งใจ” จริง ป่านนี้ก็น่าจะอัปโหลดไฟล์ที่ถูกต้องได้แล้ว
    • ไม่เข้าใจว่าการเปิดตัวในฟุตบอลโลกหมายถึงอะไร บราซิลก็ได้แชมป์มาแล้วตั้ง 5 ครั้งไม่ใช่หรือ?
    • เท่าที่ฉันเข้าใจคือ ไม่มีการ distill เลยแม้แต่น้อย และน้ำหนักทั้งหมดคือค่าเฉลี่ยแบบ element-wise 60/40 ระหว่าง Qwen กับ Nex
      ถ้าผู้รับเหมาของ Rio ได้ทำ post-training เองจริงตามที่อ้าง ก็สงสัยว่ามันจะยังเป็นแบบนี้ได้อย่างไร: https://x.com/tenobrus/status/2066243352211996728/photo/1
  • พอเห็นข้อความที่ว่า “weight tensor ทุกตัวของ Rio เท่ากับส่วนผสม 0.6/0.4 ของ Nex และ Qwen ในระดับหลายพันส่วนเบี่ยงเบนมาตรฐาน และเป็นแบบนี้ตลอดทั้ง 60 ชั้นและทุกองค์ประกอบของเครือข่าย การ fine-tune อื่นใดอธิบายสิ่งนี้ด้วยการอินเตอร์โพเลชันไม่ได้” ก็ทำให้น่าทึ่งกับ ความทนทานของโมเดลดีปเลิร์นนิง ในยุคนี้
    หมายความว่าแค่เอาน้ำหนักทั้งหมดมารวมกันแบบเชิงเส้นอย่างง่าย ประสิทธิภาพก็ไม่พัง แถมยังดีขึ้นด้วย

    • อาจเรียกได้ว่าดีขึ้นใน benchmark บางตัว
      สุดท้ายมันก็เป็นเกมของการหมุนปุ่มไปมา จนกว่าจะได้ผล benchmark ที่ดีขึ้นสักครั้งแล้วค่อยปล่อยออกมา บน HuggingFace มีทั้งโมเดล fine-tune และโมเดลลูกผสมจำนวนมากที่อ้างว่าดีกว่าในการทดสอบเฉพาะบางอย่าง แต่พอเอาไปใช้ด้านอื่นก็มักแย่ลง
      เรื่องแบบนี้ก็เกิดบ่อยกับโมเดลที่ถูกปรับเพื่อลดการเซ็นเซอร์ด้วย มันอาจทำให้ปล่อยเอาต์พุตที่เมื่อก่อนโดนเซ็นเซอร์ได้สำเร็จ แต่คุณภาพโดยรวมของเอาต์พุตกลับลดลง
    • ที่ทำแบบนี้ได้เพราะ Nex เองก็เป็น Qwen3.5 เวอร์ชัน fine-tune อยู่แล้ว: https://huggingface.co/nex-agi/Nex-N2-Pro
      ไม่น่าจะใช้วิธีนี้ได้กับ LLM สองตัวที่ผ่านการ pre-train คนละแบบกัน ต่อให้ทำได้จริง รูปแบบ activation ภายใน มิติ จำนวน expert และ token vocabulary ก็ต้องตรงกันเป๊ะ จึงแทบเป็นไปไม่ได้ในโลกจริงนอกจากงาน fine-tune หรือการทดลองเชิงวิชาการ
    • สิ่งนี้เรียกว่า linear mode connectivity และดูเหมือนว่าจะใช้ได้กับโมเดลขนาดใหญ่แทบทุกตัว
      มันได้ผลดีมากจนในหลายกรณีกลายเป็นส่วนหนึ่งของกระบวนการฝึกอย่างชัดเจน เช่น สร้างหลายสาขาของการฝึกแล้วค่อยรวมกลับเข้าด้วยกันก่อนฝึกต่อ
      แต่ทำไมมันถึงได้ผลดีขนาดนี้ เรายังไม่เข้าใจ
    • เป็นแนวคิดที่รู้จักกันมาพอสมควรแล้ว: https://arxiv.org/abs/2203.05482
      ถึงอย่างนั้น การที่วิธีง่ายขนาดนี้ใช้ได้จริงก็ยังน่าทึ่งอยู่ดี
    • แนวคิดที่ว่าอาจมีชุดการปรับแต่ง “ลับ” ที่ถ้านำไปใช้กับน้ำหนักพวกนี้หรือโมเดลที่เล็กกว่านี้ ก็อาจสร้าง การจำลองสติปัญญา ที่เหนือกว่าอะไรอย่าง Fable ได้มาก น่าสนใจดี
  • รัฐบาลเมือง Rio de Janeiro ผ่านบริษัทไอที IplanRIO ได้เปิดตัว Rio-3.5-Open-397B และนำเสนอว่าเป็นโมเดล Qwen3.5 แบบ fine-tune ที่พัฒนาขึ้นเอง ซึ่งเอาชนะโมเดลเปิดที่คล้ายกันได้ใน benchmark
    แต่ issue ที่ลิงก์ไว้ชี้ว่าจริง ๆ แล้วมันเป็นการผสมน้ำหนักประมาณ Nex-N2 Pro ราว 60% + Qwen3.5-397B-A17B ราว 40% รวมถึง Nex-N2 ที่ถูกเผยแพร่ออกมาก่อนหน้านั้นประมาณ 1 สัปดาห์

    • ไม่เคยรู้มาก่อนว่า การผสานโมเดล แบบนี้ทำได้ จากมุมมองซอฟต์แวร์ล้วน ๆ มันก็ฟังดูเป็นไปได้อยู่แล้ว แต่ที่น่าประหลาดใจคือมันใช้งานได้ผลจริง
    • ปัญหาไม่ใช่ว่าไม่ได้ให้เครดิตกับ Qwen แต่คือ ไม่ได้พูดถึง Nex-N2 Pro เลย ใช่ไหม?
    • ถ้า Rio กำลังใช้เวลากับ LLM ก็แปลว่าควรมีทั้งโครงสร้างพื้นฐานไอทีและซอฟต์แวร์ระดับโลกพร้อมอยู่แล้ว
      ดูเหมือนเป็นการสิ้นเปลืองภาษี
  • มีคนกำลังหากำไรจากงานของคนอื่นโดยไม่ให้เครดิตอย่างเหมาะสม ช่างเป็นเรื่องที่คาดไม่ถึงจริง ๆ!

    • นี่เป็นโมเดล open-weight ที่สร้างบนพื้นฐานของโมเดล open-weight อื่น ๆ
      ประเด็นของข้อถกเถียงคือพวกเขาเผยแพร่มันพร้อมอ้างว่ามี post-training ที่ช่วยปรับปรุงผลลัพธ์ ทั้งที่ภายหลังพบว่าโมเดลที่ปล่อยออกมาไม่ใช่โมเดลที่ผ่าน post-training ตามที่อ้าง
      ตอนนี้บนหน้า HuggingFace ระบุว่าเป็น model merge แล้ว แต่ก่อนหน้านี้ไม่มี พวกเขากำลังพยายามอ้างว่าเผลออัปโหลดโมเดลผิดขึ้น HuggingFace และจะอัปโหลดโมเดลจริงในไม่ช้า
      สรุปคือ พวกเขาคิดว่าน่าจะเอาโมเดล open-weight สองตัวมาต่อกันแล้วอ้างว่าทีมทำ post-training ได้อย่างน่าทึ่ง แต่ดันไม่ได้คิดว่านักวิจัยคนอื่นจะฉลาดพอจับได้ว่าไม่มี post-training อยู่เลย
    • สิ่งสำคัญไม่ใช่การให้เครดิต แต่คือ การโกหกเรื่องความสามารถของสถาบันวิจัย
    • อยากรู้ว่าคนมองอย่างไร เมื่อรัฐบาลหรือผู้รับเหมาของรัฐบอกว่าทำงานมามาก ทั้งที่จริงแล้วแทบไม่ได้ทำอะไรเลย
    • นี่คือ การฉ้อโกงล้วน ๆ ด้วยเงินภาษี จะคาดหวังอย่างอื่นได้อย่างไร
    • ถ้าจะเรียกว่าเป็น “งานของพวกเขา” ก็ต้องบอกว่าผู้สร้างคอนเทนต์ต้นฉบับเป็นคนทำไปแล้ว 99.99% จากนั้นบริษัทอเมริกันก็เอามารวมกันจนกลายเป็น LLM ระดับล้ำสมัย และ “พวกเขา” ก็แค่ทำ “งาน” ในการสร้างโมเดลของตัวเองบนฐานของโมเดลอเมริกันนั้น
      ถ้าหมายถึงว่าพวกเขาทำงานไป 0.00001% ของสิ่งที่อยู่ในผลิตภัณฑ์จริง ก็ใช่อยู่
      มันใกล้เคียงกับการ fork Linux distribution มาแล้วเพิ่มธีมกับฟอนต์ไม่กี่อย่าง จากนั้นมีอีกคน fork distribution นั้นต่อแล้วเพิ่มอีกธีมหนึ่ง แล้วมานั่งบ่นเรื่องนั้นมากกว่า
  • รูปแบบการไม่เปิดเผยโมเดลที่นำมารวม แล้วนำไป รีแบรนด์ ว่า “พัฒนาขึ้นเอง” นั้นน่ากังวล
    เพราะบั่นทอนความเชื่อมั่นต่อการพัฒนา AI แบบโอเพนซอร์ส จึงจำเป็นต้องมีการ ติดตามที่มา และมาตรฐานด้านความโปร่งใสที่ดีกว่านี้ในการเปิดเผยโมเดล

  • น่าจะดีถ้ามีคำอธิบายหรือเอกสารลิงก์เกี่ยวกับการรวมโมเดลว่าเขาทำกันอย่างไร
    สงสัยว่าเป็นการรวมค่าน้ำหนักเชิงคณิตศาสตร์จริง ๆ หรือเป็นวิธีแบบ distillation กันแน่ จากเนื้อหาในบทความ ถ้าไม่มีการฝึกเลยก็คงไม่ใช่ distillation

    • ใช้เอกสารนี้เป็นจุดเริ่มต้นได้ดี: https://huggingface.co/docs/peft/developer_guides/model_merg...
      โดยทั่วไป การรวมหมายถึงเทคนิคที่นำค่าน้ำหนักของโมเดลต่าง ๆ มาผสมกันโดยตรงในเชิงคณิตศาสตร์ ได้รับความนิยมมากเมื่อราว 2 ปีก่อน และมีสิ่งที่เรียกว่า Frankenmodel ปรากฏอยู่บนกระดานจัดอันดับจำนวนมาก
      ส่วนตัวผมมองว่าการรวมอยู่ในหมวดเดียวกับอย่าง “abliteration” คือเป็นเทคนิคที่ปรับแก้ค่าน้ำหนักของโมเดลแบบผ่าตัด โดยไม่มีลูปการฝึก/การจูนแบบดั้งเดิม หากสนใจสายนี้ก็น่าติดตาม Maxime Labonne
    • แทบไม่มีอะไรให้อ่านมากนัก
      Model A: A_1, …, A_n
      Model B: B_1, …, B_n
      C_i = A_i * p + B_i * (1 - p)
      กล่าวคือ แค่เอาค่าน้ำหนักของโมเดลต่าง ๆ มา รวมเชิงเส้น ตามตำแหน่งเท่านั้น
  • แค่ระดับที่พยายามจะสร้างโมเดลตั้งแต่แรกก็น่าประหลาดใจแล้ว
    ถึงอย่างนั้น การที่ฝ่าย IT ของศาลาว่าการกล้าลองอะไรแบบนี้ก็อาจเป็นสัญญาณเชิงบวก

    • การรวมโมเดลและการปรับจูนละเอียดเป็นสิ่งที่แม้แต่คนทั่วไปที่พอมีงบเผาเล่นยังทำได้ ดังนั้นรัฐบาลท้องถิ่นก็ทำได้สบาย
    • ตามสมมติฐานในคอมเมนต์ที่ตายไปแล้ว ดูเหมือนมีความเป็นไปได้มากกว่าว่า มีการเสนอ งบฝึก LLM ก้อนมหาศาลให้รัฐบาล จากนั้นเก็บเงินส่วนใหญ่เข้ากระเป๋า แล้วค่อยปล่อยโมเดลรวมราคาถูกออกมาเพื่อทำให้การยักยอกดูสมเหตุสมผล
  • “เอาเถอะนะ Steve(Jobs) ผมคิดว่าสถานการณ์มันใกล้เคียงกับว่าเราทั้งคู่มีเพื่อนบ้านรวยชื่อ Xerox แล้วตอนที่ผมแอบเข้าไปจะขโมยทีวี ก็พบว่าคุณขโมยไปก่อนแล้ว”
    — Bill Gates

    • ช่วงก่อนหน้าของคำพูดนี้ยิ่งตลกกว่า: “ไม่รู้เกิดอะไรขึ้น Bill Gates ปรากฏตัวมาคนเดียว และถูกพนักงาน Apple 10 คนล้อมไว้ … Steve เริ่มตะโกนใส่ Bill ว่าทำไมถึงผิดสัญญา”
      ตอนจบน่าสนใจกว่านั้นอีก: “Apple ยื่นฟ้องคดีลิขสิทธิ์ครั้งใหญ่ต่อ Microsoft ในปี 1988 แต่สุดท้ายแพ้คดีด้วยเหตุผลทางเทคนิค ผู้พิพากษาเห็นว่า Apple ได้มอบ สิทธิใช้งานถาวร สำหรับส่วนติดต่อผู้ใช้ของ Mac ให้ Microsoft ไปโดยไม่รอบคอบตั้งแต่เดือนพฤศจิกายน 1985”
      ไม่ใช่ว่า Microsoft ขโมย GUI ของ Apple แต่เป็น Apple ที่ยกให้เอง
    • ถ้านี่เป็นคำพูดจริงก็คงดีมาก โคตรคม