2 คะแนน โดย GN⁺ 2025-03-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Hunyuan-T1 เป็นโมเดล MoE แบบ Hybrid-Transformer-Mamba ขนาดใหญ่มหึมาที่พัฒนาบนพื้นฐานของ TurboS
  • ขยายความสามารถด้านการอนุมานและยกระดับประสิทธิภาพให้สอดคล้องกับความชอบของมนุษย์ ผ่านการฝึกหลังการประมวลผลในวงกว้าง
  • ด้วย ความสามารถในการประมวลผลข้อความยาว ของ TurboS จึงช่วยแก้ปัญหาการสูญเสียบริบทและการพึ่งพาข้อมูลระยะไกล
  • สถาปัตยกรรม Mamba ถูกปรับให้เหมาะกับการประมวลผลลำดับข้อความยาว ทำให้สามารถจับข้อมูลในข้อความยาวได้ด้วยวิธีการคำนวณที่มีประสิทธิภาพ
    • ภายใต้เงื่อนไขการดีพลอยเดียวกัน ความเร็วในการถอดรหัส เพิ่มขึ้น 2 เท่า
  • ในขั้นตอน post-training ของโมเดล ได้ทุ่มพลังประมวลผลทั้งหมด 96.7% ไปกับ reinforcement learning
    • รวบรวมชุดข้อมูลที่ครอบคลุมปัญหาหลากหลาย เช่น คณิตศาสตร์ การให้เหตุผลเชิงตรรกะ วิทยาศาสตร์ และโค้ด เพื่อเสริมความสามารถด้านการอนุมานของโมเดล
    • เสริมประสิทธิภาพของโมเดลผ่าน ฟีดแบ็กจากคำตอบที่ถูกต้อง และฟีดแบ็กจากผู้ใช้แบบเรียลไทม์
    • ใช้แนวทาง curriculum learning
      • ค่อย ๆ เพิ่มระดับความยากของข้อมูล พร้อมขยายความยาวบริบทของโมเดล
      • เสริมความสามารถในการใช้โทเคนอย่างมีประสิทธิภาพ
  • กลยุทธ์ reinforcement learning: ใช้กลยุทธ์ การฝึกข้อมูลซ้ำ และ การรีเซ็ตนโยบาย → ปรับปรุงเสถียรภาพของการฝึกมากกว่า 50%
  • ระบบรางวัล
    • ใช้ วิธีให้รางวัลตัวเอง → ประเมินและให้คะแนนผลลัพธ์ของโมเดลด้วยตัวโมเดลเอง
    • ใช้ โครงสร้างรางวัลแบบครอบคลุม → เสริมประสิทธิภาพด้านการใช้ข้อมูลและรายละเอียดของเนื้อหาในโมเดล

การประเมินประสิทธิภาพจากเบนช์มาร์ก

  • ทำผลงานได้โดดเด่นในตัวชี้วัดการให้เหตุผลทั้งภาษาจีนและอังกฤษ เช่น MMLU-pro, CEval, AIME, Zebra Logic
  • ให้ประสิทธิภาพระดับเดียวกับ DeepSeek R1 หรือดีกว่าเล็กน้อย
    • มีความได้เปรียบในด้าน ความคิดสร้างสรรค์เชิงวัฒนธรรม, การสรุปข้อความ, และ ความสามารถของเอเจนต์
  • ได้ 87.2 คะแนน ในการประเมิน MMLU-PRO → แสดงให้เห็นถึงความจำและความเข้าใจที่ยอดเยี่ยมใน 14 สาขา เช่น มนุษยศาสตร์ สังคมศาสตร์ และวิทยาศาสตร์เทคโนโลยี
  • ทำได้ 69.3 คะแนน ในการประเมิน GPQA-diamond → ยืนยันความสามารถในการแก้ปัญหาระดับปริญญาเอกด้านฟิสิกส์ เคมี และชีววิทยา
  • แสดงประสิทธิภาพที่แข็งแกร่งในด้านโค้ด คณิตศาสตร์ และการให้เหตุผลเชิงตรรกะ
    • ได้ 64.9 คะแนน ใน LiveCodeBench → ยืนยันความสามารถในการเขียนและทำความเข้าใจโค้ด
    • 96.2 คะแนน ใน MATH-500 → แสดงความสามารถในการแก้โจทย์คณิตศาสตร์ที่ใกล้เคียงกับ DeepSeek R1
  • ได้ 91.9 คะแนน ใน ArenaHard → แสดงความสามารถในการปรับตัวที่แข็งแกร่งในงานจัดแนวหลากหลายรูปแบบ งานทำตามคำสั่ง และงานใช้เครื่องมือ

1 ความคิดเห็น

 
GN⁺ 2025-03-23
ความเห็นจาก Hacker News
  • ประสิทธิภาพอันโดดเด่นของโมเดลนี้พิสูจน์อย่างชัดเจนว่า reinforcement learning มีบทบาทสำคัญในกระบวนการปรับให้เหมาะสม
    • หาก reinforcement learning นี้ไม่ได้ให้คำตอบที่ดีกว่าในสถานการณ์อื่น ๆ แต่แค่ปั่นแต้ม benchmark เราจะสังเกตเรื่องนั้นได้อย่างไร ก็เป็นคำถามที่ถูกหยิบยกขึ้นมา
  • จากที่ได้ลองใช้โมเดลนี้เล็กน้อย ดูเหมือนว่าจะมีแนวโน้มตอบคำถามภาษาอังกฤษเป็นภาษาจีน
  • โมเดลขนาดใหญ่ของพวกเขามี 389b พารามิเตอร์ แล้วโมเดลระดับอัลตร้าลาร์จน่าจะใหญ่แค่ไหนก็น่าสงสัย
  • ช่วงนี้มีโมเดลออกมาเยอะมาก และมีความก้าวหน้าในวงการ AI มากมายจนตามแทบไม่ทัน
    • เลยไม่ค่อยแน่ใจว่าอะไรคือสิ่งที่พลิกเกมจริง ๆ หรือสำคัญจริง ๆ
  • น่าสนใจที่ได้เห็นว่าโมเดลที่ใช้ Mamba เป็นฐานทำงานได้ดี
  • การถอดชื่อแบบโรมันของชื่อพวกนี้ทำให้งงอยู่เสมอ
    • พอตัดตัวอักษรและวรรณยุกต์ออกไป มันก็กลายเป็นแค่ชุดตัวอักษรที่ไม่มีความหมาย
    • "Hunyuan" หรือในภาษาจีน 混元 หมายถึง "ความโกลาหลดั้งเดิม" หรือ "เอกภาพแรกเริ่ม"
    • เรื่องนี้ช่วยให้จำได้ง่ายขึ้นเมื่อมีสินค้าและบริการจากจีนออกสู่ตลาดมากขึ้น
    • คล้ายกับความนิยมของเทพปกรณัมกรีกในสินค้าโลกตะวันตก (เช่น ผลิตภัณฑ์ทั้งหมดที่ใช้ชื่อว่า "Apollo")
  • สงสัยว่าการที่เชื่อมกับเดโมของ Huggingface อยู่ บ่งบอกเป็นนัยหรือไม่ว่าจะเปิดเผย weights
  • Kobe?