Tencent Hunyuan-T1 - โมเดลขนาดใหญ่มหึมาตัวแรกที่สร้างบนสถาปัตยกรรม Mamba

(llm.hunyuan.tencent.com)

2 คะแนน โดย GN⁺ 2025-03-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Hunyuan-T1 เป็นโมเดล MoE แบบ Hybrid-Transformer-Mamba ขนาดใหญ่มหึมาที่พัฒนาบนพื้นฐานของ TurboS
ขยายความสามารถด้านการอนุมานและยกระดับประสิทธิภาพให้สอดคล้องกับความชอบของมนุษย์ ผ่านการฝึกหลังการประมวลผลในวงกว้าง
ด้วย ความสามารถในการประมวลผลข้อความยาว ของ TurboS จึงช่วยแก้ปัญหาการสูญเสียบริบทและการพึ่งพาข้อมูลระยะไกล
สถาปัตยกรรม Mamba ถูกปรับให้เหมาะกับการประมวลผลลำดับข้อความยาว ทำให้สามารถจับข้อมูลในข้อความยาวได้ด้วยวิธีการคำนวณที่มีประสิทธิภาพ
- ภายใต้เงื่อนไขการดีพลอยเดียวกัน ความเร็วในการถอดรหัส เพิ่มขึ้น 2 เท่า
ในขั้นตอน post-training ของโมเดล ได้ทุ่มพลังประมวลผลทั้งหมด 96.7% ไปกับ reinforcement learning
- รวบรวมชุดข้อมูลที่ครอบคลุมปัญหาหลากหลาย เช่น คณิตศาสตร์ การให้เหตุผลเชิงตรรกะ วิทยาศาสตร์ และโค้ด เพื่อเสริมความสามารถด้านการอนุมานของโมเดล
- เสริมประสิทธิภาพของโมเดลผ่าน ฟีดแบ็กจากคำตอบที่ถูกต้อง และฟีดแบ็กจากผู้ใช้แบบเรียลไทม์
- ใช้แนวทาง curriculum learning
  - ค่อย ๆ เพิ่มระดับความยากของข้อมูล พร้อมขยายความยาวบริบทของโมเดล
  - เสริมความสามารถในการใช้โทเคนอย่างมีประสิทธิภาพ
กลยุทธ์ reinforcement learning: ใช้กลยุทธ์ การฝึกข้อมูลซ้ำ และ การรีเซ็ตนโยบาย → ปรับปรุงเสถียรภาพของการฝึกมากกว่า 50%
ระบบรางวัล
- ใช้ วิธีให้รางวัลตัวเอง → ประเมินและให้คะแนนผลลัพธ์ของโมเดลด้วยตัวโมเดลเอง
- ใช้ โครงสร้างรางวัลแบบครอบคลุม → เสริมประสิทธิภาพด้านการใช้ข้อมูลและรายละเอียดของเนื้อหาในโมเดล

การประเมินประสิทธิภาพจากเบนช์มาร์ก

ทำผลงานได้โดดเด่นในตัวชี้วัดการให้เหตุผลทั้งภาษาจีนและอังกฤษ เช่น MMLU-pro, CEval, AIME, Zebra Logic
ให้ประสิทธิภาพระดับเดียวกับ DeepSeek R1 หรือดีกว่าเล็กน้อย
- มีความได้เปรียบในด้าน ความคิดสร้างสรรค์เชิงวัฒนธรรม, การสรุปข้อความ, และ ความสามารถของเอเจนต์
ได้ 87.2 คะแนน ในการประเมิน MMLU-PRO → แสดงให้เห็นถึงความจำและความเข้าใจที่ยอดเยี่ยมใน 14 สาขา เช่น มนุษยศาสตร์ สังคมศาสตร์ และวิทยาศาสตร์เทคโนโลยี
ทำได้ 69.3 คะแนน ในการประเมิน GPQA-diamond → ยืนยันความสามารถในการแก้ปัญหาระดับปริญญาเอกด้านฟิสิกส์ เคมี และชีววิทยา
แสดงประสิทธิภาพที่แข็งแกร่งในด้านโค้ด คณิตศาสตร์ และการให้เหตุผลเชิงตรรกะ
- ได้ 64.9 คะแนน ใน LiveCodeBench → ยืนยันความสามารถในการเขียนและทำความเข้าใจโค้ด
- 96.2 คะแนน ใน MATH-500 → แสดงความสามารถในการแก้โจทย์คณิตศาสตร์ที่ใกล้เคียงกับ DeepSeek R1
ได้ 91.9 คะแนน ใน ArenaHard → แสดงความสามารถในการปรับตัวที่แข็งแกร่งในงานจัดแนวหลากหลายรูปแบบ งานทำตามคำสั่ง และงานใช้เครื่องมือ

1 ความคิดเห็น

GN⁺ 2025-03-23

ความเห็นจาก Hacker News

ประสิทธิภาพอันโดดเด่นของโมเดลนี้พิสูจน์อย่างชัดเจนว่า reinforcement learning มีบทบาทสำคัญในกระบวนการปรับให้เหมาะสม
- หาก reinforcement learning นี้ไม่ได้ให้คำตอบที่ดีกว่าในสถานการณ์อื่น ๆ แต่แค่ปั่นแต้ม benchmark เราจะสังเกตเรื่องนั้นได้อย่างไร ก็เป็นคำถามที่ถูกหยิบยกขึ้นมา
จากที่ได้ลองใช้โมเดลนี้เล็กน้อย ดูเหมือนว่าจะมีแนวโน้มตอบคำถามภาษาอังกฤษเป็นภาษาจีน
โมเดลขนาดใหญ่ของพวกเขามี 389b พารามิเตอร์ แล้วโมเดลระดับอัลตร้าลาร์จน่าจะใหญ่แค่ไหนก็น่าสงสัย
ช่วงนี้มีโมเดลออกมาเยอะมาก และมีความก้าวหน้าในวงการ AI มากมายจนตามแทบไม่ทัน
- เลยไม่ค่อยแน่ใจว่าอะไรคือสิ่งที่พลิกเกมจริง ๆ หรือสำคัญจริง ๆ
น่าสนใจที่ได้เห็นว่าโมเดลที่ใช้ Mamba เป็นฐานทำงานได้ดี
การถอดชื่อแบบโรมันของชื่อพวกนี้ทำให้งงอยู่เสมอ
- พอตัดตัวอักษรและวรรณยุกต์ออกไป มันก็กลายเป็นแค่ชุดตัวอักษรที่ไม่มีความหมาย
- "Hunyuan" หรือในภาษาจีน 混元 หมายถึง "ความโกลาหลดั้งเดิม" หรือ "เอกภาพแรกเริ่ม"
- เรื่องนี้ช่วยให้จำได้ง่ายขึ้นเมื่อมีสินค้าและบริการจากจีนออกสู่ตลาดมากขึ้น
- คล้ายกับความนิยมของเทพปกรณัมกรีกในสินค้าโลกตะวันตก (เช่น ผลิตภัณฑ์ทั้งหมดที่ใช้ชื่อว่า "Apollo")
สงสัยว่าการที่เชื่อมกับเดโมของ Huggingface อยู่ บ่งบอกเป็นนัยหรือไม่ว่าจะเปิดเผย weights
Kobe?

Tencent Hunyuan-T1 - โมเดลขนาดใหญ่มหึมาตัวแรกที่สร้างบนสถาปัตยกรรม Mamba

การประเมินประสิทธิภาพจากเบนช์มาร์ก

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News