22 คะแนน โดย xguru 2025-01-17 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Sky-T1-32B-Preview เป็นโมเดลด้านการให้เหตุผลและการเขียนโค้ดที่มีประสิทธิภาพใกล้เคียงกับ o1-preview โดยฝึกได้ด้วยต้นทุนต่ำเพียง $450 (ประมาณ 650,000 วอน)
  • โค้ดทั้งหมดเปิดเป็นโอเพนซอร์ส ทำให้ทุกคนสามารถทำซ้ำและปรับปรุงต่อได้
    • โมเดลการให้เหตุผลประสิทธิภาพสูงอย่าง o1 และ Gemini 2.0 สามารถแก้งานที่ซับซ้อนได้ แต่รายละเอียดทางเทคนิคและค่าน้ำหนักของโมเดลยังคงไม่เปิดเผย

โอเพนซอร์สอย่างสมบูรณ์: พัฒนาไปด้วยกัน

วิธีสร้าง (Recipes)

กระบวนการเตรียมข้อมูล

  • ใช้โมเดล QwQ-32B-Preview สร้างข้อมูล และจัดชุดข้อมูลแบบผสมที่ครอบคลุมหลายโดเมน
  • ปรับโครงสร้างและปรับปรุงฟอร์แมต:
    • นำข้อมูล QwQ มารีฟอร์แมตด้วย GPT-4o-mini เพื่อเพิ่มประสิทธิภาพการเรียนรู้ของโมเดลให้เหตุผล
    • การรีฟอร์แมตช่วยเพิ่มความแม่นยำของข้อมูลโค้ดจาก 25% เป็นมากกว่า 90%
  • rejection sampling:
    • โจทย์คณิตศาสตร์: ลบตัวอย่างที่ไม่ถูกต้องออกโดยเทียบกับคำตอบที่ถูกต้อง
    • โจทย์เขียนโค้ด: รัน unit test ของชุดข้อมูลเพื่อตรวจสอบคำตอบ
  • ข้อมูลสุดท้าย:
    • ข้อมูลโค้ด: 5,000 รายการ จากชุดข้อมูล APPs และ TACO
    • ข้อมูลคณิตศาสตร์: 10,000 รายการ จาก AIME, MATH และ Olympiads ของ NuminaMATH
    • ข้อมูลอื่น ๆ: โจทย์วิทยาศาสตร์และปริศนา 1,000 รายการ

กระบวนการฝึก

  • โมเดลที่ใช้ฝึก: Qwen2.5-32B-Instruct (โมเดลโอเพนซอร์สที่ไม่มีความสามารถด้านการให้เหตุผล)
  • สภาพแวดล้อมการฝึก:
    • ใช้ GPU H100 จำนวน 8 ตัว พร้อม DeepSpeed Zero-3 offloading
    • เวลาฝึก: 19 ชั่วโมง
    • ค่าใช้จ่าย: ประมาณ $450 (อ้างอิง Lambda Cloud)
  • ใช้ Llama-Factory ในการฝึก

สรุปการประเมินและผลลัพธ์

  • Sky-T1-32B-Preview แสดงผลลัพธ์ต่อไปนี้เมื่อเทียบกับโมเดลคู่แข่งในหลายเบนช์มาร์ก:
    • Math500: Sky-T1 ได้ 82.4% ซึ่งแทบเทียบเท่า o1-preview(81.4%) และนำหน้า Qwen-2.5(76.2%) อย่างชัดเจน
    • AIME2024: Sky-T1 ได้ 43.3% สูงกว่า o1-preview(40.0%) และเหนือกว่า Qwen-2.5(16.7%) อย่างมาก
    • LiveCodeBench (Easy): Sky-T1 ได้ 86.3% ใกล้เคียง Qwen-2.5(84.6%) และมีช่องว่างกับ o1-preview(92.9%) ไม่มาก
    • LiveCodeBench (Medium): Sky-T1 ได้ 56.8% สูงกว่า o1-preview(54.9%) และนำหน้า Qwen-2.5(40.8%) อย่างมาก
    • LiveCodeBench (Hard): Sky-T1 ได้ 17.9% สูงกว่า o1-preview(16.3%) เล็กน้อย และทิ้งห่าง Qwen-2.5(9.8%) มาก
    • GPQA-Diamond: Sky-T1 ได้ 56.8% สูงกว่า QwQ(52.5%) เล็กน้อย แต่ยังต่ำกว่า o1-preview(75.2%)
  • Sky-T1-32B-Preview แสดงประสิทธิภาพที่แข็งแกร่งทั้งในด้านคณิตศาสตร์และการเขียนโค้ด โดยเฉพาะงานเขียนโค้ดระดับความยากปานกลางที่ทำได้โดดเด่น
  • ในเบนช์มาร์กด้านคณิตศาสตร์ก็อยู่ในกลุ่มบนเช่นกัน และพิสูจน์ให้เห็นว่าเป็นโมเดลที่มีทั้งประสิทธิภาพและความคุ้มค่าโดยรวม

ข้อค้นพบสำคัญ

  • ความสำคัญของขนาดโมเดล:
    • โมเดลขนาด 7B และ 14B ให้การปรับปรุงที่จำกัดเท่านั้น
    • โมเดล 32B เหนือกว่าอย่างชัดเจนทั้งในด้านประสิทธิภาพและความสม่ำเสมอของผลลัพธ์
  • ความสำคัญของการผสมข้อมูล:
    • การฝึกด้วยข้อมูลโดเมนเดียวอาจทำให้ประสิทธิภาพลดลง
    • การผสมข้อมูลคณิตศาสตร์และโค้ดอย่างสมดุลช่วยให้ได้ผลลัพธ์ที่ดีในทั้งสองโดเมน

แผนในอนาคต

  • มุ่งพัฒนาโมเดลที่ให้สมรรถนะการให้เหตุผลสูงโดยยังคงประสิทธิภาพไว้
  • วิจัยเทคนิคขั้นสูงเพื่อเพิ่มประสิทธิภาพด้านเวลาในการทดสอบและความแม่นยำ
  • ตั้งเป้าพัฒนาโมเดลที่ก้าวหน้ายิ่งขึ้นผ่านความร่วมมือกับชุมชน

1 ความคิดเห็น

 
kimjoin2 2025-01-17

ทำไม... ทำไมฉันถึงอ่านเป็น SKT-T1 นะ