- Sky-T1-32B-Preview เป็นโมเดลด้านการให้เหตุผลและการเขียนโค้ดที่มีประสิทธิภาพใกล้เคียงกับ o1-preview โดยฝึกได้ด้วยต้นทุนต่ำเพียง $450 (ประมาณ 650,000 วอน)
- โค้ดทั้งหมดเปิดเป็นโอเพนซอร์ส ทำให้ทุกคนสามารถทำซ้ำและปรับปรุงต่อได้
- โมเดลการให้เหตุผลประสิทธิภาพสูงอย่าง o1 และ Gemini 2.0 สามารถแก้งานที่ซับซ้อนได้ แต่รายละเอียดทางเทคนิคและค่าน้ำหนักของโมเดลยังคงไม่เปิดเผย
โอเพนซอร์สอย่างสมบูรณ์: พัฒนาไปด้วยกัน
- Sky-T1-32B-Preview เปิดซอร์ส รายละเอียดทั้งหมด:
วิธีสร้าง (Recipes)
กระบวนการเตรียมข้อมูล
- ใช้โมเดล QwQ-32B-Preview สร้างข้อมูล และจัดชุดข้อมูลแบบผสมที่ครอบคลุมหลายโดเมน
- ปรับโครงสร้างและปรับปรุงฟอร์แมต:
- นำข้อมูล QwQ มารีฟอร์แมตด้วย GPT-4o-mini เพื่อเพิ่มประสิทธิภาพการเรียนรู้ของโมเดลให้เหตุผล
- การรีฟอร์แมตช่วยเพิ่มความแม่นยำของข้อมูลโค้ดจาก 25% เป็นมากกว่า 90%
- rejection sampling:
- โจทย์คณิตศาสตร์: ลบตัวอย่างที่ไม่ถูกต้องออกโดยเทียบกับคำตอบที่ถูกต้อง
- โจทย์เขียนโค้ด: รัน unit test ของชุดข้อมูลเพื่อตรวจสอบคำตอบ
- ข้อมูลสุดท้าย:
- ข้อมูลโค้ด: 5,000 รายการ จากชุดข้อมูล APPs และ TACO
- ข้อมูลคณิตศาสตร์: 10,000 รายการ จาก AIME, MATH และ Olympiads ของ NuminaMATH
- ข้อมูลอื่น ๆ: โจทย์วิทยาศาสตร์และปริศนา 1,000 รายการ
กระบวนการฝึก
- โมเดลที่ใช้ฝึก: Qwen2.5-32B-Instruct (โมเดลโอเพนซอร์สที่ไม่มีความสามารถด้านการให้เหตุผล)
- สภาพแวดล้อมการฝึก:
- ใช้ GPU H100 จำนวน 8 ตัว พร้อม DeepSpeed Zero-3 offloading
- เวลาฝึก: 19 ชั่วโมง
- ค่าใช้จ่าย: ประมาณ $450 (อ้างอิง Lambda Cloud)
- ใช้ Llama-Factory ในการฝึก
สรุปการประเมินและผลลัพธ์
- Sky-T1-32B-Preview แสดงผลลัพธ์ต่อไปนี้เมื่อเทียบกับโมเดลคู่แข่งในหลายเบนช์มาร์ก:
- Math500: Sky-T1 ได้ 82.4% ซึ่งแทบเทียบเท่า o1-preview(81.4%) และนำหน้า Qwen-2.5(76.2%) อย่างชัดเจน
- AIME2024: Sky-T1 ได้ 43.3% สูงกว่า o1-preview(40.0%) และเหนือกว่า Qwen-2.5(16.7%) อย่างมาก
- LiveCodeBench (Easy): Sky-T1 ได้ 86.3% ใกล้เคียง Qwen-2.5(84.6%) และมีช่องว่างกับ o1-preview(92.9%) ไม่มาก
- LiveCodeBench (Medium): Sky-T1 ได้ 56.8% สูงกว่า o1-preview(54.9%) และนำหน้า Qwen-2.5(40.8%) อย่างมาก
- LiveCodeBench (Hard): Sky-T1 ได้ 17.9% สูงกว่า o1-preview(16.3%) เล็กน้อย และทิ้งห่าง Qwen-2.5(9.8%) มาก
- GPQA-Diamond: Sky-T1 ได้ 56.8% สูงกว่า QwQ(52.5%) เล็กน้อย แต่ยังต่ำกว่า o1-preview(75.2%)
- Sky-T1-32B-Preview แสดงประสิทธิภาพที่แข็งแกร่งทั้งในด้านคณิตศาสตร์และการเขียนโค้ด โดยเฉพาะงานเขียนโค้ดระดับความยากปานกลางที่ทำได้โดดเด่น
- ในเบนช์มาร์กด้านคณิตศาสตร์ก็อยู่ในกลุ่มบนเช่นกัน และพิสูจน์ให้เห็นว่าเป็นโมเดลที่มีทั้งประสิทธิภาพและความคุ้มค่าโดยรวม
ข้อค้นพบสำคัญ
- ความสำคัญของขนาดโมเดล:
- โมเดลขนาด 7B และ 14B ให้การปรับปรุงที่จำกัดเท่านั้น
- โมเดล 32B เหนือกว่าอย่างชัดเจนทั้งในด้านประสิทธิภาพและความสม่ำเสมอของผลลัพธ์
- ความสำคัญของการผสมข้อมูล:
- การฝึกด้วยข้อมูลโดเมนเดียวอาจทำให้ประสิทธิภาพลดลง
- การผสมข้อมูลคณิตศาสตร์และโค้ดอย่างสมดุลช่วยให้ได้ผลลัพธ์ที่ดีในทั้งสองโดเมน
แผนในอนาคต
- มุ่งพัฒนาโมเดลที่ให้สมรรถนะการให้เหตุผลสูงโดยยังคงประสิทธิภาพไว้
- วิจัยเทคนิคขั้นสูงเพื่อเพิ่มประสิทธิภาพด้านเวลาในการทดสอบและความแม่นยำ
- ตั้งเป้าพัฒนาโมเดลที่ก้าวหน้ายิ่งขึ้นผ่านความร่วมมือกับชุมชน
1 ความคิดเห็น
ทำไม... ทำไมฉันถึงอ่านเป็น SKT-T1 นะ