Sky-T1: ฝึกโมเดลให้เหตุผลประสิทธิภาพสูงระดับ o1 preview ได้ด้วยงบ $450

xguru · 2025-01-17T09:45:03+09:00

Sky-T1-32B-Preview เป็นโมเดลด้านการให้เหตุผลและการเขียนโค้ดที่มีประสิทธิภาพใกล้เคียงกับ o1-preview โดยฝึกได้ด้วยต้นทุนต่ำเพียง $450 (ประมาณ 650,000 วอน) โค้ดทั้งหมดเปิดเป็นโอเพนซอร์ส ทำให้ทุกคนสามารถทำซ้ำและปรับปรุงต่อได้ โมเดลการให้เหตุผลประสิทธิภาพสูงอย่าง o1 และ Gemini 2.0 สามารถแก้งานที่ซับซ้อนได้ แต่รายละเอียดทางเทคนิคและค่าน้ำหนักของโมเดลยังคงไม่เปิดเผย โอเพนซอร์สอย่างสมบูรณ์: พัฒนาไปด้วยกัน Sky-T1-32B-Preview เปิดซอร์ส รายละเอียดทั้งหมด: อินฟราสตรักเจอร์: รีโพซิทอรีแบบรวมศูนย์สำหรับการสร้างข้อมูล การฝึกโมเดล และการประเมินผล ข้อมูล: มีข้อมูลฝึก 17,000 รายการ รายละเอียดทางเทคนิค: รายงานทางเทคนิคและwandb log ค่าน้ำหนักโมเดล: ค่าน้ำหนักโมเดลขนาด 32B วิธีสร้าง (Recipes) กระบวนการเตรียมข้อมูล ใช้โมเดล QwQ-32B-Preview สร้างข้อมูล และจัดชุดข้อมูลแบบผสมที่ครอบคลุมหลายโดเมน ปรับโครงสร้างและปรับปรุงฟอร์แมต: นำข้อมูล QwQ มารีฟอร์แมตด้วย GPT-4o-mini เพื่อเพิ่มประสิทธิภาพการเรียนรู้ของโมเดลให้เหตุผล การรีฟอร์แมตช่วยเพิ่มความแม่นยำของข้อมูลโค้ดจาก 25% เป็นมากกว่า 90% rejection sampling: โจทย์คณิตศาสตร์: ลบตัวอย่างที่ไม่ถูกต้องออกโดยเทียบกับคำตอบที่ถูกต้อง โจทย์เขียนโค้ด: รัน unit test ของชุดข้อมูลเพื่อตรวจสอบคำตอบ ข้อมูลสุดท้าย: ข้อมูลโค้ด: 5,000 รายการ จากชุดข้อมูล APPs และ TACO ข้อมูลคณิตศาสตร์: 10,000 รายการ จาก AIME, MATH และ Olympiads ของ NuminaMATH ข้อมูลอื่น ๆ: โจทย์วิทยาศาสตร์และปริศนา 1,000 รายการ กระบวนการฝึก โมเดลที่ใช้ฝึก: Qwen2.5-32B-Instruct (โมเดลโอเพนซอร์สที่ไม่มีความสามารถด้านการให้เหตุผล) สภาพแวดล้อมการฝึก: ใช้ GPU H100 จำนวน 8 ตัว พร้อม DeepSpeed Zero-3 offloading เวลาฝึก: 19 ชั่วโมง ค่าใช้จ่าย: ประมาณ $450 (อ้างอิง Lambda Cloud) ใช้ Llama-Factory ในการฝึก สรุปการประเมินและผลลัพธ์ Sky-T1-32B-Preview แสดงผลลัพธ์ต่อไปนี้เมื่อเทียบกับโมเดลคู่แข่งในหลายเบนช์มาร์ก: Math500: Sky-T1 ได้ 82.4% ซึ่งแทบเทียบเท่า o1-preview(81.4%) และนำหน้า Qwen-2.5(76.2%) อย่างชัดเจน AIME2024: Sky-T1 ได้ 43.3% สูงกว่า o1-preview(40.0%) และเหนือกว่า Qwen-2.5(16.7%) อย่างมาก LiveCodeBench (Easy): Sky-T1 ได้ 86.3% ใกล้เคียง Qwen-2.5(84.6%) และมีช่องว่างกับ o1-preview(92.9%) ไม่มาก LiveCodeBench (Medium): Sky-T1 ได้ 56.8% สูงกว่า o1-preview(54.9%) และนำหน้า Qwen-2.5(40.8%) อย่างมาก LiveCodeBench (Hard): Sky-T1 ได้ 17.9% สูงกว่า o1-preview(16.3%) เล็กน้อย และทิ้งห่าง Qwen-2.5(9.8%) มาก GPQA-Diamond: Sky-T1 ได้ 56.8% สูงกว่า QwQ(52.5%) เล็กน้อย แต่ยังต่ำกว่า o1-preview(75.2%) Sky-T1-32B-Preview แสดงประสิทธิภาพที่แข็งแกร่งทั้งในด้านคณิตศาสตร์และการเขียนโค้ด โดยเฉพาะงานเขียนโค้ดระดับความยากปานกลางที่ทำได้โดดเด่น ในเบนช์มาร์กด้านคณิตศาสตร์ก็อยู่ในกลุ่มบนเช่นกัน และพิสูจน์ให้เห็นว่าเป็นโมเดลที่มีทั้งประสิทธิภาพและความคุ้มค่าโดยรวม ข้อค้นพบสำคัญ ความสำคัญของขนาดโมเดล: โมเดลขนาด 7B และ 14B ให้การปรับปรุงที่จำกัดเท่านั้น โมเดล 32B เหนือกว่าอย่างชัดเจนทั้งในด้านประสิทธิภาพและความสม่ำเสมอของผลลัพธ์ ความสำคัญของการผสมข้อมูล: การฝึกด้วยข้อมูลโดเมนเดียวอาจทำให้ประสิทธิภาพลดลง การผสมข้อมูลคณิตศาสตร์และโค้ดอย่างสมดุลช่วยให้ได้ผลลัพธ์ที่ดีในทั้งสองโดเมน แผนในอนาคต มุ่งพัฒนาโมเดลที่ให้สมรรถนะการให้เหตุผลสูงโดยยังคงประสิทธิภาพไว้ วิจัยเทคนิคขั้นสูงเพื่อเพิ่มประสิทธิภาพด้านเวลาในการทดสอบและความแม่นยำ ตั้งเป้าพัฒนาโมเดลที่ก้าวหน้ายิ่งขึ้นผ่านความร่วมมือกับชุมชน

(novasky-ai.github.io)

22 คะแนน โดย xguru 2025-01-17 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Sky-T1-32B-Preview เป็นโมเดลด้านการให้เหตุผลและการเขียนโค้ดที่มีประสิทธิภาพใกล้เคียงกับ o1-preview โดยฝึกได้ด้วยต้นทุนต่ำเพียง $450 (ประมาณ 650,000 วอน)
โค้ดทั้งหมดเปิดเป็นโอเพนซอร์ส ทำให้ทุกคนสามารถทำซ้ำและปรับปรุงต่อได้
- โมเดลการให้เหตุผลประสิทธิภาพสูงอย่าง o1 และ Gemini 2.0 สามารถแก้งานที่ซับซ้อนได้ แต่รายละเอียดทางเทคนิคและค่าน้ำหนักของโมเดลยังคงไม่เปิดเผย

โอเพนซอร์สอย่างสมบูรณ์: พัฒนาไปด้วยกัน

Sky-T1-32B-Preview เปิดซอร์ส รายละเอียดทั้งหมด:
- อินฟราสตรักเจอร์: รีโพซิทอรีแบบรวมศูนย์สำหรับการสร้างข้อมูล การฝึกโมเดล และการประเมินผล
- ข้อมูล: มีข้อมูลฝึก 17,000 รายการ
- รายละเอียดทางเทคนิค: รายงานทางเทคนิคและwandb log
- ค่าน้ำหนักโมเดล: ค่าน้ำหนักโมเดลขนาด 32B

วิธีสร้าง (Recipes)

กระบวนการเตรียมข้อมูล

ใช้โมเดล QwQ-32B-Preview สร้างข้อมูล และจัดชุดข้อมูลแบบผสมที่ครอบคลุมหลายโดเมน
ปรับโครงสร้างและปรับปรุงฟอร์แมต:
- นำข้อมูล QwQ มารีฟอร์แมตด้วย GPT-4o-mini เพื่อเพิ่มประสิทธิภาพการเรียนรู้ของโมเดลให้เหตุผล
- การรีฟอร์แมตช่วยเพิ่มความแม่นยำของข้อมูลโค้ดจาก 25% เป็นมากกว่า 90%
rejection sampling:
- โจทย์คณิตศาสตร์: ลบตัวอย่างที่ไม่ถูกต้องออกโดยเทียบกับคำตอบที่ถูกต้อง
- โจทย์เขียนโค้ด: รัน unit test ของชุดข้อมูลเพื่อตรวจสอบคำตอบ
ข้อมูลสุดท้าย:
- ข้อมูลโค้ด: 5,000 รายการ จากชุดข้อมูล APPs และ TACO
- ข้อมูลคณิตศาสตร์: 10,000 รายการ จาก AIME, MATH และ Olympiads ของ NuminaMATH
- ข้อมูลอื่น ๆ: โจทย์วิทยาศาสตร์และปริศนา 1,000 รายการ

กระบวนการฝึก

โมเดลที่ใช้ฝึก: Qwen2.5-32B-Instruct (โมเดลโอเพนซอร์สที่ไม่มีความสามารถด้านการให้เหตุผล)
สภาพแวดล้อมการฝึก:
- ใช้ GPU H100 จำนวน 8 ตัว พร้อม DeepSpeed Zero-3 offloading
- เวลาฝึก: 19 ชั่วโมง
- ค่าใช้จ่าย: ประมาณ $450 (อ้างอิง Lambda Cloud)
ใช้ Llama-Factory ในการฝึก

สรุปการประเมินและผลลัพธ์

Sky-T1-32B-Preview แสดงผลลัพธ์ต่อไปนี้เมื่อเทียบกับโมเดลคู่แข่งในหลายเบนช์มาร์ก:
- Math500: Sky-T1 ได้ 82.4% ซึ่งแทบเทียบเท่า o1-preview(81.4%) และนำหน้า Qwen-2.5(76.2%) อย่างชัดเจน
- AIME2024: Sky-T1 ได้ 43.3% สูงกว่า o1-preview(40.0%) และเหนือกว่า Qwen-2.5(16.7%) อย่างมาก
- LiveCodeBench (Easy): Sky-T1 ได้ 86.3% ใกล้เคียง Qwen-2.5(84.6%) และมีช่องว่างกับ o1-preview(92.9%) ไม่มาก
- LiveCodeBench (Medium): Sky-T1 ได้ 56.8% สูงกว่า o1-preview(54.9%) และนำหน้า Qwen-2.5(40.8%) อย่างมาก
- LiveCodeBench (Hard): Sky-T1 ได้ 17.9% สูงกว่า o1-preview(16.3%) เล็กน้อย และทิ้งห่าง Qwen-2.5(9.8%) มาก
- GPQA-Diamond: Sky-T1 ได้ 56.8% สูงกว่า QwQ(52.5%) เล็กน้อย แต่ยังต่ำกว่า o1-preview(75.2%)
Sky-T1-32B-Preview แสดงประสิทธิภาพที่แข็งแกร่งทั้งในด้านคณิตศาสตร์และการเขียนโค้ด โดยเฉพาะงานเขียนโค้ดระดับความยากปานกลางที่ทำได้โดดเด่น
ในเบนช์มาร์กด้านคณิตศาสตร์ก็อยู่ในกลุ่มบนเช่นกัน และพิสูจน์ให้เห็นว่าเป็นโมเดลที่มีทั้งประสิทธิภาพและความคุ้มค่าโดยรวม

ข้อค้นพบสำคัญ

ความสำคัญของขนาดโมเดล:
- โมเดลขนาด 7B และ 14B ให้การปรับปรุงที่จำกัดเท่านั้น
- โมเดล 32B เหนือกว่าอย่างชัดเจนทั้งในด้านประสิทธิภาพและความสม่ำเสมอของผลลัพธ์
ความสำคัญของการผสมข้อมูล:
- การฝึกด้วยข้อมูลโดเมนเดียวอาจทำให้ประสิทธิภาพลดลง
- การผสมข้อมูลคณิตศาสตร์และโค้ดอย่างสมดุลช่วยให้ได้ผลลัพธ์ที่ดีในทั้งสองโดเมน

แผนในอนาคต

มุ่งพัฒนาโมเดลที่ให้สมรรถนะการให้เหตุผลสูงโดยยังคงประสิทธิภาพไว้
วิจัยเทคนิคขั้นสูงเพื่อเพิ่มประสิทธิภาพด้านเวลาในการทดสอบและความแม่นยำ
ตั้งเป้าพัฒนาโมเดลที่ก้าวหน้ายิ่งขึ้นผ่านความร่วมมือกับชุมชน

1 ความคิดเห็น

kimjoin2 2025-01-17

ทำไม... ทำไมฉันถึงอ่านเป็น SKT-T1 นะ