- สร้างบนพื้นฐานของโมเดล LLaMA
- การเก็บรวบรวมข้อมูลแบบ Supervised
- การทำ Supervised fine-tuning
- การฝึก Reward model
- การทำ Reinforcement Learning fine-tuning
- เนื้อหาที่รวมอยู่
- เดโมแบบอินเทอร์แอ็กทีฟที่รันออนไลน์
- โอเพนซอร์สโค้ดฝึก RLHF แบบครบชุดที่รวมโมเดล 7B/13B
- ชุดข้อมูลสองภาษา 104k ที่ประกอบด้วยภาษาจีน/อังกฤษ
- การทำ quantization 4-bit ของโมเดล 7B ต้องใช้หน่วยความจำ GPU เพียง 4GB
- รวมค่าน้ำหนักโมเดลไว้แล้ว สามารถทำซ้ำได้อย่างง่ายดายบนเซิร์ฟเวอร์เครื่องเดียว
- จะมีการเพิ่มโมเดล/ชุดข้อมูล/การปรับแต่งขนาดใหญ่เข้ามาอย่างต่อเนื่อง
ยังไม่มีความคิดเห็น