• สร้างบนพื้นฐานของโมเดล LLaMA
    • การเก็บรวบรวมข้อมูลแบบ Supervised
    • การทำ Supervised fine-tuning
    • การฝึก Reward model
    • การทำ Reinforcement Learning fine-tuning
  • เนื้อหาที่รวมอยู่
    • เดโมแบบอินเทอร์แอ็กทีฟที่รันออนไลน์
    • โอเพนซอร์สโค้ดฝึก RLHF แบบครบชุดที่รวมโมเดล 7B/13B
    • ชุดข้อมูลสองภาษา 104k ที่ประกอบด้วยภาษาจีน/อังกฤษ
    • การทำ quantization 4-bit ของโมเดล 7B ต้องใช้หน่วยความจำ GPU เพียง 4GB
    • รวมค่าน้ำหนักโมเดลไว้แล้ว สามารถทำซ้ำได้อย่างง่ายดายบนเซิร์ฟเวอร์เครื่องเดียว
    • จะมีการเพิ่มโมเดล/ชุดข้อมูล/การปรับแต่งขนาดใหญ่เข้ามาอย่างต่อเนื่อง

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น