ColossalChat - โซลูชันโอเพนซอร์สของไปป์ไลน์ RLHF สำหรับโคลน ChatGPT

xguru · 2023-03-31T11:32:02+09:00

สร้างบนพื้นฐานของโมเดล LLaMA การเก็บรวบรวมข้อมูลแบบ Supervised การทำ Supervised fine-tuning การฝึก Reward model การทำ Reinforcement Learning fine-tuning เนื้อหาที่รวมอยู่ เดโมแบบอินเทอร์แอ็กทีฟที่รันออนไลน์ โอเพนซอร์สโค้ดฝึก RLHF แบบครบชุดที่รวมโมเดล 7B/13B ชุดข้อมูลสองภาษา 104k ที่ประกอบด้วยภาษาจีน/อังกฤษ การทำ quantization 4-bit ของโมเดล 7B ต้องใช้หน่วยความจำ GPU เพียง 4GB รวมค่าน้ำหนักโมเดลไว้แล้ว สามารถทำซ้ำได้อย่างง่ายดายบนเซิร์ฟเวอร์เครื่องเดียว จะมีการเพิ่มโมเดล/ชุดข้อมูล/การปรับแต่งขนาดใหญ่เข้ามาอย่างต่อเนื่อง

(medium.com/@yangyou_berkeley)

10 คะแนน โดย xguru 2023-03-31 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

สร้างบนพื้นฐานของโมเดล LLaMA
- การเก็บรวบรวมข้อมูลแบบ Supervised
- การทำ Supervised fine-tuning
- การฝึก Reward model
- การทำ Reinforcement Learning fine-tuning
เนื้อหาที่รวมอยู่
- เดโมแบบอินเทอร์แอ็กทีฟที่รันออนไลน์
- โอเพนซอร์สโค้ดฝึก RLHF แบบครบชุดที่รวมโมเดล 7B/13B
- ชุดข้อมูลสองภาษา 104k ที่ประกอบด้วยภาษาจีน/อังกฤษ
- การทำ quantization 4-bit ของโมเดล 7B ต้องใช้หน่วยความจำ GPU เพียง 4GB
- รวมค่าน้ำหนักโมเดลไว้แล้ว สามารถทำซ้ำได้อย่างง่ายดายบนเซิร์ฟเวอร์เครื่องเดียว
- จะมีการเพิ่มโมเดล/ชุดข้อมูล/การปรับแต่งขนาดใหญ่เข้ามาอย่างต่อเนื่อง

ColossalChat - โซลูชันโอเพนซอร์สของไปป์ไลน์ RLHF สำหรับโคลน ChatGPT

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น