Open-LLaMa - ไปป์ไลน์การเทรนแบบครบวงจรสำหรับสร้าง LLM

xguru · 2023-05-16T10:02:01+09:00

โอเพนซอร์สที่ประกอบไปป์ไลน์ครบทั้งหมดตั้งแต่การสร้างชุดข้อมูล การโทเคไนซ์ การปรับแต่งพรอมป์ต์ ไปจนถึง LoRA และ RLHF โมเดล Open-LLama-V2-pretrain ที่ผ่านการพรีเทรนแล้วก็เปิดเผยบน Hugging Face ด้วย ตามวิธีการประเมินของ FastChat ระบุว่าทำประสิทธิภาพได้ราว 89% เมื่อเทียบกับ GPT-3.5 (สำหรับคำถามที่เป็นภาษาจีน) ความเร็วในการเทรนอยู่ที่ 3620 โทเคน/วินาที เร็วกว่าต้นฉบับ LLama ที่ 3370 เล็กน้อย (โมเดล 7B) หากเทรนด้วย 500B โทเคน จะต้องใช้เวลา GPU 38300 ชั่วโมง บน Google Cloud หากใช้งาน Spot GPU รุ่น A100-80G จำนวน 8 ตัวเป็นเวลา 1 ชั่วโมง จะมีค่าใช้จ่าย 12.6 ดอลลาร์ ค่าใช้จ่ายรวมทั้งหมดคือ 60300 ดอลลาร์

(github.com/s-JoL)

8 คะแนน โดย xguru 2023-05-16 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

โอเพนซอร์สที่ประกอบไปป์ไลน์ครบทั้งหมดตั้งแต่การสร้างชุดข้อมูล การโทเคไนซ์ การปรับแต่งพรอมป์ต์ ไปจนถึง LoRA และ RLHF
โมเดล Open-LLama-V2-pretrain ที่ผ่านการพรีเทรนแล้วก็เปิดเผยบน Hugging Face ด้วย
ตามวิธีการประเมินของ FastChat ระบุว่าทำประสิทธิภาพได้ราว 89% เมื่อเทียบกับ GPT-3.5 (สำหรับคำถามที่เป็นภาษาจีน)
ความเร็วในการเทรนอยู่ที่ 3620 โทเคน/วินาที เร็วกว่าต้นฉบับ LLama ที่ 3370 เล็กน้อย (โมเดล 7B)
หากเทรนด้วย 500B โทเคน จะต้องใช้เวลา GPU 38300 ชั่วโมง
- บน Google Cloud หากใช้งาน Spot GPU รุ่น A100-80G จำนวน 8 ตัวเป็นเวลา 1 ชั่วโมง จะมีค่าใช้จ่าย 12.6 ดอลลาร์
- ค่าใช้จ่ายรวมทั้งหมดคือ 60300 ดอลลาร์

2 ความคิดเห็น

zer0ne 2023-05-16

สงสัยว่าถ้าเทรนด้วย GPU สำหรับผู้บริโภคทั่วไปอย่าง 4090 จะใช้เวลานานแค่ไหน

xguru 2023-05-16

คุ้นชื่ออยู่เหมือนกันแฮะ..? เลยลองค้นดูแล้วพบว่า
OpenLLaMA - โคลนแบบเปิดของ LLaMA
ชื่อนี้ต่างกันแค่มีขีดกลางเพิ่มมาหนึ่งตัว แต่เนื้อหาเป็นคนละโปรเจ็กต์กันเลยครับ

Open-LLaMa - ไปป์ไลน์การเทรนแบบครบวงจรสำหรับสร้าง LLM

บทความที่เกี่ยวข้อง

2 ความคิดเห็น