- โอเพนซอร์สที่ประกอบไปป์ไลน์ครบทั้งหมดตั้งแต่การสร้างชุดข้อมูล การโทเคไนซ์ การปรับแต่งพรอมป์ต์ ไปจนถึง LoRA และ RLHF
- โมเดล Open-LLama-V2-pretrain ที่ผ่านการพรีเทรนแล้วก็เปิดเผยบน Hugging Face ด้วย
- ตามวิธีการประเมินของ FastChat ระบุว่าทำประสิทธิภาพได้ราว 89% เมื่อเทียบกับ GPT-3.5 (สำหรับคำถามที่เป็นภาษาจีน)
- ความเร็วในการเทรนอยู่ที่ 3620 โทเคน/วินาที เร็วกว่าต้นฉบับ LLama ที่ 3370 เล็กน้อย (โมเดล 7B)
- หากเทรนด้วย 500B โทเคน จะต้องใช้เวลา GPU 38300 ชั่วโมง
- บน Google Cloud หากใช้งาน Spot GPU รุ่น A100-80G จำนวน 8 ตัวเป็นเวลา 1 ชั่วโมง จะมีค่าใช้จ่าย 12.6 ดอลลาร์
- ค่าใช้จ่ายรวมทั้งหมดคือ 60300 ดอลลาร์
2 ความคิดเห็น
สงสัยว่าถ้าเทรนด้วย GPU สำหรับผู้บริโภคทั่วไปอย่าง 4090 จะใช้เวลานานแค่ไหน
คุ้นชื่ออยู่เหมือนกันแฮะ..? เลยลองค้นดูแล้วพบว่า
OpenLLaMA - โคลนแบบเปิดของ LLaMA
ชื่อนี้ต่างกันแค่มีขีดกลางเพิ่มมาหนึ่งตัว แต่เนื้อหาเป็นคนละโปรเจ็กต์กันเลยครับ