8 คะแนน โดย xguru 2023-05-16 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • โอเพนซอร์สที่ประกอบไปป์ไลน์ครบทั้งหมดตั้งแต่การสร้างชุดข้อมูล การโทเคไนซ์ การปรับแต่งพรอมป์ต์ ไปจนถึง LoRA และ RLHF
  • โมเดล Open-LLama-V2-pretrain ที่ผ่านการพรีเทรนแล้วก็เปิดเผยบน Hugging Face ด้วย
  • ตามวิธีการประเมินของ FastChat ระบุว่าทำประสิทธิภาพได้ราว 89% เมื่อเทียบกับ GPT-3.5 (สำหรับคำถามที่เป็นภาษาจีน)
  • ความเร็วในการเทรนอยู่ที่ 3620 โทเคน/วินาที เร็วกว่าต้นฉบับ LLama ที่ 3370 เล็กน้อย (โมเดล 7B)
  • หากเทรนด้วย 500B โทเคน จะต้องใช้เวลา GPU 38300 ชั่วโมง
    • บน Google Cloud หากใช้งาน Spot GPU รุ่น A100-80G จำนวน 8 ตัวเป็นเวลา 1 ชั่วโมง จะมีค่าใช้จ่าย 12.6 ดอลลาร์
    • ค่าใช้จ่ายรวมทั้งหมดคือ 60300 ดอลลาร์

2 ความคิดเห็น

 
zer0ne 2023-05-16

สงสัยว่าถ้าเทรนด้วย GPU สำหรับผู้บริโภคทั่วไปอย่าง 4090 จะใช้เวลานานแค่ไหน

 
xguru 2023-05-16

คุ้นชื่ออยู่เหมือนกันแฮะ..? เลยลองค้นดูแล้วพบว่า
OpenLLaMA - โคลนแบบเปิดของ LLaMA
ชื่อนี้ต่างกันแค่มีขีดกลางเพิ่มมาหนึ่งตัว แต่เนื้อหาเป็นคนละโปรเจ็กต์กันเลยครับ