- โมเดลภาษาสาธารณะที่มีขนาดใหญ่ที่สุด โดยมีพารามิเตอร์ 180 พันล้านตัว
- ในบรรดาโมเดลแบบเปิด ติดอันดับ 1 บนลีดเดอร์บอร์ด แซง Llama 2 70B และ GPT-3.5 และแข่งขันได้กับ PaLM-2
- ฝึกด้วยโทเคน 3.5T โดยใช้ชุดข้อมูล RefinedWeb ของ TII (ส่วนใหญ่เป็นภาษาอังกฤษ)
- มีขนาดใหญ่กว่า Llama 2 อยู่ 2.5 เท่า และฝึกด้วยพลังประมวลผลมากกว่า 4 เท่า (ใช้ GPU จำนวน 4096 ตัวบน Amazon SageMaker)
- Falcon 180B สามารถใช้งานเชิงพาณิชย์ได้ แต่สามารถใช้งานได้ภายใต้เงื่อนไขที่จำกัดมาก ยกเว้นกรณี "การใช้งานแบบโฮสต์" จึงจำเป็นต้องตรวจสอบไลเซนส์ให้แน่ชัด
- ข้อกำหนดด้านฮาร์ดแวร์
- ฟูลไฟน์จูน: หน่วยความจำ 5120GB, 8x 8x A100 80GB
- LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB
- QLoRA: 160GB, 2x A100 80GB
- การอนุมาน BF16/FP16 : 640GB, 8x A100 80GB
- การอนุมาน GPTQ/int4 : 320GB, 8x A100 40GB
1 ความคิดเห็น
ขนาดใหญ่มหาศาลจริง ๆ เลยนะ ทั้งในแง่ข้อกำหนดด้านฮาร์ดแวร์ด้วย...