7 คะแนน โดย xguru 2023-09-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลภาษาสาธารณะที่มีขนาดใหญ่ที่สุด โดยมีพารามิเตอร์ 180 พันล้านตัว
  • ในบรรดาโมเดลแบบเปิด ติดอันดับ 1 บนลีดเดอร์บอร์ด แซง Llama 2 70B และ GPT-3.5 และแข่งขันได้กับ PaLM-2
  • ฝึกด้วยโทเคน 3.5T โดยใช้ชุดข้อมูล RefinedWeb ของ TII (ส่วนใหญ่เป็นภาษาอังกฤษ)
    • มีขนาดใหญ่กว่า Llama 2 อยู่ 2.5 เท่า และฝึกด้วยพลังประมวลผลมากกว่า 4 เท่า (ใช้ GPU จำนวน 4096 ตัวบน Amazon SageMaker)
  • Falcon 180B สามารถใช้งานเชิงพาณิชย์ได้ แต่สามารถใช้งานได้ภายใต้เงื่อนไขที่จำกัดมาก ยกเว้นกรณี "การใช้งานแบบโฮสต์" จึงจำเป็นต้องตรวจสอบไลเซนส์ให้แน่ชัด
  • ข้อกำหนดด้านฮาร์ดแวร์
    • ฟูลไฟน์จูน: หน่วยความจำ 5120GB, 8x 8x A100 80GB
    • LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB
    • QLoRA: 160GB, 2x A100 80GB
    • การอนุมาน BF16/FP16 : 640GB, 8x A100 80GB
    • การอนุมาน GPTQ/int4 : 320GB, 8x A100 40GB

1 ความคิดเห็น

 
kuroneko 2023-09-07

ขนาดใหญ่มหาศาลจริง ๆ เลยนะ ทั้งในแง่ข้อกำหนดด้านฮาร์ดแวร์ด้วย...