เปิดตัวโมเดล Falcon 180B

xguru · 2023-09-07T10:31:01+09:00

โมเดลภาษาสาธารณะที่มีขนาดใหญ่ที่สุด โดยมีพารามิเตอร์ 180 พันล้านตัว ในบรรดาโมเดลแบบเปิด ติดอันดับ 1 บนลีดเดอร์บอร์ด แซง Llama 2 70B และ GPT-3.5 และแข่งขันได้กับ PaLM-2 ฝึกด้วยโทเคน 3.5T โดยใช้ชุดข้อมูล RefinedWeb ของ TII (ส่วนใหญ่เป็นภาษาอังกฤษ) มีขนาดใหญ่กว่า Llama 2 อยู่ 2.5 เท่า และฝึกด้วยพลังประมวลผลมากกว่า 4 เท่า (ใช้ GPU จำนวน 4096 ตัวบน Amazon SageMaker) Falcon 180B สามารถใช้งานเชิงพาณิชย์ได้ แต่สามารถใช้งานได้ภายใต้เงื่อนไขที่จำกัดมาก ยกเว้นกรณี "การใช้งานแบบโฮสต์" จึงจำเป็นต้องตรวจสอบไลเซนส์ให้แน่ชัด ข้อกำหนดด้านฮาร์ดแวร์ ฟูลไฟน์จูน: หน่วยความจำ 5120GB, 8x 8x A100 80GB LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB QLoRA: 160GB, 2x A100 80GB การอนุมาน BF16/FP16 : 640GB, 8x A100 80GB การอนุมาน GPTQ/int4 : 320GB, 8x A100 40GB

(huggingface.co)

7 คะแนน โดย xguru 2023-09-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลภาษาสาธารณะที่มีขนาดใหญ่ที่สุด โดยมีพารามิเตอร์ 180 พันล้านตัว
ในบรรดาโมเดลแบบเปิด ติดอันดับ 1 บนลีดเดอร์บอร์ด แซง Llama 2 70B และ GPT-3.5 และแข่งขันได้กับ PaLM-2
ฝึกด้วยโทเคน 3.5T โดยใช้ชุดข้อมูล RefinedWeb ของ TII (ส่วนใหญ่เป็นภาษาอังกฤษ)
- มีขนาดใหญ่กว่า Llama 2 อยู่ 2.5 เท่า และฝึกด้วยพลังประมวลผลมากกว่า 4 เท่า (ใช้ GPU จำนวน 4096 ตัวบน Amazon SageMaker)
Falcon 180B สามารถใช้งานเชิงพาณิชย์ได้ แต่สามารถใช้งานได้ภายใต้เงื่อนไขที่จำกัดมาก ยกเว้นกรณี "การใช้งานแบบโฮสต์" จึงจำเป็นต้องตรวจสอบไลเซนส์ให้แน่ชัด
ข้อกำหนดด้านฮาร์ดแวร์
- ฟูลไฟน์จูน: หน่วยความจำ 5120GB, 8x 8x A100 80GB
- LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB
- QLoRA: 160GB, 2x A100 80GB
- การอนุมาน BF16/FP16 : 640GB, 8x A100 80GB
- การอนุมาน GPTQ/int4 : 320GB, 8x A100 40GB

1 ความคิดเห็น

kuroneko 2023-09-07

ขนาดใหญ่มหาศาลจริง ๆ เลยนะ ทั้งในแง่ข้อกำหนดด้านฮาร์ดแวร์ด้วย...

เปิดตัวโมเดล Falcon 180B

บทความที่เกี่ยวข้อง

1 ความคิดเห็น