Petals - รันโมเดลภาษาขนาด 100B+ ที่บ้านในสไตล์ BitTorrent
(github.com/bigscience-workshop)- รันโมเดลภาษาขนาดใหญ่มากอย่าง BLOOM-176B แบบ "ร่วมกัน"
- เชื่อมต่อ GPU ของตัวเองเข้ากับ Petals
- แต่ละคนโหลดบางส่วนของโมเดล และร่วมกันรันการอนุมานและการปรับจูนละเอียดกับผู้อื่น
- การอนุมานใช้เวลาประมาณ 1 วินาทีต่อสเต็ป (โทเค็น) ซึ่งเร็วกว่า offloading 10 เท่า จึงเพียงพอสำหรับแชตบอตและแอปแบบโต้ตอบอื่น ๆ
- การอนุมานแบบขนานสามารถทำได้หลายร้อยโทเค็นต่อวินาที
- กำลังดำเนินการเพิ่มแรงจูงใจแบบชัดเจน (Bloom points) ให้กับผู้ที่ให้เวลา GPU
3 ความคิดเห็น
ดีมาก!!
เอ๊ะ นี่ไม่ใช่บทความนี้นะ...
แม้แต่เวอร์ชัน BLOOM-7B ที่เล็กกว่ามาก ถ้ารันเองบนเครื่องโลคัลก็ใช้เวลาประมาณ 90 วินาทีบน Ryzen (16 คอร์) + RAM 32GB ด้วยนะครับ
ถ้ารันได้ดีอย่างที่เขาว่าก็น่าสนใจอยู่เหมือนกัน.. แต่ก็ให้ความรู้สึกแบบบล็อกเชนอยู่หน่อย ๆ..
(ตามที่ผู้พัฒนาบอกคือไม่ได้ใช้บล็อกเชนครับ)