4 คะแนน โดย xguru 2023-01-03 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • รันโมเดลภาษาขนาดใหญ่มากอย่าง BLOOM-176B แบบ "ร่วมกัน"
    • เชื่อมต่อ GPU ของตัวเองเข้ากับ Petals
    • แต่ละคนโหลดบางส่วนของโมเดล และร่วมกันรันการอนุมานและการปรับจูนละเอียดกับผู้อื่น
  • การอนุมานใช้เวลาประมาณ 1 วินาทีต่อสเต็ป (โทเค็น) ซึ่งเร็วกว่า offloading 10 เท่า จึงเพียงพอสำหรับแชตบอตและแอปแบบโต้ตอบอื่น ๆ
    • การอนุมานแบบขนานสามารถทำได้หลายร้อยโทเค็นต่อวินาที
  • กำลังดำเนินการเพิ่มแรงจูงใจแบบชัดเจน (Bloom points) ให้กับผู้ที่ให้เวลา GPU

3 ความคิดเห็น

 
won9497 2023-01-03

ดีมาก!!

 
won9497 2023-01-03

เอ๊ะ นี่ไม่ใช่บทความนี้นะ...

 
xguru 2023-01-03

แม้แต่เวอร์ชัน BLOOM-7B ที่เล็กกว่ามาก ถ้ารันเองบนเครื่องโลคัลก็ใช้เวลาประมาณ 90 วินาทีบน Ryzen (16 คอร์) + RAM 32GB ด้วยนะครับ
ถ้ารันได้ดีอย่างที่เขาว่าก็น่าสนใจอยู่เหมือนกัน.. แต่ก็ให้ความรู้สึกแบบบล็อกเชนอยู่หน่อย ๆ..
(ตามที่ผู้พัฒนาบอกคือไม่ได้ใช้บล็อกเชนครับ)