- บทความนี้แนะนำ Petals ซึ่งเป็นเทคโนโลยีใหม่ที่ช่วยให้ผู้ใช้สามารถรันโมเดลภาษาขนาดใหญ่ (LLMs) ที่บ้านได้ในลักษณะคล้ายกับ BitTorrent
- Petals รองรับ LLMs หลายตัวและอนุพันธ์ของมัน เช่น Llama 2 (70B), Falcon (180B), BLOOM (176B)
- เทคโนโลยีนี้ทำงานโดยโหลดบางส่วนของโมเดลไว้บนอุปกรณ์ของผู้ใช้ จากนั้นเชื่อมต่อกับเครือข่ายของผู้ใช้อื่นที่ให้บริการส่วนที่เหลือ
- ให้ความเร็วในการอนุมานแบบ single-batch ที่ 6 โทเค็น/วินาทีสำหรับ Llama 2 และ 4 โทเค็น/วินาทีสำหรับ Falcon ซึ่งเพียงพอสำหรับแชตบอตและแอปแบบโต้ตอบ
- Petals ก้าวไปไกลกว่า API ของ LLM แบบดั้งเดิม โดยเปิดให้ผู้ใช้ใช้วิธีการ fine-tuning และ sampling แบบใดก็ได้ รันเส้นทางที่กำหนดเองผ่านโมเดล หรือดู hidden states ได้
- Petals ผสานความยืดหยุ่นของ PyTorch และ 🤗 Transformers เข้ากับความสะดวกของ API
- ผู้ใช้สามารถทดลองใช้ Petals ได้บน Google Colab และดูเอกสารได้บน GitHub
- บทความยังระบุรายชื่อผู้มีส่วนร่วมหลักในโปรเจ็กต์ และให้ลิงก์สำหรับผู้ที่ต้องการร่วมสนับสนุน GPU
- ผู้ใช้สามารถติดตามการพัฒนาของ Petals ได้ผ่าน Discord หรือการสมัครรับอีเมล
- โปรเจ็กต์นี้เป็นส่วนหนึ่งของ BigScience research workshop
1 ความคิดเห็น
ความเห็นจาก Hacker News