2 คะแนน โดย GN⁺ 2023-09-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • บทความนี้แนะนำ Petals ซึ่งเป็นเทคโนโลยีใหม่ที่ช่วยให้ผู้ใช้สามารถรันโมเดลภาษาขนาดใหญ่ (LLMs) ที่บ้านได้ในลักษณะคล้ายกับ BitTorrent
  • Petals รองรับ LLMs หลายตัวและอนุพันธ์ของมัน เช่น Llama 2 (70B), Falcon (180B), BLOOM (176B)
  • เทคโนโลยีนี้ทำงานโดยโหลดบางส่วนของโมเดลไว้บนอุปกรณ์ของผู้ใช้ จากนั้นเชื่อมต่อกับเครือข่ายของผู้ใช้อื่นที่ให้บริการส่วนที่เหลือ
  • ให้ความเร็วในการอนุมานแบบ single-batch ที่ 6 โทเค็น/วินาทีสำหรับ Llama 2 และ 4 โทเค็น/วินาทีสำหรับ Falcon ซึ่งเพียงพอสำหรับแชตบอตและแอปแบบโต้ตอบ
  • Petals ก้าวไปไกลกว่า API ของ LLM แบบดั้งเดิม โดยเปิดให้ผู้ใช้ใช้วิธีการ fine-tuning และ sampling แบบใดก็ได้ รันเส้นทางที่กำหนดเองผ่านโมเดล หรือดู hidden states ได้
  • Petals ผสานความยืดหยุ่นของ PyTorch และ 🤗 Transformers เข้ากับความสะดวกของ API
  • ผู้ใช้สามารถทดลองใช้ Petals ได้บน Google Colab และดูเอกสารได้บน GitHub
  • บทความยังระบุรายชื่อผู้มีส่วนร่วมหลักในโปรเจ็กต์ และให้ลิงก์สำหรับผู้ที่ต้องการร่วมสนับสนุน GPU
  • ผู้ใช้สามารถติดตามการพัฒนาของ Petals ได้ผ่าน Discord หรือการสมัครรับอีเมล
  • โปรเจ็กต์นี้เป็นส่วนหนึ่งของ BigScience research workshop

1 ความคิดเห็น

 
GN⁺ 2023-09-18
ความเห็นจาก Hacker News
  • บทความเกี่ยวกับแนวทางใหม่ในการรันโมเดลภาษาขนาดใหญ่ (LLMs) ที่บ้านด้วยวิธีคล้าย BitTorrent
  • น้ำหนักของโมเดลถูกแบ่งเป็นชั้น ๆ กระจายอยู่บนหลายเครื่อง เพื่อร่วมมือกันทำ inference หรือ fine-tuning
  • มีโปรเจกต์ชื่อ Ollama ที่กำลังพัฒนา โดยโฮสต์น้ำหนักโมเดลไว้ใน Docker registry เพื่อให้มั่นใจว่ามีการดาวน์โหลดน้ำหนักที่ถูกต้องทุกครั้ง
  • การใช้ quantization/QLORA ทำให้สามารถรันโมเดลขนาดใหญ่บนฮาร์ดแวร์ระดับผู้บริโภคได้ด้วยความเร็วที่ยอมรับได้ พร้อมหลีกเลี่ยง latency จากการทำงานแบบขนานระหว่างเซิร์ฟเวอร์อื่น
  • การทำ fine-tuning โมเดลขนาดใหญ่อย่าง 70B เป็นเรื่องท้าทายและต้องใช้ทรัพยากรราคาแพง จึงมีข้อเสนอเรื่องการร่วมแรงแบบกลุ่มของ “llama training horde”
  • มีความกังวลเรื่องช่องโหว่ของระบบ เพราะผู้เข้าร่วมที่ไม่ประสงค์ดีอาจเปลี่ยนผลลัพธ์หรือส่งผลลัพธ์ขยะกลับมาเพื่อรบกวนระบบได้
  • Petals ซึ่งเป็นส่วนหนึ่งของโปรเจกต์นี้ ช่วยให้ผู้ใช้แชร์ GPU และมีส่วนร่วมเขียนโค้ดได้ พร้อมมอบประสบการณ์การเขียนโค้ดแบบทั่วไป
  • ระบบสามารถจัดสรรโทเคนจำนวนหนึ่งที่แจกจ่ายได้ จึงอาจเป็นประโยชน์ต่อผู้ใช้ที่มีอุปกรณ์สเปกต่ำ
  • โปรเจกต์นี้ดูมีศักยภาพที่จะเป็นตัวเปลี่ยนเกม และช่วยให้เข้าถึงนักพัฒนาในสายนี้ได้มากขึ้น
  • Petals ใช้ระบบแรงจูงใจแบบรวมศูนย์คล้ายกับ kudos ของ AI Horde แม้ในด้านอื่นจะเป็นระบบกระจายศูนย์ก็ตาม โดยแรงจูงใจนี้ไม่สามารถแลกเป็นเงินได้ และตั้งใจให้ใช้ภายในระบบ
  • ผู้ใช้บางรายพบปัญหาเรื่องเวอร์ชันของ dependency เมื่อพยายามแชร์ GPU
  • มีข้อเสนอให้ใช้ “โทเคน” สำหรับรอบการใช้งาน GPU พร้อมเสนอแนวคิดการไล่ตามดวงอาทิตย์เพื่อใช้พลังงานแสงอาทิตย์จากระบบ PV ให้เกิดประโยชน์สูงสุด