glhf - รันโมเดลภาษาได้ (เกือบ) ทุกตัว

xguru · 2024-07-29T10:06:01+09:00

รันโอเพนซอร์สโมเดลภาษาขนาดใหญ่ได้เกือบทั้งหมดด้วย vLLM และตัวจัดตาราง GPU แบบออโตสเกลที่สร้างขึ้นเอง เช่น Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 เป็นต้น เพียงวางลิงก์รีโพซิทอรี Hugging Face ก็ใช้งานได้โดยแทบไม่ต้องตั้งค่า: รองรับทุกรีโพแบบ Full-weight และ 4-bit AWQ ใช้งาน Nvidia A100 80Gb GPU ได้สูงสุด 8 ตัว เปิดให้ใช้ฟรีในช่วงเบตา และหลังจบช่วงเบตาก็จะยังทำงานแบบมัลติเทนเนนต์ ทำให้คุ้มกว่าราคา GPU บนคลาวด์หลัก ๆ

(glhf.chat)

5 คะแนน โดย xguru 2024-07-29 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

รันโอเพนซอร์สโมเดลภาษาขนาดใหญ่ได้เกือบทั้งหมดด้วย vLLM และตัวจัดตาราง GPU แบบออโตสเกลที่สร้างขึ้นเอง
- เช่น Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 เป็นต้น
เพียงวางลิงก์รีโพซิทอรี Hugging Face ก็ใช้งานได้โดยแทบไม่ต้องตั้งค่า: รองรับทุกรีโพแบบ Full-weight และ 4-bit AWQ
ใช้งาน Nvidia A100 80Gb GPU ได้สูงสุด 8 ตัว
เปิดให้ใช้ฟรีในช่วงเบตา และหลังจบช่วงเบตาก็จะยังทำงานแบบมัลติเทนเนนต์ ทำให้คุ้มกว่าราคา GPU บนคลาวด์หลัก ๆ

2 ความคิดเห็น

wedding 2024-07-30

ตอนแรกกำลังคิดว่าจะลองใช้ llama 405b ยังไงดี แต่พอได้ลองแล้วทั้งเร็วและคุณภาพก็ดีเลย

xguru 2024-07-29

vLLM: การเสิร์ฟ LLM ที่ง่าย รวดเร็ว และประหยัดด้วย PagedAttention

glhf - รันโมเดลภาษาได้ (เกือบ) ทุกตัว

บทความที่เกี่ยวข้อง

2 ความคิดเห็น