glhf - รันโมเดลภาษาได้ (เกือบ) ทุกตัว
(glhf.chat)- รันโอเพนซอร์สโมเดลภาษาขนาดใหญ่ได้เกือบทั้งหมดด้วย vLLM และตัวจัดตาราง GPU แบบออโตสเกลที่สร้างขึ้นเอง
- เช่น Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 เป็นต้น
- เพียงวางลิงก์รีโพซิทอรี Hugging Face ก็ใช้งานได้โดยแทบไม่ต้องตั้งค่า: รองรับทุกรีโพแบบ Full-weight และ 4-bit AWQ
- ใช้งาน Nvidia A100 80Gb GPU ได้สูงสุด 8 ตัว
- เปิดให้ใช้ฟรีในช่วงเบตา และหลังจบช่วงเบตาก็จะยังทำงานแบบมัลติเทนเนนต์ ทำให้คุ้มกว่าราคา GPU บนคลาวด์หลัก ๆ
2 ความคิดเห็น
ตอนแรกกำลังคิดว่าจะลองใช้ llama 405b ยังไงดี แต่พอได้ลองแล้วทั้งเร็วและคุณภาพก็ดีเลย
vLLM: การเสิร์ฟ LLM ที่ง่าย รวดเร็ว และประหยัดด้วย PagedAttention