5 คะแนน โดย xguru 2024-07-29 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • รันโอเพนซอร์สโมเดลภาษาขนาดใหญ่ได้เกือบทั้งหมดด้วย vLLM และตัวจัดตาราง GPU แบบออโตสเกลที่สร้างขึ้นเอง
    • เช่น Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 เป็นต้น
  • เพียงวางลิงก์รีโพซิทอรี Hugging Face ก็ใช้งานได้โดยแทบไม่ต้องตั้งค่า: รองรับทุกรีโพแบบ Full-weight และ 4-bit AWQ
  • ใช้งาน Nvidia A100 80Gb GPU ได้สูงสุด 8 ตัว
  • เปิดให้ใช้ฟรีในช่วงเบตา และหลังจบช่วงเบตาก็จะยังทำงานแบบมัลติเทนเนนต์ ทำให้คุ้มกว่าราคา GPU บนคลาวด์หลัก ๆ

2 ความคิดเห็น

 
wedding 2024-07-30

ตอนแรกกำลังคิดว่าจะลองใช้ llama 405b ยังไงดี แต่พอได้ลองแล้วทั้งเร็วและคุณภาพก็ดีเลย