- MK-1 เป็นบริษัทใหม่ที่มุ่งนำเสนอโมเดล AI ที่มีความสามารถเทียบเท่าหรือดีกว่าผู้นำ AI ระดับแนวหน้าอย่าง OpenAI, Anthropic และ Google
- ผลิตภัณฑ์แรกของบริษัทคือ MKML ซึ่งเป็น runtime สำหรับการอนุมานที่สามารถลดต้นทุนการอนุมานของโมเดลภาษาขนาดใหญ่ (LLM) บน GPU ได้ 2 เท่า ด้วยโค้ด Python เพียงไม่กี่บรรทัด
- MKML เข้ากันได้กับระบบนิเวศยอดนิยมอย่าง Hugging Face และ PyTorch
- ขณะนี้ MKML อยู่ในช่วง closed beta release และกำลังมองหาพาร์ตเนอร์กลุ่มแรก
- MKML สามารถช่วยเพิ่มประสิทธิภาพโมเดล AI โดยลดการใช้หน่วยความจำและเพิ่มความเร็วได้ ตัวอย่างเช่น สามารถลดขนาดโมเดล Llama-2 13B จาก 26GB เหลือ 10.5GB และลดเวลาอนุมานของ forward pass ได้สูงสุด 2.3 เท่า
- MKML สามารถใช้เพื่อเพิ่มประสิทธิภาพโมเดล AI ตามต้นทุนหรือความเร็วได้ ในสถานการณ์ที่เน้นการลดต้นทุน มันสามารถทำให้โมเดลเหมาะกับ GPU instance ที่มีราคาถูกกว่า และยังรันได้เร็วกว่าโมเดลพื้นฐานบน instance ที่แพงกว่าได้อีกด้วย ส่วนในสถานการณ์ที่เน้นความเร็ว MKML สามารถทำให้โมเดลเร็วขึ้นได้สูงสุด 2.0 เท่า เพื่อรองรับผู้ใช้ได้มากขึ้น
- MKML สามารถผสานเข้ากับ workflow เดิมได้อย่างง่ายดาย โดยใช้ model codec ของ MKML ตัวใดตัวหนึ่งเพื่อบีบอัดโมเดลหนึ่งครั้ง จากนั้นบันทึกโมเดลที่บีบอัดแล้วลงดิสก์ และโหลดขึ้นมาเพื่อใช้ในการอนุมาน
- MKML รองรับทั้งขนาดโมเดลและการตั้งค่าระบบที่หลากหลาย และในการทดสอบความเร็วก็ทำได้เร็วกว่า baseline อย่างสม่ำเสมอ
- MKML ยังรักษาความเที่ยงตรงต่อโมเดลต้นฉบับไว้ได้สูง โดยแสดงความแตกต่างเพียงเล็กน้อยจนแทบไม่มีนัยสำคัญในการวัด perplexity มาตรฐาน
- วิสัยทัศน์ระยะยาวของ MK-1 คือการผลักดันประสิทธิภาพของ AI ให้ถึงขีดสุดตลอดทั้ง inference stack และพวกเขาก็มีโรดแมปที่ทะเยอทะยานสำหรับการพัฒนาในอนาคต
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News