- SLM: Small Language Model
- แม้จะเป็นโมเดลขนาด 2.7B แต่ให้ประสิทธิภาพเทียบเท่าหรือดีกว่าโมเดลที่มีขนาดใหญ่กว่ามากถึง 25 เท่า
- เหนือกว่าประสิทธิภาพของ Mistral 7B และ Llama-7B/13B
- ในการให้เหตุผลหลายขั้นตอน เช่น งานเขียนโค้ดและคณิตศาสตร์ ทำได้ดีกว่าโมเดล Llama-2-70B ที่ใหญ่กว่าถึง 25 เท่า
- มีขนาดเล็กกว่า Google Gemini Nano 2 แต่ให้ประสิทธิภาพเทียบเท่าหรือดีกว่า
- สามารถทำงานลักษณะเดียวกัน เช่น การสร้างข้อความและการอธิบายภาพ ได้ด้วยพลังประมวลผลน้อยกว่าโมเดลอย่าง GPT-4 และ Llama-2
- ด้วยขนาดที่เล็ก จึงเป็นสนามทดลองที่เหมาะอย่างยิ่งสำหรับนักวิจัย รวมถึงการทดลองด้านความสามารถในการตีความเชิงกลไก การปรับปรุงความปลอดภัย หรือการทำฟाइनจูนสำหรับงานที่หลากหลาย
2 ความคิดเห็น
Weights อยู่ที่นี่ https://huggingface.co/microsoft/phi-2
ความเห็นจาก Hacker News