Microsoft เปิดตัวโมเดลภาษา Phi-2 ขนาด 2.7B ที่เล็กแต่ทรงพลัง

xguru · 2023-12-15T09:21:19+09:00

SLM: Small Language Model แม้จะเป็นโมเดลขนาด 2.7B แต่ให้ประสิทธิภาพเทียบเท่าหรือดีกว่าโมเดลที่มีขนาดใหญ่กว่ามากถึง 25 เท่า เหนือกว่าประสิทธิภาพของ Mistral 7B และ Llama-7B/13B ในการให้เหตุผลหลายขั้นตอน เช่น งานเขียนโค้ดและคณิตศาสตร์ ทำได้ดีกว่าโมเดล Llama-2-70B ที่ใหญ่กว่าถึง 25 เท่า มีขนาดเล็กกว่า Google Gemini Nano 2 แต่ให้ประสิทธิภาพเทียบเท่าหรือดีกว่า สามารถทำงานลักษณะเดียวกัน เช่น การสร้างข้อความและการอธิบายภาพ ได้ด้วยพลังประมวลผลน้อยกว่าโมเดลอย่าง GPT-4 และ Llama-2 ด้วยขนาดที่เล็ก จึงเป็นสนามทดลองที่เหมาะอย่างยิ่งสำหรับนักวิจัย รวมถึงการทดลองด้านความสามารถในการตีความเชิงกลไก การปรับปรุงความปลอดภัย หรือการทำฟाइनจูนสำหรับงานที่หลากหลาย

(microsoft.com)

17 คะแนน โดย xguru 2023-12-15 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

SLM: Small Language Model
แม้จะเป็นโมเดลขนาด 2.7B แต่ให้ประสิทธิภาพเทียบเท่าหรือดีกว่าโมเดลที่มีขนาดใหญ่กว่ามากถึง 25 เท่า
- เหนือกว่าประสิทธิภาพของ Mistral 7B และ Llama-7B/13B
- ในการให้เหตุผลหลายขั้นตอน เช่น งานเขียนโค้ดและคณิตศาสตร์ ทำได้ดีกว่าโมเดล Llama-2-70B ที่ใหญ่กว่าถึง 25 เท่า
- มีขนาดเล็กกว่า Google Gemini Nano 2 แต่ให้ประสิทธิภาพเทียบเท่าหรือดีกว่า
สามารถทำงานลักษณะเดียวกัน เช่น การสร้างข้อความและการอธิบายภาพ ได้ด้วยพลังประมวลผลน้อยกว่าโมเดลอย่าง GPT-4 และ Llama-2
ด้วยขนาดที่เล็ก จึงเป็นสนามทดลองที่เหมาะอย่างยิ่งสำหรับนักวิจัย รวมถึงการทดลองด้านความสามารถในการตีความเชิงกลไก การปรับปรุงความปลอดภัย หรือการทำฟाइनจูนสำหรับงานที่หลากหลาย

2 ความคิดเห็น

xguru 2023-12-15

Weights อยู่ที่นี่ https://huggingface.co/microsoft/phi-2

xguru 2023-12-15

ความเห็นจาก Hacker News

การเปรียบเทียบจำนวนพารามิเตอร์ระหว่าง GPT-3 และ Phi-2
- GPT-3 มีพารามิเตอร์ 174 พันล้านตัว
- Phi-2 มีพารามิเตอร์ 2.7 พันล้านตัว จึงมีขนาดเล็กกว่า GPT-3 ประมาณ 65 เท่า
การเปรียบเทียบปริมาณข้อมูลฝึก
- GPT-3 ถูกฝึกด้วยโทเค็น 300 พันล้านรายการ
- Phi-2 ถูกฝึกด้วยโทเค็น 1.4 ล้านล้านรายการ จึงถูกฝึกด้วยข้อมูลมากกว่า GPT-3 ราว 5 เท่า
การเรียนรู้ภาษาของมนุษย์กับปัญญาประดิษฐ์
- ทารกมนุษย์ต้องใช้ข้อมูลการเรียนรู้แบบ "เทียบเท่าโทเค็น" ประมาณ 30 ล้านรายการเพื่อเรียนรู้ภาษา
- สิ่งนี้ชี้ให้เห็นว่าโครงสร้างทางชีววิทยาของมนุษย์ถูกทำให้เหมาะกับการเรียนรู้ภาษา และมี "ตัวชี้นำ" หรือข้อจำกัดที่ทรงพลังซึ่งช่วยลดพื้นที่สมมติฐานของภาษามนุษย์ที่เป็นไปได้
- น่าสงสัยว่าจะหาโครงสร้างที่คล้ายกันซึ่งทำให้ language model เรียนรู้ได้ด้วยข้อมูลที่น้อยลงหรือไม่
การเปิดเผยน้ำหนักของ Phi-2
- มีการเผยแพร่น้ำหนักของ Phi-2 แล้ว แต่ต้องล็อกอิน Azure Studio ก่อนจึงจะดาวน์โหลดได้
- สามารถดาวน์โหลดได้โดยเข้าไปที่หน้า Phi-2 ใน Azure AI Studio แล้วคลิกแท็บ "artifacts"
ต้นทุนการฝึก Phi-2
- Phi-2 ถูกฝึกบน A100 GPU จำนวน 96 ตัวเป็นเวลา 14 วัน
- หมายความว่าต้นทุนการฝึกอยู่ที่ประมาณ 30,000 USD
- หากต้นทุนการฝึก LLM (Large Language Model) ถูกกว่าการซื้อรถยนต์ ก็อาจช่วยผลักดันการทำให้ AI เข้าถึงได้อย่างกว้างขวางอย่างมาก
ข้อจำกัดการใช้ Phi-2 เพื่อการวิจัย
- แม้จะมีข้อจำกัดว่า "ใช้เพื่อการวิจัยเท่านั้น" แต่ประสิทธิภาพของ Phi-2 ก็เพิ่มความเป็นไปได้ในการใช้งานแบบโลคัลบนอุปกรณ์หลากหลายชนิด
- มีความเห็นว่ามันอ้างว่ามีประสิทธิภาพดีมาก จึงทำให้อนาคตดูสดใส/น่ากลัว
การแข่งขันของโมเดลขนาดเล็ก
- ช่วงหลังมานี้มีการแข่งขันอย่างจริงจังในวงการโมเดลขนาดเล็ก
- เป้าหมายหลักของโมเดลขนาดเล็กเหล่านี้คือการนำไปติดตั้งแบบโลคัลบนโทรศัพท์/โน้ตบุ๊ก ฯลฯ เพื่อขับเคลื่อนแอปและส่วนติดต่อผู้ใช้ยุคใหม่
การเปรียบเทียบประสิทธิภาพของ Phi-2 กับ Mistral 7B
- น่าประทับใจที่ Phi-2 ขนาด 2.7B ให้ประสิทธิภาพดีกว่า Mistral 7B ขนาด 7B
ปัญหาการเข้าถึงเว็บไซต์
- เข้าเว็บไซต์ไม่ได้ แต่ยังตรวจสอบได้ผ่านเวอร์ชันแคช
วิธีการเผยแพร่ Phi-2
- Phi-1.5 ถูกเผยแพร่บน huggingface แต่ Phi-2 ถูกเพิ่มไว้เฉพาะใน Azure AI Studio เพื่อจูงใจให้นักพัฒนาสมัครใช้งาน
- มีคำถามว่าเหตุใด Microsoft จึงไม่เข้าร่วมกับ GitHub ของวงการ ML อย่าง huggingface
ความสามารถในการดาวน์โหลดโมเดล Phi-2
- มีคำถามว่าสามารถดาวน์โหลดโมเดล Phi-2 มาใช้งานแบบโลคัลได้หรือไม่ หรือใช้งานได้เฉพาะบน Azure เท่านั้น

Microsoft เปิดตัวโมเดลภาษา Phi-2 ขนาด 2.7B ที่เล็กแต่ทรงพลัง

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความเห็นจาก Hacker News