แนะนำโมเดลภาษา phi-3-mini
- phi-3-mini เป็นโมเดลภาษาที่มีพารามิเตอร์ 3.8B และได้รับการฝึกด้วยโทเค็น 3.3 ล้านล้านโทเค็น
- จากผลการทดสอบทั้งบนเบนช์มาร์กทางวิชาการและการทดสอบภายใน แสดงประสิทธิภาพที่สามารถเทียบเคียงกับโมเดลอย่าง Mixtral 8x7B และ GPT-3.5 ได้ (MMLU 69%, MT-bench 8.38 คะแนน)
- แม้จะมีขนาดเล็กพอที่จะนำไปใช้งานบนโทรศัพท์มือถือได้ ก็ยังแสดงประสิทธิภาพที่โดดเด่น
- ใช้ชุดข้อมูลเวอร์ชันขยายจากที่ใช้ใน phi-2 ซึ่งประกอบด้วยข้อมูลเว็บที่ผ่านการกรองและข้อมูลสังเคราะห์
- ได้รับการปรับแนวให้สอดคล้องเพิ่มเติมเพื่อความทนทาน ความปลอดภัย และรูปแบบการแชต
แนะนำโมเดล phi-3-small และ phi-3-medium
- ยังมีการนำเสนอผลเบื้องต้นของการสเกลพารามิเตอร์สำหรับ phi-3-small และ phi-3-medium ซึ่งเป็นโมเดล 7B และ 14B ที่ฝึกด้วย 4.8 ล้านล้านโทเค็น
- แสดงประสิทธิภาพที่เหนือกว่า phi-3-mini อย่างมาก (MMLU 75%, 78%, MT-bench 8.7 คะแนน, 8.9 คะแนน)
ความเห็นจาก GN⁺
- น่าประทับใจที่โมเดลภาษาขนาดเล็กซึ่งสามารถใช้งานบนโทรศัพท์มือถือได้กลับให้ประสิทธิภาพสูง ทำให้มองเห็นความเป็นไปได้ของการใช้งาน AI บนอุปกรณ์พกพาที่มากขึ้นในอนาคต
- อย่างไรก็ตาม อาจมีความกังวลเกี่ยวกับการคุ้มครองข้อมูลส่วนบุคคลและประเด็นด้านความเป็นส่วนตัว แม้จะประมวลผลบนอุปกรณ์ภายในเครื่อง แต่ข้อมูลผู้ใช้ก็ควรได้รับการจัดการอย่างปลอดภัย
- แนวทางการฝึกที่ใช้ทั้งข้อมูลเว็บและข้อมูลสังเคราะห์นั้นน่าสนใจ ดูเหมือนว่าจะต้องใช้ความพยายามอย่างมากในการเก็บรวบรวมและคัดกรองข้อมูล เป็นตัวอย่างที่แสดงให้เห็นว่าข้อมูลคุณภาพสูงนำไปสู่ประสิทธิภาพที่ดี
- ผลการเปรียบเทียบประสิทธิภาพตามขนาดของโมเดลก็น่าสนใจเช่นกัน การเลือกโมเดลที่มีขนาดเหมาะสมดูจะสำคัญในแง่ของประสิทธิภาพ
- โมเดลภาษาโอเพนซอร์สแบบน้ำหนักเบาอย่าง StableLM ของ Stability AI และ Claude ของ Anthropic กำลังทยอยปรากฏขึ้น คาดว่าจะได้เห็นกรณีการใช้งานที่หลากหลาย
2 ความคิดเห็น
Microsoft เปิดตัวโมเดลภาษา Phi-2 ขนาดเล็กแต่ทรงพลังที่ 2.7B
ความคิดเห็นจาก Hacker News
จำเป็นต้องตีความผลเบนช์มาร์กของโมเดล Phi-3 อย่างระมัดระวัง มีกรณีก่อนหน้าที่ประสิทธิภาพจริงของ Phi-2 ต่ำกว่าตัวเลขเบนช์มาร์ก จึงอาจไม่สะท้อนการใช้งานจริงหรืออันดับบนกระดานผู้นำ LMSYS โดยตรง
ถึงอย่างนั้น Phi-3 ก็แสดงประสิทธิภาพที่ดีด้วยขนาดโมเดลเล็ก บ่งชี้ว่าวิธี distillation ผ่าน "ข้อมูลสังเคราะห์" เพื่อถ่ายทอดความสามารถของ GPT-4 มายังโมเดลขนาดเล็กอาจได้ผล และทำให้เห็นความเป็นไปได้ของแนวทางแบบ Chinchilla ที่ฝึกโมเดลขนาดใหญ่อย่างเหมาะสมแล้วกลั่นลงสู่โมเดลเล็ก
บนกระดานผู้นำภาษาอังกฤษของ LMSYS โมเดล Phi-3 แสดงประสิทธิภาพที่พอจะเทียบกับ Llama 3, GPT-3.5 และรุ่นอื่น ๆ ได้ โดยเฉพาะ Phi-3-mini 3.8B ที่มีพารามิเตอร์ 3.8B แต่สู้กับ Llama 3 8B ได้ บ่งชี้ถึงความเป็นไปได้ของโอเพนซอร์ส LLM ระดับ GPT-4 ที่รันบนโทรศัพท์มือถือได้
อย่างไรก็ดี เบนช์มาร์กประเภทนี้มีข้อจำกัดตรงที่โมเดลสามารถ gaming ได้ง่าย จึงควรให้ความสำคัญกับประสิทธิภาพโดยรวมมากกว่าราย task และน่าจะต้องตรวจสอบอย่างรอบคอบจากหลายมุมมอง
โมเดล Phi-3 บางส่วนถูกเผยแพร่บน HuggingFace แล้ว ทำให้คาดว่าจะนำไปใช้งานได้สะดวกขึ้น
การฝึกด้วยข้อมูลสังเคราะห์จำนวนมหาศาล 3.3 ล้านล้านโทเค็นมีส่วนช่วยให้โมเดลมีขนาดเล็กลง และอาจช่วยบรรเทาปัญหาลิขสิทธิ์ได้ด้วย
อย่างไรก็ตาม เมื่อนำไปใช้จริงในขอบเขตนอกเหนือจากข้อมูลฝึก ก็ยังพูดเพ้อเจ้ออยู่มาก อาจมีประสิทธิภาพกับการทำ finetuning สำหรับงานเฉพาะทางแคบ ๆ แต่คงยากที่จะมาแทน GPT-3.5 ในการสนทนาทั่วไป
น้ำหนักโมเดลถูกเผยแพร่บน HuggingFace ทั้งเวอร์ชันคอนเท็กซ์ 4k และ 128k ทำให้มีความสนใจต่อความเป็นไปได้ในการนำไปใช้กับ finetuning หรือ RAG (Retrieval-Augmented Generation)