8 คะแนน โดย GN⁺ 2024-04-24 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

แนะนำโมเดลภาษา phi-3-mini

  • phi-3-mini เป็นโมเดลภาษาที่มีพารามิเตอร์ 3.8B และได้รับการฝึกด้วยโทเค็น 3.3 ล้านล้านโทเค็น
  • จากผลการทดสอบทั้งบนเบนช์มาร์กทางวิชาการและการทดสอบภายใน แสดงประสิทธิภาพที่สามารถเทียบเคียงกับโมเดลอย่าง Mixtral 8x7B และ GPT-3.5 ได้ (MMLU 69%, MT-bench 8.38 คะแนน)
  • แม้จะมีขนาดเล็กพอที่จะนำไปใช้งานบนโทรศัพท์มือถือได้ ก็ยังแสดงประสิทธิภาพที่โดดเด่น
  • ใช้ชุดข้อมูลเวอร์ชันขยายจากที่ใช้ใน phi-2 ซึ่งประกอบด้วยข้อมูลเว็บที่ผ่านการกรองและข้อมูลสังเคราะห์
  • ได้รับการปรับแนวให้สอดคล้องเพิ่มเติมเพื่อความทนทาน ความปลอดภัย และรูปแบบการแชต

แนะนำโมเดล phi-3-small และ phi-3-medium

  • ยังมีการนำเสนอผลเบื้องต้นของการสเกลพารามิเตอร์สำหรับ phi-3-small และ phi-3-medium ซึ่งเป็นโมเดล 7B และ 14B ที่ฝึกด้วย 4.8 ล้านล้านโทเค็น
  • แสดงประสิทธิภาพที่เหนือกว่า phi-3-mini อย่างมาก (MMLU 75%, 78%, MT-bench 8.7 คะแนน, 8.9 คะแนน)

ความเห็นจาก GN⁺

  • น่าประทับใจที่โมเดลภาษาขนาดเล็กซึ่งสามารถใช้งานบนโทรศัพท์มือถือได้กลับให้ประสิทธิภาพสูง ทำให้มองเห็นความเป็นไปได้ของการใช้งาน AI บนอุปกรณ์พกพาที่มากขึ้นในอนาคต
  • อย่างไรก็ตาม อาจมีความกังวลเกี่ยวกับการคุ้มครองข้อมูลส่วนบุคคลและประเด็นด้านความเป็นส่วนตัว แม้จะประมวลผลบนอุปกรณ์ภายในเครื่อง แต่ข้อมูลผู้ใช้ก็ควรได้รับการจัดการอย่างปลอดภัย
  • แนวทางการฝึกที่ใช้ทั้งข้อมูลเว็บและข้อมูลสังเคราะห์นั้นน่าสนใจ ดูเหมือนว่าจะต้องใช้ความพยายามอย่างมากในการเก็บรวบรวมและคัดกรองข้อมูล เป็นตัวอย่างที่แสดงให้เห็นว่าข้อมูลคุณภาพสูงนำไปสู่ประสิทธิภาพที่ดี
  • ผลการเปรียบเทียบประสิทธิภาพตามขนาดของโมเดลก็น่าสนใจเช่นกัน การเลือกโมเดลที่มีขนาดเหมาะสมดูจะสำคัญในแง่ของประสิทธิภาพ
  • โมเดลภาษาโอเพนซอร์สแบบน้ำหนักเบาอย่าง StableLM ของ Stability AI และ Claude ของ Anthropic กำลังทยอยปรากฏขึ้น คาดว่าจะได้เห็นกรณีการใช้งานที่หลากหลาย

2 ความคิดเห็น

 
GN⁺ 2024-04-24
ความคิดเห็นจาก Hacker News
  • จำเป็นต้องตีความผลเบนช์มาร์กของโมเดล Phi-3 อย่างระมัดระวัง มีกรณีก่อนหน้าที่ประสิทธิภาพจริงของ Phi-2 ต่ำกว่าตัวเลขเบนช์มาร์ก จึงอาจไม่สะท้อนการใช้งานจริงหรืออันดับบนกระดานผู้นำ LMSYS โดยตรง

  • ถึงอย่างนั้น Phi-3 ก็แสดงประสิทธิภาพที่ดีด้วยขนาดโมเดลเล็ก บ่งชี้ว่าวิธี distillation ผ่าน "ข้อมูลสังเคราะห์" เพื่อถ่ายทอดความสามารถของ GPT-4 มายังโมเดลขนาดเล็กอาจได้ผล และทำให้เห็นความเป็นไปได้ของแนวทางแบบ Chinchilla ที่ฝึกโมเดลขนาดใหญ่อย่างเหมาะสมแล้วกลั่นลงสู่โมเดลเล็ก

  • บนกระดานผู้นำภาษาอังกฤษของ LMSYS โมเดล Phi-3 แสดงประสิทธิภาพที่พอจะเทียบกับ Llama 3, GPT-3.5 และรุ่นอื่น ๆ ได้ โดยเฉพาะ Phi-3-mini 3.8B ที่มีพารามิเตอร์ 3.8B แต่สู้กับ Llama 3 8B ได้ บ่งชี้ถึงความเป็นไปได้ของโอเพนซอร์ส LLM ระดับ GPT-4 ที่รันบนโทรศัพท์มือถือได้

  • อย่างไรก็ดี เบนช์มาร์กประเภทนี้มีข้อจำกัดตรงที่โมเดลสามารถ gaming ได้ง่าย จึงควรให้ความสำคัญกับประสิทธิภาพโดยรวมมากกว่าราย task และน่าจะต้องตรวจสอบอย่างรอบคอบจากหลายมุมมอง

  • โมเดล Phi-3 บางส่วนถูกเผยแพร่บน HuggingFace แล้ว ทำให้คาดว่าจะนำไปใช้งานได้สะดวกขึ้น

  • การฝึกด้วยข้อมูลสังเคราะห์จำนวนมหาศาล 3.3 ล้านล้านโทเค็นมีส่วนช่วยให้โมเดลมีขนาดเล็กลง และอาจช่วยบรรเทาปัญหาลิขสิทธิ์ได้ด้วย

  • อย่างไรก็ตาม เมื่อนำไปใช้จริงในขอบเขตนอกเหนือจากข้อมูลฝึก ก็ยังพูดเพ้อเจ้ออยู่มาก อาจมีประสิทธิภาพกับการทำ finetuning สำหรับงานเฉพาะทางแคบ ๆ แต่คงยากที่จะมาแทน GPT-3.5 ในการสนทนาทั่วไป

  • น้ำหนักโมเดลถูกเผยแพร่บน HuggingFace ทั้งเวอร์ชันคอนเท็กซ์ 4k และ 128k ทำให้มีความสนใจต่อความเป็นไปได้ในการนำไปใช้กับ finetuning หรือ RAG (Retrieval-Augmented Generation)