5 คะแนน โดย xguru 2024-04-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ชุมชนโอเพนซอร์สกำลังมีการเปิดตัวโมเดลขนาดใหญ่ที่มีพารามิเตอร์มากกว่า 1 แสนล้านตัวออกมาอย่างต่อเนื่องในช่วงหลังมานี้ และแสดงประสิทธิภาพที่น่าทึ่งทั้งในการประเมินด้วยเบนช์มาร์กและงานแชตบอต
  • Alibaba ก็ได้เปิดตัว Qwen1.5-110B ซึ่งเป็นโมเดล 100B+ ตัวแรกของซีรีส์ Qwen1.5
  • ในการประเมินโมเดลพื้นฐาน โมเดลนี้ทำผลงานได้ในระดับที่สูสีกับ Meta-Llama3-70B และยังแสดงประสิทธิภาพโดดเด่นในการประเมินด้านแชต รวมถึง MT-Bench และ AlpacaEval 2.0

จุดเด่นของโมเดล Qwen1.5-110B

  • Qwen1.5-110B มีลักษณะใกล้เคียงกับโมเดลอื่น ๆ ในตระกูล Qwen1.5 และสร้างขึ้นบนสถาปัตยกรรม Transformer decoder แบบเดียวกัน
  • ใช้ grouped query attention (GQA) ทำให้มีประสิทธิภาพต่อการให้บริการโมเดล
  • รองรับ context length 32K tokens และเป็นโมเดลหลายภาษาที่รองรับภาษาอังกฤษ จีน ฝรั่งเศส สเปน เยอรมัน รัสเซีย ไทย ญี่ปุ่น เวียดนาม อาหรับ เป็นต้น

ผลการประเมินโมเดลภาษาพื้นฐาน

  • มีการประเมินโมเดลภาษาพื้นฐานหลายชุด และเปรียบเทียบกับ Meta-Llama3-70B และ Mixtral-8x22B ซึ่งเป็นโมเดลภาษา SOTA รุ่นล่าสุด
  • ผลลัพธ์ชี้ว่าโมเดล 110B ใหม่นี้มีความสามารถพื้นฐานอย่างน้อยก็แข่งขันกับ Llama-3-70B ได้
  • สำหรับโมเดลนี้ สูตรการ pre-training และ post-training ไม่ได้ถูกเปลี่ยนแปลงอย่างมากนัก ดังนั้นการปรับปรุงเมื่อเทียบกับ 72B จึงน่าจะมาจากการเพิ่มขนาดโมเดล

ผลการประเมินโมเดลแชต

  • มีการทดสอบโมเดลแชตบน MT-Bench และ AlpacaEval 2.0
  • เมื่อเทียบกับโมเดล 72B ที่เปิดตัวก่อนหน้า รุ่น 110B แสดงประสิทธิภาพที่ดีกว่าอย่างชัดเจนในทั้งสองเบนช์มาร์ก
  • การปรับปรุงอย่างสม่ำเสมอในการประเมินบ่งชี้ว่า แม้จะไม่ได้เปลี่ยนสูตร post-training มากนัก แต่โมเดลภาษาพื้นฐานที่ใหญ่ขึ้นและแข็งแกร่งขึ้นก็สามารถนำไปสู่โมเดลแชตที่ดีกว่าได้

การพัฒนาด้วย Qwen1.5-110B

  • หากต้องการดูวิธีใช้งานร่วมกับ Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl และ LLaMA-Factory แนะนำให้อ่านบล็อก Qwen1.5

บทสรุป

  • Qwen1.5-110B เป็นโมเดลที่ใหญ่ที่สุดในซีรีส์ Qwen1.5 และเป็นโมเดลแรกของซีรีส์ที่มีพารามิเตอร์มากกว่า 1 แสนล้านตัว
  • โมเดลนี้แสดงประสิทธิภาพที่แข่งขันได้กับ Llama-3-70B ซึ่งเป็นโมเดล SOTA ที่เพิ่งเปิดตัว และเหนือกว่าโมเดล 72B อย่างชัดเจน
  • สิ่งนี้สะท้อนว่ายังมีโอกาสอีกมากในการขยายขนาดโมเดลเพื่อให้ได้ประสิทธิภาพที่ดียิ่งขึ้น
  • การเปิดตัวของ Llama-3 แสดงให้เห็นถึงความสำคัญของการขยายข้อมูลไปสู่สเกลที่ใหญ่มาก แต่เชื่อว่าในการเปิดตัวครั้งต่อ ๆ ไป จะสามารถขยายทั้งข้อมูลและขนาดโมเดลเพื่อเก็บข้อดีของทั้งสองแนวทางไว้ได้