- Databricks เปิดตัว DBRX ซึ่งเป็นโอเพน LLM แบบใช้งานทั่วไปตัวใหม่
- เป็นระดับชั้นนำใหม่ที่เหนือกว่าโอเพน LLM เดิมบนเบนช์มาร์กมาตรฐาน และมอบความสามารถที่ก่อนหน้านี้จำกัดอยู่แค่ API ของโมเดลแบบปิดให้กับชุมชนโอเพนและภาคธุรกิจ
- เหนือกว่า GPT-3.5 และสามารถแข่งขันกับ Gemini 1.0 Pro ได้
- ในงานด้านโค้ดก็เหนือกว่าโมเดลเฉพาะทางอย่าง CodeLLaMA-70B
- DBRX แสดงให้เห็นถึงการปรับปรุงที่ชัดเจนทั้งด้านประสิทธิภาพการฝึกและการอนุมาน
- ใช้สถาปัตยกรรม Mixture of Experts (MoE) แบบละเอียดมากขึ้นเพื่อเพิ่มประสิทธิภาพ
- ความเร็วในการอนุมานสูงสุดเร็วกว่า LLaMA2-70B ถึง 2 เท่า และมีขนาดเล็กกว่า Grok-1 ราว 40%
โครงสร้างของ DBRX
- DBRX เป็นโมเดลภาษาขนาดใหญ่ (LLM) แบบ decoder-only ที่อิง Transformer และฝึกด้วยการทำนายโทเค็นถัดไป
- จากพารามิเตอร์รวม 132B จะมี 36B ที่ถูกใช้งาน และผ่านการพรีเทรนด้วยข้อมูลข้อความและโค้ดจำนวน 12T โทเค็น
- DBRX มีความละเอียดของ MoE มากกว่าเมื่อเทียบกับโอเพน MoE โมเดลอื่น ๆ และพบว่าสิ่งนี้ช่วยยกระดับคุณภาพของโมเดล
คุณภาพบนเบนช์มาร์ก
- DBRX Instruct เป็นโมเดลชั้นนำในเบนช์มาร์กแบบผสมผสาน เบนช์มาร์กด้านการเขียนโปรแกรมและคณิตศาสตร์ และ MMLU
- DBRX Instruct เหนือกว่าโมเดลแบบแชตหรือแบบปรับตามคำสั่งทั้งหมดบนเบนช์มาร์กมาตรฐาน
การเปรียบเทียบกับโมเดลแบบปิด
- DBRX Instruct เหนือกว่า GPT-3.5 และมีความสามารถแข่งขันกับ Gemini 1.0 Pro และ Mistral Medium
- DBRX Instruct เหนือกว่า GPT-3.5 ในด้านความรู้ทั่วไป การให้เหตุผลแบบสามัญสำนึก การเขียนโปรแกรม และการให้เหตุผลทางคณิตศาสตร์
คุณภาพในงานบริบทยาวและ RAG
- DBRX Instruct ถูกฝึกด้วยหน้าต่างบริบทสูงสุด 32K โทเค็น
- DBRX Instruct ถูกนำไปเปรียบเทียบกับ GPT-3.5 Turbo และ GPT-4 Turbo API เวอร์ชันล่าสุดบนเบนช์มาร์กบริบทยาว
- DBRX Instruct ให้ประสิทธิภาพดีกว่า GPT-3.5 Turbo ในทุกความยาวบริบทและทุกส่วนของลำดับ
ประสิทธิภาพในการฝึก
- สถาปัตยกรรม DBRX MoE และไปป์ไลน์การฝึกทั้งหมดพิสูจน์ประสิทธิภาพของการฝึก
- สถาปัตยกรรม DBRX MoE ช่วยให้ได้คุณภาพสูงพร้อมลด FLOP ที่ต้องใช้ในการฝึก
ประสิทธิภาพในการอนุมาน
- DBRX แสดงปริมาณงานอนุมานสูงบนโครงสร้างพื้นฐานการอนุมานที่ปรับแต่งด้วย NVIDIA TensorRT-LLM
- โดยทั่วไปแล้ว โมเดล MoE จะมีความเร็วในการอนุมานสูงเมื่อเทียบกับจำนวนพารามิเตอร์รวม
วิธีสร้าง DBRX
- DBRX ถูกฝึกด้วย NVIDIA H100 และสร้างขึ้นโดยใช้เครื่องมือของ Databricks
- DBRX ถูกพัฒนาต่อยอดจากโปรเจกต์ MPT และ Dolly ของ Databricks และเกิดจากการฝึก LLM หลายพันตัวร่วมกับลูกค้า
เริ่มต้นใช้งาน DBRX บน Databricks
- สามารถใช้งาน DBRX ได้อย่างง่ายดายผ่าน Databricks Mosaic AI Foundation Model API
- DBRX สามารถดาวน์โหลดได้จาก Databricks Marketplace เพื่อนำไปดีพลอยสำหรับให้บริการโมเดล
บทสรุป
- Databricks เชื่อว่าทุกองค์กรควรสามารถควบคุมข้อมูลและอนาคตของตนเองได้ในโลกของ GenAI
- DBRX เป็นองค์ประกอบหลักของผลิตภัณฑ์ GenAI ยุคถัดไปของ Databricks
ผู้มีส่วนร่วม
- การพัฒนา DBRX นำโดยทีม Mosaic และเสร็จสมบูรณ์ผ่านความร่วมมือจากหลายหน่วยงานภายใน Databricks
ความเห็นของ GN⁺
- DBRX เป็นโมเดลภาษาโอเพนซอร์สตัวใหม่ที่สามารถแข่งขันกับโมเดลตระกูล GPT เดิมได้ และคาดว่าจะโชว์ประสิทธิภาพเด่นเป็นพิเศษในงานสร้างโค้ดและงานเขียนโปรแกรม
- ด้วยการใช้สถาปัตยกรรม MoE ทำให้ DBRX ดูเหมือนจะยกระดับประสิทธิภาพได้อย่างมากทั้งในด้านความเร็วในการอนุมานและขนาดโมเดล ซึ่งอาจช่วยให้สามารถใช้โมเดลสมรรถนะสูงได้แม้ในสภาพแวดล้อมที่มีทรัพยากรจำกัด
- แนวทางโอเพนซอร์สของ DBRX เปิดโอกาสให้นักวิจัยและนักพัฒนาสามารถทดลองและปรับปรุงโมเดลได้อย่างอิสระ ซึ่งอาจเป็นคุณูปการสำคัญต่อชุมชน AI
- API และเครื่องมือผสานระบบที่ DBRX มีให้ จะช่วยให้องค์กรสามารถพัฒนาและดีพลอยโมเดลภาษาของตนเองได้ง่ายขึ้น ซึ่งจะเป็นประโยชน์ต่อการเสริมความสามารถในการแข่งขันด้วยเทคโนโลยี AI
- การเปิดตัว DBRX อาจเป็นหมุดหมายสำคัญของการพัฒนาโอเพนซอร์สโมเดลภาษา และน่าสนใจที่จะติดตามว่าโมเดลนี้จะพัฒนาต่อไปและถูกนำไปใช้ในหลากหลายสาขาอย่างไร
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
โมเดลที่น่าจับตาในตอนนี้:
การ์ดโมเดลและความต้องการด้านทรัพยากร:
การลู่เข้าของโมเดลภาษาขนาดใหญ่ (LLM):
ความคาดหวังต่อ mixed quantization และ MoE offloading:
ประโยชน์ทางธุรกิจของ Databricks:
การเปรียบเทียบชาร์ตและการประเมินผล:
แผนซื้อ GPU ใหม่และความต้องการ VRAM:
ความไม่พอใจเกี่ยวกับการอนุมัติเบสโมเดล:
การปรับปรุงประสิทธิภาพการฝึก:
ความเป็นไปได้ที่การประเมินด้านโค้ดจะปนเปื้อน: