DBRX - โอเพน LLM ใหม่ระดับล้ำสมัย (SOTA)

(databricks.com)

16 คะแนน โดย GN⁺ 2024-03-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Databricks เปิดตัว DBRX ซึ่งเป็นโอเพน LLM แบบใช้งานทั่วไปตัวใหม่
เป็นระดับชั้นนำใหม่ที่เหนือกว่าโอเพน LLM เดิมบนเบนช์มาร์กมาตรฐาน และมอบความสามารถที่ก่อนหน้านี้จำกัดอยู่แค่ API ของโมเดลแบบปิดให้กับชุมชนโอเพนและภาคธุรกิจ
- เหนือกว่า GPT-3.5 และสามารถแข่งขันกับ Gemini 1.0 Pro ได้
- ในงานด้านโค้ดก็เหนือกว่าโมเดลเฉพาะทางอย่าง CodeLLaMA-70B
DBRX แสดงให้เห็นถึงการปรับปรุงที่ชัดเจนทั้งด้านประสิทธิภาพการฝึกและการอนุมาน
- ใช้สถาปัตยกรรม Mixture of Experts (MoE) แบบละเอียดมากขึ้นเพื่อเพิ่มประสิทธิภาพ
- ความเร็วในการอนุมานสูงสุดเร็วกว่า LLaMA2-70B ถึง 2 เท่า และมีขนาดเล็กกว่า Grok-1 ราว 40%

โครงสร้างของ DBRX

DBRX เป็นโมเดลภาษาขนาดใหญ่ (LLM) แบบ decoder-only ที่อิง Transformer และฝึกด้วยการทำนายโทเค็นถัดไป
จากพารามิเตอร์รวม 132B จะมี 36B ที่ถูกใช้งาน และผ่านการพรีเทรนด้วยข้อมูลข้อความและโค้ดจำนวน 12T โทเค็น
DBRX มีความละเอียดของ MoE มากกว่าเมื่อเทียบกับโอเพน MoE โมเดลอื่น ๆ และพบว่าสิ่งนี้ช่วยยกระดับคุณภาพของโมเดล

คุณภาพบนเบนช์มาร์ก

DBRX Instruct เป็นโมเดลชั้นนำในเบนช์มาร์กแบบผสมผสาน เบนช์มาร์กด้านการเขียนโปรแกรมและคณิตศาสตร์ และ MMLU
DBRX Instruct เหนือกว่าโมเดลแบบแชตหรือแบบปรับตามคำสั่งทั้งหมดบนเบนช์มาร์กมาตรฐาน

การเปรียบเทียบกับโมเดลแบบปิด

DBRX Instruct เหนือกว่า GPT-3.5 และมีความสามารถแข่งขันกับ Gemini 1.0 Pro และ Mistral Medium
DBRX Instruct เหนือกว่า GPT-3.5 ในด้านความรู้ทั่วไป การให้เหตุผลแบบสามัญสำนึก การเขียนโปรแกรม และการให้เหตุผลทางคณิตศาสตร์

คุณภาพในงานบริบทยาวและ RAG

DBRX Instruct ถูกฝึกด้วยหน้าต่างบริบทสูงสุด 32K โทเค็น
DBRX Instruct ถูกนำไปเปรียบเทียบกับ GPT-3.5 Turbo และ GPT-4 Turbo API เวอร์ชันล่าสุดบนเบนช์มาร์กบริบทยาว
DBRX Instruct ให้ประสิทธิภาพดีกว่า GPT-3.5 Turbo ในทุกความยาวบริบทและทุกส่วนของลำดับ

ประสิทธิภาพในการฝึก

สถาปัตยกรรม DBRX MoE และไปป์ไลน์การฝึกทั้งหมดพิสูจน์ประสิทธิภาพของการฝึก
สถาปัตยกรรม DBRX MoE ช่วยให้ได้คุณภาพสูงพร้อมลด FLOP ที่ต้องใช้ในการฝึก

ประสิทธิภาพในการอนุมาน

DBRX แสดงปริมาณงานอนุมานสูงบนโครงสร้างพื้นฐานการอนุมานที่ปรับแต่งด้วย NVIDIA TensorRT-LLM
โดยทั่วไปแล้ว โมเดล MoE จะมีความเร็วในการอนุมานสูงเมื่อเทียบกับจำนวนพารามิเตอร์รวม

วิธีสร้าง DBRX

DBRX ถูกฝึกด้วย NVIDIA H100 และสร้างขึ้นโดยใช้เครื่องมือของ Databricks
DBRX ถูกพัฒนาต่อยอดจากโปรเจกต์ MPT และ Dolly ของ Databricks และเกิดจากการฝึก LLM หลายพันตัวร่วมกับลูกค้า

เริ่มต้นใช้งาน DBRX บน Databricks

สามารถใช้งาน DBRX ได้อย่างง่ายดายผ่าน Databricks Mosaic AI Foundation Model API
DBRX สามารถดาวน์โหลดได้จาก Databricks Marketplace เพื่อนำไปดีพลอยสำหรับให้บริการโมเดล

บทสรุป

Databricks เชื่อว่าทุกองค์กรควรสามารถควบคุมข้อมูลและอนาคตของตนเองได้ในโลกของ GenAI
DBRX เป็นองค์ประกอบหลักของผลิตภัณฑ์ GenAI ยุคถัดไปของ Databricks

ผู้มีส่วนร่วม

การพัฒนา DBRX นำโดยทีม Mosaic และเสร็จสมบูรณ์ผ่านความร่วมมือจากหลายหน่วยงานภายใน Databricks

ความเห็นของ GN⁺

DBRX เป็นโมเดลภาษาโอเพนซอร์สตัวใหม่ที่สามารถแข่งขันกับโมเดลตระกูล GPT เดิมได้ และคาดว่าจะโชว์ประสิทธิภาพเด่นเป็นพิเศษในงานสร้างโค้ดและงานเขียนโปรแกรม
ด้วยการใช้สถาปัตยกรรม MoE ทำให้ DBRX ดูเหมือนจะยกระดับประสิทธิภาพได้อย่างมากทั้งในด้านความเร็วในการอนุมานและขนาดโมเดล ซึ่งอาจช่วยให้สามารถใช้โมเดลสมรรถนะสูงได้แม้ในสภาพแวดล้อมที่มีทรัพยากรจำกัด
แนวทางโอเพนซอร์สของ DBRX เปิดโอกาสให้นักวิจัยและนักพัฒนาสามารถทดลองและปรับปรุงโมเดลได้อย่างอิสระ ซึ่งอาจเป็นคุณูปการสำคัญต่อชุมชน AI
API และเครื่องมือผสานระบบที่ DBRX มีให้ จะช่วยให้องค์กรสามารถพัฒนาและดีพลอยโมเดลภาษาของตนเองได้ง่ายขึ้น ซึ่งจะเป็นประโยชน์ต่อการเสริมความสามารถในการแข่งขันด้วยเทคโนโลยี AI
การเปิดตัว DBRX อาจเป็นหมุดหมายสำคัญของการพัฒนาโอเพนซอร์สโมเดลภาษา และน่าสนใจที่จะติดตามว่าโมเดลนี้จะพัฒนาต่อไปและถูกนำไปใช้ในหลากหลายสาขาอย่างไร

1 ความคิดเห็น

GN⁺ 2024-03-28

ความคิดเห็นบน Hacker News

โมเดลที่น่าจับตาในตอนนี้:
- Miqu 70B: สำหรับการสนทนาทั่วไป
- Deepseed 33B: สำหรับการเขียนโค้ด
- Yi 34B: สำหรับการสนทนาที่ใช้คอนเท็กซ์เกิน 32K
- ยังมีเวอร์ชันที่ผ่านการ fine-tune ของโมเดลเหล่านี้ด้วย
- ยังมีโมเดลอื่นในช่วง 34B-70B แต่โมเดล Qwen ไม่น่าประทับใจนัก
- โมเดล Llama 70B, Mixtral, Grok ปรากฏอยู่บนชาร์ต แต่ยากจะมองว่าเป็นเทคโนโลยีล่าสุด (SOTA) แม้ว่า Mixtral จะโดดเด่นมากในด้านความเร็วเมื่อใช้ batch size 1
การ์ดโมเดลและความต้องการด้านทรัพยากร:
- โมเดลต้องใช้ RAM ราว 264GB
- มีความสงสัยว่าเมื่อไรเราจะเปลี่ยนจากการติดตามจำนวนพารามิเตอร์ ไปเป็นการติดตามปริมาณรวมของ (GPU RAM + CPU RAM) และเมตริกการประเมินผลแทน
- ตัวอย่างเช่น โมเดล 7B พารามิเตอร์ที่ใช้ float32 มีแนวโน้มว่าจะทำงานได้ดีกว่าโมเดลที่มีพารามิเตอร์เท่ากันแต่ใช้ float4
- แม้จะมีกรณีของการ quantize โมเดลที่ดีและเพิ่งออกมาใหม่ให้พอดีกับ GPU ใบเดียว แต่โมเดลที่ถูก quantize ก็เป็นคนละโมเดลจากต้นฉบับ ดังนั้นควรรันเมตริกใหม่อีกครั้ง
การลู่เข้าของโมเดลภาษาขนาดใหญ่ (LLM):
- มีหลักฐานว่าเมื่อโมเดล LLM ทั้งหมดถูกฝึกด้วยข้อมูลชุดเดียวกัน จะลู่เข้าไปยังจุดหนึ่ง
- คำกล่าวอ้างเรื่องประสิทธิภาพของงานก็เป็นเพียงคำกล่าวอ้าง และ Llama หรือ Mixtral รุ่นถัดไปก็น่าจะลู่เข้าเช่นกัน
- LLM ดูเหมือนจะพัฒนาไปแบบที่ไม่ได้ต่างกันมากนักในระดับโมเดลพื้นฐาน คล้ายกับ Linux/Windows หรือ iOS/Android
ความคาดหวังต่อ mixed quantization และ MoE offloading:
- ด้วย Mixed Quantization with MQQ และ MoE Offloading ทำให้สามารถรัน Mistral 8x7B บน rtx3080 ที่มี VRAM 10GB ได้
- วิธีนี้น่าจะใช้กับ DBRX ได้เช่นกัน และอาจลดความต้องการ VRAM ลงได้มาก
ประโยชน์ทางธุรกิจของ Databricks:
- อยากรู้ว่า Databricks จะได้ประโยชน์ทางธุรกิจอะไรจากการลงทุนหลายล้านดอลลาร์ในโอเพน LLM
การเปรียบเทียบชาร์ตและการประเมินผล:
- การใส่คะแนน Human Eval ของ LLaMa2 ลงในชาร์ต แต่ไม่เปรียบเทียบกับ Code Llama Instruct 70b ถือเป็นอาชญากรรมทางชาร์ต
- DBRX อาจไม่ได้ทิ้งห่าง Code Llama Instruct ที่ 67.8 มากนัก แต่ก็ยังยอดเยี่ยมอยู่ดี
แผนซื้อ GPU ใหม่และความต้องการ VRAM:
- มีคำถามว่า GPU ที่มี VRAM 16GB จะรันโมเดลขนาด 70GB ได้ดีหรือไม่ และจะดีกว่า GPU ที่มี VRAM 12GB อย่างเห็นได้ชัดหรือไม่
- Ollama รันบนเครื่องโลคัลได้ดี และ mixtral (7B, 3.4GB) ก็ทำงานได้ดีบน 1080ti แต่เวอร์ชัน 24.6GB จะช้าลงเล็กน้อยและใช้เวลาเริ่มต้นนานอย่างสังเกตได้
ความไม่พอใจเกี่ยวกับการอนุมัติเบสโมเดล:
- การอนุมัติสำหรับเบสโมเดลให้ความรู้สึกว่าไม่ได้เปิดกว้างมากนัก
- หลายคนกำลังรอโอกาสดาวน์โหลด ขณะที่ instruct model กลับได้รับการอนุมัติทันที
- เบสโมเดลน่าสนใจกว่าสำหรับการ fine-tune
การปรับปรุงประสิทธิภาพการฝึก:
- มีการกล่าวว่าตลอด 10 เดือนที่ผ่านมา pipeline สำหรับ pre-training ของ LLM มีประสิทธิภาพด้านการคำนวณดีขึ้นเกือบ 4 เท่า
- เนื่องจากต้นทุนการฝึกสูงมาก การปรับปรุงแบบนี้จึงน่ายินดี และคาดหวังว่าจะเป็นไปตามกฎของมัวร์
ความเป็นไปได้ที่การประเมินด้านโค้ดจะปนเปื้อน:
- การประเมินด้านโค้ดอาจปนเปื้อนจากข้อมูลฝึก
- มีคำถามว่ามีวิธีมาตรฐานใดในการหลีกเลี่ยงการเฟ้อของคะแนนลักษณะนี้

DBRX - โอเพน LLM ใหม่ระดับล้ำสมัย (SOTA)

โครงสร้างของ DBRX

คุณภาพบนเบนช์มาร์ก

การเปรียบเทียบกับโมเดลแบบปิด

คุณภาพในงานบริบทยาวและ RAG

ประสิทธิภาพในการฝึก

ประสิทธิภาพในการอนุมาน

วิธีสร้าง DBRX

เริ่มต้นใช้งาน DBRX บน Databricks

บทสรุป

ผู้มีส่วนร่วม

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News