16 คะแนน โดย GN⁺ 2024-03-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Databricks เปิดตัว DBRX ซึ่งเป็นโอเพน LLM แบบใช้งานทั่วไปตัวใหม่
  • เป็นระดับชั้นนำใหม่ที่เหนือกว่าโอเพน LLM เดิมบนเบนช์มาร์กมาตรฐาน และมอบความสามารถที่ก่อนหน้านี้จำกัดอยู่แค่ API ของโมเดลแบบปิดให้กับชุมชนโอเพนและภาคธุรกิจ
    • เหนือกว่า GPT-3.5 และสามารถแข่งขันกับ Gemini 1.0 Pro ได้
    • ในงานด้านโค้ดก็เหนือกว่าโมเดลเฉพาะทางอย่าง CodeLLaMA-70B
  • DBRX แสดงให้เห็นถึงการปรับปรุงที่ชัดเจนทั้งด้านประสิทธิภาพการฝึกและการอนุมาน
    • ใช้สถาปัตยกรรม Mixture of Experts (MoE) แบบละเอียดมากขึ้นเพื่อเพิ่มประสิทธิภาพ
    • ความเร็วในการอนุมานสูงสุดเร็วกว่า LLaMA2-70B ถึง 2 เท่า และมีขนาดเล็กกว่า Grok-1 ราว 40%

โครงสร้างของ DBRX

  • DBRX เป็นโมเดลภาษาขนาดใหญ่ (LLM) แบบ decoder-only ที่อิง Transformer และฝึกด้วยการทำนายโทเค็นถัดไป
  • จากพารามิเตอร์รวม 132B จะมี 36B ที่ถูกใช้งาน และผ่านการพรีเทรนด้วยข้อมูลข้อความและโค้ดจำนวน 12T โทเค็น
  • DBRX มีความละเอียดของ MoE มากกว่าเมื่อเทียบกับโอเพน MoE โมเดลอื่น ๆ และพบว่าสิ่งนี้ช่วยยกระดับคุณภาพของโมเดล

คุณภาพบนเบนช์มาร์ก

  • DBRX Instruct เป็นโมเดลชั้นนำในเบนช์มาร์กแบบผสมผสาน เบนช์มาร์กด้านการเขียนโปรแกรมและคณิตศาสตร์ และ MMLU
  • DBRX Instruct เหนือกว่าโมเดลแบบแชตหรือแบบปรับตามคำสั่งทั้งหมดบนเบนช์มาร์กมาตรฐาน

การเปรียบเทียบกับโมเดลแบบปิด

  • DBRX Instruct เหนือกว่า GPT-3.5 และมีความสามารถแข่งขันกับ Gemini 1.0 Pro และ Mistral Medium
  • DBRX Instruct เหนือกว่า GPT-3.5 ในด้านความรู้ทั่วไป การให้เหตุผลแบบสามัญสำนึก การเขียนโปรแกรม และการให้เหตุผลทางคณิตศาสตร์

คุณภาพในงานบริบทยาวและ RAG

  • DBRX Instruct ถูกฝึกด้วยหน้าต่างบริบทสูงสุด 32K โทเค็น
  • DBRX Instruct ถูกนำไปเปรียบเทียบกับ GPT-3.5 Turbo และ GPT-4 Turbo API เวอร์ชันล่าสุดบนเบนช์มาร์กบริบทยาว
  • DBRX Instruct ให้ประสิทธิภาพดีกว่า GPT-3.5 Turbo ในทุกความยาวบริบทและทุกส่วนของลำดับ

ประสิทธิภาพในการฝึก

  • สถาปัตยกรรม DBRX MoE และไปป์ไลน์การฝึกทั้งหมดพิสูจน์ประสิทธิภาพของการฝึก
  • สถาปัตยกรรม DBRX MoE ช่วยให้ได้คุณภาพสูงพร้อมลด FLOP ที่ต้องใช้ในการฝึก

ประสิทธิภาพในการอนุมาน

  • DBRX แสดงปริมาณงานอนุมานสูงบนโครงสร้างพื้นฐานการอนุมานที่ปรับแต่งด้วย NVIDIA TensorRT-LLM
  • โดยทั่วไปแล้ว โมเดล MoE จะมีความเร็วในการอนุมานสูงเมื่อเทียบกับจำนวนพารามิเตอร์รวม

วิธีสร้าง DBRX

  • DBRX ถูกฝึกด้วย NVIDIA H100 และสร้างขึ้นโดยใช้เครื่องมือของ Databricks
  • DBRX ถูกพัฒนาต่อยอดจากโปรเจกต์ MPT และ Dolly ของ Databricks และเกิดจากการฝึก LLM หลายพันตัวร่วมกับลูกค้า

เริ่มต้นใช้งาน DBRX บน Databricks

  • สามารถใช้งาน DBRX ได้อย่างง่ายดายผ่าน Databricks Mosaic AI Foundation Model API
  • DBRX สามารถดาวน์โหลดได้จาก Databricks Marketplace เพื่อนำไปดีพลอยสำหรับให้บริการโมเดล

บทสรุป

  • Databricks เชื่อว่าทุกองค์กรควรสามารถควบคุมข้อมูลและอนาคตของตนเองได้ในโลกของ GenAI
  • DBRX เป็นองค์ประกอบหลักของผลิตภัณฑ์ GenAI ยุคถัดไปของ Databricks

ผู้มีส่วนร่วม

  • การพัฒนา DBRX นำโดยทีม Mosaic และเสร็จสมบูรณ์ผ่านความร่วมมือจากหลายหน่วยงานภายใน Databricks

ความเห็นของ GN⁺

  • DBRX เป็นโมเดลภาษาโอเพนซอร์สตัวใหม่ที่สามารถแข่งขันกับโมเดลตระกูล GPT เดิมได้ และคาดว่าจะโชว์ประสิทธิภาพเด่นเป็นพิเศษในงานสร้างโค้ดและงานเขียนโปรแกรม
  • ด้วยการใช้สถาปัตยกรรม MoE ทำให้ DBRX ดูเหมือนจะยกระดับประสิทธิภาพได้อย่างมากทั้งในด้านความเร็วในการอนุมานและขนาดโมเดล ซึ่งอาจช่วยให้สามารถใช้โมเดลสมรรถนะสูงได้แม้ในสภาพแวดล้อมที่มีทรัพยากรจำกัด
  • แนวทางโอเพนซอร์สของ DBRX เปิดโอกาสให้นักวิจัยและนักพัฒนาสามารถทดลองและปรับปรุงโมเดลได้อย่างอิสระ ซึ่งอาจเป็นคุณูปการสำคัญต่อชุมชน AI
  • API และเครื่องมือผสานระบบที่ DBRX มีให้ จะช่วยให้องค์กรสามารถพัฒนาและดีพลอยโมเดลภาษาของตนเองได้ง่ายขึ้น ซึ่งจะเป็นประโยชน์ต่อการเสริมความสามารถในการแข่งขันด้วยเทคโนโลยี AI
  • การเปิดตัว DBRX อาจเป็นหมุดหมายสำคัญของการพัฒนาโอเพนซอร์สโมเดลภาษา และน่าสนใจที่จะติดตามว่าโมเดลนี้จะพัฒนาต่อไปและถูกนำไปใช้ในหลากหลายสาขาอย่างไร

1 ความคิดเห็น

 
GN⁺ 2024-03-28
ความคิดเห็นบน Hacker News
  • โมเดลที่น่าจับตาในตอนนี้:

    • Miqu 70B: สำหรับการสนทนาทั่วไป
    • Deepseed 33B: สำหรับการเขียนโค้ด
    • Yi 34B: สำหรับการสนทนาที่ใช้คอนเท็กซ์เกิน 32K
    • ยังมีเวอร์ชันที่ผ่านการ fine-tune ของโมเดลเหล่านี้ด้วย
    • ยังมีโมเดลอื่นในช่วง 34B-70B แต่โมเดล Qwen ไม่น่าประทับใจนัก
    • โมเดล Llama 70B, Mixtral, Grok ปรากฏอยู่บนชาร์ต แต่ยากจะมองว่าเป็นเทคโนโลยีล่าสุด (SOTA) แม้ว่า Mixtral จะโดดเด่นมากในด้านความเร็วเมื่อใช้ batch size 1
  • การ์ดโมเดลและความต้องการด้านทรัพยากร:

    • โมเดลต้องใช้ RAM ราว 264GB
    • มีความสงสัยว่าเมื่อไรเราจะเปลี่ยนจากการติดตามจำนวนพารามิเตอร์ ไปเป็นการติดตามปริมาณรวมของ (GPU RAM + CPU RAM) และเมตริกการประเมินผลแทน
    • ตัวอย่างเช่น โมเดล 7B พารามิเตอร์ที่ใช้ float32 มีแนวโน้มว่าจะทำงานได้ดีกว่าโมเดลที่มีพารามิเตอร์เท่ากันแต่ใช้ float4
    • แม้จะมีกรณีของการ quantize โมเดลที่ดีและเพิ่งออกมาใหม่ให้พอดีกับ GPU ใบเดียว แต่โมเดลที่ถูก quantize ก็เป็นคนละโมเดลจากต้นฉบับ ดังนั้นควรรันเมตริกใหม่อีกครั้ง
  • การลู่เข้าของโมเดลภาษาขนาดใหญ่ (LLM):

    • มีหลักฐานว่าเมื่อโมเดล LLM ทั้งหมดถูกฝึกด้วยข้อมูลชุดเดียวกัน จะลู่เข้าไปยังจุดหนึ่ง
    • คำกล่าวอ้างเรื่องประสิทธิภาพของงานก็เป็นเพียงคำกล่าวอ้าง และ Llama หรือ Mixtral รุ่นถัดไปก็น่าจะลู่เข้าเช่นกัน
    • LLM ดูเหมือนจะพัฒนาไปแบบที่ไม่ได้ต่างกันมากนักในระดับโมเดลพื้นฐาน คล้ายกับ Linux/Windows หรือ iOS/Android
  • ความคาดหวังต่อ mixed quantization และ MoE offloading:

    • ด้วย Mixed Quantization with MQQ และ MoE Offloading ทำให้สามารถรัน Mistral 8x7B บน rtx3080 ที่มี VRAM 10GB ได้
    • วิธีนี้น่าจะใช้กับ DBRX ได้เช่นกัน และอาจลดความต้องการ VRAM ลงได้มาก
  • ประโยชน์ทางธุรกิจของ Databricks:

    • อยากรู้ว่า Databricks จะได้ประโยชน์ทางธุรกิจอะไรจากการลงทุนหลายล้านดอลลาร์ในโอเพน LLM
  • การเปรียบเทียบชาร์ตและการประเมินผล:

    • การใส่คะแนน Human Eval ของ LLaMa2 ลงในชาร์ต แต่ไม่เปรียบเทียบกับ Code Llama Instruct 70b ถือเป็นอาชญากรรมทางชาร์ต
    • DBRX อาจไม่ได้ทิ้งห่าง Code Llama Instruct ที่ 67.8 มากนัก แต่ก็ยังยอดเยี่ยมอยู่ดี
  • แผนซื้อ GPU ใหม่และความต้องการ VRAM:

    • มีคำถามว่า GPU ที่มี VRAM 16GB จะรันโมเดลขนาด 70GB ได้ดีหรือไม่ และจะดีกว่า GPU ที่มี VRAM 12GB อย่างเห็นได้ชัดหรือไม่
    • Ollama รันบนเครื่องโลคัลได้ดี และ mixtral (7B, 3.4GB) ก็ทำงานได้ดีบน 1080ti แต่เวอร์ชัน 24.6GB จะช้าลงเล็กน้อยและใช้เวลาเริ่มต้นนานอย่างสังเกตได้
  • ความไม่พอใจเกี่ยวกับการอนุมัติเบสโมเดล:

    • การอนุมัติสำหรับเบสโมเดลให้ความรู้สึกว่าไม่ได้เปิดกว้างมากนัก
    • หลายคนกำลังรอโอกาสดาวน์โหลด ขณะที่ instruct model กลับได้รับการอนุมัติทันที
    • เบสโมเดลน่าสนใจกว่าสำหรับการ fine-tune
  • การปรับปรุงประสิทธิภาพการฝึก:

    • มีการกล่าวว่าตลอด 10 เดือนที่ผ่านมา pipeline สำหรับ pre-training ของ LLM มีประสิทธิภาพด้านการคำนวณดีขึ้นเกือบ 4 เท่า
    • เนื่องจากต้นทุนการฝึกสูงมาก การปรับปรุงแบบนี้จึงน่ายินดี และคาดหวังว่าจะเป็นไปตามกฎของมัวร์
  • ความเป็นไปได้ที่การประเมินด้านโค้ดจะปนเปื้อน:

    • การประเมินด้านโค้ดอาจปนเปื้อนจากข้อมูลฝึก
    • มีคำถามว่ามีวิธีมาตรฐานใดในการหลีกเลี่ยงการเฟ้อของคะแนนลักษณะนี้