Mistral AI เปิดตัว Codestral Mamba โมเดลภาษาตัวใหม่

xguru · 2024-07-17T09:43:01+09:00

โมเดลภาษา Mamba2 ที่ออกแบบมาเฉพาะสำหรับการสร้างโค้ด โมเดล Mamba ต่างจากโมเดลทรานส์ฟอร์เมอร์ โดยรองรับการอนุมานแบบเวลาเชิงเส้นและมีความสามารถในการทำโมเดลลำดับที่มีความยาวไม่สิ้นสุดในทางทฤษฎี ผู้ใช้สามารถโต้ตอบกับโมเดลได้อย่างกว้างขวางด้วยการตอบสนองที่รวดเร็วโดยไม่ขึ้นกับความยาวของอินพุต ประสิทธิภาพนี้ส่งผลดีต่อผลิตภาพด้านโค้ดโดยเฉพาะ ทำให้สามารถให้ประสิทธิภาพทัดเทียมกับโมเดล SOTA ที่อิงทรานส์ฟอร์เมอร์ได้ ผลการทดสอบเบนช์มาร์กในโมเดล 7B พบว่า Codestral Mamba (7B) มีความสามารถเหนือกว่าหรือใกล้เคียงกับ CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B เป็นต้น คาดว่าจะเป็นผู้ช่วยเขียนโค้ดแบบโลคัลที่ยอดเยี่ยม สามารถดีพลอยได้ผ่าน mistral-inference SDK และ TensorRT-LLM และมีแผนรองรับใน llama.cpp สำหรับการอนุมานแบบโลคัล ดาวน์โหลดน้ำหนักโมเดลดิบได้จาก HuggingFace

(mistral.ai)

11 คะแนน โดย xguru 2024-07-17 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลภาษา Mamba2 ที่ออกแบบมาเฉพาะสำหรับการสร้างโค้ด
โมเดล Mamba ต่างจากโมเดลทรานส์ฟอร์เมอร์ โดยรองรับการอนุมานแบบเวลาเชิงเส้นและมีความสามารถในการทำโมเดลลำดับที่มีความยาวไม่สิ้นสุดในทางทฤษฎี
- ผู้ใช้สามารถโต้ตอบกับโมเดลได้อย่างกว้างขวางด้วยการตอบสนองที่รวดเร็วโดยไม่ขึ้นกับความยาวของอินพุต
- ประสิทธิภาพนี้ส่งผลดีต่อผลิตภาพด้านโค้ดโดยเฉพาะ ทำให้สามารถให้ประสิทธิภาพทัดเทียมกับโมเดล SOTA ที่อิงทรานส์ฟอร์เมอร์ได้
ผลการทดสอบเบนช์มาร์กในโมเดล 7B พบว่า Codestral Mamba (7B) มีความสามารถเหนือกว่าหรือใกล้เคียงกับ CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B เป็นต้น
คาดว่าจะเป็นผู้ช่วยเขียนโค้ดแบบโลคัลที่ยอดเยี่ยม
สามารถดีพลอยได้ผ่าน mistral-inference SDK และ TensorRT-LLM และมีแผนรองรับใน llama.cpp สำหรับการอนุมานแบบโลคัล
ดาวน์โหลดน้ำหนักโมเดลดิบได้จาก HuggingFace

2 ความคิดเห็น

xguru 2024-07-17

ความคิดเห็นจาก Hacker News

จำเป็นต้องมีขั้นตอนสำหรับการรันใน VS Code
- หากใส่ลิงก์คำแนะนำในโพสต์หรือลิงก์ติดตั้งแบบคลิกเดียวของ VS Code Extension ก็จะช่วยให้คนยอมรับใช้งานมากขึ้น
- นี่เป็นโมเดลที่น่าจะมีผู้ใช้สนใจจำนวนมาก แต่ปัญหาคือไม่มีคำกระตุ้นให้เกิดการใช้งานที่สามารถสร้างรายได้
มีการขอคำแนะนำโมเดลที่มีความสามารถ FIM
- กำลังใช้ codellama-13b ร่วมกับ vim extension แต่ออกมาทำงานได้ไม่ดีนัก
- Gemma-27b สร้างโค้ดได้ดีกว่า แต่ไม่มีความสามารถ FIM
- codellama-34b ทำงานด้านการอนุมานได้ไม่ถูกต้อง
ควรเน้น DeepSeek ในคอลัมน์ MBPP
- DeepSeek ได้คะแนนดีกว่า Codestral
มีการประกาศว่าโมเดลอยู่บน HuggingFace แต่ไม่ได้ให้ลิงก์
- ลิงก์: HuggingFace Mamba-Codestral-7B-v0.1
เป็นเรื่องดีที่ได้เห็นโมเดลระดับโปรไฟล์สูงที่ใช้ Mamba2
มีการอ้างว่า Mamba เร็วกว่า แต่ไม่มีตัวเลข latency
- สงสัยว่ามีใครลองใช้แล้วหรือยัง และมันเร็วจริงหรือไม่
แนะนำให้นำเสนอข้อมูลเชิงผลิตภัณฑ์เกี่ยวกับข้อดีข้อเสียของ Mamba และ Transformers
สงสัยว่ามีคำอธิบายที่ดีเกี่ยวกับสถาปัตยกรรม Mamba หรือไม่
เข้าใจแนวคิดทั่วไปของ LLM แต่ขอคำแนะนำวิดีโอหรือบทความที่เหมาะกับคนที่เคยใช้แค่เครื่องมือสาธารณะอย่าง ChatGPT, Claude เป็นต้น
- อยากตรวจสอบว่ามีฮาร์ดแวร์ที่สามารถรันในเครื่องได้หรือไม่ แต่ไม่รู้จะเริ่มต้นจากตรงไหน
ทดสอบอย่างรวดเร็วใน playground ของ model.box
- ความยาวของผลลัพธ์ที่ได้สั้นกว่ารุ่นอื่นอย่างเห็นได้ชัด (เช่น gpt-4o)
- ความเร็วในการตอบสนองเป็นไปตามที่คาดหวัง

xguru 2024-07-17

Codestral - โมเดล AI สำหรับสร้างโค้ดของ Mistral

Mistral AI เปิดตัว Codestral Mamba โมเดลภาษาตัวใหม่

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นจาก Hacker News