- โมเดล AI ที่ฝึกด้วยภาษาการเขียนโปรแกรมมากกว่า 80 ภาษา
- รองรับไม่เพียงภาษายอดนิยมอย่าง Python, Java, C, C++, JavaScript, Bash แต่ยังรวมถึงภาษาเฉพาะอย่าง Swift และ Fortran จึงช่วยนักพัฒนาได้ในสภาพแวดล้อมและโปรเจ็กต์ที่หลากหลาย
สร้างมาตรฐานใหม่ด้านประสิทธิภาพการสร้างโค้ด
- ทำประสิทธิภาพได้ดีกว่าโมเดลก่อนหน้า พร้อมมี latency ที่สั้นกว่า
- Python
- Codestral 22B 32k : HumanEval 81.1%, MBPP 78.2%, CruxEval-O 51.3%, RepoBench 34.0%
- CodeLlama 70B 4k : HumanEval 67.1%, MBPP 70.8%, CruxEval-O 47.3%, RepoBench 11.4%
- SQL (Spider)
- Codestral 63.5%, CodeLlama 37%
- ค่าเฉลี่ยหลายภาษา
- HumanEval เฉลี่ย : Codestral 61.5%, CodeLlama 51.9%
เริ่มต้นใช้งาน Codestral
- Codestral ใช้งานได้เพื่อการวิจัยและการทดสอบภายใต้ Mistral AI Non-Production License และดาวน์โหลดได้จาก HuggingFace
- ใช้งานผ่านเอนด์พอยต์ใหม่
codestral.mistral.ai จัดการด้วย API key ส่วนตัว และใช้งานได้ในช่วงเบตาฟรี 8 สัปดาห์
- ใช้งานได้ผ่านเอนด์พอยต์
api.mistral.ai โดยคิดค่าบริการตามจำนวนโทเค็น
- สามารถโต้ตอบกับ Codestral ได้อย่างเป็นธรรมชาติผ่าน Le Chat
รองรับการใช้ Codestral ในสภาพแวดล้อมการเขียนโค้ดที่คุณต้องการ
- เฟรมเวิร์กแอปพลิเคชัน: รวมเข้ากับ LlamaIndex และ LangChain แล้ว
- การผสานรวมกับ VSCode/JetBrains: สามารถใช้ Codestral ในสภาพแวดล้อม VSCode และ JetBrains ได้ผ่าน Continue.dev และ Tabnine
เสียงตอบรับจากชุมชนนักพัฒนา
- Nate Sesti (CTO ของ Continue.dev): นี่เป็นครั้งแรกของโมเดล autocomplete แบบเปิดที่มีทั้งความเร็วและคุณภาพ และจะสร้างความเปลี่ยนแปลงครั้งใหญ่ให้กับนักพัฒนา
- Vladislav Tankov (หัวหน้าฝ่าย AI ของ JetBrains): คาดหวังอย่างมากกับความสามารถของ Mistral ที่มุ่งเน้นด้านโค้ดและการช่วยพัฒนาอย่างชัดเจน
- Mikhail Evtikhiev (นักวิจัยของ JetBrains): แสดงประสิทธิภาพที่เหนือกว่า GPT-4-Turbo และ GPT-3.5-Turbo ในเบนช์มาร์ก Kotlin-HumanEval
- Meital Zilberstein (หัวหน้าฝ่าย R&D ของ Tabnine): แสดงประสิทธิภาพโดดเด่นในด้านการสร้างโค้ด การสร้างเทสต์ และการทำเอกสาร ช่วยเพิ่มประสิทธิภาพของผลิตภัณฑ์อย่างมาก
- Quinn Slack (CEO ของ Sourcegraph): ลด latency ของ code autocomplete พร้อมรักษาคุณภาพไว้ได้ จึงมอบคุณค่าที่จับต้องได้ให้กับนักพัฒนา
- Jerry Liu (CEO ของ LlamaIndex): สร้างโค้ดที่ถูกต้องและใช้งานได้จริงแม้ในงานที่ซับซ้อน
- Harrison Chase (CEO ของ LangChain): ให้ทั้งความเร็วและ context window ที่ได้เปรียบ พร้อมรองรับการใช้เครื่องมือ
ความเห็นของ GN⁺
- ความก้าวหน้าของ AI สร้างโค้ด: Codestral รองรับหลายภาษาและมีประสิทธิภาพสูง จึงอาจช่วยนักพัฒนาได้มาก
- ความสะดวกในการใช้งาน: มีตัวเลือกการผสานรวมที่หลากหลายและเอนด์พอยต์เฉพาะ ทำให้ใช้งานได้สะดวก
- การประเมินประสิทธิภาพ: แสดงผลลัพธ์ที่ดีในหลายเบนช์มาร์ก จึงน่าเชื่อถือ
- โมเดลคู่แข่ง: แสดงประสิทธิภาพที่ยอดเยี่ยมแม้เมื่อเทียบกับ GPT-4-Turbo และ GPT-3.5-Turbo
- ข้อพิจารณาในการนำไปใช้: ควรตัดสินใจนำไปใช้โดยพิจารณาทั้งประสิทธิภาพและความสะดวกในการใช้งานของโมเดล
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
สรุปความคิดเห็นจาก Hacker News
ข้อจำกัดด้านไลเซนส์: มีการห้ามใช้โมเดลและผลลัพธ์เพื่อกิจกรรมเชิงพาณิชย์หรือภายใต้เงื่อนไขแบบ "live" แม้ว่าการใช้ผลลัพธ์โค้ดเป็นส่วนหนึ่งของการพัฒนาจะได้รับการยกเว้น แต่ก็ยังห้ามใช้ภายในในบริบทของกิจกรรมทางธุรกิจของบริษัทด้วย ทำให้การเปรียบเทียบกับโมเดลโอเพนน้ำหนักอื่น ๆ ไม่ยุติธรรม
การทดสอบโมเดลเขียนโปรแกรม: มีการขอให้โมเดลเขียนโปรแกรมสร้าง Python ASGI middleware แบบเฉพาะเจาะจง แต่ไม่มีโมเดลใดทำได้อย่างถูกต้อง
ความต่างด้านปรัชญา LLM: มีความแตกต่างด้านแนวคิดระหว่าง LLM สไตล์ Llama กับ LLM สไตล์ OpenAI/GPT โดย GPT พัฒนามาโดยเน้นโค้ดเป็นหลัก ขณะที่โมเดล Llama/Mistral ปล่อยโมเดลภาษาทั่วไปออกมาก่อน แล้วค่อยฝึกด้านโค้ดเพิ่มเติมเพื่อออกมาเป็น CodeLlama/Codestral
การผสานกับ VSCode: มีคนสงสัยว่ามีวิธีใช้งานใน VSCode แบบที่ "shadow code" โผล่มาเหมือน Copilot หรือไม่ โดยคุณภาพของเครื่องมือแบบนี้ขึ้นอยู่กับความสามารถในการออกแบบพรอมป์ต์ที่เหมาะสมฝั่งไคลเอนต์
ข้อจำกัดการใช้งาน: สามารถใช้โมเดล Mistral และงานดัดแปลงได้เพื่อการทดสอบ วิจัย การใช้งานส่วนตัว หรือการประเมินเท่านั้น และไม่สามารถใช้ในกิจกรรมเชิงพาณิชย์ได้
ปัญหาด้านการใช้งานจริง: มีความเห็นว่าถ้าใช้กับกรณีการเติมโค้ดที่ใช้งานจริงไม่ได้ ก็แทบไม่มีความหมาย เพราะ GH Copilot ยังเป็นโมเดลที่ดีที่สุดอยู่แล้ว
ลิงก์ Huggingface: ลิงก์หน้า Huggingface
การทำให้การเขียนโค้ดเป็นประชาธิปไตย: มีการยกปัญหาที่เกิดขึ้นเมื่อทำให้ศิลปะเป็นประชาธิปไตยขึ้นมาเปรียบเทียบ พร้อมกังวลว่าจะมีไลบรารีที่ AI สร้างขึ้นแต่ไม่น่าเชื่อถือเพิ่มมากขึ้น
ความต้องการ RAM: มีคำถามเกี่ยวกับความต้องการ RAM สำหรับการใช้งานแบบโลคัลของโมเดลขนาด 44GB ที่ดาวน์โหลดได้จาก Huggingface และสงสัยว่าความต้องการ RAM ของ GPU กับ RAM แบบ "รวม" ของ Apple silicon เหมือนกันหรือไม่
ส่วนขยาย VSCode: มีคนสงสัยว่ามีส่วนขยาย VSCode ที่ใช้โมเดลหลากหลายตัวผ่านปลั๊กอินได้หรือไม่ เพราะการตั้งค่าใหม่ทุกครั้งเป็นเรื่องน่ารำคาญ