13 คะแนน โดย GN⁺ 2024-05-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดล AI ที่ฝึกด้วยภาษาการเขียนโปรแกรมมากกว่า 80 ภาษา
  • รองรับไม่เพียงภาษายอดนิยมอย่าง Python, Java, C, C++, JavaScript, Bash แต่ยังรวมถึงภาษาเฉพาะอย่าง Swift และ Fortran จึงช่วยนักพัฒนาได้ในสภาพแวดล้อมและโปรเจ็กต์ที่หลากหลาย

สร้างมาตรฐานใหม่ด้านประสิทธิภาพการสร้างโค้ด

  • ทำประสิทธิภาพได้ดีกว่าโมเดลก่อนหน้า พร้อมมี latency ที่สั้นกว่า
  • Python
    • Codestral 22B 32k : HumanEval 81.1%, MBPP 78.2%, CruxEval-O 51.3%, RepoBench 34.0%
    • CodeLlama 70B 4k : HumanEval 67.1%, MBPP 70.8%, CruxEval-O 47.3%, RepoBench 11.4%
  • SQL (Spider)
    • Codestral 63.5%, CodeLlama 37%
  • ค่าเฉลี่ยหลายภาษา
    • HumanEval เฉลี่ย : Codestral 61.5%, CodeLlama 51.9%

เริ่มต้นใช้งาน Codestral

  • Codestral ใช้งานได้เพื่อการวิจัยและการทดสอบภายใต้ Mistral AI Non-Production License และดาวน์โหลดได้จาก HuggingFace
  • ใช้งานผ่านเอนด์พอยต์ใหม่ codestral.mistral.ai จัดการด้วย API key ส่วนตัว และใช้งานได้ในช่วงเบตาฟรี 8 สัปดาห์
  • ใช้งานได้ผ่านเอนด์พอยต์ api.mistral.ai โดยคิดค่าบริการตามจำนวนโทเค็น
  • สามารถโต้ตอบกับ Codestral ได้อย่างเป็นธรรมชาติผ่าน Le Chat

รองรับการใช้ Codestral ในสภาพแวดล้อมการเขียนโค้ดที่คุณต้องการ

  • เฟรมเวิร์กแอปพลิเคชัน: รวมเข้ากับ LlamaIndex และ LangChain แล้ว
  • การผสานรวมกับ VSCode/JetBrains: สามารถใช้ Codestral ในสภาพแวดล้อม VSCode และ JetBrains ได้ผ่าน Continue.dev และ Tabnine

เสียงตอบรับจากชุมชนนักพัฒนา

  • Nate Sesti (CTO ของ Continue.dev): นี่เป็นครั้งแรกของโมเดล autocomplete แบบเปิดที่มีทั้งความเร็วและคุณภาพ และจะสร้างความเปลี่ยนแปลงครั้งใหญ่ให้กับนักพัฒนา
  • Vladislav Tankov (หัวหน้าฝ่าย AI ของ JetBrains): คาดหวังอย่างมากกับความสามารถของ Mistral ที่มุ่งเน้นด้านโค้ดและการช่วยพัฒนาอย่างชัดเจน
  • Mikhail Evtikhiev (นักวิจัยของ JetBrains): แสดงประสิทธิภาพที่เหนือกว่า GPT-4-Turbo และ GPT-3.5-Turbo ในเบนช์มาร์ก Kotlin-HumanEval
  • Meital Zilberstein (หัวหน้าฝ่าย R&D ของ Tabnine): แสดงประสิทธิภาพโดดเด่นในด้านการสร้างโค้ด การสร้างเทสต์ และการทำเอกสาร ช่วยเพิ่มประสิทธิภาพของผลิตภัณฑ์อย่างมาก
  • Quinn Slack (CEO ของ Sourcegraph): ลด latency ของ code autocomplete พร้อมรักษาคุณภาพไว้ได้ จึงมอบคุณค่าที่จับต้องได้ให้กับนักพัฒนา
  • Jerry Liu (CEO ของ LlamaIndex): สร้างโค้ดที่ถูกต้องและใช้งานได้จริงแม้ในงานที่ซับซ้อน
  • Harrison Chase (CEO ของ LangChain): ให้ทั้งความเร็วและ context window ที่ได้เปรียบ พร้อมรองรับการใช้เครื่องมือ

ความเห็นของ GN⁺

  • ความก้าวหน้าของ AI สร้างโค้ด: Codestral รองรับหลายภาษาและมีประสิทธิภาพสูง จึงอาจช่วยนักพัฒนาได้มาก
  • ความสะดวกในการใช้งาน: มีตัวเลือกการผสานรวมที่หลากหลายและเอนด์พอยต์เฉพาะ ทำให้ใช้งานได้สะดวก
  • การประเมินประสิทธิภาพ: แสดงผลลัพธ์ที่ดีในหลายเบนช์มาร์ก จึงน่าเชื่อถือ
  • โมเดลคู่แข่ง: แสดงประสิทธิภาพที่ยอดเยี่ยมแม้เมื่อเทียบกับ GPT-4-Turbo และ GPT-3.5-Turbo
  • ข้อพิจารณาในการนำไปใช้: ควรตัดสินใจนำไปใช้โดยพิจารณาทั้งประสิทธิภาพและความสะดวกในการใช้งานของโมเดล

1 ความคิดเห็น

 
GN⁺ 2024-05-30
ความคิดเห็นบน Hacker News

สรุปความคิดเห็นจาก Hacker News

  • ข้อจำกัดด้านไลเซนส์: มีการห้ามใช้โมเดลและผลลัพธ์เพื่อกิจกรรมเชิงพาณิชย์หรือภายใต้เงื่อนไขแบบ "live" แม้ว่าการใช้ผลลัพธ์โค้ดเป็นส่วนหนึ่งของการพัฒนาจะได้รับการยกเว้น แต่ก็ยังห้ามใช้ภายในในบริบทของกิจกรรมทางธุรกิจของบริษัทด้วย ทำให้การเปรียบเทียบกับโมเดลโอเพนน้ำหนักอื่น ๆ ไม่ยุติธรรม

  • การทดสอบโมเดลเขียนโปรแกรม: มีการขอให้โมเดลเขียนโปรแกรมสร้าง Python ASGI middleware แบบเฉพาะเจาะจง แต่ไม่มีโมเดลใดทำได้อย่างถูกต้อง

  • ความต่างด้านปรัชญา LLM: มีความแตกต่างด้านแนวคิดระหว่าง LLM สไตล์ Llama กับ LLM สไตล์ OpenAI/GPT โดย GPT พัฒนามาโดยเน้นโค้ดเป็นหลัก ขณะที่โมเดล Llama/Mistral ปล่อยโมเดลภาษาทั่วไปออกมาก่อน แล้วค่อยฝึกด้านโค้ดเพิ่มเติมเพื่อออกมาเป็น CodeLlama/Codestral

  • การผสานกับ VSCode: มีคนสงสัยว่ามีวิธีใช้งานใน VSCode แบบที่ "shadow code" โผล่มาเหมือน Copilot หรือไม่ โดยคุณภาพของเครื่องมือแบบนี้ขึ้นอยู่กับความสามารถในการออกแบบพรอมป์ต์ที่เหมาะสมฝั่งไคลเอนต์

  • ข้อจำกัดการใช้งาน: สามารถใช้โมเดล Mistral และงานดัดแปลงได้เพื่อการทดสอบ วิจัย การใช้งานส่วนตัว หรือการประเมินเท่านั้น และไม่สามารถใช้ในกิจกรรมเชิงพาณิชย์ได้

  • ปัญหาด้านการใช้งานจริง: มีความเห็นว่าถ้าใช้กับกรณีการเติมโค้ดที่ใช้งานจริงไม่ได้ ก็แทบไม่มีความหมาย เพราะ GH Copilot ยังเป็นโมเดลที่ดีที่สุดอยู่แล้ว

  • ลิงก์ Huggingface: ลิงก์หน้า Huggingface

  • การทำให้การเขียนโค้ดเป็นประชาธิปไตย: มีการยกปัญหาที่เกิดขึ้นเมื่อทำให้ศิลปะเป็นประชาธิปไตยขึ้นมาเปรียบเทียบ พร้อมกังวลว่าจะมีไลบรารีที่ AI สร้างขึ้นแต่ไม่น่าเชื่อถือเพิ่มมากขึ้น

  • ความต้องการ RAM: มีคำถามเกี่ยวกับความต้องการ RAM สำหรับการใช้งานแบบโลคัลของโมเดลขนาด 44GB ที่ดาวน์โหลดได้จาก Huggingface และสงสัยว่าความต้องการ RAM ของ GPU กับ RAM แบบ "รวม" ของ Apple silicon เหมือนกันหรือไม่

  • ส่วนขยาย VSCode: มีคนสงสัยว่ามีส่วนขยาย VSCode ที่ใช้โมเดลหลากหลายตัวผ่านปลั๊กอินได้หรือไม่ เพราะการตั้งค่าใหม่ทุกครั้งเป็นเรื่องน่ารำคาญ