- Code Llama คือโมเดลภาษาขนาดใหญ่ (LLM) ล้ำสมัยที่ออกแบบมาสำหรับการเขียนโค้ด โดยสามารถสร้างทั้งโค้ดและคำอธิบายโค้ดในภาษาธรรมชาติได้จากทั้งพรอมต์ที่เป็นโค้ดและภาษาธรรมชาติ
- โมเดลนี้สร้างขึ้นบน Llama 2 และมีให้เลือก 3 รุ่น ได้แก่ Code Llama (โมเดลโค้ดพื้นฐาน), Code Llama - Python (เชี่ยวชาญด้าน Python) และ Code Llama - Instruct (ปรับแต่งให้เข้าใจคำสั่งภาษาธรรมชาติ)
- Code Llama เปิดให้ใช้งาน ฟรีสำหรับการวิจัยและการใช้งานเชิงพาณิชย์ และเผยแพร่ภายใต้คอมมูนิตี้ไลเซนส์เดียวกับ Llama 2
- โมเดลนี้สามารถใช้สำหรับ การเติมโค้ดให้สมบูรณ์และการดีบัก และรองรับภาษายอดนิยมจำนวนมาก เช่น Python, C++, Java, PHP, Typescript (Javascript), C#, Bash เป็นต้น
- Code Llama มีให้เลือก 3 ขนาดคือ พารามิเตอร์ 7B, 13B, 34B โดยแต่ละรุ่นผ่านการฝึกด้วยโทเค็น 500B จากข้อมูลโค้ดและข้อมูลที่เกี่ยวข้องกับโค้ด
- โมเดลเหล่านี้ถูกจัดเตรียมไว้ให้เหมาะกับบริการและความต้องการด้าน latency ที่หลากหลาย โดยรุ่น 34B ให้ผลลัพธ์ดีที่สุด ส่วนรุ่นเล็กกว่าอย่าง 7B และ 13B เหมาะกับงานที่ต้องการความเร็วและ latency ต่ำมากกว่า
- โมเดล Code Llama สามารถรองรับ คอนเท็กซ์ได้สูงสุด 100,000 โทเค็น จึงมีประโยชน์สำหรับการสร้างโปรแกรมที่ยาวขึ้นและการดีบักโค้ดเบสขนาดใหญ่
- ยังมีการปรับแต่งเพิ่มเติมอีก 2 รุ่นย่อย ได้แก่ Code Llama - Python (เชี่ยวชาญด้วยโทเค็น 100B ของโค้ด Python) และ Code Llama - Instruct (ปรับแต่งให้สร้างคำตอบที่เป็นประโยชน์และปลอดภัยในภาษาธรรมชาติ)
- Code Llama ทำผลงานเหนือกว่า LLM แบบเปิดที่ใช้งานได้สาธารณะอื่น ๆ ในงานด้านโค้ดจากการทดสอบเบนช์มาร์ก โดยได้ 53.7% บน HumanEval และ 56.2% บน Mostly Basic Python Programming (MBPP)
- มีการใช้มาตรการด้านความปลอดภัยเพื่อลดความเสี่ยงที่เกี่ยวข้องกับ Code Llama รวมถึงการประเมินเชิงปริมาณเกี่ยวกับความเสี่ยงในการสร้างโค้ดที่เป็นอันตราย
- สูตรการฝึกและค่าน้ำหนักโมเดลของ Code Llama สามารถดูได้ที่ Code Llama GitHub repository
- งานวิจัย Code Llama ให้รายละเอียดเพิ่มเติมเกี่ยวกับการพัฒนาโมเดล ข้อจำกัด และความท้าทายในอนาคต
- นักพัฒนายังได้อัปเดต Responsible Use Guide เพื่อรวมแนวทางในการพัฒนาโมเดลย่อยอย่างมีความรับผิดชอบ
- Code Llama ถูกออกแบบมาเพื่อสนับสนุนวิศวกรซอฟต์แวร์ในทุกสาขา และสร้างแรงบันดาลใจให้ผู้อื่นใช้ Llama 2 เพื่อสร้างเครื่องมือใหม่ที่มีนวัตกรรมสำหรับงานวิจัยและผลิตภัณฑ์เชิงพาณิชย์
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News