- นำ CodeLlama-34B และ CodeLlama-34B-Python ไปฟাইনจูนด้วยชุดข้อมูลภายในของ Phind โดยทำ pass@1 บน HumanEval ได้ 67.6% และ 69.5% ตามลำดับ สูงกว่า 67% ของ GPT-4
- โมเดล CodeLlama ที่เพิ่งเปิดตัวล่าสุดแสดงประสิทธิภาพที่น่าประทับใจบน HumanEval โดย CodeLlama-34B ทำ pass@1 ได้ 48.8% และ CodeLlama-34B-Python ทำ pass@1 ได้ 53.7%
- ทั้งสองโมเดลได้รับการปรับจูนละเอียดด้วยชุดข้อมูลเฉพาะที่มีโจทย์การเขียนโปรแกรมคุณภาพสูงและเฉลยประมาณ 80k รายการ ซึ่งมีโครงสร้างแตกต่างจาก HumanEval ที่เน้นคู่คำสั่ง-คำตอบแทนตัวอย่างการเติมโค้ด
- โมเดลถูกฝึกด้วยตัวอย่างรวม 160k รายการตลอดสอง epoch โดยใช้ DeepSpeed ZeRO 3 และ Flash Attention 2 ใช้เวลา 3 ชั่วโมงบน GPU A100-80GB จำนวน 32 ตัว และความยาวซีเควนซ์ 4096 โทเค็น
- มีการใช้วิธีการกำจัดข้อมูลปนเปื้อนของ OpenAI กับชุดข้อมูลเพื่อรับประกันผลลัพธ์ที่เชื่อถือได้ และไม่พบตัวอย่างที่ปนเปื้อน วิธีการนี้จะสุ่มเลือกสตริงย่อย 3 ชุด ชุดละ 50 ตัวอักษรจากตัวอย่างประเมินแต่ละรายการ หรือใช้ทั้งตัวอย่างหากมีความยาวน้อยกว่า 50 ตัวอักษร และจะถือว่าตรงกันหากมีสตริงย่อยที่สุ่มได้ตรงกับสตริงย่อยของตัวอย่างฝึกที่ผ่านการประมวลผล
- โมเดลที่ผ่านการฟাইনจูนทำคะแนน pass@1 บน HumanEval ได้ 67.6% สำหรับ Phind-CodeLlama-34B-v1 และ 69.5% สำหรับ Phind-CodeLlama-34B-Python-v1
- ทั้งสองโมเดลถูกเผยแพร่บน Huggingface เพื่อให้ตรวจสอบยืนยันได้และสนับสนุนชุมชนโอเพนซอร์ส โดยแนะนำให้มีการตรวจสอบผลลัพธ์อย่างอิสระ
1 ความคิดเห็น
เป็นโพสต์จาก HN
https://news.ycombinator.com/item?id=37267597