เอาชนะ GPT-4 บน HumanEval ด้วย CodeLlama-34B ที่ผ่านการฟাইনจูน

(phind.com)

2 คะแนน โดย GN⁺ 2023-08-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

นำ CodeLlama-34B และ CodeLlama-34B-Python ไปฟাইনจูนด้วยชุดข้อมูลภายในของ Phind โดยทำ pass@1 บน HumanEval ได้ 67.6% และ 69.5% ตามลำดับ สูงกว่า 67% ของ GPT-4
โมเดล CodeLlama ที่เพิ่งเปิดตัวล่าสุดแสดงประสิทธิภาพที่น่าประทับใจบน HumanEval โดย CodeLlama-34B ทำ pass@1 ได้ 48.8% และ CodeLlama-34B-Python ทำ pass@1 ได้ 53.7%
ทั้งสองโมเดลได้รับการปรับจูนละเอียดด้วยชุดข้อมูลเฉพาะที่มีโจทย์การเขียนโปรแกรมคุณภาพสูงและเฉลยประมาณ 80k รายการ ซึ่งมีโครงสร้างแตกต่างจาก HumanEval ที่เน้นคู่คำสั่ง-คำตอบแทนตัวอย่างการเติมโค้ด
โมเดลถูกฝึกด้วยตัวอย่างรวม 160k รายการตลอดสอง epoch โดยใช้ DeepSpeed ZeRO 3 และ Flash Attention 2 ใช้เวลา 3 ชั่วโมงบน GPU A100-80GB จำนวน 32 ตัว และความยาวซีเควนซ์ 4096 โทเค็น
มีการใช้วิธีการกำจัดข้อมูลปนเปื้อนของ OpenAI กับชุดข้อมูลเพื่อรับประกันผลลัพธ์ที่เชื่อถือได้ และไม่พบตัวอย่างที่ปนเปื้อน วิธีการนี้จะสุ่มเลือกสตริงย่อย 3 ชุด ชุดละ 50 ตัวอักษรจากตัวอย่างประเมินแต่ละรายการ หรือใช้ทั้งตัวอย่างหากมีความยาวน้อยกว่า 50 ตัวอักษร และจะถือว่าตรงกันหากมีสตริงย่อยที่สุ่มได้ตรงกับสตริงย่อยของตัวอย่างฝึกที่ผ่านการประมวลผล
โมเดลที่ผ่านการฟাইনจูนทำคะแนน pass@1 บน HumanEval ได้ 67.6% สำหรับ Phind-CodeLlama-34B-v1 และ 69.5% สำหรับ Phind-CodeLlama-34B-Python-v1
ทั้งสองโมเดลถูกเผยแพร่บน Huggingface เพื่อให้ตรวจสอบยืนยันได้และสนับสนุนชุมชนโอเพนซอร์ส โดยแนะนำให้มีการตรวจสอบผลลัพธ์อย่างอิสระ

1 ความคิดเห็น

alstjr7375 2023-08-27

เป็นโพสต์จาก HN
https://news.ycombinator.com/item?id=37267597

เอาชนะ GPT-4 บน HumanEval ด้วย CodeLlama-34B ที่ผ่านการฟাইনจูน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น