OpenCoder: ตำราแบบเปิดสำหรับโค้ด LLM ระดับแนวหน้า

(opencoder-llm.github.io)

12 คะแนน โดย GN⁺ 2024-11-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

OpenCoder เป็นโมเดลภาษาขนาดใหญ่ (LLM) สำหรับโค้ดแบบโอเพนซอร์ส โดยมีทั้งโมเดลพื้นฐานและโมเดลแชตขนาด 1.5B และ 8B และรองรับภาษาอังกฤษและภาษาจีน
- ฝึกด้วยข้อมูลจำนวน 2.5 ล้านล้านโทเค็น โดยในจำนวนนี้ 90% เป็นโค้ดดิบ และ 10% เป็นข้อมูลเว็บที่เกี่ยวข้องกับโค้ด
- ทำประสิทธิภาพได้ถึงระดับของโค้ด LLM ชั้นนำ พร้อมเปิดเผยค่าน้ำหนักโมเดล, โค้ดสำหรับการอนุมาน, ข้อมูลฝึกที่ทำซ้ำได้, ไปป์ไลน์ประมวลผลข้อมูล, ผลการตัดทอนเชิงทดลอง และโปรโตคอลการฝึกโดยละเอียด
- เป็นแพลตฟอร์มแบบเปิดที่ช่วยให้นักวิจัยสามารถพัฒนาและสร้างนวัตกรรมด้านโค้ด AI ได้
คุณสมบัติของ OpenCoder
- เป็นโค้ด LLM แบบโอเพนซอร์สเต็มรูปแบบ ที่สร้างขึ้นบนไปป์ไลน์ประมวลผลข้อมูลที่โปร่งใสและชุดข้อมูลที่ทำซ้ำได้ และทำผลงานระดับแนวหน้าในเบนช์มาร์กประเมินโค้ด LLM หลายรายการ
- RefineCode: คลังข้อมูลพรีเทรนโค้ดคุณภาพสูงที่ทำซ้ำได้ ประกอบด้วย 960 พันล้านโทเค็น ครอบคลุมภาษาโปรแกรม 607 ภาษา
- การศึกษา Ablation ที่มีความหมาย: รวมการทดลอง ablation หลายชุดเพื่อให้ข้อมูลเชิงลึกที่มีคุณค่าเกี่ยวกับตัวเลือกการออกแบบและกลยุทธ์การฝึกต่าง ๆ ของโค้ด LLM
- ทรัพยากรที่เปิดเผย: ค่าน้ำหนักโมเดลสุดท้าย, ไปป์ไลน์ประมวลผลข้อมูลแบบครบถ้วน, ไปป์ไลน์ประเมินผลที่มีประสิทธิภาพ, ชุดข้อมูลพรีเทรนที่ทำซ้ำได้, ชุดข้อมูล SFT ขนาดใหญ่ และเช็กพอยต์ระหว่างทาง

1 ความคิดเห็น

GN⁺ 2024-11-10

ความคิดเห็นจาก Hacker News

นอกจากน้ำหนักโมเดลและโค้ดสำหรับ inference แล้ว ยังเปิดเผยข้อมูลการฝึกที่ทำซ้ำได้จริง, ไปป์ไลน์การประมวลผลข้อมูล, ผลลัพธ์เชิงทดลอง และโปรโตคอลการฝึก เพื่อมีส่วนช่วยต่อการวิจัยทางวิทยาศาสตร์
- เน้นย้ำว่างานลักษณะนี้เป็นประโยชน์ต่อทุกคน ไม่ว่าประสิทธิภาพของโมเดลจะเป็นอย่างไร
จากผลการทดสอบ พบว่ามีอาการ hallucination มาก และประสิทธิภาพด้อยกว่าโมเดลทั่วไปอย่าง Qwen 2.5 หรือ Mistral-Nemo
ให้ลิงก์หน้าโฮมเพจของบทความ arxiv: https://opencoder-llm.github.io/
รู้สึกสับสนที่คะแนน HumanEval ของ Qwen2.5-Coder-7B คือ 61.6 แต่ใน Table 1 กลับแสดงเป็น 88.4
- นั่นเป็นเพราะเป็นคนละโมเดลกัน (Qwen2.5-Coder-7B-Base คือ 61.6, Qwen2.5-Coder-7B-Instruct คือ 88.4)
เนื่องจากมีการ fork และคัดลอก-วางภายใน codebase ทำให้ 75% ของไฟล์ซ้ำกันทั้งหมด
- เพราะทำแฮชในระดับไฟล์ จึงไม่แน่ใจว่าเป็นการคัดลอกทั้งไฟล์มาโดยไม่แก้ไขเลยหรือไม่
มีใครฝึกโมเดลโดยรวมเมทาดาทาของการคอมไพล์และการรัน (เช่น ข้อมูล profiling) เข้าไปด้วยไหม?
- สงสัยว่าการรวมสิ่งเหล่านี้จะช่วยชี้นำโมเดลไปสู่การเขียนโค้ดที่มีประสิทธิภาพมากขึ้นได้หรือไม่
เป็นงานวิจัยที่น่าสนใจ แต่โมเดลนี้ดูเหมือนจะไม่ได้ดีกว่า Qwen2.5-Coder ในบางภาษา รวมถึง Ruby
สงสัยว่าต้องใช้ฮาร์ดแวร์อะไรบ้างในการรันโมเดลนี้
โครงสร้างระบบสำคัญ
ดี.

OpenCoder: ตำราแบบเปิดสำหรับโค้ด LLM ระดับแนวหน้า

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News