- OpenCoder เป็นโมเดลภาษาขนาดใหญ่ (LLM) สำหรับโค้ดแบบโอเพนซอร์ส โดยมีทั้งโมเดลพื้นฐานและโมเดลแชตขนาด 1.5B และ 8B และรองรับภาษาอังกฤษและภาษาจีน
- ฝึกด้วยข้อมูลจำนวน 2.5 ล้านล้านโทเค็น โดยในจำนวนนี้ 90% เป็นโค้ดดิบ และ 10% เป็นข้อมูลเว็บที่เกี่ยวข้องกับโค้ด
- ทำประสิทธิภาพได้ถึงระดับของโค้ด LLM ชั้นนำ พร้อมเปิดเผยค่าน้ำหนักโมเดล, โค้ดสำหรับการอนุมาน, ข้อมูลฝึกที่ทำซ้ำได้, ไปป์ไลน์ประมวลผลข้อมูล, ผลการตัดทอนเชิงทดลอง และโปรโตคอลการฝึกโดยละเอียด
- เป็นแพลตฟอร์มแบบเปิดที่ช่วยให้นักวิจัยสามารถพัฒนาและสร้างนวัตกรรมด้านโค้ด AI ได้
- คุณสมบัติของ OpenCoder
- เป็นโค้ด LLM แบบโอเพนซอร์สเต็มรูปแบบ ที่สร้างขึ้นบนไปป์ไลน์ประมวลผลข้อมูลที่โปร่งใสและชุดข้อมูลที่ทำซ้ำได้ และทำผลงานระดับแนวหน้าในเบนช์มาร์กประเมินโค้ด LLM หลายรายการ
- RefineCode: คลังข้อมูลพรีเทรนโค้ดคุณภาพสูงที่ทำซ้ำได้ ประกอบด้วย 960 พันล้านโทเค็น ครอบคลุมภาษาโปรแกรม 607 ภาษา
- การศึกษา Ablation ที่มีความหมาย: รวมการทดลอง ablation หลายชุดเพื่อให้ข้อมูลเชิงลึกที่มีคุณค่าเกี่ยวกับตัวเลือกการออกแบบและกลยุทธ์การฝึกต่าง ๆ ของโค้ด LLM
- ทรัพยากรที่เปิดเผย: ค่าน้ำหนักโมเดลสุดท้าย, ไปป์ไลน์ประมวลผลข้อมูลแบบครบถ้วน, ไปป์ไลน์ประเมินผลที่มีประสิทธิภาพ, ชุดข้อมูลพรีเทรนที่ทำซ้ำได้, ชุดข้อมูล SFT ขนาดใหญ่ และเช็กพอยต์ระหว่างทาง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
นอกจากน้ำหนักโมเดลและโค้ดสำหรับ inference แล้ว ยังเปิดเผยข้อมูลการฝึกที่ทำซ้ำได้จริง, ไปป์ไลน์การประมวลผลข้อมูล, ผลลัพธ์เชิงทดลอง และโปรโตคอลการฝึก เพื่อมีส่วนช่วยต่อการวิจัยทางวิทยาศาสตร์
จากผลการทดสอบ พบว่ามีอาการ hallucination มาก และประสิทธิภาพด้อยกว่าโมเดลทั่วไปอย่าง Qwen 2.5 หรือ Mistral-Nemo
ให้ลิงก์หน้าโฮมเพจของบทความ arxiv: https://opencoder-llm.github.io/
รู้สึกสับสนที่คะแนน HumanEval ของ Qwen2.5-Coder-7B คือ 61.6 แต่ใน Table 1 กลับแสดงเป็น 88.4
เนื่องจากมีการ fork และคัดลอก-วางภายใน codebase ทำให้ 75% ของไฟล์ซ้ำกันทั้งหมด
มีใครฝึกโมเดลโดยรวมเมทาดาทาของการคอมไพล์และการรัน (เช่น ข้อมูล profiling) เข้าไปด้วยไหม?
เป็นงานวิจัยที่น่าสนใจ แต่โมเดลนี้ดูเหมือนจะไม่ได้ดีกว่า Qwen2.5-Coder ในบางภาษา รวมถึง Ruby
สงสัยว่าต้องใช้ฮาร์ดแวร์อะไรบ้างในการรันโมเดลนี้
โครงสร้างระบบสำคัญ
ดี.