12 คะแนน โดย GN⁺ 2024-11-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • OpenCoder เป็นโมเดลภาษาขนาดใหญ่ (LLM) สำหรับโค้ดแบบโอเพนซอร์ส โดยมีทั้งโมเดลพื้นฐานและโมเดลแชตขนาด 1.5B และ 8B และรองรับภาษาอังกฤษและภาษาจีน
    • ฝึกด้วยข้อมูลจำนวน 2.5 ล้านล้านโทเค็น โดยในจำนวนนี้ 90% เป็นโค้ดดิบ และ 10% เป็นข้อมูลเว็บที่เกี่ยวข้องกับโค้ด
    • ทำประสิทธิภาพได้ถึงระดับของโค้ด LLM ชั้นนำ พร้อมเปิดเผยค่าน้ำหนักโมเดล, โค้ดสำหรับการอนุมาน, ข้อมูลฝึกที่ทำซ้ำได้, ไปป์ไลน์ประมวลผลข้อมูล, ผลการตัดทอนเชิงทดลอง และโปรโตคอลการฝึกโดยละเอียด
    • เป็นแพลตฟอร์มแบบเปิดที่ช่วยให้นักวิจัยสามารถพัฒนาและสร้างนวัตกรรมด้านโค้ด AI ได้
  • คุณสมบัติของ OpenCoder
    • เป็นโค้ด LLM แบบโอเพนซอร์สเต็มรูปแบบ ที่สร้างขึ้นบนไปป์ไลน์ประมวลผลข้อมูลที่โปร่งใสและชุดข้อมูลที่ทำซ้ำได้ และทำผลงานระดับแนวหน้าในเบนช์มาร์กประเมินโค้ด LLM หลายรายการ
    • RefineCode: คลังข้อมูลพรีเทรนโค้ดคุณภาพสูงที่ทำซ้ำได้ ประกอบด้วย 960 พันล้านโทเค็น ครอบคลุมภาษาโปรแกรม 607 ภาษา
    • การศึกษา Ablation ที่มีความหมาย: รวมการทดลอง ablation หลายชุดเพื่อให้ข้อมูลเชิงลึกที่มีคุณค่าเกี่ยวกับตัวเลือกการออกแบบและกลยุทธ์การฝึกต่าง ๆ ของโค้ด LLM
    • ทรัพยากรที่เปิดเผย: ค่าน้ำหนักโมเดลสุดท้าย, ไปป์ไลน์ประมวลผลข้อมูลแบบครบถ้วน, ไปป์ไลน์ประเมินผลที่มีประสิทธิภาพ, ชุดข้อมูลพรีเทรนที่ทำซ้ำได้, ชุดข้อมูล SFT ขนาดใหญ่ และเช็กพอยต์ระหว่างทาง

1 ความคิดเห็น

 
GN⁺ 2024-11-10
ความคิดเห็นจาก Hacker News
  • นอกจากน้ำหนักโมเดลและโค้ดสำหรับ inference แล้ว ยังเปิดเผยข้อมูลการฝึกที่ทำซ้ำได้จริง, ไปป์ไลน์การประมวลผลข้อมูล, ผลลัพธ์เชิงทดลอง และโปรโตคอลการฝึก เพื่อมีส่วนช่วยต่อการวิจัยทางวิทยาศาสตร์

    • เน้นย้ำว่างานลักษณะนี้เป็นประโยชน์ต่อทุกคน ไม่ว่าประสิทธิภาพของโมเดลจะเป็นอย่างไร
  • จากผลการทดสอบ พบว่ามีอาการ hallucination มาก และประสิทธิภาพด้อยกว่าโมเดลทั่วไปอย่าง Qwen 2.5 หรือ Mistral-Nemo

  • ให้ลิงก์หน้าโฮมเพจของบทความ arxiv: https://opencoder-llm.github.io/

  • รู้สึกสับสนที่คะแนน HumanEval ของ Qwen2.5-Coder-7B คือ 61.6 แต่ใน Table 1 กลับแสดงเป็น 88.4

    • นั่นเป็นเพราะเป็นคนละโมเดลกัน (Qwen2.5-Coder-7B-Base คือ 61.6, Qwen2.5-Coder-7B-Instruct คือ 88.4)
  • เนื่องจากมีการ fork และคัดลอก-วางภายใน codebase ทำให้ 75% ของไฟล์ซ้ำกันทั้งหมด

    • เพราะทำแฮชในระดับไฟล์ จึงไม่แน่ใจว่าเป็นการคัดลอกทั้งไฟล์มาโดยไม่แก้ไขเลยหรือไม่
  • มีใครฝึกโมเดลโดยรวมเมทาดาทาของการคอมไพล์และการรัน (เช่น ข้อมูล profiling) เข้าไปด้วยไหม?

    • สงสัยว่าการรวมสิ่งเหล่านี้จะช่วยชี้นำโมเดลไปสู่การเขียนโค้ดที่มีประสิทธิภาพมากขึ้นได้หรือไม่
  • เป็นงานวิจัยที่น่าสนใจ แต่โมเดลนี้ดูเหมือนจะไม่ได้ดีกว่า Qwen2.5-Coder ในบางภาษา รวมถึง Ruby

  • สงสัยว่าต้องใช้ฮาร์ดแวร์อะไรบ้างในการรันโมเดลนี้

  • โครงสร้างระบบสำคัญ

  • ดี.