4 คะแนน โดย xguru 2024-07-23 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • ทีมวิจัยโครงการ DataComp for Language Models ของ Apple เปิดตัวตระกูลโมเดล DCLM แบบโอเพนบน Hugging Face
  • แพ็กเกจนี้มีโมเดลหลัก 2 รุ่นที่มีพารามิเตอร์ 7B และ 1.4B
  • โมเดลขนาด 7 พันล้านพารามิเตอร์ (7B) ทำผลงานได้ดีในการทดสอบ benchmark โดยเหนือกว่า Mistral-7B และเข้าใกล้โมเดลเปิดชั้นนำอื่น ๆ อย่าง Llama 3 และ Gemma
  • โครงการนี้เปิดเผยน้ำหนักโมเดล, โค้ดสำหรับการฝึก, และชุดข้อมูล pre-training ทำให้เป็นโอเพนซอร์สอย่างแท้จริง

DCLM(DataComp for Language Models)

  • โครงการ DataComp สามารถอธิบายได้ว่าเป็นความร่วมมือเพื่อออกแบบชุดข้อมูลคุณภาพสูงสำหรับฝึกโมเดล AI โดยเฉพาะในโดเมนมัลติโหมด
  • จากการทดลองพบว่า model-based filtering ซึ่งเป็นการให้โมเดล machine learning (ML) กรองและคัดเลือกข้อมูลคุณภาพสูงจากชุดข้อมูลขนาดใหญ่โดยอัตโนมัติ อาจเป็นกุญแจสำคัญในการสร้างชุดข้อมูลฝึกคุณภาพสูง
  • ชุดข้อมูลผลลัพธ์ DCLM-Baseline ถูกนำมาใช้ฝึกภาษาโมเดลภาษาอังกฤษแบบ decoder-only transformer รุ่นใหม่ของ DCLM ที่มีพารามิเตอร์ 7 พันล้านและ 1.4 พันล้าน ตั้งแต่ต้น
  • โมเดล 7 พันล้านถูกฝึกด้วยโทเคน 2.5 ล้านล้านรายการ โดยใช้สูตรการ pre-training ที่อิงกับเฟรมเวิร์ก OpenLM และให้ความแม่นยำแบบ 5-shot บน MMLU ที่ 63.7%
  • นี่ดีกว่า MAP-Neo ซึ่งเป็นโอเพนดาต้าภาษาโมเดลระดับ state-of-the-art ก่อนหน้าอยู่ 6.6 จุดเปอร์เซ็นต์ และใช้คอมพิวต์น้อยกว่าถึง 40% ในการฝึก

โมเดลที่ทรงพลังและเล็กกว่า

  • โมเดลเวอร์ชัน 1.4 พันล้านพารามิเตอร์ (1.4B) ก็แสดงประสิทธิภาพที่น่าประทับใจเช่นกันในการทดสอบ MMLU, Core และ Extended
  • ในการทดสอบ MMLU แบบ 5-shot โมเดลนี้ทำได้ 41.9% ซึ่งสูงกว่าโมเดลอื่นในหมวดเดียวกันอย่างชัดเจน รวมถึง SmolLM ที่ Hugging Face เพิ่งเปิดตัวล่าสุด
  • ขณะนี้โมเดลขนาดใหญ่กว่าสามารถใช้งานได้ภายใต้ Apple Sample Code License ส่วนโมเดลขนาดเล็กเปิดเผยภายใต้ Apache 2.0 ซึ่งอนุญาตให้ใช้งานเชิงพาณิชย์ การแจกจ่าย และการดัดแปลง
  • ในไลบรารีของ HF ยังมีเวอร์ชัน instruction-tuned ของโมเดล 7 พันล้านพารามิเตอร์ด้วย
  • ควรทราบว่านี่เป็นงานวิจัยระยะแรกที่เน้นย้ำถึงประสิทธิผลของการคัดสรรข้อมูล
    • โมเดลนี้ไม่ได้มีไว้สำหรับอุปกรณ์ของ Apple และอาจแสดงอคติเฉพาะบางอย่างจากข้อมูลฝึกทดสอบ หรือสร้างการตอบสนองที่เป็นอันตรายได้

3 ความคิดเห็น

 
j2sus91 2024-07-23

เพราะถ้าใส่มาใน iPhone ผลลัพธ์ก็จะยิ่งออกมาสูงสุด
Samsung เองก็โฟกัสที่ on-device อยู่เหมือนกัน

 
xguru 2024-07-23

Apple โชว์ศักยภาพ AI แบบเปิด: โมเดลที่เพิ่งเปิดตัวทำผลงานได้ดีกว่า Mistral

ดูเหมือนว่า Apple จะยังคงโฟกัสกับโมเดลขนาดเล็กสำหรับ AI บนอุปกรณ์ต่อไปนะครับ อยากลองใช้เร็ว ๆ เลย

 
godrm 2024-07-23

คิดว่าตั้งแต่ปีหน้าน่าจะได้ลองใช้กันอย่างจริงจังแล้วนะ 555