Apple โชว์ศักยภาพ AI แบบเปิด: โมเดลใหม่ทำผลงานเหนือกว่า Mistral

xguru · 2024-07-23T10:51:01+09:00

ทีมวิจัยโครงการ DataComp for Language Models ของ Apple เปิดตัวตระกูลโมเดล DCLM แบบโอเพนบน Hugging Face แพ็กเกจนี้มีโมเดลหลัก 2 รุ่นที่มีพารามิเตอร์ 7B และ 1.4B โมเดลขนาด 7 พันล้านพารามิเตอร์ (7B) ทำผลงานได้ดีในการทดสอบ benchmark โดยเหนือกว่า Mistral-7B และเข้าใกล้โมเดลเปิดชั้นนำอื่น ๆ อย่าง Llama 3 และ Gemma โครงการนี้เปิดเผยน้ำหนักโมเดล, โค้ดสำหรับการฝึก, และชุดข้อมูล pre-training ทำให้เป็นโอเพนซอร์สอย่างแท้จริง DCLM(DataComp for Language Models) โครงการ DataComp สามารถอธิบายได้ว่าเป็นความร่วมมือเพื่อออกแบบชุดข้อมูลคุณภาพสูงสำหรับฝึกโมเดล AI โดยเฉพาะในโดเมนมัลติโหมด จากการทดลองพบว่า model-based filtering ซึ่งเป็นการให้โมเดล machine learning (ML) กรองและคัดเลือกข้อมูลคุณภาพสูงจากชุดข้อมูลขนาดใหญ่โดยอัตโนมัติ อาจเป็นกุญแจสำคัญในการสร้างชุดข้อมูลฝึกคุณภาพสูง ชุดข้อมูลผลลัพธ์ DCLM-Baseline ถูกนำมาใช้ฝึกภาษาโมเดลภาษาอังกฤษแบบ decoder-only transformer รุ่นใหม่ของ DCLM ที่มีพารามิเตอร์ 7 พันล้านและ 1.4 พันล้าน ตั้งแต่ต้น โมเดล 7 พันล้านถูกฝึกด้วยโทเคน 2.5 ล้านล้านรายการ โดยใช้สูตรการ pre-training ที่อิงกับเฟรมเวิร์ก OpenLM และให้ความแม่นยำแบบ 5-shot บน MMLU ที่ 63.7% นี่ดีกว่า MAP-Neo ซึ่งเป็นโอเพนดาต้าภาษาโมเดลระดับ state-of-the-art ก่อนหน้าอยู่ 6.6 จุดเปอร์เซ็นต์ และใช้คอมพิวต์น้อยกว่าถึง 40% ในการฝึก โมเดลที่ทรงพลังและเล็กกว่า โมเดลเวอร์ชัน 1.4 พันล้านพารามิเตอร์ (1.4B) ก็แสดงประสิทธิภาพที่น่าประทับใจเช่นกันในการทดสอบ MMLU, Core และ Extended ในการทดสอบ MMLU แบบ 5-shot โมเดลนี้ทำได้ 41.9% ซึ่งสูงกว่าโมเดลอื่นในหมวดเดียวกันอย่างชัดเจน รวมถึง SmolLM ที่ Hugging Face เพิ่งเปิดตัวล่าสุด ขณะนี้โมเดลขนาดใหญ่กว่าสามารถใช้งานได้ภายใต้ Apple Sample Code License ส่วนโมเดลขนาดเล็กเปิดเผยภายใต้ Apache 2.0 ซึ่งอนุญาตให้ใช้งานเชิงพาณิชย์ การแจกจ่าย และการดัดแปลง ในไลบรารีของ HF ยังมีเวอร์ชัน instruction-tuned ของโมเดล 7 พันล้านพารามิเตอร์ด้วย ควรทราบว่านี่เป็นงานวิจัยระยะแรกที่เน้นย้ำถึงประสิทธิผลของการคัดสรรข้อมูล โมเดลนี้ไม่ได้มีไว้สำหรับอุปกรณ์ของ Apple และอาจแสดงอคติเฉพาะบางอย่างจากข้อมูลฝึกทดสอบ หรือสร้างการตอบสนองที่เป็นอันตรายได้

(venturebeat.com)

4 คะแนน โดย xguru 2024-07-23 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

ทีมวิจัยโครงการ DataComp for Language Models ของ Apple เปิดตัวตระกูลโมเดล DCLM แบบโอเพนบน Hugging Face
แพ็กเกจนี้มีโมเดลหลัก 2 รุ่นที่มีพารามิเตอร์ 7B และ 1.4B
โมเดลขนาด 7 พันล้านพารามิเตอร์ (7B) ทำผลงานได้ดีในการทดสอบ benchmark โดยเหนือกว่า Mistral-7B และเข้าใกล้โมเดลเปิดชั้นนำอื่น ๆ อย่าง Llama 3 และ Gemma
โครงการนี้เปิดเผยน้ำหนักโมเดล, โค้ดสำหรับการฝึก, และชุดข้อมูล pre-training ทำให้เป็นโอเพนซอร์สอย่างแท้จริง

DCLM(DataComp for Language Models)

โครงการ DataComp สามารถอธิบายได้ว่าเป็นความร่วมมือเพื่อออกแบบชุดข้อมูลคุณภาพสูงสำหรับฝึกโมเดล AI โดยเฉพาะในโดเมนมัลติโหมด
จากการทดลองพบว่า model-based filtering ซึ่งเป็นการให้โมเดล machine learning (ML) กรองและคัดเลือกข้อมูลคุณภาพสูงจากชุดข้อมูลขนาดใหญ่โดยอัตโนมัติ อาจเป็นกุญแจสำคัญในการสร้างชุดข้อมูลฝึกคุณภาพสูง
ชุดข้อมูลผลลัพธ์ DCLM-Baseline ถูกนำมาใช้ฝึกภาษาโมเดลภาษาอังกฤษแบบ decoder-only transformer รุ่นใหม่ของ DCLM ที่มีพารามิเตอร์ 7 พันล้านและ 1.4 พันล้าน ตั้งแต่ต้น
โมเดล 7 พันล้านถูกฝึกด้วยโทเคน 2.5 ล้านล้านรายการ โดยใช้สูตรการ pre-training ที่อิงกับเฟรมเวิร์ก OpenLM และให้ความแม่นยำแบบ 5-shot บน MMLU ที่ 63.7%
นี่ดีกว่า MAP-Neo ซึ่งเป็นโอเพนดาต้าภาษาโมเดลระดับ state-of-the-art ก่อนหน้าอยู่ 6.6 จุดเปอร์เซ็นต์ และใช้คอมพิวต์น้อยกว่าถึง 40% ในการฝึก

โมเดลที่ทรงพลังและเล็กกว่า

โมเดลเวอร์ชัน 1.4 พันล้านพารามิเตอร์ (1.4B) ก็แสดงประสิทธิภาพที่น่าประทับใจเช่นกันในการทดสอบ MMLU, Core และ Extended
ในการทดสอบ MMLU แบบ 5-shot โมเดลนี้ทำได้ 41.9% ซึ่งสูงกว่าโมเดลอื่นในหมวดเดียวกันอย่างชัดเจน รวมถึง SmolLM ที่ Hugging Face เพิ่งเปิดตัวล่าสุด
ขณะนี้โมเดลขนาดใหญ่กว่าสามารถใช้งานได้ภายใต้ Apple Sample Code License ส่วนโมเดลขนาดเล็กเปิดเผยภายใต้ Apache 2.0 ซึ่งอนุญาตให้ใช้งานเชิงพาณิชย์ การแจกจ่าย และการดัดแปลง
ในไลบรารีของ HF ยังมีเวอร์ชัน instruction-tuned ของโมเดล 7 พันล้านพารามิเตอร์ด้วย
ควรทราบว่านี่เป็นงานวิจัยระยะแรกที่เน้นย้ำถึงประสิทธิผลของการคัดสรรข้อมูล
- โมเดลนี้ไม่ได้มีไว้สำหรับอุปกรณ์ของ Apple และอาจแสดงอคติเฉพาะบางอย่างจากข้อมูลฝึกทดสอบ หรือสร้างการตอบสนองที่เป็นอันตรายได้

3 ความคิดเห็น

j2sus91 2024-07-23

เพราะถ้าใส่มาใน iPhone ผลลัพธ์ก็จะยิ่งออกมาสูงสุด
Samsung เองก็โฟกัสที่ on-device อยู่เหมือนกัน

xguru 2024-07-23

Apple โชว์ศักยภาพ AI แบบเปิด: โมเดลที่เพิ่งเปิดตัวทำผลงานได้ดีกว่า Mistral

ดูเหมือนว่า Apple จะยังคงโฟกัสกับโมเดลขนาดเล็กสำหรับ AI บนอุปกรณ์ต่อไปนะครับ อยากลองใช้เร็ว ๆ เลย

godrm 2024-07-23

คิดว่าตั้งแต่ปีหน้าน่าจะได้ลองใช้กันอย่างจริงจังแล้วนะ 555

Apple โชว์ศักยภาพ AI แบบเปิด: โมเดลใหม่ทำผลงานเหนือกว่า Mistral

DCLM(DataComp for Language Models)

โมเดลที่ทรงพลังและเล็กกว่า

บทความที่เกี่ยวข้อง

3 ความคิดเห็น