OpenELM: ตระกูลโมเดลภาษาที่มีประสิทธิภาพพร้อมเฟรมเวิร์กโอเพนซอร์สสำหรับการฝึกและการทำ Inference

(arxiv.org)

2 คะแนน โดย brainer 2024-04-25 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

• OpenELM ถูกนำเสนอในฐานะโมเดลภาษาแบบเปิดล้ำสมัยที่ส่งเสริมความสามารถในการทำซ้ำได้และความโปร่งใสในแวดวงโมเดลภาษาขนาดใหญ่ OpenELM ใช้กลยุทธ์การสเกลแบบรายชั้น ทำให้สามารถจัดสรรพารามิเตอร์ภายในแต่ละชั้นของโมเดลทรานส์ฟอร์เมอร์ได้อย่างมีประสิทธิภาพเพื่อเพิ่มความแม่นยำ ตัวอย่างเช่น ภายใต้งบประมาณพารามิเตอร์ราว 1 พันล้าน OpenELM ทำได้ดีกว่า OLMo อยู่ 2.36% ขณะที่ต้องใช้โทเคนสำหรับการพรีเทรนน้อยกว่าเพียงครึ่งเดียว

• ต่างจากแนวปฏิบัติเดิมที่ให้เพียงน้ำหนักโมเดลและโค้ดสำหรับการอนุมาน OpenELM มอบเฟรมเวิร์กแบบครบถ้วนสำหรับการฝึกและประเมินโมเดลภาษาด้วยชุดข้อมูลที่เปิดให้ใช้งานสาธารณะ ซึ่งรวมถึงบันทึกการฝึก เช็กพอยต์หลายชุด และคอนฟิกสำหรับการพรีเทรน นอกจากนี้ยังมีโค้ดสำหรับแปลงโมเดลไปเป็นไลบรารี MLX เพื่อใช้ทำ Inference และการปรับจูนละเอียดบนอุปกรณ์ Apple

• การเปิดตัว OpenELM มีเป้าหมายเพื่อเสริมพลังให้ชุมชนนักวิจัยแบบเปิด ด้วยการให้เข้าถึงเฟรมเวิร์กการฝึกและการทำ Inference แบบครบถ้วน เพื่อส่งเสริมความพยายามด้านงานวิจัยแบบเปิดในอนาคต ซอร์สโค้ด น้ำหนักโมเดลที่พรีเทรนแล้ว และสูตรการฝึก สามารถใช้งานได้อย่างสะดวก พร้อมการเข้าถึงโมเดลผ่าน Hugging Face

1 ความคิดเห็น

cosine20 2024-04-25

Apple OpenELM 3B: 24.80 MMLU
Microsoft Phi-3-mini 3.8b: 68.8 MMLU

พอดูปฏิกิริยารอบ ๆ แล้ว ก็มีคนบอกว่าคะแนน MMLU ต่ำเกินไป และชุดข้อมูลที่ใช้ฝึกก็ค่อนข้างเก่าอยู่บ้าง
ยังมีคนพูดกันว่าอาจเป็นเพราะเป็นโมเดลเก่าเลยตั้งใจปล่อยเป็นโอเพนซอร์สหรือเปล่า...

OpenELM: ตระกูลโมเดลภาษาที่มีประสิทธิภาพพร้อมเฟรมเวิร์กโอเพนซอร์สสำหรับการฝึกและการทำ Inference

บทความที่เกี่ยวข้อง

1 ความคิดเห็น