Gemma 2: ปรับปรุงโมเดลภาษาแบบเปิดในขนาดที่ใช้งานได้จริง
(ai.google.dev)ประเด็นสำคัญ:
Gemma 2 คือโมเดลภาษาแบบเปิดตระกูลใหม่ที่มีน้ำหนักเบาและล้ำสมัย โดยมีช่วงขนาดตั้งแต่ 2 พันล้านถึง 27 พันล้านพารามิเตอร์
ขณะนี้มีรุ่น 9 พันล้านและ 27 พันล้านพารามิเตอร์ให้ใช้งานแล้ว และรุ่น 2 พันล้านจะเปิดตัวในเร็ว ๆ นี้
การปรับปรุงทางเทคนิคหลัก:
- ใช้ local-global attention แบบสลับกัน
- group-query attention
- การฝึกด้วย knowledge distillation สำหรับโมเดลขนาดเล็ก
โมเดลเหล่านี้ให้ประสิทธิภาพระดับแนวหน้าสำหรับขนาดของตนเอง และสามารถแข่งขันกับโมเดลที่ใหญ่กว่าราว 2-3 เท่าได้
สถาปัตยกรรมโมเดล:
- สถาปัตยกรรม Transformer แบบ decoder-only
- ความยาวคอนเท็กซ์ 8192 โทเค็น
- ใช้ local sliding window (4096 โทเค็น) สลับกับเลเยอร์ global attention
- group-query attention (GQA)
- RMSNorm สำหรับการทำ layer normalization
การฝึก:
- โมเดล 27 พันล้านฝึกด้วยข้อมูล 13 ล้านล้านโทเค็น
- โมเดล 9 พันล้านฝึกด้วยข้อมูล 8 ล้านล้านโทเค็น
- โมเดล 2.6 พันล้านฝึกด้วยข้อมูล 2 ล้านล้านโทเค็น
- แหล่งข้อมูล: เอกสารบนเว็บ, โค้ด, บทความวิทยาศาสตร์
- ใช้ knowledge distillation กับโมเดล 2.6 พันล้านและ 9 พันล้าน
ประสิทธิภาพ:
- เหนือกว่าโมเดลเปิดที่เทียบเคียงกันได้ใน benchmark
- สามารถแข่งขันกับโมเดลที่ใหญ่กว่าบางรุ่นได้
- ให้ผลลัพธ์ที่แข็งแกร่งในงานถาม-ตอบ, การให้เหตุผล, คณิตศาสตร์, วิทยาศาสตร์ และงานเขียนโค้ด
ความปลอดภัยและความรับผิดชอบ:
- ดำเนินการทดสอบด้านความปลอดภัยอย่างกว้างขวางและกระบวนการเผยแพร่อย่างรับผิดชอบ
- นำนโยบายความปลอดภัยและมาตรการบรรเทาความเสี่ยงมาใช้ในการฝึก
- จัดเตรียมชุดเครื่องมือ generative AI อย่างรับผิดชอบสำหรับนักพัฒนา
6 ความคิดเห็น
วันที่เราจะสามารถรัน LLM ได้ด้วย CPU เพียงอย่างเดียวจะมาถึงไหม?
ถ้าอยู่ราว ๆ 20B ก็สามารถรันได้เพียงพอด้วย CPU อย่างเดียวครับ ตั้งแต่ 60B ขึ้นไปจะเริ่มหนักหรือทำงานได้ไม่ค่อยดีแล้วนะครับ (ส่วนการเทรนก็เป็นอีกเรื่องหนึ่ง) ลองใช้ ollama ดูสักครั้งครับ
ก่อนหน้านี้ผมยังนึกภาพสเปกที่ต้องใช้ไม่ออกเลย ขอบคุณสำหรับคำแนะนำครับ ดูเหมือนว่าโน้ตบุ๊ก Intel เจน 11 ยังไหวไม่พอ คงต้องเอาไปรันบนเซิร์ฟเวอร์ virtualization หรืออะไรทำนองนั้น
ติดตั้ง lm studio ก็ใช้ได้ครับ
เหตุผลที่ผมบอกว่ามันค่อนข้างหนักสำหรับโน้ตบุ๊กก็เพราะการใช้งาน CPU พุ่งไปที่ 100% ทุกคอร์ และเกิดความร้อนสูงมาก จนรู้สึกว่าใช้งานได้ไม่สบายเท่าไร แม้ว่า LM Studio จะมี UI สำหรับพรอมป์ต์ทำให้ใช้งานสะดวกก็จริง แต่ก็ดูเหมือนว่าจะตอบโจทย์เรื่องความลื่นไหลสบายในการใช้งานไม่ได้
เอ๊ะ..? ทำกันอยู่แล้วนี่;;