Kakao เปิดเผยรายงานทางเทคนิคของโมเดลภาษา Kanana
(tech.kakao.com)- Kakao กำลังพัฒนา ‘Kanana Model Family’ โดยตั้งเป้าเป็นโมเดล AI ที่เหมาะสำหรับการนำไปใช้ในบริการจริง พร้อมคำนึงถึงทั้งประสิทธิภาพสูงและความคุ้มค่าด้านต้นทุน
- บริษัทได้ฝึกโมเดลภาษาขนาดใหญ่มาก ‘Kanana Flag’ เสร็จสมบูรณ์แล้ว และได้ทำให้ไลน์อัปโมเดลภาษาสมบูรณ์ด้วย Kanana Essence, Kanana Nano และรุ่นอื่น ๆ
- เพื่อสนับสนุนระบบนิเวศการวิจัย AI และความร่วมมือกับคอมมูนิตี้ AI ระดับโลก บริษัทได้เปิดซอร์สโมเดล ‘Kanana Nano 2.1B’ (base, instruct, embedding)
1. ทำประสิทธิภาพภาษาเกาหลีและอังกฤษระดับ Global Top ได้สำเร็จ
- Kakao ตั้งเป้าพัฒนาโมเดลที่มีความสามารถแข่งขันในระดับโลก และได้ทดลองเทคนิคการฝึกหลากหลายรูปแบบเพื่อให้ได้ประสิทธิภาพสูงสุดภายใต้ทรัพยากรที่จำกัด
- Kanana Flag ทำสถิติประสิทธิภาพระดับสูงสุด (SOTA) พร้อมลดต้นทุนการฝึกได้มากกว่า 50% เมื่อเทียบกับโมเดลของบริษัทอื่น ด้วยการปรับทรัพยากรการฝึกให้เหมาะสม
- ในเบนช์มาร์กภาษาอังกฤษ (MMLU, MT-Bench) โมเดลแสดงประสิทธิภาพใกล้เคียงกับโมเดลระดับโลก และในเบนช์มาร์กภาษาเกาหลี (KMMLU, KoMT-Bench) ก็พิสูจน์ให้เห็นถึงประสิทธิภาพที่เหนือกว่าโมเดลคู่แข่งอย่างชัดเจน
- สรุปประสิทธิภาพจากเบนช์มาร์ก
- ประสิทธิภาพด้านการสนทนาและการทำตามคำสั่ง
- Kanana Flag 32.5B ได้คะแนนสูงกว่าโมเดลคู่แข่งในการสนทนาภาษาอังกฤษและภาษาเกาหลี
- โดยเฉพาะในการสนทนาภาษาเกาหลีเชิงความรู้ (KoMT-Bench) และการประเมินการคิดเชิงตรรกะ (LogicKor) ที่ทำผลงานได้โดดเด่น
- ประสิทธิภาพด้านความรู้ โค้ดดิ้ง และคณิตศาสตร์
- ทำคะแนนได้สูงในการประเมินความรู้ภาษาอังกฤษ (81.08 คะแนน) และภาษาเกาหลี (64.19 คะแนน) พร้อมผลงานที่เหนือกว่าโมเดลคู่แข่ง
- ยังแสดงความแม่นยำสูงในการทำ code completion และ code solution และทำคะแนนได้ยอดเยี่ยมในคณิตศาสตร์พื้นฐาน (GSM8K) ที่ 90.83 คะแนน
- ประสิทธิภาพด้านการสนทนาและการทำตามคำสั่ง
2. เพิ่มประสิทธิภาพการฝึกจนใช้ต้นทุนต่ำกว่าครึ่งเมื่อเทียบกับโมเดลขนาดใกล้เคียงกัน
- การฝึกโมเดลภาษาขนาดใหญ่ต้องใช้ทรัพยากรคอมพิวต์มหาศาล ดังนั้น Kakao จึงใช้กลยุทธ์ pre-training ที่มุ่งเพิ่มประสิทธิภาพการฝึกให้สูงสุด
- บริษัทใช้แนวทาง Staged pre-training ในการฝึกโมเดลขนาด 8B และ 26.8B ก่อน แล้วจึงสร้างโมเดล Kanana Nano 2.1B ผ่านการปรับให้เหมาะสม
- มีการใช้เทคนิค Pruning และ Distillation เพื่อเพิ่มประสิทธิภาพให้โมเดลขนาดเล็ก
- และใช้เทคนิค DUS (Depth Up-Scaling) เพื่อพัฒนา Kanana Essence 9.8B และ Kanana Flag 32.5B
- ผลลัพธ์คือสามารถปรับการฝึกให้เหมาะสมได้ด้วยต้นทุนต่ำกว่าครึ่งหนึ่งของโมเดลระดับโลกที่มีขนาดใกล้เคียงกัน
3. เปิดซอร์ส Kanana Nano 2.1B โมเดลขนาดเล็กประสิทธิภาพสูงที่ใช้งานได้แม้บนอุปกรณ์
- เพื่อให้เหมาะกับการใช้งานของนักวิจัยและนักพัฒนา บริษัทจึงเปิดซอร์ส ‘Kanana Nano 2.1B’ เวอร์ชัน base, instruct, embedding
- Kanana Nano 2.1B ถูกออกแบบให้ทำงานได้อย่างราบรื่นในสภาพแวดล้อมแบบ on-device จึงสามารถนำไปใช้เพื่อการวิจัยและพัฒนาได้
- เมื่อพิจารณาทั้งปัญหาต้นทุนสูงของโมเดลขนาดใหญ่และปัญหาความแม่นยำต่ำของโมเดลขนาดเล็ก บริษัทจึงตัดสินใจเปิดเผยโมเดลในขนาดที่ใช้งานได้จริงที่สุด
- แม้เป็นโมเดลที่มีขนาดค่อนข้างเล็ก แต่ก็แสดงประสิทธิภาพที่เทียบเคียงกับโมเดลระดับโลก และเปิดโอกาสให้ประยุกต์ใช้งานได้หลากหลาย
- อย่างไรก็ตาม ในงานที่ยากมาก เช่น การให้เหตุผลที่ซับซ้อนหรือการแก้ปัญหาคณิตศาสตร์ อาจยังมีข้อจำกัดอยู่บ้าง แต่บริษัทมีแผนสนับสนุนให้นักวิจัยและนักพัฒนานำไปต่อยอดทำวิจัยได้อย่างหลากหลาย
สรุป
- Kakao ได้แนะนำทั้ง ไลน์อัปโมเดลภาษา Kanana ทั้งหมด และ โมเดลโอเพนซอร์ส Kanana Nano 2.1B ผ่านรายงานทางเทคนิคฉบับนี้
- ในอนาคต บริษัทมีแผนนำเทคโนโลยีที่อิง reinforcement learning (RL) มาเสริม เพื่อเพิ่มความสามารถด้าน reasoning การคำนวณทางคณิตศาสตร์ และประสิทธิภาพด้านโค้ด
- นอกจากนี้ยังมีแผนปรับปรุงผ่าน Continual Learning เพื่อให้เรียนรู้ข้อมูลใหม่อย่างต่อเนื่อง พร้อมคงความรู้เดิมที่ได้เรียนมาแล้ว
- บริษัทจะยกระดับ เทคโนโลยี Alignment เพื่อเพิ่มความสามารถในการทำตามคำขอของผู้ใช้ และทำให้ AI เข้าใจและสนทนาได้อย่างเป็นธรรมชาติมากขึ้น
- ในที่สุด โมเดล Kanana จะพัฒนาไปสู่ Multimodal AI ที่สามารถมองเห็น ฟัง พูด และสื่อสารอย่างเป็นธรรมชาติได้เหมือนมนุษย์
- Kakao วางแผนเดินหน้าท้าทายอย่างต่อเนื่องเพื่อให้ AI เพิ่มคุณค่าให้ชีวิตประจำวันของผู้ใช้ และเสริมความสามารถทางการแข่งขันด้านเทคโนโลยีต่อไป
Kanana GitHub link
Kanana Technical Report link
Kanana Nano 2.1B Download
[1] Pruning: เทคนิคการตัดองค์ประกอบของโมเดล AI ออกเพื่อคงไว้เฉพาะส่วนที่สำคัญ
[2] Distillation: เทคนิคการถ่ายทอดความรู้จากโมเดลขนาดใหญ่ไปยังโมเดลขนาดเล็กกว่า
[3] Depth Up-Scaling: วิธีเพิ่มขนาดโมเดลอย่างมีประสิทธิภาพด้วยการซ้อนเลเยอร์ของโมเดลเดิมให้ลึกขึ้น
3 ความคิดเห็น
พอดูว่าไลเซนส์เป็นแบบไหน ก็เห็นว่าเป็น CC BY-NC-ND 4.0 นี่นา..?? ถ้าเป็น NonCommercial หมายความว่าบริษัทอื่นนอกจาก Kakao ห้ามใช้หรือเปล่า... ไม่ค่อยเข้าใจเจตนาเท่าไรนะ
555555
555