Kakao เปิดเผยรายงานทางเทคนิคของโมเดลภาษา Kanana

(tech.kakao.com)

10 คะแนน โดย GN⁺ 2025-02-27 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

Kakao กำลังพัฒนา ‘Kanana Model Family’ โดยตั้งเป้าเป็นโมเดล AI ที่เหมาะสำหรับการนำไปใช้ในบริการจริง พร้อมคำนึงถึงทั้งประสิทธิภาพสูงและความคุ้มค่าด้านต้นทุน
บริษัทได้ฝึกโมเดลภาษาขนาดใหญ่มาก ‘Kanana Flag’ เสร็จสมบูรณ์แล้ว และได้ทำให้ไลน์อัปโมเดลภาษาสมบูรณ์ด้วย Kanana Essence, Kanana Nano และรุ่นอื่น ๆ
เพื่อสนับสนุนระบบนิเวศการวิจัย AI และความร่วมมือกับคอมมูนิตี้ AI ระดับโลก บริษัทได้เปิดซอร์สโมเดล ‘Kanana Nano 2.1B’ (base, instruct, embedding)

1. ทำประสิทธิภาพภาษาเกาหลีและอังกฤษระดับ Global Top ได้สำเร็จ

Kakao ตั้งเป้าพัฒนาโมเดลที่มีความสามารถแข่งขันในระดับโลก และได้ทดลองเทคนิคการฝึกหลากหลายรูปแบบเพื่อให้ได้ประสิทธิภาพสูงสุดภายใต้ทรัพยากรที่จำกัด
Kanana Flag ทำสถิติประสิทธิภาพระดับสูงสุด (SOTA) พร้อมลดต้นทุนการฝึกได้มากกว่า 50% เมื่อเทียบกับโมเดลของบริษัทอื่น ด้วยการปรับทรัพยากรการฝึกให้เหมาะสม
ในเบนช์มาร์กภาษาอังกฤษ (MMLU, MT-Bench) โมเดลแสดงประสิทธิภาพใกล้เคียงกับโมเดลระดับโลก และในเบนช์มาร์กภาษาเกาหลี (KMMLU, KoMT-Bench) ก็พิสูจน์ให้เห็นถึงประสิทธิภาพที่เหนือกว่าโมเดลคู่แข่งอย่างชัดเจน
สรุปประสิทธิภาพจากเบนช์มาร์ก
- ประสิทธิภาพด้านการสนทนาและการทำตามคำสั่ง
  - Kanana Flag 32.5B ได้คะแนนสูงกว่าโมเดลคู่แข่งในการสนทนาภาษาอังกฤษและภาษาเกาหลี
  - โดยเฉพาะในการสนทนาภาษาเกาหลีเชิงความรู้ (KoMT-Bench) และการประเมินการคิดเชิงตรรกะ (LogicKor) ที่ทำผลงานได้โดดเด่น
- ประสิทธิภาพด้านความรู้ โค้ดดิ้ง และคณิตศาสตร์
  - ทำคะแนนได้สูงในการประเมินความรู้ภาษาอังกฤษ (81.08 คะแนน) และภาษาเกาหลี (64.19 คะแนน) พร้อมผลงานที่เหนือกว่าโมเดลคู่แข่ง
  - ยังแสดงความแม่นยำสูงในการทำ code completion และ code solution และทำคะแนนได้ยอดเยี่ยมในคณิตศาสตร์พื้นฐาน (GSM8K) ที่ 90.83 คะแนน

2. เพิ่มประสิทธิภาพการฝึกจนใช้ต้นทุนต่ำกว่าครึ่งเมื่อเทียบกับโมเดลขนาดใกล้เคียงกัน

การฝึกโมเดลภาษาขนาดใหญ่ต้องใช้ทรัพยากรคอมพิวต์มหาศาล ดังนั้น Kakao จึงใช้กลยุทธ์ pre-training ที่มุ่งเพิ่มประสิทธิภาพการฝึกให้สูงสุด
บริษัทใช้แนวทาง Staged pre-training ในการฝึกโมเดลขนาด 8B และ 26.8B ก่อน แล้วจึงสร้างโมเดล Kanana Nano 2.1B ผ่านการปรับให้เหมาะสม
มีการใช้เทคนิค Pruning และ Distillation เพื่อเพิ่มประสิทธิภาพให้โมเดลขนาดเล็ก
และใช้เทคนิค DUS (Depth Up-Scaling) เพื่อพัฒนา Kanana Essence 9.8B และ Kanana Flag 32.5B
ผลลัพธ์คือสามารถปรับการฝึกให้เหมาะสมได้ด้วยต้นทุนต่ำกว่าครึ่งหนึ่งของโมเดลระดับโลกที่มีขนาดใกล้เคียงกัน

3. เปิดซอร์ส Kanana Nano 2.1B โมเดลขนาดเล็กประสิทธิภาพสูงที่ใช้งานได้แม้บนอุปกรณ์

เพื่อให้เหมาะกับการใช้งานของนักวิจัยและนักพัฒนา บริษัทจึงเปิดซอร์ส ‘Kanana Nano 2.1B’ เวอร์ชัน base, instruct, embedding
Kanana Nano 2.1B ถูกออกแบบให้ทำงานได้อย่างราบรื่นในสภาพแวดล้อมแบบ on-device จึงสามารถนำไปใช้เพื่อการวิจัยและพัฒนาได้
เมื่อพิจารณาทั้งปัญหาต้นทุนสูงของโมเดลขนาดใหญ่และปัญหาความแม่นยำต่ำของโมเดลขนาดเล็ก บริษัทจึงตัดสินใจเปิดเผยโมเดลในขนาดที่ใช้งานได้จริงที่สุด
แม้เป็นโมเดลที่มีขนาดค่อนข้างเล็ก แต่ก็แสดงประสิทธิภาพที่เทียบเคียงกับโมเดลระดับโลก และเปิดโอกาสให้ประยุกต์ใช้งานได้หลากหลาย
อย่างไรก็ตาม ในงานที่ยากมาก เช่น การให้เหตุผลที่ซับซ้อนหรือการแก้ปัญหาคณิตศาสตร์ อาจยังมีข้อจำกัดอยู่บ้าง แต่บริษัทมีแผนสนับสนุนให้นักวิจัยและนักพัฒนานำไปต่อยอดทำวิจัยได้อย่างหลากหลาย

สรุป

Kakao ได้แนะนำทั้ง ไลน์อัปโมเดลภาษา Kanana ทั้งหมด และ โมเดลโอเพนซอร์ส Kanana Nano 2.1B ผ่านรายงานทางเทคนิคฉบับนี้
ในอนาคต บริษัทมีแผนนำเทคโนโลยีที่อิง reinforcement learning (RL) มาเสริม เพื่อเพิ่มความสามารถด้าน reasoning การคำนวณทางคณิตศาสตร์ และประสิทธิภาพด้านโค้ด
นอกจากนี้ยังมีแผนปรับปรุงผ่าน Continual Learning เพื่อให้เรียนรู้ข้อมูลใหม่อย่างต่อเนื่อง พร้อมคงความรู้เดิมที่ได้เรียนมาแล้ว
บริษัทจะยกระดับ เทคโนโลยี Alignment เพื่อเพิ่มความสามารถในการทำตามคำขอของผู้ใช้ และทำให้ AI เข้าใจและสนทนาได้อย่างเป็นธรรมชาติมากขึ้น
ในที่สุด โมเดล Kanana จะพัฒนาไปสู่ Multimodal AI ที่สามารถมองเห็น ฟัง พูด และสื่อสารอย่างเป็นธรรมชาติได้เหมือนมนุษย์
Kakao วางแผนเดินหน้าท้าทายอย่างต่อเนื่องเพื่อให้ AI เพิ่มคุณค่าให้ชีวิตประจำวันของผู้ใช้ และเสริมความสามารถทางการแข่งขันด้านเทคโนโลยีต่อไป

Kanana GitHub link
Kanana Technical Report link
Kanana Nano 2.1B Download

[1] Pruning: เทคนิคการตัดองค์ประกอบของโมเดล AI ออกเพื่อคงไว้เฉพาะส่วนที่สำคัญ
[2] Distillation: เทคนิคการถ่ายทอดความรู้จากโมเดลขนาดใหญ่ไปยังโมเดลขนาดเล็กกว่า
[3] Depth Up-Scaling: วิธีเพิ่มขนาดโมเดลอย่างมีประสิทธิภาพด้วยการซ้อนเลเยอร์ของโมเดลเดิมให้ลึกขึ้น

3 ความคิดเห็น

rtyu1120 2025-02-27

พอดูว่าไลเซนส์เป็นแบบไหน ก็เห็นว่าเป็น CC BY-NC-ND 4.0 นี่นา..?? ถ้าเป็น NonCommercial หมายความว่าบริษัทอื่นนอกจาก Kakao ห้ามใช้หรือเปล่า... ไม่ค่อยเข้าใจเจตนาเท่าไรนะ

bobross0 2025-03-13

555555

cosine20 2025-03-03

555