10 คะแนน โดย GN⁺ 2025-02-27 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • Kakao กำลังพัฒนา ‘Kanana Model Family’ โดยตั้งเป้าเป็นโมเดล AI ที่เหมาะสำหรับการนำไปใช้ในบริการจริง พร้อมคำนึงถึงทั้งประสิทธิภาพสูงและความคุ้มค่าด้านต้นทุน
  • บริษัทได้ฝึกโมเดลภาษาขนาดใหญ่มาก ‘Kanana Flag’ เสร็จสมบูรณ์แล้ว และได้ทำให้ไลน์อัปโมเดลภาษาสมบูรณ์ด้วย Kanana Essence, Kanana Nano และรุ่นอื่น ๆ
  • เพื่อสนับสนุนระบบนิเวศการวิจัย AI และความร่วมมือกับคอมมูนิตี้ AI ระดับโลก บริษัทได้เปิดซอร์สโมเดล ‘Kanana Nano 2.1B’ (base, instruct, embedding)

1. ทำประสิทธิภาพภาษาเกาหลีและอังกฤษระดับ Global Top ได้สำเร็จ

  • Kakao ตั้งเป้าพัฒนาโมเดลที่มีความสามารถแข่งขันในระดับโลก และได้ทดลองเทคนิคการฝึกหลากหลายรูปแบบเพื่อให้ได้ประสิทธิภาพสูงสุดภายใต้ทรัพยากรที่จำกัด
  • Kanana Flag ทำสถิติประสิทธิภาพระดับสูงสุด (SOTA) พร้อมลดต้นทุนการฝึกได้มากกว่า 50% เมื่อเทียบกับโมเดลของบริษัทอื่น ด้วยการปรับทรัพยากรการฝึกให้เหมาะสม
  • ในเบนช์มาร์กภาษาอังกฤษ (MMLU, MT-Bench) โมเดลแสดงประสิทธิภาพใกล้เคียงกับโมเดลระดับโลก และในเบนช์มาร์กภาษาเกาหลี (KMMLU, KoMT-Bench) ก็พิสูจน์ให้เห็นถึงประสิทธิภาพที่เหนือกว่าโมเดลคู่แข่งอย่างชัดเจน
  • สรุปประสิทธิภาพจากเบนช์มาร์ก
    • ประสิทธิภาพด้านการสนทนาและการทำตามคำสั่ง
      • Kanana Flag 32.5B ได้คะแนนสูงกว่าโมเดลคู่แข่งในการสนทนาภาษาอังกฤษและภาษาเกาหลี
      • โดยเฉพาะในการสนทนาภาษาเกาหลีเชิงความรู้ (KoMT-Bench) และการประเมินการคิดเชิงตรรกะ (LogicKor) ที่ทำผลงานได้โดดเด่น
    • ประสิทธิภาพด้านความรู้ โค้ดดิ้ง และคณิตศาสตร์
      • ทำคะแนนได้สูงในการประเมินความรู้ภาษาอังกฤษ (81.08 คะแนน) และภาษาเกาหลี (64.19 คะแนน) พร้อมผลงานที่เหนือกว่าโมเดลคู่แข่ง
      • ยังแสดงความแม่นยำสูงในการทำ code completion และ code solution และทำคะแนนได้ยอดเยี่ยมในคณิตศาสตร์พื้นฐาน (GSM8K) ที่ 90.83 คะแนน

2. เพิ่มประสิทธิภาพการฝึกจนใช้ต้นทุนต่ำกว่าครึ่งเมื่อเทียบกับโมเดลขนาดใกล้เคียงกัน

  • การฝึกโมเดลภาษาขนาดใหญ่ต้องใช้ทรัพยากรคอมพิวต์มหาศาล ดังนั้น Kakao จึงใช้กลยุทธ์ pre-training ที่มุ่งเพิ่มประสิทธิภาพการฝึกให้สูงสุด
  • บริษัทใช้แนวทาง Staged pre-training ในการฝึกโมเดลขนาด 8B และ 26.8B ก่อน แล้วจึงสร้างโมเดล Kanana Nano 2.1B ผ่านการปรับให้เหมาะสม
  • มีการใช้เทคนิค Pruning และ Distillation เพื่อเพิ่มประสิทธิภาพให้โมเดลขนาดเล็ก
  • และใช้เทคนิค DUS (Depth Up-Scaling) เพื่อพัฒนา Kanana Essence 9.8B และ Kanana Flag 32.5B
  • ผลลัพธ์คือสามารถปรับการฝึกให้เหมาะสมได้ด้วยต้นทุนต่ำกว่าครึ่งหนึ่งของโมเดลระดับโลกที่มีขนาดใกล้เคียงกัน

3. เปิดซอร์ส Kanana Nano 2.1B โมเดลขนาดเล็กประสิทธิภาพสูงที่ใช้งานได้แม้บนอุปกรณ์

  • เพื่อให้เหมาะกับการใช้งานของนักวิจัยและนักพัฒนา บริษัทจึงเปิดซอร์ส ‘Kanana Nano 2.1B’ เวอร์ชัน base, instruct, embedding
  • Kanana Nano 2.1B ถูกออกแบบให้ทำงานได้อย่างราบรื่นในสภาพแวดล้อมแบบ on-device จึงสามารถนำไปใช้เพื่อการวิจัยและพัฒนาได้
  • เมื่อพิจารณาทั้งปัญหาต้นทุนสูงของโมเดลขนาดใหญ่และปัญหาความแม่นยำต่ำของโมเดลขนาดเล็ก บริษัทจึงตัดสินใจเปิดเผยโมเดลในขนาดที่ใช้งานได้จริงที่สุด
  • แม้เป็นโมเดลที่มีขนาดค่อนข้างเล็ก แต่ก็แสดงประสิทธิภาพที่เทียบเคียงกับโมเดลระดับโลก และเปิดโอกาสให้ประยุกต์ใช้งานได้หลากหลาย
  • อย่างไรก็ตาม ในงานที่ยากมาก เช่น การให้เหตุผลที่ซับซ้อนหรือการแก้ปัญหาคณิตศาสตร์ อาจยังมีข้อจำกัดอยู่บ้าง แต่บริษัทมีแผนสนับสนุนให้นักวิจัยและนักพัฒนานำไปต่อยอดทำวิจัยได้อย่างหลากหลาย

สรุป

  • Kakao ได้แนะนำทั้ง ไลน์อัปโมเดลภาษา Kanana ทั้งหมด และ โมเดลโอเพนซอร์ส Kanana Nano 2.1B ผ่านรายงานทางเทคนิคฉบับนี้
  • ในอนาคต บริษัทมีแผนนำเทคโนโลยีที่อิง reinforcement learning (RL) มาเสริม เพื่อเพิ่มความสามารถด้าน reasoning การคำนวณทางคณิตศาสตร์ และประสิทธิภาพด้านโค้ด
  • นอกจากนี้ยังมีแผนปรับปรุงผ่าน Continual Learning เพื่อให้เรียนรู้ข้อมูลใหม่อย่างต่อเนื่อง พร้อมคงความรู้เดิมที่ได้เรียนมาแล้ว
  • บริษัทจะยกระดับ เทคโนโลยี Alignment เพื่อเพิ่มความสามารถในการทำตามคำขอของผู้ใช้ และทำให้ AI เข้าใจและสนทนาได้อย่างเป็นธรรมชาติมากขึ้น
  • ในที่สุด โมเดล Kanana จะพัฒนาไปสู่ Multimodal AI ที่สามารถมองเห็น ฟัง พูด และสื่อสารอย่างเป็นธรรมชาติได้เหมือนมนุษย์
  • Kakao วางแผนเดินหน้าท้าทายอย่างต่อเนื่องเพื่อให้ AI เพิ่มคุณค่าให้ชีวิตประจำวันของผู้ใช้ และเสริมความสามารถทางการแข่งขันด้านเทคโนโลยีต่อไป

Kanana GitHub link
Kanana Technical Report link
Kanana Nano 2.1B Download

[1] Pruning: เทคนิคการตัดองค์ประกอบของโมเดล AI ออกเพื่อคงไว้เฉพาะส่วนที่สำคัญ
[2] Distillation: เทคนิคการถ่ายทอดความรู้จากโมเดลขนาดใหญ่ไปยังโมเดลขนาดเล็กกว่า
[3] Depth Up-Scaling: วิธีเพิ่มขนาดโมเดลอย่างมีประสิทธิภาพด้วยการซ้อนเลเยอร์ของโมเดลเดิมให้ลึกขึ้น

3 ความคิดเห็น

 
rtyu1120 2025-02-27

พอดูว่าไลเซนส์เป็นแบบไหน ก็เห็นว่าเป็น CC BY-NC-ND 4.0 นี่นา..?? ถ้าเป็น NonCommercial หมายความว่าบริษัทอื่นนอกจาก Kakao ห้ามใช้หรือเปล่า... ไม่ค่อยเข้าใจเจตนาเท่าไรนะ

 
bobross0 2025-03-13

555555

 
cosine20 2025-03-03

555