• HCX Vision ได้พัฒนาจากโมเดลภาษาขนาดใหญ่ (LLM) เดิม โดยเพิ่มความสามารถในการเข้าใจภาพ จนกลายเป็นโมเดลภาษาภาพขนาดใหญ่ (LVLM)
  • ผ่านการฝึกเพิ่มเติมด้วยข้อมูลด้านภาพและภาษาที่หลากหลาย ทำให้สามารถเข้าใจทั้งภาพและข้อความได้พร้อมกัน
  • มีการรวบรวมข้อมูลให้เหมาะกับหลายสถานการณ์ จึงสามารถทำงานด้านการเข้าใจภาพและภาษาได้ในหลายบริบท เช่น การรู้จำเอกสาร และการเข้าใจข้อความภายในภาพ
  • อาศัยประสบการณ์ด้านเทคโนโลยี OCR ของ Naver เพื่อเสริมความสามารถในการประมวลผลเอกสารและการรู้จำตัวอักษร ทำให้ให้บริการได้อย่างแม่นยำและเชื่อถือได้
  • ด้วยการต่อยอดบน HCX จึงมีความรู้เกี่ยวกับภาษาเกาหลีและวัฒนธรรมเกาหลี ส่งผลให้มีประสิทธิภาพโดดเด่นในการเข้าใจเอกสารภาษาเกาหลีและข้อความภายในภาพ

ตัวชี้วัดเชิงปริมาณของ HyperCLOVA X Vision

  • ใน Public Benchmarks ทำผลงานเฉลี่ยได้ 71.59% คิดเป็นระดับ 99.94% ของ GPT-4V
  • ในข้อสอบเก่าของการสอบเทียบวุฒิระดับประถม มัธยมต้น และมัธยมปลายในเกาหลี ทำอัตราตอบถูกได้ 83.8% สูงกว่า GPT-4o ที่ทำได้ 77.8%

ความสามารถของ HyperCLOVA X Vision จากตัวอย่างการใช้งาน

  • Detailed Image Captioning: รู้จำและบรรยายรายละเอียดเล็ก ๆ ในภาพได้อย่างแม่นยำ
  • Reasoning: อนุมานสถานการณ์และคาดการณ์ขั้นตอนถัดไปจากความเข้าใจภาพอย่างละเอียด
  • Entity Recognition: เข้าใจหน่วยข้อมูลที่มีความหมาย เช่น บุคคล สถานที่ และสินค้า ได้จากภาพเพียงอย่างเดียว
  • Chart Understanding: เข้าใจข้อมูลเชิงตัวเลขแบบนามธรรมในรูปแบบกราฟและแผนภูมิ
  • Table Understanding: รู้จำข้อมูลตารางจากภาพแคปเจอร์และเข้าใจความสัมพันธ์เชิงตำแหน่ง
  • Document Understanding: เข้าใจเอกสารหลากหลายภาษา เช่น อักษรจีนและภาษาญี่ปุ่น
  • Culture and Humor (Meme Understanding): เข้าใจมีมที่ประกอบด้วยคู่ของภาพและข้อความ
  • Equation Understanding: รู้จำสมการที่เรนเดอร์แล้วและแปลงเป็นไวยากรณ์ TeX
  • Code Generation: สร้างโค้ดสำหรับสร้างรูปทรง แผนภูมิ หรือกราฟที่กำหนด
  • Math Problem Solving: เข้าใจโจทย์คณิตศาสตร์ที่มีรูปทรงประกอบและให้วิธีทำได้
  • Creative Writing (with Image Grounding): เขียนเชิงสร้างสรรค์โดยอิงจากองค์ประกอบที่อยู่ในภาพได้

แนวโน้มอนาคตของ HyperCLOVA X Vision และ Sovereign AI

  • มีแนวโน้มว่าจะสามารถใช้ประโยชน์จาก context length ระดับหลายล้าน เพื่อทำความเข้าใจภาพยนตร์ระยะยาวและประมวลผลวิดีโอแบบเรียลไทม์ได้
  • หากมีเทคโนโลยีการประมวลผลแบบเรียลไทม์รองรับ AI ก็จะสามารถตอบสนองต่อสถานการณ์ได้อย่างยืดหยุ่นในฐานะเอนทิตีอิสระ
  • สำหรับ LVLM เอง ความเป็นอธิปไตยตามภูมิภาคหรือพื้นฐานทางวัฒนธรรมก็จะยิ่งมีความสำคัญ
  • Naver อยู่ในตำแหน่งที่ได้เปรียบในการจัดหาและเข้าถึงข้อมูลที่จำเป็นได้อย่างมีประสิทธิภาพ ในฐานะแพลตฟอร์มชั้นนำของเกาหลีใต้

ส่งท้าย

  • เทคโนโลยี LVLM ของ Naver กำลังพัฒนาไปสู่การสื่อสารที่ใกล้ชิดยิ่งขึ้น
  • บริษัทกำลังพยายามทำให้ HCX Vision เป็น AI ที่เป็นประโยชน์ต่อผู้คนจากหลากหลายพื้นเพ
  • หวังว่า HCX Vision จะค่อย ๆ กลมกลืนเข้าไปเป็นส่วนหนึ่งในชีวิตของผู้คนต่อไป

ความเห็นของ GN⁺

  • คาดว่า HCX Vision จะช่วยให้การสื่อสารกับมนุษย์เป็นธรรมชาติมากขึ้นผ่านความสามารถในการเข้าใจภาพ โดยเฉพาะในงานที่ข้อมูลเชิงภาพมีบทบาทสำคัญ ก็น่าจะนำไปใช้ได้มาก
  • จากการทำผลงานได้ดีในการแก้โจทย์ข้อสอบเทียบวุฒิ จึงมีความเป็นไปได้ว่า HCX Vision จะถูกนำไปใช้เป็นเครื่องมือช่วยเรียนในภาคการศึกษาได้ อย่างไรก็ตาม ก็มีความกังวลเรื่องการลดลงของความสามารถในการเรียนรู้ด้วยตนเองของนักเรียน
  • การจัดหา data และการสร้าง Sovereignty จะเป็นองค์ประกอบสำคัญในการพัฒนา LVLM โดยคาดว่า Naver จะสามารถพัฒนา LVLM ที่มีความสามารถแข่งขันได้ด้วยการใช้ข้อมูลขนาดใหญ่และแพลตฟอร์มที่ตนมีอยู่
  • หากพัฒนาจากการเข้าใจภาพเดี่ยวในปัจจุบันไปสู่การเข้าใจภาพยนตร์และวิดีโอเรียลไทม์ ก็จะสามารถประยุกต์ใช้ได้ในหลายสาขา เช่น ความบันเทิง ความปลอดภัย และการขับขี่อัตโนมัติ ทั้งนี้ก็จำเป็นต้องเตรียมรับมือกับโจทย์ท้าทายด้านเทคนิคและจริยธรรมด้วย
  • แม้จะมีประสิทธิภาพใกล้เคียงกับ GPT-4 ของ OpenAI แต่ในแง่ความเข้าใจภาษาเกาหลีและวัฒนธรรมเกาหลี HCX Vision ดูจะมีจุดแข็งมากกว่า อย่างไรก็ดี หากต้องการสร้างขีดความสามารถในการแข่งขันระดับโลก ก็ยังจำเป็นต้องยกระดับความสามารถด้านการประมวลผลหลายภาษา

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น