HyperCLOVA X Vision: ลืมตาแล้ว

(clova.ai)

5 คะแนน โดย GN⁺ 2024-08-21 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

HCX Vision ได้พัฒนาจากโมเดลภาษาขนาดใหญ่ (LLM) เดิม โดยเพิ่มความสามารถในการเข้าใจภาพ จนกลายเป็นโมเดลภาษาภาพขนาดใหญ่ (LVLM)
ผ่านการฝึกเพิ่มเติมด้วยข้อมูลด้านภาพและภาษาที่หลากหลาย ทำให้สามารถเข้าใจทั้งภาพและข้อความได้พร้อมกัน
มีการรวบรวมข้อมูลให้เหมาะกับหลายสถานการณ์ จึงสามารถทำงานด้านการเข้าใจภาพและภาษาได้ในหลายบริบท เช่น การรู้จำเอกสาร และการเข้าใจข้อความภายในภาพ
อาศัยประสบการณ์ด้านเทคโนโลยี OCR ของ Naver เพื่อเสริมความสามารถในการประมวลผลเอกสารและการรู้จำตัวอักษร ทำให้ให้บริการได้อย่างแม่นยำและเชื่อถือได้
ด้วยการต่อยอดบน HCX จึงมีความรู้เกี่ยวกับภาษาเกาหลีและวัฒนธรรมเกาหลี ส่งผลให้มีประสิทธิภาพโดดเด่นในการเข้าใจเอกสารภาษาเกาหลีและข้อความภายในภาพ

ตัวชี้วัดเชิงปริมาณของ HyperCLOVA X Vision

ใน Public Benchmarks ทำผลงานเฉลี่ยได้ 71.59% คิดเป็นระดับ 99.94% ของ GPT-4V
ในข้อสอบเก่าของการสอบเทียบวุฒิระดับประถม มัธยมต้น และมัธยมปลายในเกาหลี ทำอัตราตอบถูกได้ 83.8% สูงกว่า GPT-4o ที่ทำได้ 77.8%

ความสามารถของ HyperCLOVA X Vision จากตัวอย่างการใช้งาน

Detailed Image Captioning: รู้จำและบรรยายรายละเอียดเล็ก ๆ ในภาพได้อย่างแม่นยำ
Reasoning: อนุมานสถานการณ์และคาดการณ์ขั้นตอนถัดไปจากความเข้าใจภาพอย่างละเอียด
Entity Recognition: เข้าใจหน่วยข้อมูลที่มีความหมาย เช่น บุคคล สถานที่ และสินค้า ได้จากภาพเพียงอย่างเดียว
Chart Understanding: เข้าใจข้อมูลเชิงตัวเลขแบบนามธรรมในรูปแบบกราฟและแผนภูมิ
Table Understanding: รู้จำข้อมูลตารางจากภาพแคปเจอร์และเข้าใจความสัมพันธ์เชิงตำแหน่ง
Document Understanding: เข้าใจเอกสารหลากหลายภาษา เช่น อักษรจีนและภาษาญี่ปุ่น
Culture and Humor (Meme Understanding): เข้าใจมีมที่ประกอบด้วยคู่ของภาพและข้อความ
Equation Understanding: รู้จำสมการที่เรนเดอร์แล้วและแปลงเป็นไวยากรณ์ TeX
Code Generation: สร้างโค้ดสำหรับสร้างรูปทรง แผนภูมิ หรือกราฟที่กำหนด
Math Problem Solving: เข้าใจโจทย์คณิตศาสตร์ที่มีรูปทรงประกอบและให้วิธีทำได้
Creative Writing (with Image Grounding): เขียนเชิงสร้างสรรค์โดยอิงจากองค์ประกอบที่อยู่ในภาพได้

แนวโน้มอนาคตของ HyperCLOVA X Vision และ Sovereign AI

มีแนวโน้มว่าจะสามารถใช้ประโยชน์จาก context length ระดับหลายล้าน เพื่อทำความเข้าใจภาพยนตร์ระยะยาวและประมวลผลวิดีโอแบบเรียลไทม์ได้
หากมีเทคโนโลยีการประมวลผลแบบเรียลไทม์รองรับ AI ก็จะสามารถตอบสนองต่อสถานการณ์ได้อย่างยืดหยุ่นในฐานะเอนทิตีอิสระ
สำหรับ LVLM เอง ความเป็นอธิปไตยตามภูมิภาคหรือพื้นฐานทางวัฒนธรรมก็จะยิ่งมีความสำคัญ
Naver อยู่ในตำแหน่งที่ได้เปรียบในการจัดหาและเข้าถึงข้อมูลที่จำเป็นได้อย่างมีประสิทธิภาพ ในฐานะแพลตฟอร์มชั้นนำของเกาหลีใต้

ส่งท้าย

เทคโนโลยี LVLM ของ Naver กำลังพัฒนาไปสู่การสื่อสารที่ใกล้ชิดยิ่งขึ้น
บริษัทกำลังพยายามทำให้ HCX Vision เป็น AI ที่เป็นประโยชน์ต่อผู้คนจากหลากหลายพื้นเพ
หวังว่า HCX Vision จะค่อย ๆ กลมกลืนเข้าไปเป็นส่วนหนึ่งในชีวิตของผู้คนต่อไป

ความเห็นของ GN⁺

คาดว่า HCX Vision จะช่วยให้การสื่อสารกับมนุษย์เป็นธรรมชาติมากขึ้นผ่านความสามารถในการเข้าใจภาพ โดยเฉพาะในงานที่ข้อมูลเชิงภาพมีบทบาทสำคัญ ก็น่าจะนำไปใช้ได้มาก
จากการทำผลงานได้ดีในการแก้โจทย์ข้อสอบเทียบวุฒิ จึงมีความเป็นไปได้ว่า HCX Vision จะถูกนำไปใช้เป็นเครื่องมือช่วยเรียนในภาคการศึกษาได้ อย่างไรก็ตาม ก็มีความกังวลเรื่องการลดลงของความสามารถในการเรียนรู้ด้วยตนเองของนักเรียน
การจัดหา data และการสร้าง Sovereignty จะเป็นองค์ประกอบสำคัญในการพัฒนา LVLM โดยคาดว่า Naver จะสามารถพัฒนา LVLM ที่มีความสามารถแข่งขันได้ด้วยการใช้ข้อมูลขนาดใหญ่และแพลตฟอร์มที่ตนมีอยู่
หากพัฒนาจากการเข้าใจภาพเดี่ยวในปัจจุบันไปสู่การเข้าใจภาพยนตร์และวิดีโอเรียลไทม์ ก็จะสามารถประยุกต์ใช้ได้ในหลายสาขา เช่น ความบันเทิง ความปลอดภัย และการขับขี่อัตโนมัติ ทั้งนี้ก็จำเป็นต้องเตรียมรับมือกับโจทย์ท้าทายด้านเทคนิคและจริยธรรมด้วย
แม้จะมีประสิทธิภาพใกล้เคียงกับ GPT-4 ของ OpenAI แต่ในแง่ความเข้าใจภาษาเกาหลีและวัฒนธรรมเกาหลี HCX Vision ดูจะมีจุดแข็งมากกว่า อย่างไรก็ดี หากต้องการสร้างขีดความสามารถในการแข่งขันระดับโลก ก็ยังจำเป็นต้องยกระดับความสามารถด้านการประมวลผลหลายภาษา

HyperCLOVA X Vision: ลืมตาแล้ว

ตัวชี้วัดเชิงปริมาณของ HyperCLOVA X Vision

ความสามารถของ HyperCLOVA X Vision จากตัวอย่างการใช้งาน

แนวโน้มอนาคตของ HyperCLOVA X Vision และ Sovereign AI

ส่งท้าย

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น