- HCX Vision ได้พัฒนาจากโมเดลภาษาขนาดใหญ่ (LLM) เดิม โดยเพิ่มความสามารถในการเข้าใจภาพ จนกลายเป็นโมเดลภาษาภาพขนาดใหญ่ (LVLM)
- ผ่านการฝึกเพิ่มเติมด้วยข้อมูลด้านภาพและภาษาที่หลากหลาย ทำให้สามารถเข้าใจทั้งภาพและข้อความได้พร้อมกัน
- มีการรวบรวมข้อมูลให้เหมาะกับหลายสถานการณ์ จึงสามารถทำงานด้านการเข้าใจภาพและภาษาได้ในหลายบริบท เช่น การรู้จำเอกสาร และการเข้าใจข้อความภายในภาพ
- อาศัยประสบการณ์ด้านเทคโนโลยี OCR ของ Naver เพื่อเสริมความสามารถในการประมวลผลเอกสารและการรู้จำตัวอักษร ทำให้ให้บริการได้อย่างแม่นยำและเชื่อถือได้
- ด้วยการต่อยอดบน HCX จึงมีความรู้เกี่ยวกับภาษาเกาหลีและวัฒนธรรมเกาหลี ส่งผลให้มีประสิทธิภาพโดดเด่นในการเข้าใจเอกสารภาษาเกาหลีและข้อความภายในภาพ
ตัวชี้วัดเชิงปริมาณของ HyperCLOVA X Vision
- ใน Public Benchmarks ทำผลงานเฉลี่ยได้ 71.59% คิดเป็นระดับ 99.94% ของ GPT-4V
- ในข้อสอบเก่าของการสอบเทียบวุฒิระดับประถม มัธยมต้น และมัธยมปลายในเกาหลี ทำอัตราตอบถูกได้ 83.8% สูงกว่า GPT-4o ที่ทำได้ 77.8%
ความสามารถของ HyperCLOVA X Vision จากตัวอย่างการใช้งาน
- Detailed Image Captioning: รู้จำและบรรยายรายละเอียดเล็ก ๆ ในภาพได้อย่างแม่นยำ
- Reasoning: อนุมานสถานการณ์และคาดการณ์ขั้นตอนถัดไปจากความเข้าใจภาพอย่างละเอียด
- Entity Recognition: เข้าใจหน่วยข้อมูลที่มีความหมาย เช่น บุคคล สถานที่ และสินค้า ได้จากภาพเพียงอย่างเดียว
- Chart Understanding: เข้าใจข้อมูลเชิงตัวเลขแบบนามธรรมในรูปแบบกราฟและแผนภูมิ
- Table Understanding: รู้จำข้อมูลตารางจากภาพแคปเจอร์และเข้าใจความสัมพันธ์เชิงตำแหน่ง
- Document Understanding: เข้าใจเอกสารหลากหลายภาษา เช่น อักษรจีนและภาษาญี่ปุ่น
- Culture and Humor (Meme Understanding): เข้าใจมีมที่ประกอบด้วยคู่ของภาพและข้อความ
- Equation Understanding: รู้จำสมการที่เรนเดอร์แล้วและแปลงเป็นไวยากรณ์ TeX
- Code Generation: สร้างโค้ดสำหรับสร้างรูปทรง แผนภูมิ หรือกราฟที่กำหนด
- Math Problem Solving: เข้าใจโจทย์คณิตศาสตร์ที่มีรูปทรงประกอบและให้วิธีทำได้
- Creative Writing (with Image Grounding): เขียนเชิงสร้างสรรค์โดยอิงจากองค์ประกอบที่อยู่ในภาพได้
แนวโน้มอนาคตของ HyperCLOVA X Vision และ Sovereign AI
- มีแนวโน้มว่าจะสามารถใช้ประโยชน์จาก context length ระดับหลายล้าน เพื่อทำความเข้าใจภาพยนตร์ระยะยาวและประมวลผลวิดีโอแบบเรียลไทม์ได้
- หากมีเทคโนโลยีการประมวลผลแบบเรียลไทม์รองรับ AI ก็จะสามารถตอบสนองต่อสถานการณ์ได้อย่างยืดหยุ่นในฐานะเอนทิตีอิสระ
- สำหรับ LVLM เอง ความเป็นอธิปไตยตามภูมิภาคหรือพื้นฐานทางวัฒนธรรมก็จะยิ่งมีความสำคัญ
- Naver อยู่ในตำแหน่งที่ได้เปรียบในการจัดหาและเข้าถึงข้อมูลที่จำเป็นได้อย่างมีประสิทธิภาพ ในฐานะแพลตฟอร์มชั้นนำของเกาหลีใต้
ส่งท้าย
- เทคโนโลยี LVLM ของ Naver กำลังพัฒนาไปสู่การสื่อสารที่ใกล้ชิดยิ่งขึ้น
- บริษัทกำลังพยายามทำให้ HCX Vision เป็น AI ที่เป็นประโยชน์ต่อผู้คนจากหลากหลายพื้นเพ
- หวังว่า HCX Vision จะค่อย ๆ กลมกลืนเข้าไปเป็นส่วนหนึ่งในชีวิตของผู้คนต่อไป
ความเห็นของ GN⁺
- คาดว่า HCX Vision จะช่วยให้การสื่อสารกับมนุษย์เป็นธรรมชาติมากขึ้นผ่านความสามารถในการเข้าใจภาพ โดยเฉพาะในงานที่ข้อมูลเชิงภาพมีบทบาทสำคัญ ก็น่าจะนำไปใช้ได้มาก
- จากการทำผลงานได้ดีในการแก้โจทย์ข้อสอบเทียบวุฒิ จึงมีความเป็นไปได้ว่า HCX Vision จะถูกนำไปใช้เป็นเครื่องมือช่วยเรียนในภาคการศึกษาได้ อย่างไรก็ตาม ก็มีความกังวลเรื่องการลดลงของความสามารถในการเรียนรู้ด้วยตนเองของนักเรียน
- การจัดหา data และการสร้าง Sovereignty จะเป็นองค์ประกอบสำคัญในการพัฒนา LVLM โดยคาดว่า Naver จะสามารถพัฒนา LVLM ที่มีความสามารถแข่งขันได้ด้วยการใช้ข้อมูลขนาดใหญ่และแพลตฟอร์มที่ตนมีอยู่
- หากพัฒนาจากการเข้าใจภาพเดี่ยวในปัจจุบันไปสู่การเข้าใจภาพยนตร์และวิดีโอเรียลไทม์ ก็จะสามารถประยุกต์ใช้ได้ในหลายสาขา เช่น ความบันเทิง ความปลอดภัย และการขับขี่อัตโนมัติ ทั้งนี้ก็จำเป็นต้องเตรียมรับมือกับโจทย์ท้าทายด้านเทคนิคและจริยธรรมด้วย
- แม้จะมีประสิทธิภาพใกล้เคียงกับ GPT-4 ของ OpenAI แต่ในแง่ความเข้าใจภาษาเกาหลีและวัฒนธรรมเกาหลี HCX Vision ดูจะมีจุดแข็งมากกว่า อย่างไรก็ดี หากต้องการสร้างขีดความสามารถในการแข่งขันระดับโลก ก็ยังจำเป็นต้องยกระดับความสามารถด้านการประมวลผลหลายภาษา
ยังไม่มีความคิดเห็น