สิ่งที่มัลติโมดัล AI ทำได้ นอกเหนือจากการสร้างภาพ
(blog.naver.com)มัลติโมดัล AI นอกจากจะสร้างภาพได้แล้ว ยังสามารถเติมภาพที่ยังไม่สมบูรณ์ให้เสร็จ ทำนายคำพูดถัดไปในวิดีโอ ค้นหาแบบเชื่อมโยงข้อความ+ภาพ แปลการ์ตูน ทำนายความเสี่ยงการเกิดมะเร็ง และตรวจจับคำพูดแสดงความเกลียดชังได้
1.เติมภาพที่ยังไม่สมบูรณ์ให้เสร็จ
- Nuwa ที่พัฒนาโดย Microsoft Research Asia และมหาวิทยาลัยปักกิ่งได้สาธิตความสามารถที่เกี่ยวข้อง
- เมื่อนำภาพที่ยังไม่สมบูรณ์มาให้ ระบบจะเติมส่วนที่เหลือของภาพจนเสร็จสมบูรณ์
- หากให้ภาพสเก็ตช์ ระบบจะสร้างภาพหรือวิดีโอที่สอดคล้องกับภาพนั้น
- ระบบยังสามารถทำนายฉากถัดไปของวิดีโอและแสดงผลได้
2.ทำนายคำพูดถัดไปในวิดีโอ
- โมเดลที่พัฒนาโดย Google Research สามารถทำนายคำพูดถัดไปได้เมื่อได้รับทั้งฉากในวิดีโอและข้อความถอดคำพูดของผู้พูด
- วิดีโอและข้อความถูกใช้เป็น “บริบท” สำหรับการทำนายคำพูดของผู้พูด
3.ค้นหาด้วยข้อความ+ภาพ
- MUM ที่ Google พัฒนาขึ้น สามารถเข้าใจภาพได้เมื่อผู้ใช้อัปโหลดรูปถุงเท้าเดินป่าลงในช่องค้นหา แล้วพิมพ์ว่า “ฉันจะใช้รองเท้าคู่นี้ปีนภูเขาไฟฟูจิได้ไหม?” จากนั้นเชื่อมโยงภาพเข้ากับคำถามของผู้ใช้ และบอกได้ว่า “รองเท้าเดินป่านี้น่าจะใช้งานได้ดี”
- ระบบยังสามารถแสดงบล็อกที่มีรายการอุปกรณ์แนะนำได้
4.แปลการ์ตูน
- “เฟรมเวิร์กการแปลแบบรับรู้บริบทมัลติโมดัล” ที่ทีมนักวิจัยจากมหาวิทยาลัยโตเกียวและ Mantra บริษัทแปลภาษาด้วยเครื่องของญี่ปุ่นนำเสนอ สามารถแปลการ์ตูนเป็นภาษาอื่นได้โดยพิจารณาทั้งภาพประกอบและบทสนทนาร่วมกัน
- ระบบนี้ดึงข้อมูลบริบท เช่น ฉาก ลำดับการอ่านบทสนทนา และข้อมูลเชิงภาพ จากภาพมังงะของญี่ปุ่น
- จากนั้นใช้ข้อมูลดังกล่าวแปลบทสนทนาในบอลลูนคำพูดจากภาษาญี่ปุ่นเป็นภาษาอังกฤษ
5.ทำนายความเสี่ยงการเกิดมะเร็ง
- มัลติโมดัล AI ที่พัฒนาโดยทีมนักวิจัยจาก Brigham and Women’s Hospital ในคณะแพทยศาสตร์มหาวิทยาลัยฮาร์วาร์ด สามารถทำนายโอกาสเกิดมะเร็งได้โดยอ้างอิงภาพเนื้อเยื่อเซลล์และข้อมูลจีโนมิกส์แบบข้อความ
- นักวิจัยฝึกโมเดลแยกกัน 2 ตัวด้วยภาพจุลทรรศน์ของเนื้อเยื่อเซลล์และข้อมูลจีโนมิกส์แบบข้อความ
- จากนั้นโมเดลทั้งสองถูกรวมเข้ากับระบบเดียว เพื่อทำนายว่า “ผู้ป่วยมีความเสี่ยงสูงหรือต่ำต่อการเป็นมะเร็งหลายประเภท”
6.เรียนรู้ “ภาพ” ของวัตถุเฉพาะ แล้วรู้จำ “ข้อมูล 3D” หรือ “วิดีโอ” ของวัตถุเดียวกันได้
- Omnivore ที่ Meta เปิดตัวสามารถรู้จำโมเดล 3D ของฟักทองได้ แม้จะเรียนรู้จากเพียงภาพฟักทอง
- นอกจากนี้ แม้จะเรียนรู้จากเพียงภาพเรือยอชต์ ก็ยังสามารถรู้จำวิดีโอของเรือยอชต์ได้ด้วย
7.ตรวจจับคำพูดแสดงความเกลียดชัง
- มัลติโมดัล AI ยังสามารถช่วยตรวจจับคำพูดแสดงความเกลียดชังจากโพสต์บนโซเชียลมีเดียได้ โดยอ้างอิงทั้งเนื้อหาในภาพและข้อความ
- คำพูดแสดงความเกลียดชังอาจอยู่ในรูปแบบมีมที่ผสมทั้งภาพและข้อความ
- Meta อธิบายว่า “หาก (AI) ต้องการรับรู้ว่า ‘มีมนั้นเป็นเนื้อหาสร้างความเกลียดชังหรือไม่’ ก็ต้องพิจารณาทั้งภาพมีมและเนื้อหาข้อความ”
- มีมที่เป็นรูปทะเลทรายว่างเปล่าพร้อมข้อความว่า “ดูสิว่ามีคนรักคุณมากแค่ไหน” มีความก้าวร้าวแบบแฝง ๆ
- หาก AI ต้องการค้นพบความหมายที่แท้จริงของมีมที่มีคำพูดแสดงความเกลียดชัง ก็ต้องวิเคราะห์มีมทั้งชิ้นโดยรวม
- ต้องผสานภาพและข้อความเข้าด้วยกัน และเข้าใจวิธีที่ความหมายเปลี่ยนไปเมื่อทั้งสองอย่างปรากฏร่วมกัน
- คาดว่ามัลติโมดัล AI จะทำหน้าที่นี้ได้ด้วยการประมวลผลภาพและข้อความพร้อมกัน
- Meta มองว่าความสามารถของบริษัทในการทำความเข้าใจเนื้อหาโพสต์บนโซเชียลมีเดียอย่างครอบคลุมเพื่อรู้จำคำพูดแสดงความเกลียดชัง จะพัฒนาต่อไปเป็นมัลติโมดัล AI
- Meta ได้สร้างและแบ่งปันชุดข้อมูล “Hateful Memes” เพื่อช่วยพัฒนาระบบสำหรับตรวจจับคำพูดแสดงความเกลียดชังแบบมัลติโมดัล
ยังไม่มีความคิดเห็น