สิ่งที่มัลติโมดัล AI ทำได้ นอกเหนือจากการสร้างภาพ

(blog.naver.com)

12 คะแนน โดย ironlung 2022-09-22 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

มัลติโมดัล AI นอกจากจะสร้างภาพได้แล้ว ยังสามารถเติมภาพที่ยังไม่สมบูรณ์ให้เสร็จ ทำนายคำพูดถัดไปในวิดีโอ ค้นหาแบบเชื่อมโยงข้อความ+ภาพ แปลการ์ตูน ทำนายความเสี่ยงการเกิดมะเร็ง และตรวจจับคำพูดแสดงความเกลียดชังได้

1.เติมภาพที่ยังไม่สมบูรณ์ให้เสร็จ

Nuwa ที่พัฒนาโดย Microsoft Research Asia และมหาวิทยาลัยปักกิ่งได้สาธิตความสามารถที่เกี่ยวข้อง
เมื่อนำภาพที่ยังไม่สมบูรณ์มาให้ ระบบจะเติมส่วนที่เหลือของภาพจนเสร็จสมบูรณ์
หากให้ภาพสเก็ตช์ ระบบจะสร้างภาพหรือวิดีโอที่สอดคล้องกับภาพนั้น
ระบบยังสามารถทำนายฉากถัดไปของวิดีโอและแสดงผลได้

2.ทำนายคำพูดถัดไปในวิดีโอ

โมเดลที่พัฒนาโดย Google Research สามารถทำนายคำพูดถัดไปได้เมื่อได้รับทั้งฉากในวิดีโอและข้อความถอดคำพูดของผู้พูด
วิดีโอและข้อความถูกใช้เป็น “บริบท” สำหรับการทำนายคำพูดของผู้พูด

3.ค้นหาด้วยข้อความ+ภาพ

MUM ที่ Google พัฒนาขึ้น สามารถเข้าใจภาพได้เมื่อผู้ใช้อัปโหลดรูปถุงเท้าเดินป่าลงในช่องค้นหา แล้วพิมพ์ว่า “ฉันจะใช้รองเท้าคู่นี้ปีนภูเขาไฟฟูจิได้ไหม?” จากนั้นเชื่อมโยงภาพเข้ากับคำถามของผู้ใช้ และบอกได้ว่า “รองเท้าเดินป่านี้น่าจะใช้งานได้ดี”
ระบบยังสามารถแสดงบล็อกที่มีรายการอุปกรณ์แนะนำได้

4.แปลการ์ตูน

“เฟรมเวิร์กการแปลแบบรับรู้บริบทมัลติโมดัล” ที่ทีมนักวิจัยจากมหาวิทยาลัยโตเกียวและ Mantra บริษัทแปลภาษาด้วยเครื่องของญี่ปุ่นนำเสนอ สามารถแปลการ์ตูนเป็นภาษาอื่นได้โดยพิจารณาทั้งภาพประกอบและบทสนทนาร่วมกัน
ระบบนี้ดึงข้อมูลบริบท เช่น ฉาก ลำดับการอ่านบทสนทนา และข้อมูลเชิงภาพ จากภาพมังงะของญี่ปุ่น
จากนั้นใช้ข้อมูลดังกล่าวแปลบทสนทนาในบอลลูนคำพูดจากภาษาญี่ปุ่นเป็นภาษาอังกฤษ

5.ทำนายความเสี่ยงการเกิดมะเร็ง

มัลติโมดัล AI ที่พัฒนาโดยทีมนักวิจัยจาก Brigham and Women’s Hospital ในคณะแพทยศาสตร์มหาวิทยาลัยฮาร์วาร์ด สามารถทำนายโอกาสเกิดมะเร็งได้โดยอ้างอิงภาพเนื้อเยื่อเซลล์และข้อมูลจีโนมิกส์แบบข้อความ
นักวิจัยฝึกโมเดลแยกกัน 2 ตัวด้วยภาพจุลทรรศน์ของเนื้อเยื่อเซลล์และข้อมูลจีโนมิกส์แบบข้อความ
จากนั้นโมเดลทั้งสองถูกรวมเข้ากับระบบเดียว เพื่อทำนายว่า “ผู้ป่วยมีความเสี่ยงสูงหรือต่ำต่อการเป็นมะเร็งหลายประเภท”

6.เรียนรู้ “ภาพ” ของวัตถุเฉพาะ แล้วรู้จำ “ข้อมูล 3D” หรือ “วิดีโอ” ของวัตถุเดียวกันได้

Omnivore ที่ Meta เปิดตัวสามารถรู้จำโมเดล 3D ของฟักทองได้ แม้จะเรียนรู้จากเพียงภาพฟักทอง
นอกจากนี้ แม้จะเรียนรู้จากเพียงภาพเรือยอชต์ ก็ยังสามารถรู้จำวิดีโอของเรือยอชต์ได้ด้วย

7.ตรวจจับคำพูดแสดงความเกลียดชัง

มัลติโมดัล AI ยังสามารถช่วยตรวจจับคำพูดแสดงความเกลียดชังจากโพสต์บนโซเชียลมีเดียได้ โดยอ้างอิงทั้งเนื้อหาในภาพและข้อความ
คำพูดแสดงความเกลียดชังอาจอยู่ในรูปแบบมีมที่ผสมทั้งภาพและข้อความ
Meta อธิบายว่า “หาก (AI) ต้องการรับรู้ว่า ‘มีมนั้นเป็นเนื้อหาสร้างความเกลียดชังหรือไม่’ ก็ต้องพิจารณาทั้งภาพมีมและเนื้อหาข้อความ”
มีมที่เป็นรูปทะเลทรายว่างเปล่าพร้อมข้อความว่า “ดูสิว่ามีคนรักคุณมากแค่ไหน” มีความก้าวร้าวแบบแฝง ๆ
หาก AI ต้องการค้นพบความหมายที่แท้จริงของมีมที่มีคำพูดแสดงความเกลียดชัง ก็ต้องวิเคราะห์มีมทั้งชิ้นโดยรวม
ต้องผสานภาพและข้อความเข้าด้วยกัน และเข้าใจวิธีที่ความหมายเปลี่ยนไปเมื่อทั้งสองอย่างปรากฏร่วมกัน
คาดว่ามัลติโมดัล AI จะทำหน้าที่นี้ได้ด้วยการประมวลผลภาพและข้อความพร้อมกัน
Meta มองว่าความสามารถของบริษัทในการทำความเข้าใจเนื้อหาโพสต์บนโซเชียลมีเดียอย่างครอบคลุมเพื่อรู้จำคำพูดแสดงความเกลียดชัง จะพัฒนาต่อไปเป็นมัลติโมดัล AI
Meta ได้สร้างและแบ่งปันชุดข้อมูล “Hateful Memes” เพื่อช่วยพัฒนาระบบสำหรับตรวจจับคำพูดแสดงความเกลียดชังแบบมัลติโมดัล

สิ่งที่มัลติโมดัล AI ทำได้ นอกเหนือจากการสร้างภาพ

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น