มัลติโมดัล AI นอกจากจะสร้างภาพได้แล้ว ยังสามารถเติมภาพที่ยังไม่สมบูรณ์ให้เสร็จ ทำนายคำพูดถัดไปในวิดีโอ ค้นหาแบบเชื่อมโยงข้อความ+ภาพ แปลการ์ตูน ทำนายความเสี่ยงการเกิดมะเร็ง และตรวจจับคำพูดแสดงความเกลียดชังได้

1.เติมภาพที่ยังไม่สมบูรณ์ให้เสร็จ

  • Nuwa ที่พัฒนาโดย Microsoft Research Asia และมหาวิทยาลัยปักกิ่งได้สาธิตความสามารถที่เกี่ยวข้อง
  • เมื่อนำภาพที่ยังไม่สมบูรณ์มาให้ ระบบจะเติมส่วนที่เหลือของภาพจนเสร็จสมบูรณ์
  • หากให้ภาพสเก็ตช์ ระบบจะสร้างภาพหรือวิดีโอที่สอดคล้องกับภาพนั้น
  • ระบบยังสามารถทำนายฉากถัดไปของวิดีโอและแสดงผลได้

2.ทำนายคำพูดถัดไปในวิดีโอ

  • โมเดลที่พัฒนาโดย Google Research สามารถทำนายคำพูดถัดไปได้เมื่อได้รับทั้งฉากในวิดีโอและข้อความถอดคำพูดของผู้พูด
  • วิดีโอและข้อความถูกใช้เป็น “บริบท” สำหรับการทำนายคำพูดของผู้พูด

3.ค้นหาด้วยข้อความ+ภาพ

  • MUM ที่ Google พัฒนาขึ้น สามารถเข้าใจภาพได้เมื่อผู้ใช้อัปโหลดรูปถุงเท้าเดินป่าลงในช่องค้นหา แล้วพิมพ์ว่า “ฉันจะใช้รองเท้าคู่นี้ปีนภูเขาไฟฟูจิได้ไหม?” จากนั้นเชื่อมโยงภาพเข้ากับคำถามของผู้ใช้ และบอกได้ว่า “รองเท้าเดินป่านี้น่าจะใช้งานได้ดี”
  • ระบบยังสามารถแสดงบล็อกที่มีรายการอุปกรณ์แนะนำได้

4.แปลการ์ตูน

  • “เฟรมเวิร์กการแปลแบบรับรู้บริบทมัลติโมดัล” ที่ทีมนักวิจัยจากมหาวิทยาลัยโตเกียวและ Mantra บริษัทแปลภาษาด้วยเครื่องของญี่ปุ่นนำเสนอ สามารถแปลการ์ตูนเป็นภาษาอื่นได้โดยพิจารณาทั้งภาพประกอบและบทสนทนาร่วมกัน
  • ระบบนี้ดึงข้อมูลบริบท เช่น ฉาก ลำดับการอ่านบทสนทนา และข้อมูลเชิงภาพ จากภาพมังงะของญี่ปุ่น
  • จากนั้นใช้ข้อมูลดังกล่าวแปลบทสนทนาในบอลลูนคำพูดจากภาษาญี่ปุ่นเป็นภาษาอังกฤษ

5.ทำนายความเสี่ยงการเกิดมะเร็ง

  • มัลติโมดัล AI ที่พัฒนาโดยทีมนักวิจัยจาก Brigham and Women’s Hospital ในคณะแพทยศาสตร์มหาวิทยาลัยฮาร์วาร์ด สามารถทำนายโอกาสเกิดมะเร็งได้โดยอ้างอิงภาพเนื้อเยื่อเซลล์และข้อมูลจีโนมิกส์แบบข้อความ
  • นักวิจัยฝึกโมเดลแยกกัน 2 ตัวด้วยภาพจุลทรรศน์ของเนื้อเยื่อเซลล์และข้อมูลจีโนมิกส์แบบข้อความ
  • จากนั้นโมเดลทั้งสองถูกรวมเข้ากับระบบเดียว เพื่อทำนายว่า “ผู้ป่วยมีความเสี่ยงสูงหรือต่ำต่อการเป็นมะเร็งหลายประเภท”

6.เรียนรู้ “ภาพ” ของวัตถุเฉพาะ แล้วรู้จำ “ข้อมูล 3D” หรือ “วิดีโอ” ของวัตถุเดียวกันได้

  • Omnivore ที่ Meta เปิดตัวสามารถรู้จำโมเดล 3D ของฟักทองได้ แม้จะเรียนรู้จากเพียงภาพฟักทอง
  • นอกจากนี้ แม้จะเรียนรู้จากเพียงภาพเรือยอชต์ ก็ยังสามารถรู้จำวิดีโอของเรือยอชต์ได้ด้วย

7.ตรวจจับคำพูดแสดงความเกลียดชัง

  • มัลติโมดัล AI ยังสามารถช่วยตรวจจับคำพูดแสดงความเกลียดชังจากโพสต์บนโซเชียลมีเดียได้ โดยอ้างอิงทั้งเนื้อหาในภาพและข้อความ
  • คำพูดแสดงความเกลียดชังอาจอยู่ในรูปแบบมีมที่ผสมทั้งภาพและข้อความ
  • Meta อธิบายว่า “หาก (AI) ต้องการรับรู้ว่า ‘มีมนั้นเป็นเนื้อหาสร้างความเกลียดชังหรือไม่’ ก็ต้องพิจารณาทั้งภาพมีมและเนื้อหาข้อความ”
  • มีมที่เป็นรูปทะเลทรายว่างเปล่าพร้อมข้อความว่า “ดูสิว่ามีคนรักคุณมากแค่ไหน” มีความก้าวร้าวแบบแฝง ๆ
  • หาก AI ต้องการค้นพบความหมายที่แท้จริงของมีมที่มีคำพูดแสดงความเกลียดชัง ก็ต้องวิเคราะห์มีมทั้งชิ้นโดยรวม
  • ต้องผสานภาพและข้อความเข้าด้วยกัน และเข้าใจวิธีที่ความหมายเปลี่ยนไปเมื่อทั้งสองอย่างปรากฏร่วมกัน
  • คาดว่ามัลติโมดัล AI จะทำหน้าที่นี้ได้ด้วยการประมวลผลภาพและข้อความพร้อมกัน
  • Meta มองว่าความสามารถของบริษัทในการทำความเข้าใจเนื้อหาโพสต์บนโซเชียลมีเดียอย่างครอบคลุมเพื่อรู้จำคำพูดแสดงความเกลียดชัง จะพัฒนาต่อไปเป็นมัลติโมดัล AI
  • Meta ได้สร้างและแบ่งปันชุดข้อมูล “Hateful Memes” เพื่อช่วยพัฒนาระบบสำหรับตรวจจับคำพูดแสดงความเกลียดชังแบบมัลติโมดัล

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น