Google DeepMind เปิดตัว Genie, "สภาพแวดล้อมเชิงโต้ตอบแบบกำเนิด"

xguru · 2024-03-04T10:02:01+09:00

"Generative Interactive Environments" เป็น foundation world model ที่ฝึกจากวิดีโอบนอินเทอร์เน็ต และสามารถสร้างโลกที่เล่นได้ซึ่งมีความหลากหลายไม่สิ้นสุดจากภาพสังเคราะห์/ภาพถ่าย/สเก็ตช์ ฝึกด้วยชุดข้อมูลวิดีโออินเทอร์เน็ตขนาดใหญ่จากเกมแพลตฟอร์ม 2D และงานหุ่นยนต์ สามารถประยุกต์ใช้ได้กับทุกโดเมน และขยายต่อด้วยชุดข้อมูลจากอินเทอร์เน็ตได้ การเรียนรู้การควบคุมโดยไม่มีป้ายกำกับการกระทำ มีความสามารถในการเรียนรู้การควบคุมอย่างละเอียดจากวิดีโอบนอินเทอร์เน็ตเพียงอย่างเดียว ซึ่งเป็นเรื่องท้าทายเพราะวิดีโอบนอินเทอร์เน็ตไม่มีป้ายกำกับสำหรับการกระทำหรือส่วนของภาพที่ต้องควบคุม Genie สามารถอนุมานได้ว่าส่วนใดของสิ่งที่สังเกตได้โดยทั่วไปสามารถควบคุมได้ และอนุมานชุดการกระทำแฝงที่หลากหลายซึ่งสอดคล้องกันตลอดทั้งสภาพแวดล้อมที่สร้างขึ้น เปิดทางให้กับผู้สร้างสรรค์ยุคใหม่ สามารถสร้างสภาพแวดล้อมเชิงโต้ตอบใหม่ได้จากภาพเพียงภาพเดียว มอบวิธีใหม่ในการสร้างและเข้าไปสู่โลกเสมือน สามารถใช้โมเดลสร้างภาพจากข้อความสู่ภาพที่ล้ำสมัยเพื่อสร้างเฟรมเริ่มต้น แล้วให้ Genie เติมชีวิตจนกลายเป็นโลกเสมือน ยังสามารถสร้างสภาพแวดล้อมเสมือนได้จากสเก็ตช์หรือภาพจากโลกจริง ก้าวสำคัญสำหรับเอเจนต์แบบทั่วไป (Generalist) แม้สภาพแวดล้อมของเกมจะเป็นสนามทดสอบที่มีประสิทธิภาพสำหรับการพัฒนา AI agent แต่ก็ถูกจำกัดด้วยจำนวนเกมที่มีให้ใช้งาน เมื่อใช้ Genie จะสามารถฝึก AI agent ในสภาพแวดล้อมใหม่ที่ถูกสร้างขึ้นได้อย่างไม่สิ้นสุด และพิสูจน์แล้วว่าการกระทำแฝงที่ Genie เรียนรู้สามารถถ่ายโอนไปยังสภาพแวดล้อมที่มนุษย์ออกแบบไว้จริงได้ อนาคตของโลกเสมือนที่ถูกสร้างขึ้น แม้เว็บไซต์นี้จะมุ่งเน้นผลลัพธ์ของเกมแพลตฟอร์มเป็นหลัก แต่ Genie เป็นวิธีวิทยาแบบทั่วไปที่สามารถนำไปใช้ได้กับหลายโดเมน Genie ยังสามารถจำลองวัตถุที่เปลี่ยนรูปได้ ซึ่งเป็นงานที่ท้าทายสำหรับซิมูเลเตอร์ที่มนุษย์ออกแบบซึ่งเรียนรู้จากข้อมูล คาดว่า Genie จะเปิดยุคที่สามารถสร้างโลกทั้งใบที่โต้ตอบได้จากภาพหรือข้อความ และจะเป็นตัวเร่งให้กับการฝึกเอเจนต์ AI แบบทั่วไปในอนาคต

(sites.google.com)

12 คะแนน โดย xguru 2024-03-04 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

"Generative Interactive Environments"

เป็น foundation world model ที่ฝึกจากวิดีโอบนอินเทอร์เน็ต และสามารถสร้างโลกที่เล่นได้ซึ่งมีความหลากหลายไม่สิ้นสุดจากภาพสังเคราะห์/ภาพถ่าย/สเก็ตช์
ฝึกด้วยชุดข้อมูลวิดีโออินเทอร์เน็ตขนาดใหญ่จากเกมแพลตฟอร์ม 2D และงานหุ่นยนต์ สามารถประยุกต์ใช้ได้กับทุกโดเมน และขยายต่อด้วยชุดข้อมูลจากอินเทอร์เน็ตได้

การเรียนรู้การควบคุมโดยไม่มีป้ายกำกับการกระทำ

มีความสามารถในการเรียนรู้การควบคุมอย่างละเอียดจากวิดีโอบนอินเทอร์เน็ตเพียงอย่างเดียว ซึ่งเป็นเรื่องท้าทายเพราะวิดีโอบนอินเทอร์เน็ตไม่มีป้ายกำกับสำหรับการกระทำหรือส่วนของภาพที่ต้องควบคุม
Genie สามารถอนุมานได้ว่าส่วนใดของสิ่งที่สังเกตได้โดยทั่วไปสามารถควบคุมได้ และอนุมานชุดการกระทำแฝงที่หลากหลายซึ่งสอดคล้องกันตลอดทั้งสภาพแวดล้อมที่สร้างขึ้น

เปิดทางให้กับผู้สร้างสรรค์ยุคใหม่

สามารถสร้างสภาพแวดล้อมเชิงโต้ตอบใหม่ได้จากภาพเพียงภาพเดียว มอบวิธีใหม่ในการสร้างและเข้าไปสู่โลกเสมือน
สามารถใช้โมเดลสร้างภาพจากข้อความสู่ภาพที่ล้ำสมัยเพื่อสร้างเฟรมเริ่มต้น แล้วให้ Genie เติมชีวิตจนกลายเป็นโลกเสมือน
ยังสามารถสร้างสภาพแวดล้อมเสมือนได้จากสเก็ตช์หรือภาพจากโลกจริง

ก้าวสำคัญสำหรับเอเจนต์แบบทั่วไป (Generalist)

แม้สภาพแวดล้อมของเกมจะเป็นสนามทดสอบที่มีประสิทธิภาพสำหรับการพัฒนา AI agent แต่ก็ถูกจำกัดด้วยจำนวนเกมที่มีให้ใช้งาน
เมื่อใช้ Genie จะสามารถฝึก AI agent ในสภาพแวดล้อมใหม่ที่ถูกสร้างขึ้นได้อย่างไม่สิ้นสุด และพิสูจน์แล้วว่าการกระทำแฝงที่ Genie เรียนรู้สามารถถ่ายโอนไปยังสภาพแวดล้อมที่มนุษย์ออกแบบไว้จริงได้

อนาคตของโลกเสมือนที่ถูกสร้างขึ้น

แม้เว็บไซต์นี้จะมุ่งเน้นผลลัพธ์ของเกมแพลตฟอร์มเป็นหลัก แต่ Genie เป็นวิธีวิทยาแบบทั่วไปที่สามารถนำไปใช้ได้กับหลายโดเมน
Genie ยังสามารถจำลองวัตถุที่เปลี่ยนรูปได้ ซึ่งเป็นงานที่ท้าทายสำหรับซิมูเลเตอร์ที่มนุษย์ออกแบบซึ่งเรียนรู้จากข้อมูล
คาดว่า Genie จะเปิดยุคที่สามารถสร้างโลกทั้งใบที่โต้ตอบได้จากภาพหรือข้อความ และจะเป็นตัวเร่งให้กับการฝึกเอเจนต์ AI แบบทั่วไปในอนาคต

1 ความคิดเห็น

stdcarrot 2024-03-04

เด็กแสบ Gemini
หมอนั่น Gemma
คนนั้น Genie