RT-2: โมเดล Vision-Language-Action

xguru · 2023-08-02T11:05:01+09:00

"Robotics-Transformer 2" : ถ่ายทอดความรู้จากเว็บไปสู่การควบคุมหุ่นยนต์ ผสานโมเดลวิชัน-ภาษา ที่ฝึกด้วยข้อมูลระดับอินเทอร์เน็ตเข้ากับการควบคุมหุ่นยนต์แบบ E2E โดยตรง แปลงการเคลื่อนไหวของหุ่นยนต์เป็นโทเค็นข้อความ แล้วจัดให้เป็นเสมือนภาษาแยกต่างหากที่สามารถใช้ร่วมกับโมเดลข้อมูลวิชัน-ภาษา เพื่อแปลงคำสั่งงานเป็นแอ็กชัน แม้จะนำเสนอวัตถุใหม่ที่หุ่นยนต์ไม่เคยเรียนรู้มาก่อน ก็ยังเข้าใจและทำงานได้ดี "put strawberry into the correct bowl" "place orange in matching bowl"

(robotics-transformer2.github.io)

7 คะแนน โดย xguru 2023-08-02 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

"Robotics-Transformer 2" : ถ่ายทอดความรู้จากเว็บไปสู่การควบคุมหุ่นยนต์
ผสานโมเดลวิชัน-ภาษา ที่ฝึกด้วยข้อมูลระดับอินเทอร์เน็ตเข้ากับการควบคุมหุ่นยนต์แบบ E2E โดยตรง
แปลงการเคลื่อนไหวของหุ่นยนต์เป็นโทเค็นข้อความ แล้วจัดให้เป็นเสมือนภาษาแยกต่างหากที่สามารถใช้ร่วมกับโมเดลข้อมูลวิชัน-ภาษา เพื่อแปลงคำสั่งงานเป็นแอ็กชัน
แม้จะนำเสนอวัตถุใหม่ที่หุ่นยนต์ไม่เคยเรียนรู้มาก่อน ก็ยังเข้าใจและทำงานได้ดี
- "put strawberry into the correct bowl"
- "place orange in matching bowl"

2 ความคิดเห็น

xguru 2023-08-02

Google’s RT-2 AI model bringsเราเข้าใกล้ WALL-E ไปอีกขั้น

หัวข้อบทความของ Arstechnica อธิบายได้เข้าใจง่ายกว่านะครับ ดูเหมือนว่าความก้าวหน้าของ LLM จะเป็นนวัตกรรมใหม่สำหรับการควบคุมหุ่นยนต์

xguru 2023-08-02

Google กำลังทดสอบหุ่นยนต์ที่สามารถเขียนโปรแกรมตัวเองได้
ChatGPT for Robotics : หลักการออกแบบและความสามารถของโมเดล

RT-2: โมเดล Vision-Language-Action

บทความที่เกี่ยวข้อง

2 ความคิดเห็น