RT-2: โมเดล Vision-Language-Action
(robotics-transformer2.github.io)- "Robotics-Transformer 2" : ถ่ายทอดความรู้จากเว็บไปสู่การควบคุมหุ่นยนต์
- ผสานโมเดลวิชัน-ภาษา ที่ฝึกด้วยข้อมูลระดับอินเทอร์เน็ตเข้ากับการควบคุมหุ่นยนต์แบบ E2E โดยตรง
- แปลงการเคลื่อนไหวของหุ่นยนต์เป็นโทเค็นข้อความ แล้วจัดให้เป็นเสมือนภาษาแยกต่างหากที่สามารถใช้ร่วมกับโมเดลข้อมูลวิชัน-ภาษา เพื่อแปลงคำสั่งงานเป็นแอ็กชัน
- แม้จะนำเสนอวัตถุใหม่ที่หุ่นยนต์ไม่เคยเรียนรู้มาก่อน ก็ยังเข้าใจและทำงานได้ดี
- "put strawberry into the correct bowl"
- "place orange in matching bowl"
2 ความคิดเห็น
Google’s RT-2 AI model bringsเราเข้าใกล้ WALL-E ไปอีกขั้น
หัวข้อบทความของ Arstechnica อธิบายได้เข้าใจง่ายกว่านะครับ ดูเหมือนว่าความก้าวหน้าของ LLM จะเป็นนวัตกรรมใหม่สำหรับการควบคุมหุ่นยนต์
Google กำลังทดสอบหุ่นยนต์ที่สามารถเขียนโปรแกรมตัวเองได้
ChatGPT for Robotics : หลักการออกแบบและความสามารถของโมเดล