- นำ Gemini 2.0 มาสู่โลกหุ่นยนต์ พร้อมเปิดตัวโมเดลวิชัน-ภาษา-การกระทำ (VLA) และโมเดล ER ที่เข้าใจมิติพื้นที่
- Google DeepMind ได้พัฒนาความสามารถด้านการให้เหตุผลแบบหลายโมดัลโดยใช้ข้อความ ภาพ เสียง และวิดีโอ เพื่อแก้ปัญหาที่ซับซ้อนมาอย่างต่อเนื่อง
- แต่ความสามารถเหล่านี้ก่อนหน้านี้ยังจำกัดอยู่เพียงในสภาพแวดล้อมดิจิทัล
- หาก AI จะมีประโยชน์ในโลกกายภาพ จำเป็นต้องมีความสามารถในการ เข้าใจและตอบสนองต่อสภาพแวดล้อมได้เหมือนมนุษย์ และทำงานได้อย่างปลอดภัยด้วยความสามารถด้าน "การให้เหตุผลแบบมีร่างกาย (embodied reasoning)"
- ด้วยเหตุนี้จึงเปิดตัวโมเดลใหม่ 2 แบบ
- Gemini Robotics: โมเดลวิชัน-ภาษา-การกระทำ (VLA) ที่สร้างบน Gemini 2.0 และสามารถควบคุมหุ่นยนต์ได้โดยตรง
- Gemini Robotics-ER: โมเดลที่มอบความสามารถด้านความเข้าใจเชิงพื้นที่และการควบคุมหุ่นยนต์ที่ดียิ่งขึ้น
- กำลังพัฒนาหุ่นยนต์ฮิวแมนนอยด์รุ่นถัดไปร่วมกับ Apptronik
- กำลังปรับปรุงประสิทธิภาพของโมเดลร่วมกับผู้ใช้ทดสอบที่เชื่อถือได้จำนวนหนึ่ง
Gemini Robotics: โมเดลวิชัน-ภาษา-การกระทำที่ล้ำหน้าที่สุด
1. ความสามารถในการทั่วไป (Generality)
- สามารถปรับตัวในสถานการณ์ใหม่และทำงานได้หลากหลาย
- ทำงานได้ดีในวัตถุ คำสั่ง และสภาพแวดล้อมใหม่
- ตามรายงานทางเทคนิค ประสิทธิภาพด้านการทั่วไปดีขึ้น มากกว่า 2 เท่า เมื่อเทียบกับโมเดล VLA เดิม
2. ความสามารถในการโต้ตอบ (Interactivity)
- เข้าใจและตอบสนองต่อคำสั่งภาษาธรรมชาติได้
- รองรับทั้งหลายภาษาและคำสั่งภาษาพูดในชีวิตประจำวัน
- ตอบสนองต่อการเปลี่ยนแปลงของสภาพแวดล้อมแบบเรียลไทม์และปรับพฤติกรรมได้
- แม้วัตถุจะลื่นหลุดจากมือหรือตำแหน่งเปลี่ยนไป ก็สามารถวางแผนใหม่ได้ทันทีและทำงานต่อได้
3. ความคล่องแคล่วของมือ (Dexterity)
- เสริมความสามารถในการทำงานที่ต้องใช้ความละเอียด
- ทำงานหลายขั้นตอนที่ซับซ้อนได้ (เช่น พับกระดาษ ใส่ขนมลงในถุงซิปล็อก)
4. ใช้ได้กับหุ่นยนต์หลายรูปแบบ (Multiple embodiments)
- ปรับใช้กับหุ่นยนต์หลากหลายรูปแบบได้ง่าย
- ยืนยันการทำงานแล้วบนหุ่นยนต์ ALOHA 2, หุ่นยนต์ที่ใช้ Franka และหุ่นยนต์ฮิวแมนนอยด์ Apollo
Gemini Robotics-ER: ความสามารถด้านความเข้าใจเชิงพื้นที่ที่เสริมขึ้น
- ยกระดับความสามารถด้านการรับรู้เชิงพื้นที่และการตรวจจับ 3D ของ Gemini 2.0 อย่างมาก
- ทำให้หุ่นยนต์รับรู้ตำแหน่งของวัตถุและจัดการได้อย่างเหมาะสม
- ผสาน ความสามารถในการสร้างโค้ด → ทำให้หุ่นยนต์สามารถสร้างวิธีทำงานใหม่ขึ้นมาได้ทันที
- อัตราความสำเร็จดีขึ้น 2~3 เท่า เมื่อเทียบกับ Gemini 2.0
- ตัวอย่างการสาธิต: รับรู้หูจับของแก้วกาแฟ เข้าถึงตามเส้นทางที่ปลอดภัย และหยิบขึ้นมา
กลยุทธ์เสริมความปลอดภัยของ AI และหุ่นยนต์
- มุ่งเน้นการแก้ปัญหาความปลอดภัยทางกายภาพของหุ่นยนต์
- หุ่นยนต์ดำเนินมาตรการความปลอดภัยแบบดั้งเดิม เช่น หลีกเลี่ยงการชน จำกัดแรงสัมผัส และรักษาเสถียรภาพแบบไดนามิก
- Gemini Robotics-ER สามารถตัดสินใจได้ว่าจะทำงานหรือไม่เมื่อมีข้อกังวลด้านความปลอดภัย และตอบสนองได้อย่างเหมาะสม
- เปิดตัว ชุดข้อมูล ASIMOV ใหม่ → เพื่อประเมินและปรับปรุงความปลอดภัยของพฤติกรรมหุ่นยนต์
- ร่วมมือกับคณะกรรมการด้านความรับผิดชอบและความปลอดภัยภายใน รวมถึงผู้เชี่ยวชาญภายนอก เพื่อแก้ไขประเด็นด้านจริยธรรม
พาร์ตเนอร์หลักและแผนในอนาคต
- ร่วมมือกับ Apptronik เพื่อพัฒนาหุ่นยนต์ฮิวแมนนอยด์
- Agile Robots, Agility Robots, Boston Dynamics, Enchanted Tools และรายอื่น ๆ กำลังทดสอบ Gemini Robotics-ER
- มีแผนผลักดันการพัฒนาเทคโนโลยี AI และหุ่นยนต์ต่อไปในอนาคต
ลิงก์ที่เกี่ยวข้อง
1 ความคิดเห็น
ความเห็นบน Hacker News