Google DeepMind เปิดตัว Gemini Robotics

(deepmind.google)

4 คะแนน โดย GN⁺ 2025-03-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

นำ Gemini 2.0 มาสู่โลกหุ่นยนต์ พร้อมเปิดตัวโมเดลวิชัน-ภาษา-การกระทำ (VLA) และโมเดล ER ที่เข้าใจมิติพื้นที่
Google DeepMind ได้พัฒนาความสามารถด้านการให้เหตุผลแบบหลายโมดัลโดยใช้ข้อความ ภาพ เสียง และวิดีโอ เพื่อแก้ปัญหาที่ซับซ้อนมาอย่างต่อเนื่อง
แต่ความสามารถเหล่านี้ก่อนหน้านี้ยังจำกัดอยู่เพียงในสภาพแวดล้อมดิจิทัล
หาก AI จะมีประโยชน์ในโลกกายภาพ จำเป็นต้องมีความสามารถในการ เข้าใจและตอบสนองต่อสภาพแวดล้อมได้เหมือนมนุษย์ และทำงานได้อย่างปลอดภัยด้วยความสามารถด้าน "การให้เหตุผลแบบมีร่างกาย (embodied reasoning)"
ด้วยเหตุนี้จึงเปิดตัวโมเดลใหม่ 2 แบบ
- Gemini Robotics: โมเดลวิชัน-ภาษา-การกระทำ (VLA) ที่สร้างบน Gemini 2.0 และสามารถควบคุมหุ่นยนต์ได้โดยตรง
- Gemini Robotics-ER: โมเดลที่มอบความสามารถด้านความเข้าใจเชิงพื้นที่และการควบคุมหุ่นยนต์ที่ดียิ่งขึ้น
กำลังพัฒนาหุ่นยนต์ฮิวแมนนอยด์รุ่นถัดไปร่วมกับ Apptronik
กำลังปรับปรุงประสิทธิภาพของโมเดลร่วมกับผู้ใช้ทดสอบที่เชื่อถือได้จำนวนหนึ่ง

Gemini Robotics: โมเดลวิชัน-ภาษา-การกระทำที่ล้ำหน้าที่สุด

1. ความสามารถในการทั่วไป (Generality)

สามารถปรับตัวในสถานการณ์ใหม่และทำงานได้หลากหลาย
ทำงานได้ดีในวัตถุ คำสั่ง และสภาพแวดล้อมใหม่
ตามรายงานทางเทคนิค ประสิทธิภาพด้านการทั่วไปดีขึ้น มากกว่า 2 เท่า เมื่อเทียบกับโมเดล VLA เดิม

2. ความสามารถในการโต้ตอบ (Interactivity)

เข้าใจและตอบสนองต่อคำสั่งภาษาธรรมชาติได้
รองรับทั้งหลายภาษาและคำสั่งภาษาพูดในชีวิตประจำวัน
ตอบสนองต่อการเปลี่ยนแปลงของสภาพแวดล้อมแบบเรียลไทม์และปรับพฤติกรรมได้
แม้วัตถุจะลื่นหลุดจากมือหรือตำแหน่งเปลี่ยนไป ก็สามารถวางแผนใหม่ได้ทันทีและทำงานต่อได้

3. ความคล่องแคล่วของมือ (Dexterity)

เสริมความสามารถในการทำงานที่ต้องใช้ความละเอียด
ทำงานหลายขั้นตอนที่ซับซ้อนได้ (เช่น พับกระดาษ ใส่ขนมลงในถุงซิปล็อก)

4. ใช้ได้กับหุ่นยนต์หลายรูปแบบ (Multiple embodiments)

ปรับใช้กับหุ่นยนต์หลากหลายรูปแบบได้ง่าย
ยืนยันการทำงานแล้วบนหุ่นยนต์ ALOHA 2, หุ่นยนต์ที่ใช้ Franka และหุ่นยนต์ฮิวแมนนอยด์ Apollo

Gemini Robotics-ER: ความสามารถด้านความเข้าใจเชิงพื้นที่ที่เสริมขึ้น

ยกระดับความสามารถด้านการรับรู้เชิงพื้นที่และการตรวจจับ 3D ของ Gemini 2.0 อย่างมาก
ทำให้หุ่นยนต์รับรู้ตำแหน่งของวัตถุและจัดการได้อย่างเหมาะสม
ผสาน ความสามารถในการสร้างโค้ด → ทำให้หุ่นยนต์สามารถสร้างวิธีทำงานใหม่ขึ้นมาได้ทันที
อัตราความสำเร็จดีขึ้น 2~3 เท่า เมื่อเทียบกับ Gemini 2.0
ตัวอย่างการสาธิต: รับรู้หูจับของแก้วกาแฟ เข้าถึงตามเส้นทางที่ปลอดภัย และหยิบขึ้นมา

กลยุทธ์เสริมความปลอดภัยของ AI และหุ่นยนต์

มุ่งเน้นการแก้ปัญหาความปลอดภัยทางกายภาพของหุ่นยนต์
หุ่นยนต์ดำเนินมาตรการความปลอดภัยแบบดั้งเดิม เช่น หลีกเลี่ยงการชน จำกัดแรงสัมผัส และรักษาเสถียรภาพแบบไดนามิก
Gemini Robotics-ER สามารถตัดสินใจได้ว่าจะทำงานหรือไม่เมื่อมีข้อกังวลด้านความปลอดภัย และตอบสนองได้อย่างเหมาะสม
เปิดตัว ชุดข้อมูล ASIMOV ใหม่ → เพื่อประเมินและปรับปรุงความปลอดภัยของพฤติกรรมหุ่นยนต์
ร่วมมือกับคณะกรรมการด้านความรับผิดชอบและความปลอดภัยภายใน รวมถึงผู้เชี่ยวชาญภายนอก เพื่อแก้ไขประเด็นด้านจริยธรรม

พาร์ตเนอร์หลักและแผนในอนาคต

ร่วมมือกับ Apptronik เพื่อพัฒนาหุ่นยนต์ฮิวแมนนอยด์
Agile Robots, Agility Robots, Boston Dynamics, Enchanted Tools และรายอื่น ๆ กำลังทดสอบ Gemini Robotics-ER
มีแผนผลักดันการพัฒนาเทคโนโลยี AI และหุ่นยนต์ต่อไปในอนาคต

ลิงก์ที่เกี่ยวข้อง

1 ความคิดเห็น

GN⁺ 2025-03-13

ความเห็นบน Hacker News

มีลิงก์เพลย์ลิสต์รวมที่สามารถดูวิดีโอเดโม 20 รายการบน YouTube ได้
อดสงสัยไม่ได้ว่าไม่มีใครจำได้เลยหรือว่าเดโมที่น่าประทับใจของ Google Gemini ก่อนหน้านี้เคยถูกจัดฉากมาก่อน
เคยคิดว่ากฎสามข้อของหุ่นยนต์ของอาซิมอฟเป็นเพียงองค์ประกอบนิยายวิทยาศาสตร์ที่น่าสนใจ แต่ห่างไกลจากการคำนวณจริง
- กลายเป็นว่าอาซิมอฟล้ำยุคถึงขั้นกำลังเขียนพรอมป์ต์ LLM อยู่
ถ้าการคัดแยกขยะทำได้ง่ายและเร็วขึ้น ก็อาจเพิ่มประสิทธิภาพการรีไซเคิลได้ 100 เท่า
- มีบางแห่งที่ทำแบบนั้นอยู่แล้ว แต่ยังมีงานง่าย ๆ อีกมากที่หุ่นยนต์สามารถช่วยทำให้โลกดีขึ้นได้
ช่วงท้ายของวิดีโอหลัก ฉากที่หุ่นยนต์สวมสายพานวงแหวนเข้ากับรอกดูน่าประทับใจมาก
- แม้ข้อมูลฝึกจะน่าจะมีพฤติกรรมลักษณะนี้อยู่มาก แต่ก็ให้ความรู้สึกจับต้องได้กว่าการพับเสื้อหรือคัดแยกสิ่งของ
- ฟังก์ชันเล่นอัตโนมัติ/หยุดชั่วคราว/เลื่อนหน้าบนเพจดูเหมือนจะเสีย
อยากได้อุปกรณ์ที่ทำงานเป็นนักแปลสองทางแบบเรียลไทม์
- คงดีถ้าสามารถใช้ชีวิตอยู่ที่นั่นได้โดยไม่ต้องเสียเวลาเรียนภาษาเยอรมันหรือภาษาอื่น
- ถ้าสั่งอาหารและจัดการงานราชการได้ด้วยภาษาอังกฤษอย่างเดียวก็น่าทึ่งมาก
ทุกคนน่าจะสั่งแขนกลจากจีนมาติดตั้งในโรงรถ แล้วโปรแกรมมันด้วยข้อความเหมือน LLM ได้
- ถึงเวลาคิดให้ใหญ่ขึ้นแล้ว
ยังไม่แน่ใจว่าวิดีโอนี้สะท้อนประสิทธิภาพจริงหรือเป็นกลยุทธ์การตลาด แต่ก็น่าประทับใจ
- ทำให้นึกถึงแขนกลหุ่นยนต์ใน Iron Man 1
ถ้าหุ่นยนต์ชำนาญพอที่จะเตรียมอาหารได้ นั่นคงเป็นจุดเปลี่ยนของตลาดแรงงาน
- โมเดลตอนนี้ยังไปไม่ถึงระดับนั้น แต่ก็คงต้องรอดูว่าการลงทุนมหาศาลในการสร้างข้อมูลสังเคราะห์ในอีกไม่กี่ปีข้างหน้าจะพาไปใกล้ระดับนั้นได้หรือไม่
ปัญหาของ Google คือธุรกิจโฆษณาทำรายได้มากเกินไปจนผลิตภัณฑ์อื่นแทบไม่มีความหมาย
- พวกเขาจะนำสิ่งที่เรียนรู้จากหุ่นยนต์ไปใช้เพื่อเพิ่มรายได้จากโฆษณา

Google DeepMind เปิดตัว Gemini Robotics

Gemini Robotics: โมเดลวิชัน-ภาษา-การกระทำที่ล้ำหน้าที่สุด

1. ความสามารถในการทั่วไป (Generality)

2. ความสามารถในการโต้ตอบ (Interactivity)

3. ความคล่องแคล่วของมือ (Dexterity)

4. ใช้ได้กับหุ่นยนต์หลายรูปแบบ (Multiple embodiments)

Gemini Robotics-ER: ความสามารถด้านความเข้าใจเชิงพื้นที่ที่เสริมขึ้น

กลยุทธ์เสริมความปลอดภัยของ AI และหุ่นยนต์

พาร์ตเนอร์หลักและแผนในอนาคต

ลิงก์ที่เกี่ยวข้อง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นบน Hacker News