Google พัฒนาโมเดล Gemini Robotics อย่างไร
(blog.google)- Google DeepMind ได้พัฒนา Gemini Robotics โมเดล AI แบบมัลติโหมดสำหรับหุ่นยนต์ยุคถัดไปที่สามารถทำงานทางกายภาพได้
- โมเดลนี้เป็นเวอร์ชันของ Gemini 2.0 ที่ถูก fine-tune ด้วยข้อมูลเฉพาะทางด้านหุ่นยนต์ เพื่อให้ทำได้ไม่เพียงแค่ข้อความ วิดีโอ และเสียง แต่รวมถึงการลงมือกระทำจริงด้วย
- หุ่นยนต์สามารถทำงานได้หลากหลาย เช่น ทำสลัด เล่นเกม tic-tac-toe พับกระดาษ และแพ็กกล่องอาหารกลางวัน
กรณีทดสอบจริงและการยืนยันศักยภาพ
- มีการสั่งงาน หุ่นยนต์แขนคู่ ALOHA สำหรับงานวิจัยให้ทำงานหลายรูปแบบ
- ตัวอย่าง: ใส่ปากกาเข้าไปในรองเท้า หรือสั่งให้ทำท่าดังก์ลูกบาสเก็ตบอล
- แม้จะเป็นวัตถุและงานที่หุ่นยนต์ไม่เคยเห็นมาก่อน แต่ก็สามารถเข้าใจคำสั่งและทำสำเร็จได้ตั้งแต่ครั้งแรก
- ต่างจากโมเดลเดิม ๆ ตรงที่สามารถ เข้าใจและปฏิบัติตามคำสั่งทางกายภาพที่ซับซ้อนด้วยภาษาธรรมชาติ ได้
คุณสมบัติหลักของ Gemini Robotics
- มี ความยืดหยุ่นสูง ความสามารถในการโต้ตอบ และความสามารถในการทำงานทั่วไปกับสถานการณ์ใหม่
- สามารถปรับตัวเข้ากับวัตถุ สภาพแวดล้อม และคำสั่งใหม่ได้โดยไม่ต้องฝึกเพิ่ม
- วางรากฐานสำหรับการทำให้ AI และหุ่นยนต์กลายเป็นเอเจนต์แบบบูรณาการหนึ่งเดียว
- มอบความสามารถด้านการรับรู้ การตัดสินใจ และการกระทำที่คล้ายมนุษย์
แนะนำโมเดลที่ประกอบกัน
-
Gemini Robotics-ER (Embodied Reasoning):
- พัฒนาบนพื้นฐานของ Gemini 2.0 Flash
- สร้างและรันโค้ดผ่านการรับรู้วัตถุ การระบุตำแหน่ง การคาดการณ์เส้นทางการเคลื่อนที่ และการตั้งค่าการจับยึด
- กำลังเปิดให้ผู้ทดสอบและพาร์ตเนอร์ที่ได้รับความไว้วางใจใช้งาน
-
Gemini Robotics:
- โมเดลแบบบูรณาการวิชัน-ภาษา-การกระทำ
- เข้าใจฉาก โต้ตอบกับผู้ใช้ และทำงานหลายขั้นตอนได้
- ทำผลงานด้านความคล่องแคล่วในการหยิบจับได้ ล้ำหน้าระดับสูงสุดของวงการ แม้ในงานที่ต้องใช้การควบคุมซับซ้อนและการให้เหตุผลเชิงพื้นที่
ความสามารถทางเทคนิคที่เป็นรูปธรรม
- การตรวจจับวัตถุแบบ 2D และ 3D
- ความสามารถในการชี้ตำแหน่ง
- การหาจุดสอดคล้องกันจากหลายมุมมอง
- มีความสามารถในการควบคุมจัดการวัตถุโดยใช้ข้อมูลภาพหลายรูปแบบ
แนวทางการฝึกและข้อดี
- ไม่เลือกแนวทางอุตสาหกรรมแบบเดิมที่เป็น การฝึกซ้ำกับงานเดียว แต่เลือก การเรียนรู้แบบกว้างจากงานที่หลากหลาย
- ผลลัพธ์คือ ความสามารถในการทำงานทั่วไปกับสถานการณ์ใหม่ ปรากฏขึ้นตามธรรมชาติ
- สามารถนำไปใช้กับหุ่นยนต์หลายรูปแบบได้
- ตัวอย่าง: ALOHA (เพื่อการวิจัย), Apollo ของ Apptronik (หุ่นยนต์ฮิวแมนนอยด์)
รองรับหุ่นยนต์หลากหลายรูปแบบ
- หุ่นยนต์หลายรูปแบบสามารถทำงานที่หลากหลายได้ เช่น แพ็กกล่องอาหารกลางวัน ลบไวท์บอร์ด และหยิบวัตถุชิ้นเล็ก
- ประเด็นสำคัญคือ โมเดลเดียวสามารถปรับเข้ากับหุ่นยนต์หลายตัวได้
วิสัยทัศน์ในอนาคต
- คาดว่าจะมีประโยชน์ในภาคอุตสาหกรรมที่ต้องการงานละเอียดแม่นยำ หรือในสภาพแวดล้อมที่ไม่เหมาะกับมนุษย์
- มีศักยภาพที่จะพัฒนาเป็น หุ่นยนต์ที่ช่วยเหลือได้ในสภาพแวดล้อมที่มีมนุษย์เป็นศูนย์กลาง เช่น บ้าน
- ในชีวิตประจำวันจริง หุ่นยนต์อาจกลายเป็น อีกหนึ่งอินเทอร์เฟซของ AI ได้
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News