Google พัฒนาโมเดล Gemini Robotics อย่างไร

(blog.google)

6 คะแนน โดย GN⁺ 2025-04-04 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Google DeepMind ได้พัฒนา Gemini Robotics โมเดล AI แบบมัลติโหมดสำหรับหุ่นยนต์ยุคถัดไปที่สามารถทำงานทางกายภาพได้
โมเดลนี้เป็นเวอร์ชันของ Gemini 2.0 ที่ถูก fine-tune ด้วยข้อมูลเฉพาะทางด้านหุ่นยนต์ เพื่อให้ทำได้ไม่เพียงแค่ข้อความ วิดีโอ และเสียง แต่รวมถึงการลงมือกระทำจริงด้วย
หุ่นยนต์สามารถทำงานได้หลากหลาย เช่น ทำสลัด เล่นเกม tic-tac-toe พับกระดาษ และแพ็กกล่องอาหารกลางวัน

กรณีทดสอบจริงและการยืนยันศักยภาพ

มีการสั่งงาน หุ่นยนต์แขนคู่ ALOHA สำหรับงานวิจัยให้ทำงานหลายรูปแบบ
- ตัวอย่าง: ใส่ปากกาเข้าไปในรองเท้า หรือสั่งให้ทำท่าดังก์ลูกบาสเก็ตบอล
- แม้จะเป็นวัตถุและงานที่หุ่นยนต์ไม่เคยเห็นมาก่อน แต่ก็สามารถเข้าใจคำสั่งและทำสำเร็จได้ตั้งแต่ครั้งแรก
ต่างจากโมเดลเดิม ๆ ตรงที่สามารถ เข้าใจและปฏิบัติตามคำสั่งทางกายภาพที่ซับซ้อนด้วยภาษาธรรมชาติ ได้

คุณสมบัติหลักของ Gemini Robotics

มี ความยืดหยุ่นสูง ความสามารถในการโต้ตอบ และความสามารถในการทำงานทั่วไปกับสถานการณ์ใหม่
- สามารถปรับตัวเข้ากับวัตถุ สภาพแวดล้อม และคำสั่งใหม่ได้โดยไม่ต้องฝึกเพิ่ม
วางรากฐานสำหรับการทำให้ AI และหุ่นยนต์กลายเป็นเอเจนต์แบบบูรณาการหนึ่งเดียว
มอบความสามารถด้านการรับรู้ การตัดสินใจ และการกระทำที่คล้ายมนุษย์

แนะนำโมเดลที่ประกอบกัน

Gemini Robotics-ER (Embodied Reasoning):
- พัฒนาบนพื้นฐานของ Gemini 2.0 Flash
- สร้างและรันโค้ดผ่านการรับรู้วัตถุ การระบุตำแหน่ง การคาดการณ์เส้นทางการเคลื่อนที่ และการตั้งค่าการจับยึด
- กำลังเปิดให้ผู้ทดสอบและพาร์ตเนอร์ที่ได้รับความไว้วางใจใช้งาน
Gemini Robotics:
- โมเดลแบบบูรณาการวิชัน-ภาษา-การกระทำ
- เข้าใจฉาก โต้ตอบกับผู้ใช้ และทำงานหลายขั้นตอนได้
- ทำผลงานด้านความคล่องแคล่วในการหยิบจับได้ ล้ำหน้าระดับสูงสุดของวงการ แม้ในงานที่ต้องใช้การควบคุมซับซ้อนและการให้เหตุผลเชิงพื้นที่

ความสามารถทางเทคนิคที่เป็นรูปธรรม

การตรวจจับวัตถุแบบ 2D และ 3D
ความสามารถในการชี้ตำแหน่ง
การหาจุดสอดคล้องกันจากหลายมุมมอง
มีความสามารถในการควบคุมจัดการวัตถุโดยใช้ข้อมูลภาพหลายรูปแบบ

แนวทางการฝึกและข้อดี

ไม่เลือกแนวทางอุตสาหกรรมแบบเดิมที่เป็น การฝึกซ้ำกับงานเดียว แต่เลือก การเรียนรู้แบบกว้างจากงานที่หลากหลาย
ผลลัพธ์คือ ความสามารถในการทำงานทั่วไปกับสถานการณ์ใหม่ ปรากฏขึ้นตามธรรมชาติ
สามารถนำไปใช้กับหุ่นยนต์หลายรูปแบบได้
- ตัวอย่าง: ALOHA (เพื่อการวิจัย), Apollo ของ Apptronik (หุ่นยนต์ฮิวแมนนอยด์)

รองรับหุ่นยนต์หลากหลายรูปแบบ

หุ่นยนต์หลายรูปแบบสามารถทำงานที่หลากหลายได้ เช่น แพ็กกล่องอาหารกลางวัน ลบไวท์บอร์ด และหยิบวัตถุชิ้นเล็ก
ประเด็นสำคัญคือ โมเดลเดียวสามารถปรับเข้ากับหุ่นยนต์หลายตัวได้

วิสัยทัศน์ในอนาคต

คาดว่าจะมีประโยชน์ในภาคอุตสาหกรรมที่ต้องการงานละเอียดแม่นยำ หรือในสภาพแวดล้อมที่ไม่เหมาะกับมนุษย์
มีศักยภาพที่จะพัฒนาเป็น หุ่นยนต์ที่ช่วยเหลือได้ในสภาพแวดล้อมที่มีมนุษย์เป็นศูนย์กลาง เช่น บ้าน
ในชีวิตประจำวันจริง หุ่นยนต์อาจกลายเป็น อีกหนึ่งอินเทอร์เฟซของ AI ได้

1 ความคิดเห็น

GN⁺ 2025-04-04

ความคิดเห็นจาก Hacker News

พวกเขาทำสิ่งนี้ได้ แต่ Gemini Assistant บนโทรศัพท์ Pixel ก็ยังตั้งตัวจับเวลาหรือเพิ่มรายการซื้อของไม่ได้อยู่ดี (ทั้งที่บน Google Assistant ทำงานได้ดี)
ไม่มีคำอธิบายเลยว่า "อย่างไร" แต่ถ้าฟีเจอร์นี้ทำงานได้อย่างน่าเชื่อถือแม้เพียงครึ่งเดียว มันน่าจะมีผลกระทบมากกว่า ChatGPT ราว 100 เท่า
ความก้าวหน้าของ AI และวิทยาการหุ่นยนต์น่าตื่นเต้นมาก ด้วยระบบที่ซับซ้อนอย่าง Gemini บริษัทต่าง ๆ คงต้องพึ่งทีมผู้เชี่ยวชาญเพื่อทำให้นวัตกรรมเหล่านี้เกิดขึ้นจริง
- หากเอาต์ซอร์สบางบทบาทเฉพาะทาง เช่น งานวิจัย AI หรือวิศวกรหุ่นยนต์ บริษัทก็จะดึงคนเก่งระดับท็อปมาร่วมงานได้โดยไม่ต้องแบกรับภาระการจ้างพนักงานประจำ
- น่าสนใจที่จะได้เห็นว่าการเอาต์ซอร์สจะเข้ามาเสริมงานวิจัยและพัฒนาในอุตสาหกรรมล้ำสมัยอย่างหุ่นยนต์ได้อย่างไร
- โดยเฉพาะในแง่ของการขยายขนาดและความเร็วในการเข้าสู่ตลาด ก็ชวนสงสัยว่าอุตสาหกรรมจะเปลี่ยนไปอย่างไร
ดูเหมือนว่าสุดท้ายแล้วจะมีใครสักคนมาช่วยทำงานบ้าน
- อ้อ ดีเลย แค่เบื้องหลังนั้นทั้งหมดมีเป้าหมายทางทหาร แต่ก็ชอบความพยายามที่ทำให้เราคิดว่าพวกมันจะมาพับผ้าให้เรา
"หยิบลูกบาสแล้วดังก์" นี่แหละ use case ระดับ killer ที่เรารอกันมานาน :)
ต่อให้เทคโนโลยีหุ่นยนต์ของ Google (ทั้งซอฟต์แวร์และฮาร์ดแวร์) จะล้ำหน้าแค่ไหน ก็ยังสงสัยว่าพวกเขาจะทำมันให้เป็นผลิตภัณฑ์ได้จริงหรือไม่
- มันดูคล้ายกับตอนที่พวกเขาเป็นผู้นำเรื่องทรานส์ฟอร์เมอร์ แต่กลับเสียความได้เปรียบทั้งหมดให้ ChatGPT
- เหมือน Google จะมีอะไรบางอย่างที่ทำให้เปลี่ยนจากงานวิจัยไปเป็นผลิตภัณฑ์ได้ไม่ดีพอ
- ถ้าคิดว่า Waymo มาถึงจุด product/market fit ได้แล้วในวันนี้ มันก็อาจเป็นตัวอย่างโต้แย้งที่ดี แต่ก็ยังสลัดความรู้สึกไม่ได้ว่าโดยมากแล้ว Google มักเอาของออกสู่ตลาดไม่ได้ หรือถ้าทำได้ก็ยอมเลิกก่อนที่มันจะตั้งหลักได้
- สงสัยว่ามีใครมีความเห็นหรืออินไซต์แรง ๆ เกี่ยวกับความพยายามด้านหุ่นยนต์ของพวกเขาบ้างไหม
พอคิดว่าหุ่นยนต์แบบนี้วันหนึ่งอาจถูกใช้ในอุตสาหกรรมป้องกันประเทศแล้วก็น่ากลัว
- ถ้าหุ่นยนต์เข้าใจคำสั่งทั่วไปอย่าง "เก็บยางลบให้เรียบร้อย" ได้ ก็ลองนึกถึงคำสั่งอย่าง "กำจัดศัตรูทั้งหมด" ดูสิ
แค่อยากรู้ว่า ถ้าสั่งให้มันฆ่าใครสักคน มันจะทำยังไง? จะทำตามกฎของวิทยาการหุ่นยนต์ไหม?
April Fools!

Google พัฒนาโมเดล Gemini Robotics อย่างไร

กรณีทดสอบจริงและการยืนยันศักยภาพ

คุณสมบัติหลักของ Gemini Robotics

แนะนำโมเดลที่ประกอบกัน

ความสามารถทางเทคนิคที่เป็นรูปธรรม

แนวทางการฝึกและข้อดี

รองรับหุ่นยนต์หลากหลายรูปแบบ

วิสัยทัศน์ในอนาคต

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News