Google DeepMind เปิดตัว AI "Gemini Robotics On-Device" ที่ปรับแต่งมาสำหรับอุปกรณ์หุ่นยนต์

(deepmind.google)

5 คะแนน โดย GN⁺ 2025-06-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดล VLA (vision-language-action) อเนกประสงค์ ที่ปรับแต่งมาให้ติดตั้งและใช้งานบนหุ่นยนต์ได้โดยตรง
มอบทั้ง การปรับตัวเข้ากับงานได้อย่างรวดเร็ว และ ความสามารถในการควบคุมจัดการแบบอเนกประสงค์ พร้อมทำงานแบบโลคัลได้โดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต จึงรับประกัน ความหน่วงต่ำและความทนทาน
ต้องการทรัพยากรการประมวลผลเพียงเล็กน้อย และมีความสามารถด้าน การควบคุมที่แม่นยำบนหุ่นยนต์สองแขนและการสลับงานอย่างรวดเร็ว
นักพัฒนาสามารถใช้ Gemini Robotics SDK เพื่อทดสอบกับสภาพแวดล้อมจริงของตนได้อย่างรวดเร็ว และสามารถ ปรับตัวเข้ากับงานได้อย่างรวดเร็ว ด้วยเดโมขนาดเล็กเพียง 50–100 ครั้ง
แสดง ประสิทธิภาพด้านการทำให้เป็นทั่วไปและการปรับตัวที่สูงกว่าโมเดล on-device อื่น และทำงานตามคำสั่งซับซ้อนหรืองานใหม่ ๆ ได้อย่างมีประสิทธิภาพ
ใช้หลักการด้านความปลอดภัยและการพัฒนาอย่างรับผิดชอบ โดยนำระบบ ลดความเสี่ยง ต่อสภาพแวดล้อมจริงและผลกระทบทางสังคม รวมถึง กลไกรับฟังข้อเสนอแนะ มาใช้

We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation

Gemini Robotics On-Device คือโมเดล VLA (vision-language-action) ประสิทธิภาพสูงที่ออกแบบมาให้รันได้โดยตรงบน อุปกรณ์หุ่นยนต์แบบโลคัล
นำ ความสามารถด้านการให้เหตุผลแบบมัลติโหมด และ ความเข้าใจโลกจริง ของ Gemini Robotics ที่เปิดตัวในเดือนมีนาคม มาประยุกต์ใช้กับสภาพแวดล้อมทางกายภาพจริง
จุดเด่นของโมเดล on-device
- ทำงานได้อย่างอิสระโดยไม่ต้องพึ่งพาเครือข่าย จึงโดดเด่นในสภาพแวดล้อมที่ต้องการ ความหน่วงต่ำ หรือมีการเชื่อมต่อไม่เสถียร
- ปรับแต่งให้เหมาะกับสภาพแวดล้อมเฉพาะเครื่อง ทำให้ทำงานแบบเรียลไทม์ได้รวดเร็ว
- มีความสามารถในการทำให้เป็นทั่วไปทั้งด้าน ภาพ ความหมาย และพฤติกรรมการกระทำ
- สามารถทำงานควบคุมละเอียดบนหุ่นยนต์สองแขนได้ เช่น เปิดซิป พับเสื้อผ้า เป็นต้น
- เข้าใจคำสั่งภาษาธรรมชาติและทำงานหลายขั้นตอนที่ซับซ้อนได้

SDK ที่ช่วยให้นำไปใช้และปรับแต่งได้ง่าย

ผ่าน Gemini Robotics SDK นักพัฒนาสามารถทดสอบโมเดลในสภาพแวดล้อมของตนเอง ใช้ MuJoCo physics simulator เพื่อทดสอบ และประยุกต์ใช้กับงานหลากหลายรูปแบบได้
สามารถ ปรับตัวเข้ากับโดเมนใหม่ได้อย่างรวดเร็ว ด้วยเดโมขนาดเล็กเพียง 50–100 ครั้ง

Model capabilities and performance

Gemini Robotics On-Device ถูกออกแบบให้ใช้ทรัพยากรการประมวลผลเพียงเล็กน้อย เพื่อให้เหมาะกับ หุ่นยนต์ bi-arm
ปรับให้เหมาะกับ การทดลองอย่างรวดเร็ว การควบคุมที่อาศัยความคล่องแคล่วของมือ การรันแบบโลคัล และการอนุมานความหน่วงต่ำ
รองรับ คำสั่งภาษาธรรมชาติ และสามารถลงมือทำงานควบคุมยาก ๆ ได้โดยตรง เช่น เปิดซิปและพับเสื้อผ้า
มี ความอเนกประสงค์และประสิทธิภาพการทำให้เป็นทั่วไป สูงกว่าโมเดล on-device เดิม และจัดการคำสั่งหลายขั้นตอนที่ซับซ้อนได้อย่างมีประสิทธิภาพ
หากต้องการประสิทธิภาพที่สูงขึ้นหรือสภาพแวดล้อมที่ไม่มีข้อจำกัด ก็มีโมเดล Gemini Robotics แบบเซิร์ฟเวอร์ให้ใช้งานเช่นกัน

Adaptable to new tasks, generalizable across embodiments

Gemini Robotics On-Device เป็นโมเดล VLA ตัวแรกที่สามารถ fine-tuning ได้
สามารถ ปรับตัวกับงานใหม่ได้อย่างรวดเร็ว ด้วยเดโมเพียง 50–100 ครั้ง และแสดงประสิทธิภาพการปรับตัวที่สูงกว่าโมเดลคู่แข่งในงานที่ต้องใช้ dexterity หลายระดับความยาก เช่น รูดซิป หยิบการ์ด เทน้ำสลัด
แม้จะฝึกมาสำหรับหุ่นยนต์เฉพาะรุ่น (ALOHA) แต่ก็สามารถขยายไปยังหุ่นยนต์หลากหลายรูปแบบ เช่น Franka FR3 และ Apollo humanoid ได้ผ่านการฝึกเพิ่มเติม
รองรับคำสั่งที่หลากหลาย วัตถุใหม่ ๆ และงานอุตสาหกรรมที่ซับซ้อน เช่น การประกอบสายพาน

Responsible development and safety

พัฒนาโมเดลบนพื้นฐานของ AI Principles และ กรอบความปลอดภัยแบบบูรณาการ
ใช้ [Live API] เพื่อดูแลความปลอดภัยเชิงความหมายและด้านเนื้อหา และเสริมความปลอดภัยในการใช้งานจริงด้วยการเชื่อมต่อกับตัวควบคุมความปลอดภัยระดับล่าง
ตรวจสอบความเสี่ยงผ่านระบบประเมินหลากหลายรูปแบบ เช่น Semantic Safety Benchmark และ Red-Teaming
ทีมเฉพาะทาง (Responsible Development & Innovation, RSC) ดำเนินการประเมินผลกระทบทางสังคมและรับฟังข้อเสนอแนะอย่างต่อเนื่อง
เปิดให้กลุ่มผู้ทดสอบที่เชื่อถือได้ใช้งานก่อนเปิดตัวอย่างเป็นทางการ เพื่อเก็บข้อมูลการใช้งานจริงและประเมินความปลอดภัยระยะแรก

Accelerating innovation in robotics

Gemini Robotics On-Device สนับสนุนชุมชนหุ่นยนต์ด้วยโมเดล AI แบบอเนกประสงค์และปรับตัวได้ เพื่อช่วยแก้ปัญหาเรื่อง ความหน่วงและการเชื่อมต่อ
คาดว่าจะช่วย เร่งนวัตกรรม ด้วยความสามารถในการนำไปใช้ได้รวดเร็วผ่าน SDK และฟังก์ชันการปรับตัวตามงาน
สามารถเข้าถึงโมเดลและ SDK ได้ผ่าน Trusted Tester Program
ขยายการประยุกต์ใช้ AI กับโลกทางกายภาพ และนำเสนอวิสัยทัศน์ที่จะขับเคลื่อนอนาคตของวงการหุ่นยนต์

1 ความคิดเห็น

GN⁺ 2025-06-26

ความคิดเห็นบน Hacker News

มองโลกในแง่ดีต่อหุ่นยนต์ฮิวแมนนอยด์ แต่ก็สงสัยเรื่องความน่าเชื่อถือ แขนขาและมือของมนุษย์เป็นระบบที่น่าทึ่ง เพราะสัมผัสโลกตลอดเวลา เกิดการสึกหรอตามธรรมชาติ และยังฟื้นตัวเองได้
- หุ่นยนต์อุตสาหกรรมมีความโดดเด่นมากในด้านความน่าเชื่อถือ โดยหลายกรณีมี MTBF (เวลาเฉลี่ยระหว่างความขัดข้อง) เกิน 100,000 ชั่วโมง ประเด็นสำคัญคือหุ่นยนต์อุตสาหกรรมถูกออกแบบให้ทำงานได้นานที่สุดโดยไม่เสีย เพื่อเพิ่มความคุ้มค่าทางธุรกิจ บริษัทเยอรมันและญี่ปุ่นให้ความสำคัญกับความน่าเชื่อถือ จึงพัฒนาแอคชูเอเตอร์ไฟฟ้าและครองตลาดหุ่นยนต์อุตสาหกรรม ในอดีตหุ่นยนต์ไฮดรอลิกของ Cincinnati Millicron จากสหรัฐฯ มีพลังมากแต่ความน่าเชื่อถือต่ำจึงพ่ายในการแข่งขัน อย่างไรก็ตามก็มีมุมมองเชิงกังขาว่า มือแบบมนุษย์ต้องให้ชิ้นส่วนขนาดเล็กจำนวนมากรับแรงสูง จึงยากที่จะบรรลุความน่าเชื่อถือระดับเดียวกับหุ่นยนต์อุตสาหกรรม ลิงก์ที่เกี่ยวข้อง
- เมื่อนึกถึงความเป็นไปได้ในอนาคตอันใกล้ ก็รู้สึกทั้งน่าตื่นเต้นมากหรือไม่ก็น่าขนลุกเล็กน้อย เดิมคิดว่ามันคงจะโฟกัสที่จุดประสงค์เฉพาะ เช่น หุ่นยนต์สำหรับทำความสะอาดเท่านั้น แต่ดูเหมือนว่าเมื่อพร้อมใช้งานจริง มันจะถูกใช้ได้อย่างอเนกประสงค์มาก ต้องใช้เซนเซอร์และมอเตอร์จำนวนมากแน่ ๆ แต่ก็น่าสนใจที่เมื่อเทียบกับรถขับเคลื่อนอัตโนมัติแล้ว ความเสี่ยงทางกฎหมายน่าจะต่ำกว่าและใช้ทรัพยากรก็น้อยกว่า
- คิดว่าน่าจะทำเป็นระบบที่ให้หุ่นยนต์อีกตัวเปลี่ยนชิ้นส่วนสิ้นเปลืองให้อัตโนมัติได้เช่นกัน
- คิดว่าปัญหานี้ก็น่าจะแก้ได้ด้วยงานวิจัยด้านวัสดุศาสตร์เพิ่มเติม หากจับคู่กับเซอร์โวที่ตอบสนองดีแต่มีแรงบิดต่ำ ก็เห็นว่าเป็นปัญหาที่แก้ได้เช่นกัน
- สิ่งที่น่าสนใจคือหุ่นยนต์จะค่อย ๆ “เปลี่ยนไปต่างกัน” เป็นรายตัวตามกาลเวลา ตัวอย่างเช่น หุ่นยนต์ทำเหมืองที่ทำงานในสภาพแวดล้อมโหดร้าย อาจมีชิ้นส่วนที่ปนเปื้อนฝุ่นอย่างหนัก สึกหรอไปทั่ว หรือคดงอจากหินหล่นใส่ แม้จะมีหุ่นยนต์อีกตัวมาซ่อมชั่วคราวให้ แต่เมื่อเวลาผ่านไปหุ่นยนต์แต่ละตัวก็คงเปลี่ยนไปคนละแบบอยู่ดี เช่นเดียวกับงานซ่อมบำรุงเครื่องบินพาณิชย์ที่มักต้องทำแบบเฉพาะกรณีตามการชนหรือความเสียหาย บางทีการรีไซเคิลอาจเป็นทางออกที่ง่ายกว่า
อยากรู้ว่าเข้าร่วม "trusted tester program" ได้ง่ายไหม และมีโมดูลที่ช่วยให้ใช้งาน SDK ได้สะดวกหรือไม่
- มีคนบอกว่าที่ท้ายบทความนั้นมีปุ่มสมัครอยู่
อยากรู้ว่า SDK รันบนฮาร์ดแวร์อะไรได้บ้าง และใช้กับ Raspberry Pi รุ่นใหม่สุดได้ไหม
- ตามบล็อกโพสต์ ต้องใช้ NVIDIA Jetson Orin ที่มี RAM ขั้นต่ำ 8GB และปรับแต่งมาสำหรับโมดูล Jetson AGX Orin (64GB) กับ Orin NX (16GB)
- มีการกล่าวถึงว่าหนึ่งในผู้ร่วมโครงการโพสต์บน x ว่ามันรันบนการ์ดจอ 4090 ได้ ลิงก์ x ที่เกี่ยวข้อง
- โดยพื้นฐานแล้วระบบนี้สามารถมองได้ว่าเป็น LLM แบบมัลติโหมดเดล SmolVLA (พารามิเตอร์ 0.5B) เป็นโมเดลขนาดเล็กที่เร็วและมีประสิทธิภาพสำหรับงานเฉพาะทาง ส่วน OpenVLA (Llama2 7B finetune) เป็นโมเดลใหญ่สำหรับงานที่ทั่วไปมากกว่า แม้แต่ Raspberry Pi ก็อาจรันโมเดลเฉพาะทางบางตัวได้ และสำหรับโมเดลที่ทั่วไปกว่า ฮาร์ดแวร์ผู้บริโภคประสิทธิภาพสูงก็น่าจะเพียงพอ
ลิงก์ MuJoCo จริง ๆ แล้วชี้ไปที่ github.com/google-deepmind/aloha_sim
- ใน mujoco_menagerie มีโมเดล Mujoco MJCF XML ของหุ่นยนต์หลากหลายแบบรวมอยู่ google-deepmind/mujoco_menagerie / โมเดล aloha
สงสัยเรื่องสถาปัตยกรรมของโมเดล และคาดว่าน่าจะแตกต่างจาก LLM มาก หากมีลิงก์ที่อธิบายสถาปัตยกรรม VLA แบบละเอียดก็อยากให้แชร์
- คิดว่าโครงสร้างจริง ๆ แล้วใกล้กับ LLM มาก มันคือโมเดล VLA หรือ "Visual Language Action" และอิงกับ Gemini 2.0 โดย Gemini 2.0 รองรับภาษา เสียง และวิดีโอแบบเนทีฟอยู่แล้ว จึงพอคาดได้ว่าสามารถรวมข้อมูล "action" เข้าไปได้ด้วย ดูเหมือนว่าจะเป็นโครงสร้างที่เพิ่มข้อมูลการกระทำเข้าไปในขั้นตอน output fine-tuning โมเดล LLM มัลติโหมดเดลแบบเนทีฟเช่นนี้น่าจะกลายเป็น “สมอง” ในไม่ช้า
เทคโนโลยีเหล่านี้จะต้องถูกนำไปใช้เป็นเครื่องจักรสงครามอย่างหลีกเลี่ยงไม่ได้แน่นอน ความเป็นอิสระแบบ on-device เหมาะอย่างยิ่งกับการเลี่ยงอำนาจส่วนกลางหรือการติดตามความรับผิดชอบ ต่างจากคนบังคับโดรน เราไม่สามารถตั้งข้อหาอาชญากรรมสงครามกับมนุษย์ได้ สัญญาทางทหารมีมูลค่ามหาศาลจนยากจะต้าน และการกำจัดแรงงานที่หนักหน่วงก็กำลังไหลไปสู่การกำจัดมนุษย์โดยสิ้นเชิง อนาคตที่ "AI-Powered Automation for Every Decision" ทำให้ชีวิตมนุษย์ที่ยังทำกำไรได้หายไปกำลังใกล้เข้ามาอย่างชัดเจน palantir.com
- Boston Dynamics ซึ่ง Google เข้าซื้อผ่านบริษัทร่วม MIT เคยสัญญาว่าจะไม่ทำให้หุ่นยนต์เป็นอาวุธทางทหาร แต่ในความเป็นจริงมีฉากหลังจากการลงทุนทางทหารอย่าง DARPA และกระทรวงกลาโหมสหรัฐฯ จึงยากมากที่จะเชื่อถือ
- ในทางปฏิบัติแล้ว เทคโนโลยีที่มีประโยชน์แทบทั้งหมดก็มีการประยุกต์ใช้ทางทหาร ไม่เข้าใจว่าทำไมเรื่องนี้ถึงเป็นประเด็นถกเถียงร้อนแรงนัก
- คิดว่าหุ่นยนต์แบบนี้คงแข่งขันกับโดรนในสนามรบได้ยากมาก น่าจะมีต้นทุนสูงพอ ๆ กับโดรนอัตโนมัติ 1000 ลำ และต้องใช้เวลาและทรัพยากรมากกว่ากันเกิน 100 เท่า โดรนได้พิสูจน์บทบาทของมันในสนามรบจริงแล้ว เช่น ในยูเครน ว่ามีขนาดเล็กและทรงพลัง และไม่ว่าการเคลื่อนไหวจะคล่องแคล่วแค่ไหน ก็คงยากจะวิ่งหนีโดรนระเบิดให้พ้น ต่อให้ Terminator ถือปืนลูกซองอยู่ ก็ยังง่ายกว่าที่จะส่งโดรน 5 ลำไปต่อหนึ่งตัว และโดรนเหล่านี้ก็อาจถูกสร้างโดยหุ่นยนต์อัตโนมัติอีกชนิดหนึ่งได้ด้วย
น่าสนใจที่ Google มีรูปแบบการปล่อยผลิตภัณฑ์นวัตกรรมแบบเงียบ ๆ แล้วก็ถูกลืมอย่างรวดเร็ว ไม่ได้โหมโฆษณาใหญ่โต แค่โพสต์บล็อกแล้วมันก็หมุนเวียนอยู่ในชุมชนเทคโนโลยี ก่อนจะหายไป และอีกหลายปีต่อมาก็มีคนถามว่า "แล้วนั่นไปถึงไหนแล้วนะ?" ซ้ำแบบเดิมอีก แต่ผลิตภัณฑ์นี้ดูเท่มาก จึงหวังว่าจะมีใครเอาไปสร้างสตาร์ตอัปเจ๋ง ๆ ได้
- จุดประสงค์หลักของโครงการแบบนี้ของ Google คือการคานอำนาจหน่วยงานกำกับดูแล ไม่ได้ตั้งใจจะทำเงินจากผลิตภัณฑ์พวกนี้ แค่เผาเงินทิ้งโดยเจตนาแล้วก็เดินต่อไป และอิสระแบบนี้เกิดขึ้นได้เพราะเป็นบริษัทผูกขาด
จะไปดื่มกาแฟสักแก้วระหว่างรอให้ API ตอบกลับมา
คิดว่าวิธีเดียวที่จะกันไม่ให้หุ่นยนต์แหกคุกแล้วไปปล้นธนาคาร คือย้าย GPU ไปไว้บน private SOTA security GPU cloud
สงสัยว่าจะมีราวกันแบบ Three Laws of Robotics เพื่อไม่ให้หุ่นยนต์คลุ้มคลั่งขณะทำตามพรอมป์ต์หรือไม่
- กฎสามข้อของหุ่นยนต์ถูกสร้างขึ้นเพื่อโครงสร้างความขัดแย้งในนิยาย ดังนั้นถ้าใช้กับระบบจริงแบบนั้นก็คงมีปัญหา ที่จริงแล้วการออกแบบความปลอดภัยของ Gemini Robotics เป็นโครงสร้างหลายชั้น โมเดลจะให้เหตุผลว่าอะไรปลอดภัย จากนั้น VLA จะเสนอทางเลือกในการปฏิบัติการ และสุดท้ายจึงเป็นการทำงานของคอนโทรลเลอร์ระดับล่างที่ฝังฟังก์ชันความปลอดภัยสำคัญไว้ เช่น การจำกัดความเร็วหรือแรง
- คำเรียกทั่วไปของงานวิจัยลักษณะนี้คือ Constitutional AI และมีการทดลอง/อ้างอิงใน VLA ด้านหุ่นยนต์หลายตัว งานวิจัยที่เกี่ยวข้อง
- มองว่าราวกันที่ใช้ในปัจจุบันใกล้เคียงกับ IEC 61508 (มาตรฐานความปลอดภัยเชิงหน้าที่สากล) มากกว่ากฎสามข้อ
- บางคนก็บอกว่าเป็นโค้ดสำหรับตัดไฟ
- มีความเห็นว่ากฎสามข้อของหุ่นยนต์ในโลกจริงนั้นแทบไม่มีความหมาย

Google DeepMind เปิดตัว AI "Gemini Robotics On-Device" ที่ปรับแต่งมาสำหรับอุปกรณ์หุ่นยนต์

We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation

จุดเด่นของโมเดล on-device

SDK ที่ช่วยให้นำไปใช้และปรับแต่งได้ง่าย

Model capabilities and performance

Adaptable to new tasks, generalizable across embodiments

Responsible development and safety

Accelerating innovation in robotics

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News