- โมเดล VLA (vision-language-action) อเนกประสงค์ ที่ปรับแต่งมาให้ติดตั้งและใช้งานบนหุ่นยนต์ได้โดยตรง
- มอบทั้ง การปรับตัวเข้ากับงานได้อย่างรวดเร็ว และ ความสามารถในการควบคุมจัดการแบบอเนกประสงค์ พร้อมทำงานแบบโลคัลได้โดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต จึงรับประกัน ความหน่วงต่ำและความทนทาน
- ต้องการทรัพยากรการประมวลผลเพียงเล็กน้อย และมีความสามารถด้าน การควบคุมที่แม่นยำบนหุ่นยนต์สองแขนและการสลับงานอย่างรวดเร็ว
- นักพัฒนาสามารถใช้ Gemini Robotics SDK เพื่อทดสอบกับสภาพแวดล้อมจริงของตนได้อย่างรวดเร็ว และสามารถ ปรับตัวเข้ากับงานได้อย่างรวดเร็ว ด้วยเดโมขนาดเล็กเพียง 50–100 ครั้ง
- แสดง ประสิทธิภาพด้านการทำให้เป็นทั่วไปและการปรับตัวที่สูงกว่าโมเดล on-device อื่น และทำงานตามคำสั่งซับซ้อนหรืองานใหม่ ๆ ได้อย่างมีประสิทธิภาพ
- ใช้หลักการด้านความปลอดภัยและการพัฒนาอย่างรับผิดชอบ โดยนำระบบ ลดความเสี่ยง ต่อสภาพแวดล้อมจริงและผลกระทบทางสังคม รวมถึง กลไกรับฟังข้อเสนอแนะ มาใช้
We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation
- Gemini Robotics On-Device คือโมเดล VLA (vision-language-action) ประสิทธิภาพสูงที่ออกแบบมาให้รันได้โดยตรงบน อุปกรณ์หุ่นยนต์แบบโลคัล
- นำ ความสามารถด้านการให้เหตุผลแบบมัลติโหมด และ ความเข้าใจโลกจริง ของ Gemini Robotics ที่เปิดตัวในเดือนมีนาคม มาประยุกต์ใช้กับสภาพแวดล้อมทางกายภาพจริง
-
จุดเด่นของโมเดล on-device
- ทำงานได้อย่างอิสระโดยไม่ต้องพึ่งพาเครือข่าย จึงโดดเด่นในสภาพแวดล้อมที่ต้องการ ความหน่วงต่ำ หรือมีการเชื่อมต่อไม่เสถียร
- ปรับแต่งให้เหมาะกับสภาพแวดล้อมเฉพาะเครื่อง ทำให้ทำงานแบบเรียลไทม์ได้รวดเร็ว
- มีความสามารถในการทำให้เป็นทั่วไปทั้งด้าน ภาพ ความหมาย และพฤติกรรมการกระทำ
- สามารถทำงานควบคุมละเอียดบนหุ่นยนต์สองแขนได้ เช่น เปิดซิป พับเสื้อผ้า เป็นต้น
- เข้าใจคำสั่งภาษาธรรมชาติและทำงานหลายขั้นตอนที่ซับซ้อนได้
SDK ที่ช่วยให้นำไปใช้และปรับแต่งได้ง่าย
- ผ่าน Gemini Robotics SDK นักพัฒนาสามารถทดสอบโมเดลในสภาพแวดล้อมของตนเอง ใช้ MuJoCo physics simulator เพื่อทดสอบ และประยุกต์ใช้กับงานหลากหลายรูปแบบได้
- สามารถ ปรับตัวเข้ากับโดเมนใหม่ได้อย่างรวดเร็ว ด้วยเดโมขนาดเล็กเพียง 50–100 ครั้ง
Model capabilities and performance
- Gemini Robotics On-Device ถูกออกแบบให้ใช้ทรัพยากรการประมวลผลเพียงเล็กน้อย เพื่อให้เหมาะกับ หุ่นยนต์ bi-arm
- ปรับให้เหมาะกับ การทดลองอย่างรวดเร็ว การควบคุมที่อาศัยความคล่องแคล่วของมือ การรันแบบโลคัล และการอนุมานความหน่วงต่ำ
- รองรับ คำสั่งภาษาธรรมชาติ และสามารถลงมือทำงานควบคุมยาก ๆ ได้โดยตรง เช่น เปิดซิปและพับเสื้อผ้า
- มี ความอเนกประสงค์และประสิทธิภาพการทำให้เป็นทั่วไป สูงกว่าโมเดล on-device เดิม และจัดการคำสั่งหลายขั้นตอนที่ซับซ้อนได้อย่างมีประสิทธิภาพ
- หากต้องการประสิทธิภาพที่สูงขึ้นหรือสภาพแวดล้อมที่ไม่มีข้อจำกัด ก็มีโมเดล Gemini Robotics แบบเซิร์ฟเวอร์ให้ใช้งานเช่นกัน
Adaptable to new tasks, generalizable across embodiments
- Gemini Robotics On-Device เป็นโมเดล VLA ตัวแรกที่สามารถ fine-tuning ได้
- สามารถ ปรับตัวกับงานใหม่ได้อย่างรวดเร็ว ด้วยเดโมเพียง 50–100 ครั้ง และแสดงประสิทธิภาพการปรับตัวที่สูงกว่าโมเดลคู่แข่งในงานที่ต้องใช้ dexterity หลายระดับความยาก เช่น รูดซิป หยิบการ์ด เทน้ำสลัด
- แม้จะฝึกมาสำหรับหุ่นยนต์เฉพาะรุ่น (ALOHA) แต่ก็สามารถขยายไปยังหุ่นยนต์หลากหลายรูปแบบ เช่น Franka FR3 และ Apollo humanoid ได้ผ่านการฝึกเพิ่มเติม
- รองรับคำสั่งที่หลากหลาย วัตถุใหม่ ๆ และงานอุตสาหกรรมที่ซับซ้อน เช่น การประกอบสายพาน
Responsible development and safety
- พัฒนาโมเดลบนพื้นฐานของ AI Principles และ กรอบความปลอดภัยแบบบูรณาการ
- ใช้ [Live API] เพื่อดูแลความปลอดภัยเชิงความหมายและด้านเนื้อหา และเสริมความปลอดภัยในการใช้งานจริงด้วยการเชื่อมต่อกับตัวควบคุมความปลอดภัยระดับล่าง
- ตรวจสอบความเสี่ยงผ่านระบบประเมินหลากหลายรูปแบบ เช่น Semantic Safety Benchmark และ Red-Teaming
- ทีมเฉพาะทาง (Responsible Development & Innovation, RSC) ดำเนินการประเมินผลกระทบทางสังคมและรับฟังข้อเสนอแนะอย่างต่อเนื่อง
- เปิดให้กลุ่มผู้ทดสอบที่เชื่อถือได้ใช้งานก่อนเปิดตัวอย่างเป็นทางการ เพื่อเก็บข้อมูลการใช้งานจริงและประเมินความปลอดภัยระยะแรก
Accelerating innovation in robotics
- Gemini Robotics On-Device สนับสนุนชุมชนหุ่นยนต์ด้วยโมเดล AI แบบอเนกประสงค์และปรับตัวได้ เพื่อช่วยแก้ปัญหาเรื่อง ความหน่วงและการเชื่อมต่อ
- คาดว่าจะช่วย เร่งนวัตกรรม ด้วยความสามารถในการนำไปใช้ได้รวดเร็วผ่าน SDK และฟังก์ชันการปรับตัวตามงาน
- สามารถเข้าถึงโมเดลและ SDK ได้ผ่าน Trusted Tester Program
- ขยายการประยุกต์ใช้ AI กับโลกทางกายภาพ และนำเสนอวิสัยทัศน์ที่จะขับเคลื่อนอนาคตของวงการหุ่นยนต์
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
มองโลกในแง่ดีต่อหุ่นยนต์ฮิวแมนนอยด์ แต่ก็สงสัยเรื่องความน่าเชื่อถือ แขนขาและมือของมนุษย์เป็นระบบที่น่าทึ่ง เพราะสัมผัสโลกตลอดเวลา เกิดการสึกหรอตามธรรมชาติ และยังฟื้นตัวเองได้
หุ่นยนต์อุตสาหกรรมมีความโดดเด่นมากในด้านความน่าเชื่อถือ โดยหลายกรณีมี MTBF (เวลาเฉลี่ยระหว่างความขัดข้อง) เกิน 100,000 ชั่วโมง ประเด็นสำคัญคือหุ่นยนต์อุตสาหกรรมถูกออกแบบให้ทำงานได้นานที่สุดโดยไม่เสีย เพื่อเพิ่มความคุ้มค่าทางธุรกิจ บริษัทเยอรมันและญี่ปุ่นให้ความสำคัญกับความน่าเชื่อถือ จึงพัฒนาแอคชูเอเตอร์ไฟฟ้าและครองตลาดหุ่นยนต์อุตสาหกรรม ในอดีตหุ่นยนต์ไฮดรอลิกของ Cincinnati Millicron จากสหรัฐฯ มีพลังมากแต่ความน่าเชื่อถือต่ำจึงพ่ายในการแข่งขัน อย่างไรก็ตามก็มีมุมมองเชิงกังขาว่า มือแบบมนุษย์ต้องให้ชิ้นส่วนขนาดเล็กจำนวนมากรับแรงสูง จึงยากที่จะบรรลุความน่าเชื่อถือระดับเดียวกับหุ่นยนต์อุตสาหกรรม ลิงก์ที่เกี่ยวข้อง
เมื่อนึกถึงความเป็นไปได้ในอนาคตอันใกล้ ก็รู้สึกทั้งน่าตื่นเต้นมากหรือไม่ก็น่าขนลุกเล็กน้อย เดิมคิดว่ามันคงจะโฟกัสที่จุดประสงค์เฉพาะ เช่น หุ่นยนต์สำหรับทำความสะอาดเท่านั้น แต่ดูเหมือนว่าเมื่อพร้อมใช้งานจริง มันจะถูกใช้ได้อย่างอเนกประสงค์มาก ต้องใช้เซนเซอร์และมอเตอร์จำนวนมากแน่ ๆ แต่ก็น่าสนใจที่เมื่อเทียบกับรถขับเคลื่อนอัตโนมัติแล้ว ความเสี่ยงทางกฎหมายน่าจะต่ำกว่าและใช้ทรัพยากรก็น้อยกว่า
คิดว่าน่าจะทำเป็นระบบที่ให้หุ่นยนต์อีกตัวเปลี่ยนชิ้นส่วนสิ้นเปลืองให้อัตโนมัติได้เช่นกัน
คิดว่าปัญหานี้ก็น่าจะแก้ได้ด้วยงานวิจัยด้านวัสดุศาสตร์เพิ่มเติม หากจับคู่กับเซอร์โวที่ตอบสนองดีแต่มีแรงบิดต่ำ ก็เห็นว่าเป็นปัญหาที่แก้ได้เช่นกัน
สิ่งที่น่าสนใจคือหุ่นยนต์จะค่อย ๆ “เปลี่ยนไปต่างกัน” เป็นรายตัวตามกาลเวลา ตัวอย่างเช่น หุ่นยนต์ทำเหมืองที่ทำงานในสภาพแวดล้อมโหดร้าย อาจมีชิ้นส่วนที่ปนเปื้อนฝุ่นอย่างหนัก สึกหรอไปทั่ว หรือคดงอจากหินหล่นใส่ แม้จะมีหุ่นยนต์อีกตัวมาซ่อมชั่วคราวให้ แต่เมื่อเวลาผ่านไปหุ่นยนต์แต่ละตัวก็คงเปลี่ยนไปคนละแบบอยู่ดี เช่นเดียวกับงานซ่อมบำรุงเครื่องบินพาณิชย์ที่มักต้องทำแบบเฉพาะกรณีตามการชนหรือความเสียหาย บางทีการรีไซเคิลอาจเป็นทางออกที่ง่ายกว่า
อยากรู้ว่าเข้าร่วม "trusted tester program" ได้ง่ายไหม และมีโมดูลที่ช่วยให้ใช้งาน SDK ได้สะดวกหรือไม่
อยากรู้ว่า SDK รันบนฮาร์ดแวร์อะไรได้บ้าง และใช้กับ Raspberry Pi รุ่นใหม่สุดได้ไหม
ตามบล็อกโพสต์ ต้องใช้ NVIDIA Jetson Orin ที่มี RAM ขั้นต่ำ 8GB และปรับแต่งมาสำหรับโมดูล Jetson AGX Orin (64GB) กับ Orin NX (16GB)
มีการกล่าวถึงว่าหนึ่งในผู้ร่วมโครงการโพสต์บน x ว่ามันรันบนการ์ดจอ 4090 ได้ ลิงก์ x ที่เกี่ยวข้อง
โดยพื้นฐานแล้วระบบนี้สามารถมองได้ว่าเป็น LLM แบบมัลติโหมดเดล SmolVLA (พารามิเตอร์ 0.5B) เป็นโมเดลขนาดเล็กที่เร็วและมีประสิทธิภาพสำหรับงานเฉพาะทาง ส่วน OpenVLA (Llama2 7B finetune) เป็นโมเดลใหญ่สำหรับงานที่ทั่วไปมากกว่า แม้แต่ Raspberry Pi ก็อาจรันโมเดลเฉพาะทางบางตัวได้ และสำหรับโมเดลที่ทั่วไปกว่า ฮาร์ดแวร์ผู้บริโภคประสิทธิภาพสูงก็น่าจะเพียงพอ
ลิงก์ MuJoCo จริง ๆ แล้วชี้ไปที่ github.com/google-deepmind/aloha_sim
สงสัยเรื่องสถาปัตยกรรมของโมเดล และคาดว่าน่าจะแตกต่างจาก LLM มาก หากมีลิงก์ที่อธิบายสถาปัตยกรรม VLA แบบละเอียดก็อยากให้แชร์
เทคโนโลยีเหล่านี้จะต้องถูกนำไปใช้เป็นเครื่องจักรสงครามอย่างหลีกเลี่ยงไม่ได้แน่นอน ความเป็นอิสระแบบ on-device เหมาะอย่างยิ่งกับการเลี่ยงอำนาจส่วนกลางหรือการติดตามความรับผิดชอบ ต่างจากคนบังคับโดรน เราไม่สามารถตั้งข้อหาอาชญากรรมสงครามกับมนุษย์ได้ สัญญาทางทหารมีมูลค่ามหาศาลจนยากจะต้าน และการกำจัดแรงงานที่หนักหน่วงก็กำลังไหลไปสู่การกำจัดมนุษย์โดยสิ้นเชิง อนาคตที่ "AI-Powered Automation for Every Decision" ทำให้ชีวิตมนุษย์ที่ยังทำกำไรได้หายไปกำลังใกล้เข้ามาอย่างชัดเจน palantir.com
Boston Dynamics ซึ่ง Google เข้าซื้อผ่านบริษัทร่วม MIT เคยสัญญาว่าจะไม่ทำให้หุ่นยนต์เป็นอาวุธทางทหาร แต่ในความเป็นจริงมีฉากหลังจากการลงทุนทางทหารอย่าง DARPA และกระทรวงกลาโหมสหรัฐฯ จึงยากมากที่จะเชื่อถือ
ในทางปฏิบัติแล้ว เทคโนโลยีที่มีประโยชน์แทบทั้งหมดก็มีการประยุกต์ใช้ทางทหาร ไม่เข้าใจว่าทำไมเรื่องนี้ถึงเป็นประเด็นถกเถียงร้อนแรงนัก
คิดว่าหุ่นยนต์แบบนี้คงแข่งขันกับโดรนในสนามรบได้ยากมาก น่าจะมีต้นทุนสูงพอ ๆ กับโดรนอัตโนมัติ 1000 ลำ และต้องใช้เวลาและทรัพยากรมากกว่ากันเกิน 100 เท่า โดรนได้พิสูจน์บทบาทของมันในสนามรบจริงแล้ว เช่น ในยูเครน ว่ามีขนาดเล็กและทรงพลัง และไม่ว่าการเคลื่อนไหวจะคล่องแคล่วแค่ไหน ก็คงยากจะวิ่งหนีโดรนระเบิดให้พ้น ต่อให้ Terminator ถือปืนลูกซองอยู่ ก็ยังง่ายกว่าที่จะส่งโดรน 5 ลำไปต่อหนึ่งตัว และโดรนเหล่านี้ก็อาจถูกสร้างโดยหุ่นยนต์อัตโนมัติอีกชนิดหนึ่งได้ด้วย
น่าสนใจที่ Google มีรูปแบบการปล่อยผลิตภัณฑ์นวัตกรรมแบบเงียบ ๆ แล้วก็ถูกลืมอย่างรวดเร็ว ไม่ได้โหมโฆษณาใหญ่โต แค่โพสต์บล็อกแล้วมันก็หมุนเวียนอยู่ในชุมชนเทคโนโลยี ก่อนจะหายไป และอีกหลายปีต่อมาก็มีคนถามว่า "แล้วนั่นไปถึงไหนแล้วนะ?" ซ้ำแบบเดิมอีก แต่ผลิตภัณฑ์นี้ดูเท่มาก จึงหวังว่าจะมีใครเอาไปสร้างสตาร์ตอัปเจ๋ง ๆ ได้
จะไปดื่มกาแฟสักแก้วระหว่างรอให้ API ตอบกลับมา
คิดว่าวิธีเดียวที่จะกันไม่ให้หุ่นยนต์แหกคุกแล้วไปปล้นธนาคาร คือย้าย GPU ไปไว้บน private SOTA security GPU cloud
สงสัยว่าจะมีราวกันแบบ Three Laws of Robotics เพื่อไม่ให้หุ่นยนต์คลุ้มคลั่งขณะทำตามพรอมป์ต์หรือไม่
กฎสามข้อของหุ่นยนต์ถูกสร้างขึ้นเพื่อโครงสร้างความขัดแย้งในนิยาย ดังนั้นถ้าใช้กับระบบจริงแบบนั้นก็คงมีปัญหา ที่จริงแล้วการออกแบบความปลอดภัยของ Gemini Robotics เป็นโครงสร้างหลายชั้น โมเดลจะให้เหตุผลว่าอะไรปลอดภัย จากนั้น VLA จะเสนอทางเลือกในการปฏิบัติการ และสุดท้ายจึงเป็นการทำงานของคอนโทรลเลอร์ระดับล่างที่ฝังฟังก์ชันความปลอดภัยสำคัญไว้ เช่น การจำกัดความเร็วหรือแรง
คำเรียกทั่วไปของงานวิจัยลักษณะนี้คือ Constitutional AI และมีการทดลอง/อ้างอิงใน VLA ด้านหุ่นยนต์หลายตัว งานวิจัยที่เกี่ยวข้อง
มองว่าราวกันที่ใช้ในปัจจุบันใกล้เคียงกับ IEC 61508 (มาตรฐานความปลอดภัยเชิงหน้าที่สากล) มากกว่ากฎสามข้อ
บางคนก็บอกว่าเป็นโค้ดสำหรับตัดไฟ
มีความเห็นว่ากฎสามข้อของหุ่นยนต์ในโลกจริงนั้นแทบไม่มีความหมาย