5 คะแนน โดย GN⁺ 2025-06-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดล VLA (vision-language-action) อเนกประสงค์ ที่ปรับแต่งมาให้ติดตั้งและใช้งานบนหุ่นยนต์ได้โดยตรง
  • มอบทั้ง การปรับตัวเข้ากับงานได้อย่างรวดเร็ว และ ความสามารถในการควบคุมจัดการแบบอเนกประสงค์ พร้อมทำงานแบบโลคัลได้โดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต จึงรับประกัน ความหน่วงต่ำและความทนทาน
  • ต้องการทรัพยากรการประมวลผลเพียงเล็กน้อย และมีความสามารถด้าน การควบคุมที่แม่นยำบนหุ่นยนต์สองแขนและการสลับงานอย่างรวดเร็ว
  • นักพัฒนาสามารถใช้ Gemini Robotics SDK เพื่อทดสอบกับสภาพแวดล้อมจริงของตนได้อย่างรวดเร็ว และสามารถ ปรับตัวเข้ากับงานได้อย่างรวดเร็ว ด้วยเดโมขนาดเล็กเพียง 50–100 ครั้ง
  • แสดง ประสิทธิภาพด้านการทำให้เป็นทั่วไปและการปรับตัวที่สูงกว่าโมเดล on-device อื่น และทำงานตามคำสั่งซับซ้อนหรืองานใหม่ ๆ ได้อย่างมีประสิทธิภาพ
  • ใช้หลักการด้านความปลอดภัยและการพัฒนาอย่างรับผิดชอบ โดยนำระบบ ลดความเสี่ยง ต่อสภาพแวดล้อมจริงและผลกระทบทางสังคม รวมถึง กลไกรับฟังข้อเสนอแนะ มาใช้

We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation

  • Gemini Robotics On-Device คือโมเดล VLA (vision-language-action) ประสิทธิภาพสูงที่ออกแบบมาให้รันได้โดยตรงบน อุปกรณ์หุ่นยนต์แบบโลคัล
  • นำ ความสามารถด้านการให้เหตุผลแบบมัลติโหมด และ ความเข้าใจโลกจริง ของ Gemini Robotics ที่เปิดตัวในเดือนมีนาคม มาประยุกต์ใช้กับสภาพแวดล้อมทางกายภาพจริง
  • จุดเด่นของโมเดล on-device

    • ทำงานได้อย่างอิสระโดยไม่ต้องพึ่งพาเครือข่าย จึงโดดเด่นในสภาพแวดล้อมที่ต้องการ ความหน่วงต่ำ หรือมีการเชื่อมต่อไม่เสถียร
    • ปรับแต่งให้เหมาะกับสภาพแวดล้อมเฉพาะเครื่อง ทำให้ทำงานแบบเรียลไทม์ได้รวดเร็ว
    • มีความสามารถในการทำให้เป็นทั่วไปทั้งด้าน ภาพ ความหมาย และพฤติกรรมการกระทำ
    • สามารถทำงานควบคุมละเอียดบนหุ่นยนต์สองแขนได้ เช่น เปิดซิป พับเสื้อผ้า เป็นต้น
    • เข้าใจคำสั่งภาษาธรรมชาติและทำงานหลายขั้นตอนที่ซับซ้อนได้

SDK ที่ช่วยให้นำไปใช้และปรับแต่งได้ง่าย

  • ผ่าน Gemini Robotics SDK นักพัฒนาสามารถทดสอบโมเดลในสภาพแวดล้อมของตนเอง ใช้ MuJoCo physics simulator เพื่อทดสอบ และประยุกต์ใช้กับงานหลากหลายรูปแบบได้
  • สามารถ ปรับตัวเข้ากับโดเมนใหม่ได้อย่างรวดเร็ว ด้วยเดโมขนาดเล็กเพียง 50–100 ครั้ง

Model capabilities and performance

  • Gemini Robotics On-Device ถูกออกแบบให้ใช้ทรัพยากรการประมวลผลเพียงเล็กน้อย เพื่อให้เหมาะกับ หุ่นยนต์ bi-arm
  • ปรับให้เหมาะกับ การทดลองอย่างรวดเร็ว การควบคุมที่อาศัยความคล่องแคล่วของมือ การรันแบบโลคัล และการอนุมานความหน่วงต่ำ
  • รองรับ คำสั่งภาษาธรรมชาติ และสามารถลงมือทำงานควบคุมยาก ๆ ได้โดยตรง เช่น เปิดซิปและพับเสื้อผ้า
  • มี ความอเนกประสงค์และประสิทธิภาพการทำให้เป็นทั่วไป สูงกว่าโมเดล on-device เดิม และจัดการคำสั่งหลายขั้นตอนที่ซับซ้อนได้อย่างมีประสิทธิภาพ
  • หากต้องการประสิทธิภาพที่สูงขึ้นหรือสภาพแวดล้อมที่ไม่มีข้อจำกัด ก็มีโมเดล Gemini Robotics แบบเซิร์ฟเวอร์ให้ใช้งานเช่นกัน

Adaptable to new tasks, generalizable across embodiments

  • Gemini Robotics On-Device เป็นโมเดล VLA ตัวแรกที่สามารถ fine-tuning ได้
  • สามารถ ปรับตัวกับงานใหม่ได้อย่างรวดเร็ว ด้วยเดโมเพียง 50–100 ครั้ง และแสดงประสิทธิภาพการปรับตัวที่สูงกว่าโมเดลคู่แข่งในงานที่ต้องใช้ dexterity หลายระดับความยาก เช่น รูดซิป หยิบการ์ด เทน้ำสลัด
  • แม้จะฝึกมาสำหรับหุ่นยนต์เฉพาะรุ่น (ALOHA) แต่ก็สามารถขยายไปยังหุ่นยนต์หลากหลายรูปแบบ เช่น Franka FR3 และ Apollo humanoid ได้ผ่านการฝึกเพิ่มเติม
  • รองรับคำสั่งที่หลากหลาย วัตถุใหม่ ๆ และงานอุตสาหกรรมที่ซับซ้อน เช่น การประกอบสายพาน

Responsible development and safety

  • พัฒนาโมเดลบนพื้นฐานของ AI Principles และ กรอบความปลอดภัยแบบบูรณาการ
  • ใช้ [Live API] เพื่อดูแลความปลอดภัยเชิงความหมายและด้านเนื้อหา และเสริมความปลอดภัยในการใช้งานจริงด้วยการเชื่อมต่อกับตัวควบคุมความปลอดภัยระดับล่าง
  • ตรวจสอบความเสี่ยงผ่านระบบประเมินหลากหลายรูปแบบ เช่น Semantic Safety Benchmark และ Red-Teaming
  • ทีมเฉพาะทาง (Responsible Development & Innovation, RSC) ดำเนินการประเมินผลกระทบทางสังคมและรับฟังข้อเสนอแนะอย่างต่อเนื่อง
  • เปิดให้กลุ่มผู้ทดสอบที่เชื่อถือได้ใช้งานก่อนเปิดตัวอย่างเป็นทางการ เพื่อเก็บข้อมูลการใช้งานจริงและประเมินความปลอดภัยระยะแรก

Accelerating innovation in robotics

  • Gemini Robotics On-Device สนับสนุนชุมชนหุ่นยนต์ด้วยโมเดล AI แบบอเนกประสงค์และปรับตัวได้ เพื่อช่วยแก้ปัญหาเรื่อง ความหน่วงและการเชื่อมต่อ
  • คาดว่าจะช่วย เร่งนวัตกรรม ด้วยความสามารถในการนำไปใช้ได้รวดเร็วผ่าน SDK และฟังก์ชันการปรับตัวตามงาน
  • สามารถเข้าถึงโมเดลและ SDK ได้ผ่าน Trusted Tester Program
  • ขยายการประยุกต์ใช้ AI กับโลกทางกายภาพ และนำเสนอวิสัยทัศน์ที่จะขับเคลื่อนอนาคตของวงการหุ่นยนต์

1 ความคิดเห็น

 
GN⁺ 2025-06-26
ความคิดเห็นบน Hacker News
  • มองโลกในแง่ดีต่อหุ่นยนต์ฮิวแมนนอยด์ แต่ก็สงสัยเรื่องความน่าเชื่อถือ แขนขาและมือของมนุษย์เป็นระบบที่น่าทึ่ง เพราะสัมผัสโลกตลอดเวลา เกิดการสึกหรอตามธรรมชาติ และยังฟื้นตัวเองได้

    • หุ่นยนต์อุตสาหกรรมมีความโดดเด่นมากในด้านความน่าเชื่อถือ โดยหลายกรณีมี MTBF (เวลาเฉลี่ยระหว่างความขัดข้อง) เกิน 100,000 ชั่วโมง ประเด็นสำคัญคือหุ่นยนต์อุตสาหกรรมถูกออกแบบให้ทำงานได้นานที่สุดโดยไม่เสีย เพื่อเพิ่มความคุ้มค่าทางธุรกิจ บริษัทเยอรมันและญี่ปุ่นให้ความสำคัญกับความน่าเชื่อถือ จึงพัฒนาแอคชูเอเตอร์ไฟฟ้าและครองตลาดหุ่นยนต์อุตสาหกรรม ในอดีตหุ่นยนต์ไฮดรอลิกของ Cincinnati Millicron จากสหรัฐฯ มีพลังมากแต่ความน่าเชื่อถือต่ำจึงพ่ายในการแข่งขัน อย่างไรก็ตามก็มีมุมมองเชิงกังขาว่า มือแบบมนุษย์ต้องให้ชิ้นส่วนขนาดเล็กจำนวนมากรับแรงสูง จึงยากที่จะบรรลุความน่าเชื่อถือระดับเดียวกับหุ่นยนต์อุตสาหกรรม ลิงก์ที่เกี่ยวข้อง

    • เมื่อนึกถึงความเป็นไปได้ในอนาคตอันใกล้ ก็รู้สึกทั้งน่าตื่นเต้นมากหรือไม่ก็น่าขนลุกเล็กน้อย เดิมคิดว่ามันคงจะโฟกัสที่จุดประสงค์เฉพาะ เช่น หุ่นยนต์สำหรับทำความสะอาดเท่านั้น แต่ดูเหมือนว่าเมื่อพร้อมใช้งานจริง มันจะถูกใช้ได้อย่างอเนกประสงค์มาก ต้องใช้เซนเซอร์และมอเตอร์จำนวนมากแน่ ๆ แต่ก็น่าสนใจที่เมื่อเทียบกับรถขับเคลื่อนอัตโนมัติแล้ว ความเสี่ยงทางกฎหมายน่าจะต่ำกว่าและใช้ทรัพยากรก็น้อยกว่า

    • คิดว่าน่าจะทำเป็นระบบที่ให้หุ่นยนต์อีกตัวเปลี่ยนชิ้นส่วนสิ้นเปลืองให้อัตโนมัติได้เช่นกัน

    • คิดว่าปัญหานี้ก็น่าจะแก้ได้ด้วยงานวิจัยด้านวัสดุศาสตร์เพิ่มเติม หากจับคู่กับเซอร์โวที่ตอบสนองดีแต่มีแรงบิดต่ำ ก็เห็นว่าเป็นปัญหาที่แก้ได้เช่นกัน

    • สิ่งที่น่าสนใจคือหุ่นยนต์จะค่อย ๆ “เปลี่ยนไปต่างกัน” เป็นรายตัวตามกาลเวลา ตัวอย่างเช่น หุ่นยนต์ทำเหมืองที่ทำงานในสภาพแวดล้อมโหดร้าย อาจมีชิ้นส่วนที่ปนเปื้อนฝุ่นอย่างหนัก สึกหรอไปทั่ว หรือคดงอจากหินหล่นใส่ แม้จะมีหุ่นยนต์อีกตัวมาซ่อมชั่วคราวให้ แต่เมื่อเวลาผ่านไปหุ่นยนต์แต่ละตัวก็คงเปลี่ยนไปคนละแบบอยู่ดี เช่นเดียวกับงานซ่อมบำรุงเครื่องบินพาณิชย์ที่มักต้องทำแบบเฉพาะกรณีตามการชนหรือความเสียหาย บางทีการรีไซเคิลอาจเป็นทางออกที่ง่ายกว่า

  • อยากรู้ว่าเข้าร่วม "trusted tester program" ได้ง่ายไหม และมีโมดูลที่ช่วยให้ใช้งาน SDK ได้สะดวกหรือไม่

    • มีคนบอกว่าที่ท้ายบทความนั้นมีปุ่มสมัครอยู่
  • อยากรู้ว่า SDK รันบนฮาร์ดแวร์อะไรได้บ้าง และใช้กับ Raspberry Pi รุ่นใหม่สุดได้ไหม

    • ตามบล็อกโพสต์ ต้องใช้ NVIDIA Jetson Orin ที่มี RAM ขั้นต่ำ 8GB และปรับแต่งมาสำหรับโมดูล Jetson AGX Orin (64GB) กับ Orin NX (16GB)

    • มีการกล่าวถึงว่าหนึ่งในผู้ร่วมโครงการโพสต์บน x ว่ามันรันบนการ์ดจอ 4090 ได้ ลิงก์ x ที่เกี่ยวข้อง

    • โดยพื้นฐานแล้วระบบนี้สามารถมองได้ว่าเป็น LLM แบบมัลติโหมดเดล SmolVLA (พารามิเตอร์ 0.5B) เป็นโมเดลขนาดเล็กที่เร็วและมีประสิทธิภาพสำหรับงานเฉพาะทาง ส่วน OpenVLA (Llama2 7B finetune) เป็นโมเดลใหญ่สำหรับงานที่ทั่วไปมากกว่า แม้แต่ Raspberry Pi ก็อาจรันโมเดลเฉพาะทางบางตัวได้ และสำหรับโมเดลที่ทั่วไปกว่า ฮาร์ดแวร์ผู้บริโภคประสิทธิภาพสูงก็น่าจะเพียงพอ

  • ลิงก์ MuJoCo จริง ๆ แล้วชี้ไปที่ github.com/google-deepmind/aloha_sim

  • สงสัยเรื่องสถาปัตยกรรมของโมเดล และคาดว่าน่าจะแตกต่างจาก LLM มาก หากมีลิงก์ที่อธิบายสถาปัตยกรรม VLA แบบละเอียดก็อยากให้แชร์

    • คิดว่าโครงสร้างจริง ๆ แล้วใกล้กับ LLM มาก มันคือโมเดล VLA หรือ "Visual Language Action" และอิงกับ Gemini 2.0 โดย Gemini 2.0 รองรับภาษา เสียง และวิดีโอแบบเนทีฟอยู่แล้ว จึงพอคาดได้ว่าสามารถรวมข้อมูล "action" เข้าไปได้ด้วย ดูเหมือนว่าจะเป็นโครงสร้างที่เพิ่มข้อมูลการกระทำเข้าไปในขั้นตอน output fine-tuning โมเดล LLM มัลติโหมดเดลแบบเนทีฟเช่นนี้น่าจะกลายเป็น “สมอง” ในไม่ช้า
  • เทคโนโลยีเหล่านี้จะต้องถูกนำไปใช้เป็นเครื่องจักรสงครามอย่างหลีกเลี่ยงไม่ได้แน่นอน ความเป็นอิสระแบบ on-device เหมาะอย่างยิ่งกับการเลี่ยงอำนาจส่วนกลางหรือการติดตามความรับผิดชอบ ต่างจากคนบังคับโดรน เราไม่สามารถตั้งข้อหาอาชญากรรมสงครามกับมนุษย์ได้ สัญญาทางทหารมีมูลค่ามหาศาลจนยากจะต้าน และการกำจัดแรงงานที่หนักหน่วงก็กำลังไหลไปสู่การกำจัดมนุษย์โดยสิ้นเชิง อนาคตที่ "AI-Powered Automation for Every Decision" ทำให้ชีวิตมนุษย์ที่ยังทำกำไรได้หายไปกำลังใกล้เข้ามาอย่างชัดเจน palantir.com

    • Boston Dynamics ซึ่ง Google เข้าซื้อผ่านบริษัทร่วม MIT เคยสัญญาว่าจะไม่ทำให้หุ่นยนต์เป็นอาวุธทางทหาร แต่ในความเป็นจริงมีฉากหลังจากการลงทุนทางทหารอย่าง DARPA และกระทรวงกลาโหมสหรัฐฯ จึงยากมากที่จะเชื่อถือ

    • ในทางปฏิบัติแล้ว เทคโนโลยีที่มีประโยชน์แทบทั้งหมดก็มีการประยุกต์ใช้ทางทหาร ไม่เข้าใจว่าทำไมเรื่องนี้ถึงเป็นประเด็นถกเถียงร้อนแรงนัก

    • คิดว่าหุ่นยนต์แบบนี้คงแข่งขันกับโดรนในสนามรบได้ยากมาก น่าจะมีต้นทุนสูงพอ ๆ กับโดรนอัตโนมัติ 1000 ลำ และต้องใช้เวลาและทรัพยากรมากกว่ากันเกิน 100 เท่า โดรนได้พิสูจน์บทบาทของมันในสนามรบจริงแล้ว เช่น ในยูเครน ว่ามีขนาดเล็กและทรงพลัง และไม่ว่าการเคลื่อนไหวจะคล่องแคล่วแค่ไหน ก็คงยากจะวิ่งหนีโดรนระเบิดให้พ้น ต่อให้ Terminator ถือปืนลูกซองอยู่ ก็ยังง่ายกว่าที่จะส่งโดรน 5 ลำไปต่อหนึ่งตัว และโดรนเหล่านี้ก็อาจถูกสร้างโดยหุ่นยนต์อัตโนมัติอีกชนิดหนึ่งได้ด้วย

  • น่าสนใจที่ Google มีรูปแบบการปล่อยผลิตภัณฑ์นวัตกรรมแบบเงียบ ๆ แล้วก็ถูกลืมอย่างรวดเร็ว ไม่ได้โหมโฆษณาใหญ่โต แค่โพสต์บล็อกแล้วมันก็หมุนเวียนอยู่ในชุมชนเทคโนโลยี ก่อนจะหายไป และอีกหลายปีต่อมาก็มีคนถามว่า "แล้วนั่นไปถึงไหนแล้วนะ?" ซ้ำแบบเดิมอีก แต่ผลิตภัณฑ์นี้ดูเท่มาก จึงหวังว่าจะมีใครเอาไปสร้างสตาร์ตอัปเจ๋ง ๆ ได้

    • จุดประสงค์หลักของโครงการแบบนี้ของ Google คือการคานอำนาจหน่วยงานกำกับดูแล ไม่ได้ตั้งใจจะทำเงินจากผลิตภัณฑ์พวกนี้ แค่เผาเงินทิ้งโดยเจตนาแล้วก็เดินต่อไป และอิสระแบบนี้เกิดขึ้นได้เพราะเป็นบริษัทผูกขาด
  • จะไปดื่มกาแฟสักแก้วระหว่างรอให้ API ตอบกลับมา

  • คิดว่าวิธีเดียวที่จะกันไม่ให้หุ่นยนต์แหกคุกแล้วไปปล้นธนาคาร คือย้าย GPU ไปไว้บน private SOTA security GPU cloud

  • สงสัยว่าจะมีราวกันแบบ Three Laws of Robotics เพื่อไม่ให้หุ่นยนต์คลุ้มคลั่งขณะทำตามพรอมป์ต์หรือไม่

    • กฎสามข้อของหุ่นยนต์ถูกสร้างขึ้นเพื่อโครงสร้างความขัดแย้งในนิยาย ดังนั้นถ้าใช้กับระบบจริงแบบนั้นก็คงมีปัญหา ที่จริงแล้วการออกแบบความปลอดภัยของ Gemini Robotics เป็นโครงสร้างหลายชั้น โมเดลจะให้เหตุผลว่าอะไรปลอดภัย จากนั้น VLA จะเสนอทางเลือกในการปฏิบัติการ และสุดท้ายจึงเป็นการทำงานของคอนโทรลเลอร์ระดับล่างที่ฝังฟังก์ชันความปลอดภัยสำคัญไว้ เช่น การจำกัดความเร็วหรือแรง

    • คำเรียกทั่วไปของงานวิจัยลักษณะนี้คือ Constitutional AI และมีการทดลอง/อ้างอิงใน VLA ด้านหุ่นยนต์หลายตัว งานวิจัยที่เกี่ยวข้อง

    • มองว่าราวกันที่ใช้ในปัจจุบันใกล้เคียงกับ IEC 61508 (มาตรฐานความปลอดภัยเชิงหน้าที่สากล) มากกว่ากฎสามข้อ

    • บางคนก็บอกว่าเป็นโค้ดสำหรับตัดไฟ

    • มีความเห็นว่ากฎสามข้อของหุ่นยนต์ในโลกจริงนั้นแทบไม่มีความหมาย