Gemini Robotics-ER 1.6: การให้เหตุผลเชิงกายภาพที่ดีขึ้น
(deepmind.google)- โมเดล การให้เหตุผลเชิงกายภาพ (embodied reasoning) ที่ได้รับการปรับปรุง ซึ่งออกแบบมาเพื่อให้หุ่นยนต์เข้าใจสภาพแวดล้อมทางกายภาพได้อย่างแม่นยำและทำงานได้อย่างอัตโนมัติ โดยเสริมความสามารถด้านการให้เหตุผลเชิงพื้นที่และการวางแผนงานอย่างมาก
- ทำหน้าที่ด้านการตัดสินใจระดับสูงของหุ่นยนต์ เช่น ความเข้าใจด้านภาพและพื้นที่, การตรวจจับความสำเร็จ, และ การให้เหตุผลจากหลายมุมมอง พร้อมทั้งจัดการงานที่ซับซ้อนได้โดยตรงผ่าน Google Search หรือการเรียกใช้ฟังก์ชันภายนอก
- ฟังก์ชัน การชี้ (Pointing) ช่วยให้ทำตรรกะเชิงพื้นที่ได้หลากหลาย เช่น การตรวจจับวัตถุ การเปรียบเทียบ และการประเมินเส้นทาง พร้อมลดความผิดพลาดจากภาพหลอนและเพิ่มความแม่นยำในการรับรู้เมื่อเทียบกับเวอร์ชันก่อนหน้า
- เพิ่มฟังก์ชันใหม่ การอ่านเครื่องมือวัด (Instrument Reading) ทำให้หุ่นยนต์ Spot ของ Boston Dynamics สามารถตีความเทอร์โมมิเตอร์ เกจวัดแรงดัน และอุปกรณ์ในโรงงานอุตสาหกรรมได้อย่างแม่นยำ
- จุดเด่นคือ อัตราการปฏิบัติตามนโยบายความปลอดภัยที่ดีขึ้น และความร่วมมือกับชุมชน ซึ่งช่วยเพิ่มความเป็นอัตโนมัติและความน่าเชื่อถือในสภาพแวดล้อมจริง
ภาพรวมของ Gemini Robotics-ER 1.6
- Gemini Robotics-ER 1.6 คือ โมเดลการให้เหตุผลเชิงกายภาพที่ได้รับการปรับปรุง ซึ่งออกแบบมาเพื่อให้หุ่นยนต์เข้าใจสภาพแวดล้อมทางกายภาพได้อย่างแม่นยำและทำงานได้อย่างอัตโนมัติ
- เสริม ความสามารถในการให้เหตุผลระดับสูง ที่จำเป็นต่อหุ่นยนต์ เช่น การให้เหตุผลเชิงพื้นที่ ความเข้าใจจากหลายมุมมอง การวางแผนงาน และการตรวจจับความสำเร็จ
- สามารถ เรียกใช้เครื่องมือต่าง ๆ เพื่อทำงานได้โดยตรง เช่น Google Search, โมเดล Vision-Language-Action (VLA) และฟังก์ชันที่ผู้ใช้กำหนดจากภายนอก
- เมื่อเทียบกับ Gemini Robotics-ER 1.5 และ Gemini 3.0 Flash มีการปรับปรุงประสิทธิภาพอย่างชัดเจนในการให้เหตุผลเชิงพื้นที่และกายภาพ เช่น การชี้ การนับ และการตรวจจับความสำเร็จ
- เพิ่มฟังก์ชันใหม่ การอ่านเครื่องมือวัด (instrument reading) ที่พัฒนาร่วมกับ Boston Dynamics
ฟีเจอร์หลักและการปรับปรุงประสิทธิภาพ
- Gemini Robotics-ER 1.6 เปิดให้ใช้งานสำหรับนักพัฒนาผ่าน Gemini API และ Google AI Studio
- มีตัวอย่าง Colab บน GitHub สำหรับการตั้งค่าโมเดลและการสร้างพรอมป์ต์สำหรับงานด้านการให้เหตุผลเชิงกายภาพ
- โมเดลทำหน้าที่เป็นเอนจินการให้เหตุผลระดับบนของหุ่นยนต์ โดยรับผิดชอบการตัดสินใจระดับสูง เช่น ความเข้าใจเชิงภาพและเชิงพื้นที่, การวางแผนงาน, และ การตรวจจับความสำเร็จ
- ใช้ agentic vision เพื่อผสานการให้เหตุผลด้านภาพเข้ากับการรันโค้ด ทำให้ได้ความแม่นยำสูงแม้ในสภาพแวดล้อมทางกายภาพที่ซับซ้อน
การชี้ (Pointing): พื้นฐานของการให้เหตุผลเชิงพื้นที่
- การชี้เป็นฟังก์ชันหลักของโมเดลการให้เหตุผลเชิงกายภาพ และถูกนำไปใช้กับตรรกะเชิงพื้นที่หลากหลายรูปแบบ เช่น การตรวจจับวัตถุ การเปรียบเทียบ และการประเมินเส้นทาง
- การให้เหตุผลเชิงพื้นที่: การตรวจจับวัตถุและการนับจำนวนอย่างแม่นยำ
- ตรรกะความสัมพันธ์: การระบุรายการที่น้อยที่สุดในชุด และการกำหนดความสัมพันธ์อย่าง “ย้าย X ไปยังตำแหน่ง Y”
- การให้เหตุผลด้านการเคลื่อนไหว: การแมปวิถีการเคลื่อนที่และการระบุจุดหยิบจับที่เหมาะสมที่สุด
- การปฏิบัติตามข้อจำกัด: การจัดการคำสั่งซับซ้อนอย่าง “ชี้วัตถุทั้งหมดที่มีขนาดเล็กพอจะใส่ในถ้วยสีน้ำเงินได้”
- Gemini Robotics-ER 1.6 ใช้การชี้เป็นขั้นตอนกลางเพื่อแก้ปัญหางานที่ซับซ้อนแบบเป็นลำดับ
- ตัวอย่าง: การนับจำนวนวัตถุในภาพ หรือการระบุจุดสำคัญสำหรับการคำนวณทางคณิตศาสตร์
- ผลการทดลองแสดงให้เห็นว่า 1.6 ระบุวัตถุหลายชนิดได้อย่างแม่นยำ เช่น ค้อน กรรไกร แปรงทาสี และคีม และไม่ชี้ไปยังวัตถุที่ไม่มีอยู่จริง (เช่น รถเข็นล้อเดียว สว่าน)
- 1.5 ระบุวัตถุบางอย่างผิดพลาดหรือเกิดภาพหลอน (hallucination) กับวัตถุที่ไม่มีอยู่จริง
- 3.0 Flash มีประสิทธิภาพใกล้เคียงกัน แต่ความแม่นยำในการระบุคีมยังต่ำกว่า
การตรวจจับความสำเร็จ (Success Detection): เอนจินหลักของความเป็นอัตโนมัติ
- ความสามารถของหุ่นยนต์ในการรับรู้เวลาที่งานเสร็จสมบูรณ์เป็นองค์ประกอบสำคัญของความเป็นอัตโนมัติ
- Gemini Robotics-ER 1.6 ปรับปรุง การให้เหตุผลจากหลายมุมมอง (multi-view reasoning) เพื่อให้เข้าใจความสัมพันธ์ระหว่างฟีดจากกล้องหลายตัว
- สามารถตีความฉากได้อย่างสอดคล้องแม้ในสภาพแวดล้อมที่ซับซ้อน มีการบังกันของวัตถุ (occlusion) ปัญหาแสง หรือคำสั่งที่กำกวม
- ตัวอย่าง: ตัดสินได้อย่างแม่นยำจากวิดีโอหลายมุมว่าภารกิจ “ใส่ปากกาสีน้ำเงินลงในที่ใส่ปากกาสีดำ” เสร็จสมบูรณ์แล้วหรือไม่
การอ่านเครื่องมือวัด (Instrument Reading): การให้เหตุผลด้วยภาพในสภาพแวดล้อมจริง
- ฟังก์ชันสำหรับตีความ เครื่องมือวัด เช่น เทอร์โมมิเตอร์ เกจวัดแรงดัน และ sight glass ในโรงงานอุตสาหกรรม
- หุ่นยนต์ Spot ของ Boston Dynamics ถ่ายภาพเครื่องมือในสถานที่ และ Gemini Robotics-ER 1.6 เป็นผู้ตีความข้อมูลเหล่านั้น
- รองรับการอ่านเครื่องมือหลากหลายรูปแบบ เช่น เกจวัดแรงดันแบบวงกลม ตัวบ่งชี้ระดับแนวตั้ง และเครื่องมือดิจิทัล
- กระบวนการอ่านจะตีความองค์ประกอบภาพที่ซับซ้อนร่วมกัน เช่น ระดับของของเหลว ตำแหน่งสเกล ข้อความหน่วย และเข็มหลายอัน
- ในกรณีของ sight glass ระบบจะประเมินระดับของเหลวโดยคำนึงถึงความบิดเบี้ยวจากกล้อง
- ผ่าน agentic vision ระบบสามารถทำ การซูม (zoom), การชี้, และ การรันโค้ด แบบเป็นขั้นตอน จนบรรลุการอ่านที่แม่นยำในระดับ ต่ำกว่าหนึ่งขีดสเกล (sub-tick)
- Marco da Silva รองประธานของ Boston Dynamics กล่าวว่า ฟังก์ชันนี้ทำให้ Spot สามารถ รับรู้และตอบสนองต่อปัญหาในโลกจริงได้อย่างอัตโนมัติเต็มรูปแบบ
การปรับปรุงด้านความปลอดภัย
- Gemini Robotics-ER 1.6 ได้รับการประเมินว่าเป็น โมเดลหุ่นยนต์ที่ปลอดภัยที่สุด
- มีอัตราการปฏิบัติตาม นโยบายความปลอดภัยของ Gemini สูงกว่ารุ่นก่อนหน้า
- เสริมความสามารถในการปฏิบัติตามข้อจำกัดด้านความปลอดภัยทางกายภาพ
- ตัวอย่าง: สะท้อนข้อจำกัดอย่าง “ห้ามจัดการของเหลว” หรือ “ห้ามยกวัตถุที่หนักเกิน 20 กก.” ตั้งแต่ในขั้นตอนเอาต์พุตเชิงพื้นที่ (การชี้)
- ในการทดสอบ การรับรู้สถานการณ์ความปลอดภัยจากข้อความและวิดีโอ ที่อ้างอิงจากรายงานอุบัติเหตุจริง
- ดีขึ้นเมื่อเทียบกับ Gemini 3.0 Flash ที่ข้อความ +6% และวิดีโอ +10%
- ในการประเมิน Safety Instruction Following มีการปรับปรุงอย่างมากเมื่อเทียบกับ 1.5 และความแม่นยำของการชี้ก็ดีขึ้นเช่นกัน
ความร่วมมือกับชุมชนหุ่นยนต์
- Google DeepMind เดินหน้าความร่วมมือกับ ชุมชนหุ่นยนต์ เพื่อพัฒนาความสามารถของ Gemini Robotics-ER อย่างต่อเนื่อง
- หากมีข้อจำกัดในโดเมนการใช้งานเฉพาะ ขอให้ส่ง ภาพที่ติดป้ายกำกับ 10–50 ภาพ เพื่อแชร์กรณีที่ล้มเหลว
- มีเป้าหมายเพื่อ เสริมความแข็งแกร่งของความสามารถในการให้เหตุผล ในรุ่นถัดไป
- สามารถทดลองใช้ Gemini Robotics-ER 1.6 ได้ทันทีใน Google AI Studio
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
รู้สึกว่าเรากำลังเข้าใกล้ระดับที่สามารถ เลียนแบบพฤติกรรม ของมนุษย์หรือสัตว์ได้มากขึ้นเรื่อย ๆ
ถ้าสามารถวางแพตเทิร์นการ orchestration ที่ทำงานคล้ายสมองไว้บนโมเดลเชิงกำเนิดได้ และถ้าความเร็วในการอนุมานเร็วพอ ก็น่าจะทำอะไรได้อีกมาก
ตัวอย่างเช่น ตอนนี้การสร้างและรันสคริปต์ Python เพื่ออ่านเกจยังช้าอยู่ แต่ถ้าเร็วขึ้น 100x~1000x ก็ดูเหมือนว่าโมเดลจะสามารถถ่ายภาพ, จำลอง อนาคต, และสร้างลูปที่ตัดสินใจได้ด้วยตัวเอง
แม้โมเดลที่ใช้จะเป็น Llama รุ่นเก่าและคุณภาพยังต่ำ แต่ถ้ามันขยายต่อได้ก็น่าจะเป็นเรื่องใหญ่มาก
คิดว่าท้ายที่สุดก็เป็นแค่เรื่องของเวลา
มนุษย์เป็นผลผลิตทางวิวัฒนาการของการล่าสัตว์และการสร้างเครื่องมือ แต่ระบบอัตโนมัติในอุตสาหกรรมจริงกลับพัฒนาไปในทางที่ไม่ใช่มนุษย์รูปร่างเหมือนคน แต่เป็น รูปทรงใช้งานจริงแบบ R2D2 มากกว่า
หุ่นยนต์ใช้ในบ้านก็น่าจะใกล้เคียงทางนั้นมากกว่า
ลองจินตนาการว่ามีที่ดินแปลงหนึ่ง พร้อมขาหุ่นยนต์, แขน, แบตเตอรี่, GPU, และแผงโซลาร์
แล้วสั่งผ่านพรอมป์ต์ว่า “จัดการที่ดินผืนนี้และปลูกผัก” จะเป็นยังไง
ญี่ปุ่นมี satoyama, แอฟริกามีการปลูกพืชหมุนเวียน, รัสเซียมีการเพาะปลูกตามแนวระดับ แต่ละภูมิภาคต่างก็มีวิธีเฉพาะของตัวเอง
ประเด็นคือวิธีดูแลผืนดินนั้นขึ้นอยู่กับ บริบทท้องถิ่นและเป้าหมาย
Google และ Boston Dynamics กำลังร่วมกันพัฒนาโมเดล
ตอนนี้ Hyundai ได้เข้าซื้อ Boston Dynamics และกำลังพยายามนำหุ่นยนต์ไปใช้ในงานอัตโนมัติในโรงงาน
เคยคิดว่าน่าจะมีซอฟต์แวร์ที่เอากล้องไปถ่ายเกจวัดแรงดันแล้วบันทึกเป็นกราฟได้
เลยสงสัยว่ามีของสำหรับผู้บริโภคทั่วไปไหม
สงสัยว่าการให้หุ่นยนต์อ่านมาตรวัดแบบแอนะล็อกเป็นแนวทางที่ถูกต้องหรือเปล่า
เปลี่ยนเป็น เซ็นเซอร์ดิจิทัล ไปเลยจะดีกว่าไหม
เลยเทียบตรง ๆ ได้ยาก และคนมักประเมินความซับซ้อนของการเปลี่ยนแปลงแบบนี้ต่ำเกินไป
หลักการ “ถ้ายังไม่พัง ก็อย่าเพิ่งซ่อม” ใช้ได้ดี
ถ้าเอาสิ่งนี้ไปเชื่อมกับระบบ ‘LLMs can control robots over MCP’ ของฉันก็น่าจะลงตัวมาก
เพราะ LLM เขียนโค้ดได้ดี เลยอยากใช้ความสามารถนั้นให้เกิดประโยชน์
กำลังจะทดสอบกับหุ่นยนต์ตัวใหญ่ที่เพิ่งซื้อมา
โพสต์ที่เกี่ยวข้อง
เป็นสถาปัตยกรรมที่รวมโมเดลควบคุมหุ่นยนต์กับ LLM เข้าด้วยกันผ่าน attention layer
ส่วนที่สงสัยที่สุดคือเรื่อง latency
งานรับรู้บางอย่างมันดีกว่าโมเดล vision ชั้นนำ แต่สำหรับหุ่นยนต์แล้ว ประสิทธิภาพระดับ Hz สำคัญมาก
เลยเดาว่าน่าจะยังช้าอยู่
มันใช้เวลา ‘คิด’ แค่ไม่กี่วินาทีแล้วก็ให้ผลลัพธ์
เรื่องอย่างการนับจำนวนขาสัตว์หรือการอ่านนาฬิกาแอนะล็อก โมเดลนี้ให้ ประสิทธิภาพต่อทรัพยากร ที่สูงมาก
คำว่า “โมเดลหุ่นยนต์ที่ปลอดภัยที่สุด” ฟังดูน่าสนใจ
Gemini Robotics-ER 1.6 ปฏิบัติตามนโยบายความปลอดภัยได้ดีกว่ารุ่นก่อนหน้า
แต่ก็ยังไม่ถึงขั้นพร้อมใช้งานเชิงพาณิชย์อย่างสมบูรณ์ และแนวทางที่มองความปลอดภัยเป็น เป้าหมายที่ต้องมุ่งไปหา ก็ดูสมจริงดี
AI สำหรับหุ่นยนต์อาจมีโมเดลภายในที่อยู่ระดับ GPT-2 หรือ GPT-3 แล้วก็ได้
แต่เพราะ ความล้มเหลวในสภาพแวดล้อมจริงในชีวิตประจำวัน อาจร้ายแรงมาก เลยคิดว่ายังเปิดเผยออกมาไม่ได้ง่าย ๆ
เช่น ถ้าทำจานแตกแค่ใบเดียวในเครื่องล้างจาน ก็คงถูกมองว่าเป็นปัญหาใหญ่
เป็นหนังที่เหมาะจะดูในช่วงเวลานี้เลย
Roomba รุ่นแรก ๆ ก็พังเละเทะบ่อย แต่ตลาดก็ยังยอมรับ และสุดท้ายมันก็พัฒนาขึ้น
คิดว่าสิ่งสำคัญคือเข้าไปในตลาดก่อนแล้ว เก็บข้อมูล ต่อให้ยังไม่สมบูรณ์แบบ
ไม่มีระบบไหนสมบูรณ์แบบ
ถ้าหุ่นยนต์ทำได้ดีกว่านั้นก็ถือว่า ดีขึ้น แล้ว
จะอ้างว่ามีโมเดลระดับ GPT แล้วก็ดูไม่ค่อยซื่อตรงนัก
กำลังลังเลว่าควรใช้โมเดลปัจจุบันนี้ต่อไปจนกว่า Google จะเปิดตัว Gemini Flash 3.1 อย่างเป็นทางการหรือไม่