Gemini Robotics-ER 1.6: การให้เหตุผลเชิงกายภาพที่ดีขึ้น

(deepmind.google)

1 คะแนน โดย GN⁺ 14 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดล การให้เหตุผลเชิงกายภาพ (embodied reasoning) ที่ได้รับการปรับปรุง ซึ่งออกแบบมาเพื่อให้หุ่นยนต์เข้าใจสภาพแวดล้อมทางกายภาพได้อย่างแม่นยำและทำงานได้อย่างอัตโนมัติ โดยเสริมความสามารถด้านการให้เหตุผลเชิงพื้นที่และการวางแผนงานอย่างมาก
ทำหน้าที่ด้านการตัดสินใจระดับสูงของหุ่นยนต์ เช่น ความเข้าใจด้านภาพและพื้นที่, การตรวจจับความสำเร็จ, และ การให้เหตุผลจากหลายมุมมอง พร้อมทั้งจัดการงานที่ซับซ้อนได้โดยตรงผ่าน Google Search หรือการเรียกใช้ฟังก์ชันภายนอก
ฟังก์ชัน การชี้ (Pointing) ช่วยให้ทำตรรกะเชิงพื้นที่ได้หลากหลาย เช่น การตรวจจับวัตถุ การเปรียบเทียบ และการประเมินเส้นทาง พร้อมลดความผิดพลาดจากภาพหลอนและเพิ่มความแม่นยำในการรับรู้เมื่อเทียบกับเวอร์ชันก่อนหน้า
เพิ่มฟังก์ชันใหม่ การอ่านเครื่องมือวัด (Instrument Reading) ทำให้หุ่นยนต์ Spot ของ Boston Dynamics สามารถตีความเทอร์โมมิเตอร์ เกจวัดแรงดัน และอุปกรณ์ในโรงงานอุตสาหกรรมได้อย่างแม่นยำ
จุดเด่นคือ อัตราการปฏิบัติตามนโยบายความปลอดภัยที่ดีขึ้น และความร่วมมือกับชุมชน ซึ่งช่วยเพิ่มความเป็นอัตโนมัติและความน่าเชื่อถือในสภาพแวดล้อมจริง

ภาพรวมของ Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6 คือ โมเดลการให้เหตุผลเชิงกายภาพที่ได้รับการปรับปรุง ซึ่งออกแบบมาเพื่อให้หุ่นยนต์เข้าใจสภาพแวดล้อมทางกายภาพได้อย่างแม่นยำและทำงานได้อย่างอัตโนมัติ
เสริม ความสามารถในการให้เหตุผลระดับสูง ที่จำเป็นต่อหุ่นยนต์ เช่น การให้เหตุผลเชิงพื้นที่ ความเข้าใจจากหลายมุมมอง การวางแผนงาน และการตรวจจับความสำเร็จ
สามารถ เรียกใช้เครื่องมือต่าง ๆ เพื่อทำงานได้โดยตรง เช่น Google Search, โมเดล Vision-Language-Action (VLA) และฟังก์ชันที่ผู้ใช้กำหนดจากภายนอก
เมื่อเทียบกับ Gemini Robotics-ER 1.5 และ Gemini 3.0 Flash มีการปรับปรุงประสิทธิภาพอย่างชัดเจนในการให้เหตุผลเชิงพื้นที่และกายภาพ เช่น การชี้ การนับ และการตรวจจับความสำเร็จ
เพิ่มฟังก์ชันใหม่ การอ่านเครื่องมือวัด (instrument reading) ที่พัฒนาร่วมกับ Boston Dynamics

ฟีเจอร์หลักและการปรับปรุงประสิทธิภาพ

Gemini Robotics-ER 1.6 เปิดให้ใช้งานสำหรับนักพัฒนาผ่าน Gemini API และ Google AI Studio
- มีตัวอย่าง Colab บน GitHub สำหรับการตั้งค่าโมเดลและการสร้างพรอมป์ต์สำหรับงานด้านการให้เหตุผลเชิงกายภาพ
โมเดลทำหน้าที่เป็นเอนจินการให้เหตุผลระดับบนของหุ่นยนต์ โดยรับผิดชอบการตัดสินใจระดับสูง เช่น ความเข้าใจเชิงภาพและเชิงพื้นที่, การวางแผนงาน, และ การตรวจจับความสำเร็จ
ใช้ agentic vision เพื่อผสานการให้เหตุผลด้านภาพเข้ากับการรันโค้ด ทำให้ได้ความแม่นยำสูงแม้ในสภาพแวดล้อมทางกายภาพที่ซับซ้อน

การชี้ (Pointing): พื้นฐานของการให้เหตุผลเชิงพื้นที่

การชี้เป็นฟังก์ชันหลักของโมเดลการให้เหตุผลเชิงกายภาพ และถูกนำไปใช้กับตรรกะเชิงพื้นที่หลากหลายรูปแบบ เช่น การตรวจจับวัตถุ การเปรียบเทียบ และการประเมินเส้นทาง
- การให้เหตุผลเชิงพื้นที่: การตรวจจับวัตถุและการนับจำนวนอย่างแม่นยำ
- ตรรกะความสัมพันธ์: การระบุรายการที่น้อยที่สุดในชุด และการกำหนดความสัมพันธ์อย่าง “ย้าย X ไปยังตำแหน่ง Y”
- การให้เหตุผลด้านการเคลื่อนไหว: การแมปวิถีการเคลื่อนที่และการระบุจุดหยิบจับที่เหมาะสมที่สุด
- การปฏิบัติตามข้อจำกัด: การจัดการคำสั่งซับซ้อนอย่าง “ชี้วัตถุทั้งหมดที่มีขนาดเล็กพอจะใส่ในถ้วยสีน้ำเงินได้”
Gemini Robotics-ER 1.6 ใช้การชี้เป็นขั้นตอนกลางเพื่อแก้ปัญหางานที่ซับซ้อนแบบเป็นลำดับ
- ตัวอย่าง: การนับจำนวนวัตถุในภาพ หรือการระบุจุดสำคัญสำหรับการคำนวณทางคณิตศาสตร์
ผลการทดลองแสดงให้เห็นว่า 1.6 ระบุวัตถุหลายชนิดได้อย่างแม่นยำ เช่น ค้อน กรรไกร แปรงทาสี และคีม และไม่ชี้ไปยังวัตถุที่ไม่มีอยู่จริง (เช่น รถเข็นล้อเดียว สว่าน)
- 1.5 ระบุวัตถุบางอย่างผิดพลาดหรือเกิดภาพหลอน (hallucination) กับวัตถุที่ไม่มีอยู่จริง
- 3.0 Flash มีประสิทธิภาพใกล้เคียงกัน แต่ความแม่นยำในการระบุคีมยังต่ำกว่า

การตรวจจับความสำเร็จ (Success Detection): เอนจินหลักของความเป็นอัตโนมัติ

ความสามารถของหุ่นยนต์ในการรับรู้เวลาที่งานเสร็จสมบูรณ์เป็นองค์ประกอบสำคัญของความเป็นอัตโนมัติ
Gemini Robotics-ER 1.6 ปรับปรุง การให้เหตุผลจากหลายมุมมอง (multi-view reasoning) เพื่อให้เข้าใจความสัมพันธ์ระหว่างฟีดจากกล้องหลายตัว
- สามารถตีความฉากได้อย่างสอดคล้องแม้ในสภาพแวดล้อมที่ซับซ้อน มีการบังกันของวัตถุ (occlusion) ปัญหาแสง หรือคำสั่งที่กำกวม
- ตัวอย่าง: ตัดสินได้อย่างแม่นยำจากวิดีโอหลายมุมว่าภารกิจ “ใส่ปากกาสีน้ำเงินลงในที่ใส่ปากกาสีดำ” เสร็จสมบูรณ์แล้วหรือไม่

การอ่านเครื่องมือวัด (Instrument Reading): การให้เหตุผลด้วยภาพในสภาพแวดล้อมจริง

ฟังก์ชันสำหรับตีความ เครื่องมือวัด เช่น เทอร์โมมิเตอร์ เกจวัดแรงดัน และ sight glass ในโรงงานอุตสาหกรรม
- หุ่นยนต์ Spot ของ Boston Dynamics ถ่ายภาพเครื่องมือในสถานที่ และ Gemini Robotics-ER 1.6 เป็นผู้ตีความข้อมูลเหล่านั้น
รองรับการอ่านเครื่องมือหลากหลายรูปแบบ เช่น เกจวัดแรงดันแบบวงกลม ตัวบ่งชี้ระดับแนวตั้ง และเครื่องมือดิจิทัล
กระบวนการอ่านจะตีความองค์ประกอบภาพที่ซับซ้อนร่วมกัน เช่น ระดับของของเหลว ตำแหน่งสเกล ข้อความหน่วย และเข็มหลายอัน
- ในกรณีของ sight glass ระบบจะประเมินระดับของเหลวโดยคำนึงถึงความบิดเบี้ยวจากกล้อง
ผ่าน agentic vision ระบบสามารถทำ การซูม (zoom), การชี้, และ การรันโค้ด แบบเป็นขั้นตอน จนบรรลุการอ่านที่แม่นยำในระดับ ต่ำกว่าหนึ่งขีดสเกล (sub-tick)
Marco da Silva รองประธานของ Boston Dynamics กล่าวว่า ฟังก์ชันนี้ทำให้ Spot สามารถ รับรู้และตอบสนองต่อปัญหาในโลกจริงได้อย่างอัตโนมัติเต็มรูปแบบ

การปรับปรุงด้านความปลอดภัย

Gemini Robotics-ER 1.6 ได้รับการประเมินว่าเป็น โมเดลหุ่นยนต์ที่ปลอดภัยที่สุด
- มีอัตราการปฏิบัติตาม นโยบายความปลอดภัยของ Gemini สูงกว่ารุ่นก่อนหน้า
เสริมความสามารถในการปฏิบัติตามข้อจำกัดด้านความปลอดภัยทางกายภาพ
- ตัวอย่าง: สะท้อนข้อจำกัดอย่าง “ห้ามจัดการของเหลว” หรือ “ห้ามยกวัตถุที่หนักเกิน 20 กก.” ตั้งแต่ในขั้นตอนเอาต์พุตเชิงพื้นที่ (การชี้)
ในการทดสอบ การรับรู้สถานการณ์ความปลอดภัยจากข้อความและวิดีโอ ที่อ้างอิงจากรายงานอุบัติเหตุจริง
- ดีขึ้นเมื่อเทียบกับ Gemini 3.0 Flash ที่ข้อความ +6% และวิดีโอ +10%
ในการประเมิน Safety Instruction Following มีการปรับปรุงอย่างมากเมื่อเทียบกับ 1.5 และความแม่นยำของการชี้ก็ดีขึ้นเช่นกัน

ความร่วมมือกับชุมชนหุ่นยนต์

Google DeepMind เดินหน้าความร่วมมือกับ ชุมชนหุ่นยนต์ เพื่อพัฒนาความสามารถของ Gemini Robotics-ER อย่างต่อเนื่อง
- หากมีข้อจำกัดในโดเมนการใช้งานเฉพาะ ขอให้ส่ง ภาพที่ติดป้ายกำกับ 10–50 ภาพ เพื่อแชร์กรณีที่ล้มเหลว
- มีเป้าหมายเพื่อ เสริมความแข็งแกร่งของความสามารถในการให้เหตุผล ในรุ่นถัดไป
สามารถทดลองใช้ Gemini Robotics-ER 1.6 ได้ทันทีใน Google AI Studio

1 ความคิดเห็น

GN⁺ 14 일 전

ความคิดเห็นจาก Hacker News

รู้สึกว่าเรากำลังเข้าใกล้ระดับที่สามารถ เลียนแบบพฤติกรรม ของมนุษย์หรือสัตว์ได้มากขึ้นเรื่อย ๆ
ถ้าสามารถวางแพตเทิร์นการ orchestration ที่ทำงานคล้ายสมองไว้บนโมเดลเชิงกำเนิดได้ และถ้าความเร็วในการอนุมานเร็วพอ ก็น่าจะทำอะไรได้อีกมาก
ตัวอย่างเช่น ตอนนี้การสร้างและรันสคริปต์ Python เพื่ออ่านเกจยังช้าอยู่ แต่ถ้าเร็วขึ้น 100x~1000x ก็ดูเหมือนว่าโมเดลจะสามารถถ่ายภาพ, จำลอง อนาคต, และสร้างลูปที่ตัดสินใจได้ด้วยตัวเอง
- Taalas กำลังทดลองฝังโมเดลลงบนชิปโดยตรงเพื่อทำ การอนุมานความเร็วสูงพิเศษ
  แม้โมเดลที่ใช้จะเป็น Llama รุ่นเก่าและคุณภาพยังต่ำ แต่ถ้ามันขยายต่อได้ก็น่าจะเป็นเรื่องใหญ่มาก
- Taalas แสดงให้เห็นว่าสามารถแปลง LLM เป็น ASIC และสร้างได้เร็วกว่า 10,000 โทเคน
  คิดว่าท้ายที่สุดก็เป็นแค่เรื่องของเวลา
- สงสัยว่าการเลียนแบบพฤติกรรมมนุษย์เป็นเป้าหมายที่มีคุณค่าจริงหรือไม่
  มนุษย์เป็นผลผลิตทางวิวัฒนาการของการล่าสัตว์และการสร้างเครื่องมือ แต่ระบบอัตโนมัติในอุตสาหกรรมจริงกลับพัฒนาไปในทางที่ไม่ใช่มนุษย์รูปร่างเหมือนคน แต่เป็น รูปทรงใช้งานจริงแบบ R2D2 มากกว่า
  หุ่นยนต์ใช้ในบ้านก็น่าจะใกล้เคียงทางนั้นมากกว่า
- มีมุกขำ ๆ ว่าถ้าเอา ‘slop image’ ใส่เข้าไปใน ‘slop machine’ จะได้ ‘slop²’ ไหม
ลองจินตนาการว่ามีที่ดินแปลงหนึ่ง พร้อมขาหุ่นยนต์, แขน, แบตเตอรี่, GPU, และแผงโซลาร์
แล้วสั่งผ่านพรอมป์ต์ว่า “จัดการที่ดินผืนนี้และปลูกผัก” จะเป็นยังไง
- ตอนนี้ผลลัพธ์ยังไม่แน่ชัด แต่พรอมป์ต์แบบดั้งเดิมคือ “จงเกิดผลและทวีจำนวนขึ้น”
- คำว่า “ดูแลที่ดินผืนนี้” อาจหมายถึง การจัดการไฟขนาดเล็ก ที่ชนพื้นเมืองในแคลิฟอร์เนียทำกันมาหลายพันปี
  ญี่ปุ่นมี satoyama, แอฟริกามีการปลูกพืชหมุนเวียน, รัสเซียมีการเพาะปลูกตามแนวระดับ แต่ละภูมิภาคต่างก็มีวิธีเฉพาะของตัวเอง
  ประเด็นคือวิธีดูแลผืนดินนั้นขึ้นอยู่กับ บริบทท้องถิ่นและเป้าหมาย
- สงสัยว่าการทดลองอย่าง Proof of Corn ตอนนี้ไปถึงไหนแล้ว
- มีมุกว่า “จบแล้ว! ตอนนี้ทั้งโลกกลายเป็นแปลงผักไปหมดแล้ว”
Google และ Boston Dynamics กำลังร่วมกันพัฒนาโมเดล
ตอนนี้ Hyundai ได้เข้าซื้อ Boston Dynamics และกำลังพยายามนำหุ่นยนต์ไปใช้ในงานอัตโนมัติในโรงงาน
เคยคิดว่าน่าจะมีซอฟต์แวร์ที่เอากล้องไปถ่ายเกจวัดแรงดันแล้วบันทึกเป็นกราฟได้
เลยสงสัยว่ามีของสำหรับผู้บริโภคทั่วไปไหม
- ถ้าขอ Claude ก็ให้มันทำให้ได้ในครั้งเดียวได้เลย รวมถึงแดชบอร์ด Home Assistant ด้วย
- สงสัยว่าถ้ามีกล้องติดอยู่ตามมิเตอร์รอบบ้าน เจ้าหน้าที่รัฐ จะมีปฏิกิริยายังไง
- ลองดู OpenCV
- ใช้ Frigate หรือ Openclaw ก็ได้ แต่ตัวแรกอาจจะเกินความจำเป็นไปมาก ส่วนตัวหลังเบากว่านิดหน่อย
สงสัยว่าการให้หุ่นยนต์อ่านมาตรวัดแบบแอนะล็อกเป็นแนวทางที่ถูกต้องหรือเปล่า
เปลี่ยนเป็น เซ็นเซอร์ดิจิทัล ไปเลยจะดีกว่าไหม
- แต่ในโลกจริงถ้าจะเปลี่ยนต้องมีการอนุมัติทางวิศวกรรม, หยุดโรงงาน, เดินสาย, เชื่อมกับ SCADA และอื่น ๆ ซึ่ง มีค่าใช้จ่ายและขั้นตอนมหาศาล
  เลยเทียบตรง ๆ ได้ยาก และคนมักประเมินความซับซ้อนของการเปลี่ยนแปลงแบบนี้ต่ำเกินไป
- แทนที่จะหยุดเครื่องแล้วเปลี่ยนอุปกรณ์ การติดตั้ง กล้อง IoT อาจถูกกว่าและเชื่อถือได้กว่ามาก
  หลักการ “ถ้ายังไม่พัง ก็อย่าเพิ่งซ่อม” ใช้ได้ดี
ถ้าเอาสิ่งนี้ไปเชื่อมกับระบบ ‘LLMs can control robots over MCP’ ของฉันก็น่าจะลงตัวมาก
เพราะ LLM เขียนโค้ดได้ดี เลยอยากใช้ความสามารถนั้นให้เกิดประโยชน์
กำลังจะทดสอบกับหุ่นยนต์ตัวใหญ่ที่เพิ่งซื้อมา
โพสต์ที่เกี่ยวข้อง
- ทำให้นึกถึงวิดีโอเกี่ยวกับ Google PaLM-E ที่ดูเมื่อประมาณ 2 สัปดาห์ก่อน
  เป็นสถาปัตยกรรมที่รวมโมเดลควบคุมหุ่นยนต์กับ LLM เข้าด้วยกันผ่าน attention layer
ส่วนที่สงสัยที่สุดคือเรื่อง latency
งานรับรู้บางอย่างมันดีกว่าโมเดล vision ชั้นนำ แต่สำหรับหุ่นยนต์แล้ว ประสิทธิภาพระดับ Hz สำคัญมาก
เลยเดาว่าน่าจะยังช้าอยู่
- ลองทดสอบใน AI Studio แล้วพบว่าความสามารถด้านการรับรู้อยู่ระดับ 3.1 Pro แต่เร็วกว่าเยอะ
  มันใช้เวลา ‘คิด’ แค่ไม่กี่วินาทีแล้วก็ให้ผลลัพธ์
  เรื่องอย่างการนับจำนวนขาสัตว์หรือการอ่านนาฬิกาแอนะล็อก โมเดลนี้ให้ ประสิทธิภาพต่อทรัพยากร ที่สูงมาก
คำว่า “โมเดลหุ่นยนต์ที่ปลอดภัยที่สุด” ฟังดูน่าสนใจ
Gemini Robotics-ER 1.6 ปฏิบัติตามนโยบายความปลอดภัยได้ดีกว่ารุ่นก่อนหน้า
แต่ก็ยังไม่ถึงขั้นพร้อมใช้งานเชิงพาณิชย์อย่างสมบูรณ์ และแนวทางที่มองความปลอดภัยเป็น เป้าหมายที่ต้องมุ่งไปหา ก็ดูสมจริงดี
AI สำหรับหุ่นยนต์อาจมีโมเดลภายในที่อยู่ระดับ GPT-2 หรือ GPT-3 แล้วก็ได้
แต่เพราะ ความล้มเหลวในสภาพแวดล้อมจริงในชีวิตประจำวัน อาจร้ายแรงมาก เลยคิดว่ายังเปิดเผยออกมาไม่ได้ง่าย ๆ
เช่น ถ้าทำจานแตกแค่ใบเดียวในเครื่องล้างจาน ก็คงถูกมองว่าเป็นปัญหาใหญ่
- สุดสัปดาห์เพิ่งดู Bicentennial Man (1999) แล้วฉากเครื่องล้างจานน่าประทับใจมาก
  เป็นหนังที่เหมาะจะดูในช่วงเวลานี้เลย
- จานแตกสักใบอาจไม่ใช่ปัญหาใหญ่อะไรก็ได้
  Roomba รุ่นแรก ๆ ก็พังเละเทะบ่อย แต่ตลาดก็ยังยอมรับ และสุดท้ายมันก็พัฒนาขึ้น
  คิดว่าสิ่งสำคัญคือเข้าไปในตลาดก่อนแล้ว เก็บข้อมูล ต่อให้ยังไม่สมบูรณ์แบบ
- ฉันเองก็เคยทำจานแตกในเครื่องล้างจานหลายครั้ง
  ไม่มีระบบไหนสมบูรณ์แบบ
- ต่อให้เป็นมนุษย์อย่างฉันก็ยังทำจานแตกเดือนละสองครั้ง
  ถ้าหุ่นยนต์ทำได้ดีกว่านั้นก็ถือว่า ดีขึ้น แล้ว
- ตอนนี้วงการหุ่นยนต์ยังขาด ข้อมูลระดับอินเทอร์เน็ตสเกล
  จะอ้างว่ามีโมเดลระดับ GPT แล้วก็ดูไม่ค่อยซื่อตรงนัก
กำลังลังเลว่าควรใช้โมเดลปัจจุบันนี้ต่อไปจนกว่า Google จะเปิดตัว Gemini Flash 3.1 อย่างเป็นทางการหรือไม่

Gemini Robotics-ER 1.6: การให้เหตุผลเชิงกายภาพที่ดีขึ้น

ภาพรวมของ Gemini Robotics-ER 1.6

ฟีเจอร์หลักและการปรับปรุงประสิทธิภาพ

การชี้ (Pointing): พื้นฐานของการให้เหตุผลเชิงพื้นที่

การตรวจจับความสำเร็จ (Success Detection): เอนจินหลักของความเป็นอัตโนมัติ

การอ่านเครื่องมือวัด (Instrument Reading): การให้เหตุผลด้วยภาพในสภาพแวดล้อมจริง

การปรับปรุงด้านความปลอดภัย

ความร่วมมือกับชุมชนหุ่นยนต์

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News