1 คะแนน โดย GN⁺ 14 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดล การให้เหตุผลเชิงกายภาพ (embodied reasoning) ที่ได้รับการปรับปรุง ซึ่งออกแบบมาเพื่อให้หุ่นยนต์เข้าใจสภาพแวดล้อมทางกายภาพได้อย่างแม่นยำและทำงานได้อย่างอัตโนมัติ โดยเสริมความสามารถด้านการให้เหตุผลเชิงพื้นที่และการวางแผนงานอย่างมาก
  • ทำหน้าที่ด้านการตัดสินใจระดับสูงของหุ่นยนต์ เช่น ความเข้าใจด้านภาพและพื้นที่, การตรวจจับความสำเร็จ, และ การให้เหตุผลจากหลายมุมมอง พร้อมทั้งจัดการงานที่ซับซ้อนได้โดยตรงผ่าน Google Search หรือการเรียกใช้ฟังก์ชันภายนอก
  • ฟังก์ชัน การชี้ (Pointing) ช่วยให้ทำตรรกะเชิงพื้นที่ได้หลากหลาย เช่น การตรวจจับวัตถุ การเปรียบเทียบ และการประเมินเส้นทาง พร้อมลดความผิดพลาดจากภาพหลอนและเพิ่มความแม่นยำในการรับรู้เมื่อเทียบกับเวอร์ชันก่อนหน้า
  • เพิ่มฟังก์ชันใหม่ การอ่านเครื่องมือวัด (Instrument Reading) ทำให้หุ่นยนต์ Spot ของ Boston Dynamics สามารถตีความเทอร์โมมิเตอร์ เกจวัดแรงดัน และอุปกรณ์ในโรงงานอุตสาหกรรมได้อย่างแม่นยำ
  • จุดเด่นคือ อัตราการปฏิบัติตามนโยบายความปลอดภัยที่ดีขึ้น และความร่วมมือกับชุมชน ซึ่งช่วยเพิ่มความเป็นอัตโนมัติและความน่าเชื่อถือในสภาพแวดล้อมจริง

ภาพรวมของ Gemini Robotics-ER 1.6

  • Gemini Robotics-ER 1.6 คือ โมเดลการให้เหตุผลเชิงกายภาพที่ได้รับการปรับปรุง ซึ่งออกแบบมาเพื่อให้หุ่นยนต์เข้าใจสภาพแวดล้อมทางกายภาพได้อย่างแม่นยำและทำงานได้อย่างอัตโนมัติ
  • เสริม ความสามารถในการให้เหตุผลระดับสูง ที่จำเป็นต่อหุ่นยนต์ เช่น การให้เหตุผลเชิงพื้นที่ ความเข้าใจจากหลายมุมมอง การวางแผนงาน และการตรวจจับความสำเร็จ
  • สามารถ เรียกใช้เครื่องมือต่าง ๆ เพื่อทำงานได้โดยตรง เช่น Google Search, โมเดล Vision-Language-Action (VLA) และฟังก์ชันที่ผู้ใช้กำหนดจากภายนอก
  • เมื่อเทียบกับ Gemini Robotics-ER 1.5 และ Gemini 3.0 Flash มีการปรับปรุงประสิทธิภาพอย่างชัดเจนในการให้เหตุผลเชิงพื้นที่และกายภาพ เช่น การชี้ การนับ และการตรวจจับความสำเร็จ
  • เพิ่มฟังก์ชันใหม่ การอ่านเครื่องมือวัด (instrument reading) ที่พัฒนาร่วมกับ Boston Dynamics

ฟีเจอร์หลักและการปรับปรุงประสิทธิภาพ

  • Gemini Robotics-ER 1.6 เปิดให้ใช้งานสำหรับนักพัฒนาผ่าน Gemini API และ Google AI Studio
    • มีตัวอย่าง Colab บน GitHub สำหรับการตั้งค่าโมเดลและการสร้างพรอมป์ต์สำหรับงานด้านการให้เหตุผลเชิงกายภาพ
  • โมเดลทำหน้าที่เป็นเอนจินการให้เหตุผลระดับบนของหุ่นยนต์ โดยรับผิดชอบการตัดสินใจระดับสูง เช่น ความเข้าใจเชิงภาพและเชิงพื้นที่, การวางแผนงาน, และ การตรวจจับความสำเร็จ
  • ใช้ agentic vision เพื่อผสานการให้เหตุผลด้านภาพเข้ากับการรันโค้ด ทำให้ได้ความแม่นยำสูงแม้ในสภาพแวดล้อมทางกายภาพที่ซับซ้อน

การชี้ (Pointing): พื้นฐานของการให้เหตุผลเชิงพื้นที่

  • การชี้เป็นฟังก์ชันหลักของโมเดลการให้เหตุผลเชิงกายภาพ และถูกนำไปใช้กับตรรกะเชิงพื้นที่หลากหลายรูปแบบ เช่น การตรวจจับวัตถุ การเปรียบเทียบ และการประเมินเส้นทาง
    • การให้เหตุผลเชิงพื้นที่: การตรวจจับวัตถุและการนับจำนวนอย่างแม่นยำ
    • ตรรกะความสัมพันธ์: การระบุรายการที่น้อยที่สุดในชุด และการกำหนดความสัมพันธ์อย่าง “ย้าย X ไปยังตำแหน่ง Y”
    • การให้เหตุผลด้านการเคลื่อนไหว: การแมปวิถีการเคลื่อนที่และการระบุจุดหยิบจับที่เหมาะสมที่สุด
    • การปฏิบัติตามข้อจำกัด: การจัดการคำสั่งซับซ้อนอย่าง “ชี้วัตถุทั้งหมดที่มีขนาดเล็กพอจะใส่ในถ้วยสีน้ำเงินได้”
  • Gemini Robotics-ER 1.6 ใช้การชี้เป็นขั้นตอนกลางเพื่อแก้ปัญหางานที่ซับซ้อนแบบเป็นลำดับ
    • ตัวอย่าง: การนับจำนวนวัตถุในภาพ หรือการระบุจุดสำคัญสำหรับการคำนวณทางคณิตศาสตร์
  • ผลการทดลองแสดงให้เห็นว่า 1.6 ระบุวัตถุหลายชนิดได้อย่างแม่นยำ เช่น ค้อน กรรไกร แปรงทาสี และคีม และไม่ชี้ไปยังวัตถุที่ไม่มีอยู่จริง (เช่น รถเข็นล้อเดียว สว่าน)
    • 1.5 ระบุวัตถุบางอย่างผิดพลาดหรือเกิดภาพหลอน (hallucination) กับวัตถุที่ไม่มีอยู่จริง
    • 3.0 Flash มีประสิทธิภาพใกล้เคียงกัน แต่ความแม่นยำในการระบุคีมยังต่ำกว่า

การตรวจจับความสำเร็จ (Success Detection): เอนจินหลักของความเป็นอัตโนมัติ

  • ความสามารถของหุ่นยนต์ในการรับรู้เวลาที่งานเสร็จสมบูรณ์เป็นองค์ประกอบสำคัญของความเป็นอัตโนมัติ
  • Gemini Robotics-ER 1.6 ปรับปรุง การให้เหตุผลจากหลายมุมมอง (multi-view reasoning) เพื่อให้เข้าใจความสัมพันธ์ระหว่างฟีดจากกล้องหลายตัว
    • สามารถตีความฉากได้อย่างสอดคล้องแม้ในสภาพแวดล้อมที่ซับซ้อน มีการบังกันของวัตถุ (occlusion) ปัญหาแสง หรือคำสั่งที่กำกวม
    • ตัวอย่าง: ตัดสินได้อย่างแม่นยำจากวิดีโอหลายมุมว่าภารกิจ “ใส่ปากกาสีน้ำเงินลงในที่ใส่ปากกาสีดำ” เสร็จสมบูรณ์แล้วหรือไม่

การอ่านเครื่องมือวัด (Instrument Reading): การให้เหตุผลด้วยภาพในสภาพแวดล้อมจริง

  • ฟังก์ชันสำหรับตีความ เครื่องมือวัด เช่น เทอร์โมมิเตอร์ เกจวัดแรงดัน และ sight glass ในโรงงานอุตสาหกรรม
    • หุ่นยนต์ Spot ของ Boston Dynamics ถ่ายภาพเครื่องมือในสถานที่ และ Gemini Robotics-ER 1.6 เป็นผู้ตีความข้อมูลเหล่านั้น
  • รองรับการอ่านเครื่องมือหลากหลายรูปแบบ เช่น เกจวัดแรงดันแบบวงกลม ตัวบ่งชี้ระดับแนวตั้ง และเครื่องมือดิจิทัล
  • กระบวนการอ่านจะตีความองค์ประกอบภาพที่ซับซ้อนร่วมกัน เช่น ระดับของของเหลว ตำแหน่งสเกล ข้อความหน่วย และเข็มหลายอัน
    • ในกรณีของ sight glass ระบบจะประเมินระดับของเหลวโดยคำนึงถึงความบิดเบี้ยวจากกล้อง
  • ผ่าน agentic vision ระบบสามารถทำ การซูม (zoom), การชี้, และ การรันโค้ด แบบเป็นขั้นตอน จนบรรลุการอ่านที่แม่นยำในระดับ ต่ำกว่าหนึ่งขีดสเกล (sub-tick)
  • Marco da Silva รองประธานของ Boston Dynamics กล่าวว่า ฟังก์ชันนี้ทำให้ Spot สามารถ รับรู้และตอบสนองต่อปัญหาในโลกจริงได้อย่างอัตโนมัติเต็มรูปแบบ

การปรับปรุงด้านความปลอดภัย

  • Gemini Robotics-ER 1.6 ได้รับการประเมินว่าเป็น โมเดลหุ่นยนต์ที่ปลอดภัยที่สุด
    • มีอัตราการปฏิบัติตาม นโยบายความปลอดภัยของ Gemini สูงกว่ารุ่นก่อนหน้า
  • เสริมความสามารถในการปฏิบัติตามข้อจำกัดด้านความปลอดภัยทางกายภาพ
    • ตัวอย่าง: สะท้อนข้อจำกัดอย่าง “ห้ามจัดการของเหลว” หรือ “ห้ามยกวัตถุที่หนักเกิน 20 กก.” ตั้งแต่ในขั้นตอนเอาต์พุตเชิงพื้นที่ (การชี้)
  • ในการทดสอบ การรับรู้สถานการณ์ความปลอดภัยจากข้อความและวิดีโอ ที่อ้างอิงจากรายงานอุบัติเหตุจริง
    • ดีขึ้นเมื่อเทียบกับ Gemini 3.0 Flash ที่ข้อความ +6% และวิดีโอ +10%
  • ในการประเมิน Safety Instruction Following มีการปรับปรุงอย่างมากเมื่อเทียบกับ 1.5 และความแม่นยำของการชี้ก็ดีขึ้นเช่นกัน

ความร่วมมือกับชุมชนหุ่นยนต์

  • Google DeepMind เดินหน้าความร่วมมือกับ ชุมชนหุ่นยนต์ เพื่อพัฒนาความสามารถของ Gemini Robotics-ER อย่างต่อเนื่อง
    • หากมีข้อจำกัดในโดเมนการใช้งานเฉพาะ ขอให้ส่ง ภาพที่ติดป้ายกำกับ 10–50 ภาพ เพื่อแชร์กรณีที่ล้มเหลว
    • มีเป้าหมายเพื่อ เสริมความแข็งแกร่งของความสามารถในการให้เหตุผล ในรุ่นถัดไป
  • สามารถทดลองใช้ Gemini Robotics-ER 1.6 ได้ทันทีใน Google AI Studio

1 ความคิดเห็น

 
GN⁺ 14 일 전
ความคิดเห็นจาก Hacker News
  • รู้สึกว่าเรากำลังเข้าใกล้ระดับที่สามารถ เลียนแบบพฤติกรรม ของมนุษย์หรือสัตว์ได้มากขึ้นเรื่อย ๆ
    ถ้าสามารถวางแพตเทิร์นการ orchestration ที่ทำงานคล้ายสมองไว้บนโมเดลเชิงกำเนิดได้ และถ้าความเร็วในการอนุมานเร็วพอ ก็น่าจะทำอะไรได้อีกมาก
    ตัวอย่างเช่น ตอนนี้การสร้างและรันสคริปต์ Python เพื่ออ่านเกจยังช้าอยู่ แต่ถ้าเร็วขึ้น 100x~1000x ก็ดูเหมือนว่าโมเดลจะสามารถถ่ายภาพ, จำลอง อนาคต, และสร้างลูปที่ตัดสินใจได้ด้วยตัวเอง

    • Taalas กำลังทดลองฝังโมเดลลงบนชิปโดยตรงเพื่อทำ การอนุมานความเร็วสูงพิเศษ
      แม้โมเดลที่ใช้จะเป็น Llama รุ่นเก่าและคุณภาพยังต่ำ แต่ถ้ามันขยายต่อได้ก็น่าจะเป็นเรื่องใหญ่มาก
    • Taalas แสดงให้เห็นว่าสามารถแปลง LLM เป็น ASIC และสร้างได้เร็วกว่า 10,000 โทเคน
      คิดว่าท้ายที่สุดก็เป็นแค่เรื่องของเวลา
    • สงสัยว่าการเลียนแบบพฤติกรรมมนุษย์เป็นเป้าหมายที่มีคุณค่าจริงหรือไม่
      มนุษย์เป็นผลผลิตทางวิวัฒนาการของการล่าสัตว์และการสร้างเครื่องมือ แต่ระบบอัตโนมัติในอุตสาหกรรมจริงกลับพัฒนาไปในทางที่ไม่ใช่มนุษย์รูปร่างเหมือนคน แต่เป็น รูปทรงใช้งานจริงแบบ R2D2 มากกว่า
      หุ่นยนต์ใช้ในบ้านก็น่าจะใกล้เคียงทางนั้นมากกว่า
    • มีมุกขำ ๆ ว่าถ้าเอา ‘slop image’ ใส่เข้าไปใน ‘slop machine’ จะได้ ‘slop²’ ไหม
  • ลองจินตนาการว่ามีที่ดินแปลงหนึ่ง พร้อมขาหุ่นยนต์, แขน, แบตเตอรี่, GPU, และแผงโซลาร์
    แล้วสั่งผ่านพรอมป์ต์ว่า “จัดการที่ดินผืนนี้และปลูกผัก” จะเป็นยังไง

    • ตอนนี้ผลลัพธ์ยังไม่แน่ชัด แต่พรอมป์ต์แบบดั้งเดิมคือ “จงเกิดผลและทวีจำนวนขึ้น
    • คำว่า “ดูแลที่ดินผืนนี้” อาจหมายถึง การจัดการไฟขนาดเล็ก ที่ชนพื้นเมืองในแคลิฟอร์เนียทำกันมาหลายพันปี
      ญี่ปุ่นมี satoyama, แอฟริกามีการปลูกพืชหมุนเวียน, รัสเซียมีการเพาะปลูกตามแนวระดับ แต่ละภูมิภาคต่างก็มีวิธีเฉพาะของตัวเอง
      ประเด็นคือวิธีดูแลผืนดินนั้นขึ้นอยู่กับ บริบทท้องถิ่นและเป้าหมาย
    • สงสัยว่าการทดลองอย่าง Proof of Corn ตอนนี้ไปถึงไหนแล้ว
    • มีมุกว่า “จบแล้ว! ตอนนี้ทั้งโลกกลายเป็นแปลงผักไปหมดแล้ว”
  • Google และ Boston Dynamics กำลังร่วมกันพัฒนาโมเดล
    ตอนนี้ Hyundai ได้เข้าซื้อ Boston Dynamics และกำลังพยายามนำหุ่นยนต์ไปใช้ในงานอัตโนมัติในโรงงาน

  • เคยคิดว่าน่าจะมีซอฟต์แวร์ที่เอากล้องไปถ่ายเกจวัดแรงดันแล้วบันทึกเป็นกราฟได้
    เลยสงสัยว่ามีของสำหรับผู้บริโภคทั่วไปไหม

    • ถ้าขอ Claude ก็ให้มันทำให้ได้ในครั้งเดียวได้เลย รวมถึงแดชบอร์ด Home Assistant ด้วย
    • สงสัยว่าถ้ามีกล้องติดอยู่ตามมิเตอร์รอบบ้าน เจ้าหน้าที่รัฐ จะมีปฏิกิริยายังไง
    • ลองดู OpenCV
    • ใช้ Frigate หรือ Openclaw ก็ได้ แต่ตัวแรกอาจจะเกินความจำเป็นไปมาก ส่วนตัวหลังเบากว่านิดหน่อย
  • สงสัยว่าการให้หุ่นยนต์อ่านมาตรวัดแบบแอนะล็อกเป็นแนวทางที่ถูกต้องหรือเปล่า
    เปลี่ยนเป็น เซ็นเซอร์ดิจิทัล ไปเลยจะดีกว่าไหม

    • แต่ในโลกจริงถ้าจะเปลี่ยนต้องมีการอนุมัติทางวิศวกรรม, หยุดโรงงาน, เดินสาย, เชื่อมกับ SCADA และอื่น ๆ ซึ่ง มีค่าใช้จ่ายและขั้นตอนมหาศาล
      เลยเทียบตรง ๆ ได้ยาก และคนมักประเมินความซับซ้อนของการเปลี่ยนแปลงแบบนี้ต่ำเกินไป
    • แทนที่จะหยุดเครื่องแล้วเปลี่ยนอุปกรณ์ การติดตั้ง กล้อง IoT อาจถูกกว่าและเชื่อถือได้กว่ามาก
      หลักการ “ถ้ายังไม่พัง ก็อย่าเพิ่งซ่อม” ใช้ได้ดี
  • ถ้าเอาสิ่งนี้ไปเชื่อมกับระบบ ‘LLMs can control robots over MCP’ ของฉันก็น่าจะลงตัวมาก
    เพราะ LLM เขียนโค้ดได้ดี เลยอยากใช้ความสามารถนั้นให้เกิดประโยชน์
    กำลังจะทดสอบกับหุ่นยนต์ตัวใหญ่ที่เพิ่งซื้อมา
    โพสต์ที่เกี่ยวข้อง

    • ทำให้นึกถึงวิดีโอเกี่ยวกับ Google PaLM-E ที่ดูเมื่อประมาณ 2 สัปดาห์ก่อน
      เป็นสถาปัตยกรรมที่รวมโมเดลควบคุมหุ่นยนต์กับ LLM เข้าด้วยกันผ่าน attention layer
  • ส่วนที่สงสัยที่สุดคือเรื่อง latency
    งานรับรู้บางอย่างมันดีกว่าโมเดล vision ชั้นนำ แต่สำหรับหุ่นยนต์แล้ว ประสิทธิภาพระดับ Hz สำคัญมาก
    เลยเดาว่าน่าจะยังช้าอยู่

    • ลองทดสอบใน AI Studio แล้วพบว่าความสามารถด้านการรับรู้อยู่ระดับ 3.1 Pro แต่เร็วกว่าเยอะ
      มันใช้เวลา ‘คิด’ แค่ไม่กี่วินาทีแล้วก็ให้ผลลัพธ์
      เรื่องอย่างการนับจำนวนขาสัตว์หรือการอ่านนาฬิกาแอนะล็อก โมเดลนี้ให้ ประสิทธิภาพต่อทรัพยากร ที่สูงมาก
  • คำว่า “โมเดลหุ่นยนต์ที่ปลอดภัยที่สุด” ฟังดูน่าสนใจ
    Gemini Robotics-ER 1.6 ปฏิบัติตามนโยบายความปลอดภัยได้ดีกว่ารุ่นก่อนหน้า
    แต่ก็ยังไม่ถึงขั้นพร้อมใช้งานเชิงพาณิชย์อย่างสมบูรณ์ และแนวทางที่มองความปลอดภัยเป็น เป้าหมายที่ต้องมุ่งไปหา ก็ดูสมจริงดี

  • AI สำหรับหุ่นยนต์อาจมีโมเดลภายในที่อยู่ระดับ GPT-2 หรือ GPT-3 แล้วก็ได้
    แต่เพราะ ความล้มเหลวในสภาพแวดล้อมจริงในชีวิตประจำวัน อาจร้ายแรงมาก เลยคิดว่ายังเปิดเผยออกมาไม่ได้ง่าย ๆ
    เช่น ถ้าทำจานแตกแค่ใบเดียวในเครื่องล้างจาน ก็คงถูกมองว่าเป็นปัญหาใหญ่

    • สุดสัปดาห์เพิ่งดู Bicentennial Man (1999) แล้วฉากเครื่องล้างจานน่าประทับใจมาก
      เป็นหนังที่เหมาะจะดูในช่วงเวลานี้เลย
    • จานแตกสักใบอาจไม่ใช่ปัญหาใหญ่อะไรก็ได้
      Roomba รุ่นแรก ๆ ก็พังเละเทะบ่อย แต่ตลาดก็ยังยอมรับ และสุดท้ายมันก็พัฒนาขึ้น
      คิดว่าสิ่งสำคัญคือเข้าไปในตลาดก่อนแล้ว เก็บข้อมูล ต่อให้ยังไม่สมบูรณ์แบบ
    • ฉันเองก็เคยทำจานแตกในเครื่องล้างจานหลายครั้ง
      ไม่มีระบบไหนสมบูรณ์แบบ
    • ต่อให้เป็นมนุษย์อย่างฉันก็ยังทำจานแตกเดือนละสองครั้ง
      ถ้าหุ่นยนต์ทำได้ดีกว่านั้นก็ถือว่า ดีขึ้น แล้ว
    • ตอนนี้วงการหุ่นยนต์ยังขาด ข้อมูลระดับอินเทอร์เน็ตสเกล
      จะอ้างว่ามีโมเดลระดับ GPT แล้วก็ดูไม่ค่อยซื่อตรงนัก
  • กำลังลังเลว่าควรใช้โมเดลปัจจุบันนี้ต่อไปจนกว่า Google จะเปิดตัว Gemini Flash 3.1 อย่างเป็นทางการหรือไม่