4 คะแนน โดย GN⁺ 2025-03-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • นำ Gemini 2.0 มาสู่โลกหุ่นยนต์ พร้อมเปิดตัวโมเดลวิชัน-ภาษา-การกระทำ (VLA) และโมเดล ER ที่เข้าใจมิติพื้นที่
  • Google DeepMind ได้พัฒนาความสามารถด้านการให้เหตุผลแบบหลายโมดัลโดยใช้ข้อความ ภาพ เสียง และวิดีโอ เพื่อแก้ปัญหาที่ซับซ้อนมาอย่างต่อเนื่อง
  • แต่ความสามารถเหล่านี้ก่อนหน้านี้ยังจำกัดอยู่เพียงในสภาพแวดล้อมดิจิทัล
  • หาก AI จะมีประโยชน์ในโลกกายภาพ จำเป็นต้องมีความสามารถในการ เข้าใจและตอบสนองต่อสภาพแวดล้อมได้เหมือนมนุษย์ และทำงานได้อย่างปลอดภัยด้วยความสามารถด้าน "การให้เหตุผลแบบมีร่างกาย (embodied reasoning)"
  • ด้วยเหตุนี้จึงเปิดตัวโมเดลใหม่ 2 แบบ
    • Gemini Robotics: โมเดลวิชัน-ภาษา-การกระทำ (VLA) ที่สร้างบน Gemini 2.0 และสามารถควบคุมหุ่นยนต์ได้โดยตรง
    • Gemini Robotics-ER: โมเดลที่มอบความสามารถด้านความเข้าใจเชิงพื้นที่และการควบคุมหุ่นยนต์ที่ดียิ่งขึ้น
  • กำลังพัฒนาหุ่นยนต์ฮิวแมนนอยด์รุ่นถัดไปร่วมกับ Apptronik
  • กำลังปรับปรุงประสิทธิภาพของโมเดลร่วมกับผู้ใช้ทดสอบที่เชื่อถือได้จำนวนหนึ่ง

Gemini Robotics: โมเดลวิชัน-ภาษา-การกระทำที่ล้ำหน้าที่สุด

1. ความสามารถในการทั่วไป (Generality)

  • สามารถปรับตัวในสถานการณ์ใหม่และทำงานได้หลากหลาย
  • ทำงานได้ดีในวัตถุ คำสั่ง และสภาพแวดล้อมใหม่
  • ตามรายงานทางเทคนิค ประสิทธิภาพด้านการทั่วไปดีขึ้น มากกว่า 2 เท่า เมื่อเทียบกับโมเดล VLA เดิม

2. ความสามารถในการโต้ตอบ (Interactivity)

  • เข้าใจและตอบสนองต่อคำสั่งภาษาธรรมชาติได้
  • รองรับทั้งหลายภาษาและคำสั่งภาษาพูดในชีวิตประจำวัน
  • ตอบสนองต่อการเปลี่ยนแปลงของสภาพแวดล้อมแบบเรียลไทม์และปรับพฤติกรรมได้
  • แม้วัตถุจะลื่นหลุดจากมือหรือตำแหน่งเปลี่ยนไป ก็สามารถวางแผนใหม่ได้ทันทีและทำงานต่อได้

3. ความคล่องแคล่วของมือ (Dexterity)

  • เสริมความสามารถในการทำงานที่ต้องใช้ความละเอียด
  • ทำงานหลายขั้นตอนที่ซับซ้อนได้ (เช่น พับกระดาษ ใส่ขนมลงในถุงซิปล็อก)

4. ใช้ได้กับหุ่นยนต์หลายรูปแบบ (Multiple embodiments)

  • ปรับใช้กับหุ่นยนต์หลากหลายรูปแบบได้ง่าย
  • ยืนยันการทำงานแล้วบนหุ่นยนต์ ALOHA 2, หุ่นยนต์ที่ใช้ Franka และหุ่นยนต์ฮิวแมนนอยด์ Apollo

Gemini Robotics-ER: ความสามารถด้านความเข้าใจเชิงพื้นที่ที่เสริมขึ้น

  • ยกระดับความสามารถด้านการรับรู้เชิงพื้นที่และการตรวจจับ 3D ของ Gemini 2.0 อย่างมาก
  • ทำให้หุ่นยนต์รับรู้ตำแหน่งของวัตถุและจัดการได้อย่างเหมาะสม
  • ผสาน ความสามารถในการสร้างโค้ด → ทำให้หุ่นยนต์สามารถสร้างวิธีทำงานใหม่ขึ้นมาได้ทันที
  • อัตราความสำเร็จดีขึ้น 2~3 เท่า เมื่อเทียบกับ Gemini 2.0
  • ตัวอย่างการสาธิต: รับรู้หูจับของแก้วกาแฟ เข้าถึงตามเส้นทางที่ปลอดภัย และหยิบขึ้นมา

กลยุทธ์เสริมความปลอดภัยของ AI และหุ่นยนต์

  • มุ่งเน้นการแก้ปัญหาความปลอดภัยทางกายภาพของหุ่นยนต์
  • หุ่นยนต์ดำเนินมาตรการความปลอดภัยแบบดั้งเดิม เช่น หลีกเลี่ยงการชน จำกัดแรงสัมผัส และรักษาเสถียรภาพแบบไดนามิก
  • Gemini Robotics-ER สามารถตัดสินใจได้ว่าจะทำงานหรือไม่เมื่อมีข้อกังวลด้านความปลอดภัย และตอบสนองได้อย่างเหมาะสม
  • เปิดตัว ชุดข้อมูล ASIMOV ใหม่ → เพื่อประเมินและปรับปรุงความปลอดภัยของพฤติกรรมหุ่นยนต์
  • ร่วมมือกับคณะกรรมการด้านความรับผิดชอบและความปลอดภัยภายใน รวมถึงผู้เชี่ยวชาญภายนอก เพื่อแก้ไขประเด็นด้านจริยธรรม

พาร์ตเนอร์หลักและแผนในอนาคต

  • ร่วมมือกับ Apptronik เพื่อพัฒนาหุ่นยนต์ฮิวแมนนอยด์
  • Agile Robots, Agility Robots, Boston Dynamics, Enchanted Tools และรายอื่น ๆ กำลังทดสอบ Gemini Robotics-ER
  • มีแผนผลักดันการพัฒนาเทคโนโลยี AI และหุ่นยนต์ต่อไปในอนาคต

ลิงก์ที่เกี่ยวข้อง

1 ความคิดเห็น

 
GN⁺ 2025-03-13
ความเห็นบน Hacker News
  • มีลิงก์เพลย์ลิสต์รวมที่สามารถดูวิดีโอเดโม 20 รายการบน YouTube ได้
  • อดสงสัยไม่ได้ว่าไม่มีใครจำได้เลยหรือว่าเดโมที่น่าประทับใจของ Google Gemini ก่อนหน้านี้เคยถูกจัดฉากมาก่อน
  • เคยคิดว่ากฎสามข้อของหุ่นยนต์ของอาซิมอฟเป็นเพียงองค์ประกอบนิยายวิทยาศาสตร์ที่น่าสนใจ แต่ห่างไกลจากการคำนวณจริง
    • กลายเป็นว่าอาซิมอฟล้ำยุคถึงขั้นกำลังเขียนพรอมป์ต์ LLM อยู่
  • ถ้าการคัดแยกขยะทำได้ง่ายและเร็วขึ้น ก็อาจเพิ่มประสิทธิภาพการรีไซเคิลได้ 100 เท่า
    • มีบางแห่งที่ทำแบบนั้นอยู่แล้ว แต่ยังมีงานง่าย ๆ อีกมากที่หุ่นยนต์สามารถช่วยทำให้โลกดีขึ้นได้
  • ช่วงท้ายของวิดีโอหลัก ฉากที่หุ่นยนต์สวมสายพานวงแหวนเข้ากับรอกดูน่าประทับใจมาก
    • แม้ข้อมูลฝึกจะน่าจะมีพฤติกรรมลักษณะนี้อยู่มาก แต่ก็ให้ความรู้สึกจับต้องได้กว่าการพับเสื้อหรือคัดแยกสิ่งของ
    • ฟังก์ชันเล่นอัตโนมัติ/หยุดชั่วคราว/เลื่อนหน้าบนเพจดูเหมือนจะเสีย
  • อยากได้อุปกรณ์ที่ทำงานเป็นนักแปลสองทางแบบเรียลไทม์
    • คงดีถ้าสามารถใช้ชีวิตอยู่ที่นั่นได้โดยไม่ต้องเสียเวลาเรียนภาษาเยอรมันหรือภาษาอื่น
    • ถ้าสั่งอาหารและจัดการงานราชการได้ด้วยภาษาอังกฤษอย่างเดียวก็น่าทึ่งมาก
  • ทุกคนน่าจะสั่งแขนกลจากจีนมาติดตั้งในโรงรถ แล้วโปรแกรมมันด้วยข้อความเหมือน LLM ได้
    • ถึงเวลาคิดให้ใหญ่ขึ้นแล้ว
  • ยังไม่แน่ใจว่าวิดีโอนี้สะท้อนประสิทธิภาพจริงหรือเป็นกลยุทธ์การตลาด แต่ก็น่าประทับใจ
    • ทำให้นึกถึงแขนกลหุ่นยนต์ใน Iron Man 1
  • ถ้าหุ่นยนต์ชำนาญพอที่จะเตรียมอาหารได้ นั่นคงเป็นจุดเปลี่ยนของตลาดแรงงาน
    • โมเดลตอนนี้ยังไปไม่ถึงระดับนั้น แต่ก็คงต้องรอดูว่าการลงทุนมหาศาลในการสร้างข้อมูลสังเคราะห์ในอีกไม่กี่ปีข้างหน้าจะพาไปใกล้ระดับนั้นได้หรือไม่
  • ปัญหาของ Google คือธุรกิจโฆษณาทำรายได้มากเกินไปจนผลิตภัณฑ์อื่นแทบไม่มีความหมาย
    • พวกเขาจะนำสิ่งที่เรียนรู้จากหุ่นยนต์ไปใช้เพื่อเพิ่มรายได้จากโฆษณา