6 คะแนน โดย GN⁺ 2025-04-04 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Google DeepMind ได้พัฒนา Gemini Robotics โมเดล AI แบบมัลติโหมดสำหรับหุ่นยนต์ยุคถัดไปที่สามารถทำงานทางกายภาพได้
  • โมเดลนี้เป็นเวอร์ชันของ Gemini 2.0 ที่ถูก fine-tune ด้วยข้อมูลเฉพาะทางด้านหุ่นยนต์ เพื่อให้ทำได้ไม่เพียงแค่ข้อความ วิดีโอ และเสียง แต่รวมถึงการลงมือกระทำจริงด้วย
  • หุ่นยนต์สามารถทำงานได้หลากหลาย เช่น ทำสลัด เล่นเกม tic-tac-toe พับกระดาษ และแพ็กกล่องอาหารกลางวัน

กรณีทดสอบจริงและการยืนยันศักยภาพ

  • มีการสั่งงาน หุ่นยนต์แขนคู่ ALOHA สำหรับงานวิจัยให้ทำงานหลายรูปแบบ
    • ตัวอย่าง: ใส่ปากกาเข้าไปในรองเท้า หรือสั่งให้ทำท่าดังก์ลูกบาสเก็ตบอล
    • แม้จะเป็นวัตถุและงานที่หุ่นยนต์ไม่เคยเห็นมาก่อน แต่ก็สามารถเข้าใจคำสั่งและทำสำเร็จได้ตั้งแต่ครั้งแรก
  • ต่างจากโมเดลเดิม ๆ ตรงที่สามารถ เข้าใจและปฏิบัติตามคำสั่งทางกายภาพที่ซับซ้อนด้วยภาษาธรรมชาติ ได้

คุณสมบัติหลักของ Gemini Robotics

  • มี ความยืดหยุ่นสูง ความสามารถในการโต้ตอบ และความสามารถในการทำงานทั่วไปกับสถานการณ์ใหม่
    • สามารถปรับตัวเข้ากับวัตถุ สภาพแวดล้อม และคำสั่งใหม่ได้โดยไม่ต้องฝึกเพิ่ม
  • วางรากฐานสำหรับการทำให้ AI และหุ่นยนต์กลายเป็นเอเจนต์แบบบูรณาการหนึ่งเดียว
  • มอบความสามารถด้านการรับรู้ การตัดสินใจ และการกระทำที่คล้ายมนุษย์

แนะนำโมเดลที่ประกอบกัน

  • Gemini Robotics-ER (Embodied Reasoning):

    • พัฒนาบนพื้นฐานของ Gemini 2.0 Flash
    • สร้างและรันโค้ดผ่านการรับรู้วัตถุ การระบุตำแหน่ง การคาดการณ์เส้นทางการเคลื่อนที่ และการตั้งค่าการจับยึด
    • กำลังเปิดให้ผู้ทดสอบและพาร์ตเนอร์ที่ได้รับความไว้วางใจใช้งาน
  • Gemini Robotics:

    • โมเดลแบบบูรณาการวิชัน-ภาษา-การกระทำ
    • เข้าใจฉาก โต้ตอบกับผู้ใช้ และทำงานหลายขั้นตอนได้
    • ทำผลงานด้านความคล่องแคล่วในการหยิบจับได้ ล้ำหน้าระดับสูงสุดของวงการ แม้ในงานที่ต้องใช้การควบคุมซับซ้อนและการให้เหตุผลเชิงพื้นที่

ความสามารถทางเทคนิคที่เป็นรูปธรรม

  • การตรวจจับวัตถุแบบ 2D และ 3D
  • ความสามารถในการชี้ตำแหน่ง
  • การหาจุดสอดคล้องกันจากหลายมุมมอง
  • มีความสามารถในการควบคุมจัดการวัตถุโดยใช้ข้อมูลภาพหลายรูปแบบ

แนวทางการฝึกและข้อดี

  • ไม่เลือกแนวทางอุตสาหกรรมแบบเดิมที่เป็น การฝึกซ้ำกับงานเดียว แต่เลือก การเรียนรู้แบบกว้างจากงานที่หลากหลาย
  • ผลลัพธ์คือ ความสามารถในการทำงานทั่วไปกับสถานการณ์ใหม่ ปรากฏขึ้นตามธรรมชาติ
  • สามารถนำไปใช้กับหุ่นยนต์หลายรูปแบบได้
    • ตัวอย่าง: ALOHA (เพื่อการวิจัย), Apollo ของ Apptronik (หุ่นยนต์ฮิวแมนนอยด์)

รองรับหุ่นยนต์หลากหลายรูปแบบ

  • หุ่นยนต์หลายรูปแบบสามารถทำงานที่หลากหลายได้ เช่น แพ็กกล่องอาหารกลางวัน ลบไวท์บอร์ด และหยิบวัตถุชิ้นเล็ก
  • ประเด็นสำคัญคือ โมเดลเดียวสามารถปรับเข้ากับหุ่นยนต์หลายตัวได้

วิสัยทัศน์ในอนาคต

  • คาดว่าจะมีประโยชน์ในภาคอุตสาหกรรมที่ต้องการงานละเอียดแม่นยำ หรือในสภาพแวดล้อมที่ไม่เหมาะกับมนุษย์
  • มีศักยภาพที่จะพัฒนาเป็น หุ่นยนต์ที่ช่วยเหลือได้ในสภาพแวดล้อมที่มีมนุษย์เป็นศูนย์กลาง เช่น บ้าน
  • ในชีวิตประจำวันจริง หุ่นยนต์อาจกลายเป็น อีกหนึ่งอินเทอร์เฟซของ AI ได้

1 ความคิดเห็น

 
GN⁺ 2025-04-04
ความคิดเห็นจาก Hacker News
  • พวกเขาทำสิ่งนี้ได้ แต่ Gemini Assistant บนโทรศัพท์ Pixel ก็ยังตั้งตัวจับเวลาหรือเพิ่มรายการซื้อของไม่ได้อยู่ดี (ทั้งที่บน Google Assistant ทำงานได้ดี)
  • ไม่มีคำอธิบายเลยว่า "อย่างไร" แต่ถ้าฟีเจอร์นี้ทำงานได้อย่างน่าเชื่อถือแม้เพียงครึ่งเดียว มันน่าจะมีผลกระทบมากกว่า ChatGPT ราว 100 เท่า
  • ความก้าวหน้าของ AI และวิทยาการหุ่นยนต์น่าตื่นเต้นมาก ด้วยระบบที่ซับซ้อนอย่าง Gemini บริษัทต่าง ๆ คงต้องพึ่งทีมผู้เชี่ยวชาญเพื่อทำให้นวัตกรรมเหล่านี้เกิดขึ้นจริง
    • หากเอาต์ซอร์สบางบทบาทเฉพาะทาง เช่น งานวิจัย AI หรือวิศวกรหุ่นยนต์ บริษัทก็จะดึงคนเก่งระดับท็อปมาร่วมงานได้โดยไม่ต้องแบกรับภาระการจ้างพนักงานประจำ
    • น่าสนใจที่จะได้เห็นว่าการเอาต์ซอร์สจะเข้ามาเสริมงานวิจัยและพัฒนาในอุตสาหกรรมล้ำสมัยอย่างหุ่นยนต์ได้อย่างไร
    • โดยเฉพาะในแง่ของการขยายขนาดและความเร็วในการเข้าสู่ตลาด ก็ชวนสงสัยว่าอุตสาหกรรมจะเปลี่ยนไปอย่างไร
  • ดูเหมือนว่าสุดท้ายแล้วจะมีใครสักคนมาช่วยทำงานบ้าน

    • อ้อ ดีเลย แค่เบื้องหลังนั้นทั้งหมดมีเป้าหมายทางทหาร แต่ก็ชอบความพยายามที่ทำให้เราคิดว่าพวกมันจะมาพับผ้าให้เรา
  • "หยิบลูกบาสแล้วดังก์" นี่แหละ use case ระดับ killer ที่เรารอกันมานาน :)
  • ต่อให้เทคโนโลยีหุ่นยนต์ของ Google (ทั้งซอฟต์แวร์และฮาร์ดแวร์) จะล้ำหน้าแค่ไหน ก็ยังสงสัยว่าพวกเขาจะทำมันให้เป็นผลิตภัณฑ์ได้จริงหรือไม่
    • มันดูคล้ายกับตอนที่พวกเขาเป็นผู้นำเรื่องทรานส์ฟอร์เมอร์ แต่กลับเสียความได้เปรียบทั้งหมดให้ ChatGPT
    • เหมือน Google จะมีอะไรบางอย่างที่ทำให้เปลี่ยนจากงานวิจัยไปเป็นผลิตภัณฑ์ได้ไม่ดีพอ
    • ถ้าคิดว่า Waymo มาถึงจุด product/market fit ได้แล้วในวันนี้ มันก็อาจเป็นตัวอย่างโต้แย้งที่ดี แต่ก็ยังสลัดความรู้สึกไม่ได้ว่าโดยมากแล้ว Google มักเอาของออกสู่ตลาดไม่ได้ หรือถ้าทำได้ก็ยอมเลิกก่อนที่มันจะตั้งหลักได้
    • สงสัยว่ามีใครมีความเห็นหรืออินไซต์แรง ๆ เกี่ยวกับความพยายามด้านหุ่นยนต์ของพวกเขาบ้างไหม
  • พอคิดว่าหุ่นยนต์แบบนี้วันหนึ่งอาจถูกใช้ในอุตสาหกรรมป้องกันประเทศแล้วก็น่ากลัว
    • ถ้าหุ่นยนต์เข้าใจคำสั่งทั่วไปอย่าง "เก็บยางลบให้เรียบร้อย" ได้ ก็ลองนึกถึงคำสั่งอย่าง "กำจัดศัตรูทั้งหมด" ดูสิ
  • แค่อยากรู้ว่า ถ้าสั่งให้มันฆ่าใครสักคน มันจะทำยังไง? จะทำตามกฎของวิทยาการหุ่นยนต์ไหม?
  • April Fools!