Figure สาธิตหุ่นยนต์ที่ผสานรวมกับ OpenAI

xguru · 2024-03-14T09:53:36+09:00

ตอนนี้หุ่นยนต์ Figure 01 สามารถสนทนากับมนุษย์ได้อย่างสมบูรณ์ โมเดลของ OpenAI มอบความสามารถด้านการมองเห็นและภาษาในระดับสูง โครงข่ายประสาทของ Figure ทำให้หุ่นยนต์เคลื่อนไหวได้อย่างรวดเร็ว คล่องแคล่ว และควบคุมระดับล่างได้ดี สามารถอธิบายสิ่งที่มองเห็นได้ และเมื่อถูกขอของกินก็จะหยิบแอปเปิลแล้วยื่นให้ รวมถึงประเมินสถานการณ์เพื่อจัดแก้วและโต๊ะให้เป็นระเบียบได้

(twitter.com/figure_robot)

4 คะแนน โดย xguru 2024-03-14 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ตอนนี้หุ่นยนต์ Figure 01 สามารถสนทนากับมนุษย์ได้อย่างสมบูรณ์
โมเดลของ OpenAI มอบความสามารถด้านการมองเห็นและภาษาในระดับสูง
โครงข่ายประสาทของ Figure ทำให้หุ่นยนต์เคลื่อนไหวได้อย่างรวดเร็ว คล่องแคล่ว และควบคุมระดับล่างได้ดี
สามารถอธิบายสิ่งที่มองเห็นได้ และเมื่อถูกขอของกินก็จะหยิบแอปเปิลแล้วยื่นให้ รวมถึงประเมินสถานการณ์เพื่อจัดแก้วและโต๊ะให้เป็นระเบียบได้

2 ความคิดเห็น

erados 2024-03-14

มีรูปแบบการแสดงผลเพิ่มมาอีกแบบแล้วนะ

xguru 2024-03-14

ความเห็นจาก Hacker News

ประทับใจกับความคล่องแคล่วของหุ่นยนต์ แต่สำหรับคนที่เคยลอง GPT-4 มาแล้ว ความสามารถด้านเสียงและการให้เหตุผลของหุ่นยนต์อาจไม่ได้ดูน่าทึ่งนัก ฟังก์ชันการเรียกใช้ฟังก์ชันนั้นน่าประทับใจ แต่ 'โลก' ที่มันโต้ตอบด้วยนั้นเรียบง่ายมาก การได้เห็นหุ่นยนต์โต้ตอบกับโลกจริงเป็นเรื่องน่าสนใจ สิ่งที่ขัดขวางความก้าวหน้าของ AI ในตอนนี้คือต้นทุนและความเร็วของการให้เหตุผล ถ้าหาวิธีประมวลผลโทเคนได้หลายพันรายการต่อวินาทีในราคาถูกได้ ก็น่าจะแก้ปัญหายาก ๆ ได้มากมาย และได้เห็นแอปพลิเคชันที่น่าทึ่งจริง ๆ
การเลือกหนึ่งในพฤติกรรมที่ฝึกไว้ล่วงหน้าด้วยเสียงนั้นเจ๋ง แต่ไม่ถึงกับปฏิวัติ การใช้ GPT-4V เพื่อบรรยายฉากก็ถือว่าค่อนข้างตรงไปตรงมา สิ่งที่น่าประทับใจที่สุดคือความเร็วในการหยิบขยะและการส่งของจากมือหนึ่งไปอีกมือหนึ่งอย่างลื่นไหล ยังไม่ชัดเจนนักว่านโยบายการเคลื่อนไหวแบบนี้มีความทั่วไปแค่ไหน พอเห็นมนุษย์ยืนนิ่งเป๊ะ ก็รู้สึกว่าถ้าไม่ได้ตั้งค่าทุกอย่างไว้อย่างแม่นยำมันคงล้มเหลว อยากเห็นเดโมที่มีความแปรผันมากกว่านี้ อย่างไรก็ตาม คิดว่าเดโมนี้ยอดเยี่ยม และอยากเห็นมากกว่านี้
การให้เหตุผลแบบหน่วงต่ำของ Groq แสดงให้เห็นประโยชน์ใช้งานจริง แม้จะมีดีเลย์ในการตอบกลับจนทำให้บางคนอาจไม่ประทับใจ แต่ก็ยังน่าทึ่งมากอยู่ดี
ยังสงสัยว่าทำไมหุ่นยนต์ถึงเอาจานสกปรกที่มีทั้งขยะและแอปเปิลวางอยู่ไปใส่ในที่คว่ำจาน จานควรถูกล้างก่อน
ความสามารถในการแปลงข้อความเป็นการเคลื่อนไหวของเซอร์โวมอเตอร์นั้นน่าทึ่ง และดูเหมือนจะใช้ GPT-4 vision กับ Whisper อย่างมาก คำว่า 'การให้เหตุผล' ก็ถูกใช้ในความหมายใหม่ด้วย จะเรียกว่าเป็นบริษัท AI wrapper ก็ได้ แน่นอนว่าสื่อทางกายภาพนั้นต่างจากแอป และต่อให้การพัฒนา AI หยุดลงวันนี้ ก็ยังมีแอปพลิเคชัน AI ที่น่าทึ่งอีกมาก
รูปร่างแบบมนุษย์และเสียงทำให้ความรู้สึกต่างจากเวอร์ชันแชตล้วน ๆ ถ้าเพิ่มดวงตาและการสบตาเข้าไป น่าจะสร้างความประทับใจได้ลึกยิ่งขึ้น นึกภาพการสาธิตสิ่งนี้ให้คนทั่วไปดูได้เลย
การแปลงเสียงเป็นการเคลื่อนไหวของเซอร์โวมอเตอร์นั้นน่าประทับใจมาก ความเร็วในการทำงานที่ต้องใช้ความคล่องแคล่วนั้นน่าทึ่ง และนี่คือเดโมหุ่นยนต์จัดการวัตถุครั้งแรกที่ดู 'เป็นธรรมชาติ' โดยไม่ต้องเร่งความเร็ววิดีโอ
อยากเป็นเด็กห้าขวบที่ยังไม่รู้ว่าสิ่งนี้ไม่สมจริงและไร้ประโยชน์แค่ไหน เพื่อจะได้คิดบวกกับอนาคตสักครั้งเดียว แต่มนุษย์ยังไม่เข้าใจว่าคงบริหาร 'ตัวเลขสมมติที่เพิ่มขึ้นในจินตนาการ' ต่อไปไม่ได้ภายใต้ความต้องการพื้นฐานด้านที่อยู่อาศัย และไม่มีทางทำให้เทคโนโลยีนี้มีประโยชน์ ราคาถูก เชื่อถือได้ และดีได้
ส่วนที่น่าประทับใจที่สุดของเดโมนี้คือหุ่นยนต์สามารถ 'มองเห็น' และหยิบวัตถุด้วยส่วนประกอบคล้ายมนุษย์ได้ รู้สึกเหมือนตัวเองพลาดอะไรบางอย่างไป แต่เคยคิดว่านี่เป็นเรื่องยากมาก รู้มาว่า inverse kinematics นั้นยาก เลยสงสัยว่าแก้ด้วย neural network หรือเปล่า?
ลิงก์วิดีโอเดียวกันบน YouTube: Figure Status Update - OpenAI Speech-to-Speech Reasoning

Figure สาธิตหุ่นยนต์ที่ผสานรวมกับ OpenAI

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความเห็นจาก Hacker News