PaLM-E : โมเดลภาษาหลายรูปแบบสำหรับระบบที่มีร่างกาย

xguru · 2023-03-08T12:11:57+09:00

โมเดลภาษาขนาดใหญ่สามารถทำงานที่ซับซ้อนได้ แต่หากต้องการให้เกิดการให้เหตุผลทั่วไปในโลกจริง เช่น ปัญหาด้านหุ่นยนต์ จำเป็นต้องมีการยึดโยงกับบริบทจริง มีการเสนอ EMLM เพื่อผสานรูปแบบข้อมูลจากเซ็นเซอร์ต่อเนื่องในโลกจริงเข้ากับโมเดลภาษาโดยตรง เพื่อสร้างความเชื่อมโยงระหว่างคำกับการรับรู้ (Percepts) ประมวลผลโดยรับอินพุตเป็นประโยคหลายรูปแบบที่รวมการเข้ารหัสจากภาพ การประเมินสถานะแบบต่อเนื่อง และข้อความ "ช่วยหยิบข้าวเกรียบจากลิ้นชักมาให้หน่อย" : สามารถเคลื่อนที่ไป เปิดลิ้นชัก ค้นหา หยิบ ปิดลิ้นชัก และนำกลับมาให้ได้ แม้จะมีคนเข้ามารบกวนระหว่างทางก็ยังลองใหม่ได้ PaLM-E 562B ซึ่งเป็นโมเดลภาษาที่ใหญ่ที่สุด + OK-VQA (dataset for visual question answering)

(palm-e.github.io)

15 คะแนน โดย xguru 2023-03-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลภาษาขนาดใหญ่สามารถทำงานที่ซับซ้อนได้ แต่หากต้องการให้เกิดการให้เหตุผลทั่วไปในโลกจริง เช่น ปัญหาด้านหุ่นยนต์ จำเป็นต้องมีการยึดโยงกับบริบทจริง
มีการเสนอ EMLM เพื่อผสานรูปแบบข้อมูลจากเซ็นเซอร์ต่อเนื่องในโลกจริงเข้ากับโมเดลภาษาโดยตรง เพื่อสร้างความเชื่อมโยงระหว่างคำกับการรับรู้ (Percepts)
ประมวลผลโดยรับอินพุตเป็นประโยคหลายรูปแบบที่รวมการเข้ารหัสจากภาพ การประเมินสถานะแบบต่อเนื่อง และข้อความ
- "ช่วยหยิบข้าวเกรียบจากลิ้นชักมาให้หน่อย" : สามารถเคลื่อนที่ไป เปิดลิ้นชัก ค้นหา หยิบ ปิดลิ้นชัก และนำกลับมาให้ได้ แม้จะมีคนเข้ามารบกวนระหว่างทางก็ยังลองใหม่ได้
PaLM-E 562B ซึ่งเป็นโมเดลภาษาที่ใหญ่ที่สุด + OK-VQA (dataset for visual question answering)

1 ความคิดเห็น

xguru 2023-03-08

Embodied AI คืออะไร?

เป็นสาขาที่สร้างเอเจนต์ขึ้นมาในสภาพแวดล้อมเสมือนจริงแบบ 3 มิติที่เรียกว่า Simulator เพื่อให้เรียนรู้ผ่านการทำภารกิจต่าง ๆ แล้วถ่ายทอดไปยังเครื่องจักรอย่างหุ่นยนต์ในโลกจริง (Sim2Real) เพื่อให้สามารถทำภารกิจเฉพาะได้ดีในสภาพแวดล้อมจริงด้วย

PaLM-E : โมเดลภาษาหลายรูปแบบสำหรับระบบที่มีร่างกาย

บทความที่เกี่ยวข้อง

1 ความคิดเห็น