- โมเดลภาษาขนาดใหญ่สามารถทำงานที่ซับซ้อนได้ แต่หากต้องการให้เกิดการให้เหตุผลทั่วไปในโลกจริง เช่น ปัญหาด้านหุ่นยนต์ จำเป็นต้องมีการยึดโยงกับบริบทจริง
- มีการเสนอ EMLM เพื่อผสานรูปแบบข้อมูลจากเซ็นเซอร์ต่อเนื่องในโลกจริงเข้ากับโมเดลภาษาโดยตรง เพื่อสร้างความเชื่อมโยงระหว่างคำกับการรับรู้ (Percepts)
- ประมวลผลโดยรับอินพุตเป็นประโยคหลายรูปแบบที่รวมการเข้ารหัสจากภาพ การประเมินสถานะแบบต่อเนื่อง และข้อความ
- "ช่วยหยิบข้าวเกรียบจากลิ้นชักมาให้หน่อย" : สามารถเคลื่อนที่ไป เปิดลิ้นชัก ค้นหา หยิบ ปิดลิ้นชัก และนำกลับมาให้ได้ แม้จะมีคนเข้ามารบกวนระหว่างทางก็ยังลองใหม่ได้
- PaLM-E 562B ซึ่งเป็นโมเดลภาษาที่ใหญ่ที่สุด + OK-VQA (dataset for visual question answering)
1 ความคิดเห็น
Embodied AI คืออะไร?