Waymo เปิดตัว EMMA โมเดลมัลติโหมดแบบ End-to-End สำหรับการขับขี่อัตโนมัติ

(waymo.com)

5 คะแนน โดย GN⁺ 2024-11-06 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

EMMA: End-to-End Multimodal Model for Autonomous Driving
ใช้ Gemini ซึ่งเป็นมัลติโหมด LLM ของ Google เพื่อสร้างวิถีการเคลื่อนที่ในอนาคตของรถโดยตรงจากข้อมูลเซนเซอร์
เพิ่มความเข้าใจต่อสภาพถนนผ่านการฝึกและการปรับจูนอย่างละเอียดที่ออกแบบมาเฉพาะสำหรับการขับขี่อัตโนมัติ

ประเด็นสำคัญของงานวิจัย

แสดงให้เห็นว่าโมเดลมัลติโหมดสามารถนำมาประยุกต์ใช้กับการขับขี่อัตโนมัติได้อย่างไร
สำรวจข้อดีและข้อเสียของแนวทาง End-to-End
เน้นย้ำข้อดีของการใช้ความรู้เกี่ยวกับโลกแบบมัลติโหมด
- มีประโยชน์แม้กับงานขับขี่อัตโนมัติที่ต้องอาศัยความเข้าใจเชิงพื้นที่และความสามารถในการให้เหตุผล
พิสูจน์ผลเชิงบวกของ transfer learning ต่อหลายงานสำคัญของการขับขี่อัตโนมัติ
- การเรียนรู้ร่วมกันของการวางแผนเส้นทาง การรู้จำวัตถุ และความเข้าใจ road graph ให้ประสิทธิภาพดีกว่าการฝึกแยกแต่ละงาน
- ชี้ให้เห็นว่าการรวมงานหลักด้านการขับขี่อัตโนมัติเพิ่มเติมด้วยแนวทางคล้ายกันเป็นทิศทางวิจัยที่มีอนาคต

แนะนำ EMMA

EMMA สะท้อนแนวโน้มงานวิจัย AI ที่พยายามผสานโมเดลและเทคนิคการเรียนรู้มัลติโหมดขนาดใหญ่เข้ากับโดเมนที่กว้างขึ้น
สร้างโมเดลที่ต่อยอดจาก Gemini และปรับให้เหมาะกับงานขับขี่อัตโนมัติ เช่น การวางแผนเส้นทางและการรู้จำวัตถุ 3D

คุณลักษณะเด่น:

การเรียนรู้แบบ End-to-End
- ประมวลผลอินพุตจากกล้องและข้อมูลข้อความ เพื่อสร้างเอาต์พุตหลากหลาย เช่น เส้นทาง วัตถุที่ตรวจจับได้ และองค์ประกอบของ road graph
พื้นที่ภาษาที่รวมเป็นหนึ่งเดียว
- แทนอินพุตและเอาต์พุตที่ไม่ใช่เซนเซอร์ด้วยข้อความภาษาธรรมชาติ เพื่อใช้ประโยชน์จากความรู้เกี่ยวกับโลกของ Gemini ให้ได้มากที่สุด
การให้เหตุผลแบบ chain-of-thought
- ปรับปรุงกระบวนการตัดสินใจด้วยการให้เหตุผลแบบ chain-of-thought ทำให้ประสิทธิภาพการวางแผนแบบ End-to-End ดีขึ้น 6.7% และให้เหตุผลที่ตีความได้สำหรับการตัดสินใจขับขี่

ผลลัพธ์สำคัญ

ทำผลงานได้ในระดับแนวหน้าทั้งบนเบนช์มาร์กสาธารณะและภายใน
- ครอบคลุมการวางแผนแบบ End-to-End, การรู้จำวัตถุ 3D จากกล้อง, การพยากรณ์ road graph และความเข้าใจฉาก เป็นต้น
ประสิทธิภาพดีขึ้นจากการเรียนรู้ร่วมกัน
- EMMA โมเดลเดียวสามารถสร้างเอาต์พุตของหลายงานพร้อมกันได้ และมีประสิทธิภาพเทียบเท่าหรือดีกว่าโมเดลที่ฝึกแยกกัน
- แสดงศักยภาพในการเป็นโมเดลอเนกประสงค์ที่นำไปใช้ได้กับงานขับขี่อัตโนมัติหลากหลายรูปแบบ

ข้อจำกัด

มีข้อจำกัดในการประมวลผลลำดับวิดีโอระยะยาว จึงยังยากต่อการให้เหตุผลกับสถานการณ์การขับขี่แบบเรียลไทม์
- หน่วยความจำระยะยาวเป็นสิ่งจำเป็น
ยังไม่ได้ใช้ข้อมูลอินพุตจาก LiDAR และเรดาร์
- จำเป็นต้องผสานตัวเข้ารหัส 3D sensing ที่มีความละเอียดสูง
ยังมีโจทย์ที่ต้องแก้ด้านวิธีจำลองสถานการณ์ที่มีประสิทธิภาพ เวลาอนุมานของโมเดลที่เหมาะสม และการตรวจสอบขั้นตอนการตัดสินใจระหว่างทาง

แนวโน้มในอนาคต

แม้ EMMA จะยังมีข้อจำกัดหากใช้เป็นโมเดลขับขี่แบบเดี่ยว แต่ก็แสดงให้เห็นว่าเทคโนโลยีมัลติโหมดสามารถยกระดับประสิทธิภาพและความสามารถในการ generalize ของระบบขับขี่อัตโนมัติได้
การนำเทคโนโลยี AI ขั้นสูงไปใช้กับงานจริงกำลังขยายขีดความสามารถของ AI ไปสู่สภาพแวดล้อมที่ซับซ้อนและเปลี่ยนแปลงตลอดเวลา
AI อาจช่วยได้ในสาขาสำคัญอื่น ๆ ที่ต้องการการตัดสินใจที่รวดเร็วและแม่นยำจากอินพุตที่หลากหลายภายใต้ความไม่แน่นอน
มุ่งสำรวจความเป็นไปได้ของการใช้มัลติโหมด LLM ขนาดใหญ่กับการขับขี่อัตโนมัติ เพื่อช่วยยกระดับความปลอดภัยบนท้องถนนและการเข้าถึง
คาดว่าจะมีส่วนช่วยต่อการพัฒนา AI ที่สามารถสำรวจและให้เหตุผลกับสภาพแวดล้อมจริงที่ซับซ้อนได้อย่างมีประสิทธิภาพยิ่งขึ้น

ความเห็นของ GN⁺

EMMA เป็นงานวิจัยที่อาจเป็นหมุดหมายสำคัญต่อความก้าวหน้าของเทคโนโลยีขับขี่อัตโนมัติ
- เป็นกรณีตัวอย่างที่แสดงจุดแข็งของการเรียนรู้แบบมัลติโหมดได้อย่างชัดเจน
- พิสูจน์ว่าการรวมหลายงานหลักของการขับขี่อัตโนมัติช่วยยกระดับประสิทธิภาพได้
แม้ยังมีข้อจำกัดในการนำไปใช้กับการขับขี่จริงทันที แต่ก็น่าจะเป็นข้อมูลอ้างอิงที่ดีสำหรับการพัฒนาเทคโนโลยีที่เกี่ยวข้อง
- โดยเฉพาะด้านหน่วยความจำระยะยาว การผสานมัลติโหมด และการปรับแต่งการจำลองสถานการณ์ ซึ่งควรเป็นประเด็นวิจัยสำคัญต่อไป
คาดว่าเทคโนโลยี AI แบบมัลติโหมดจะถูกนำไปใช้ได้ในหลายสาขา ไม่ใช่แค่การขับขี่อัตโนมัติ แต่รวมถึงการแพทย์ การผลิต และการรับมือภัยพิบัติ
- จะเป็นประโยชน์อย่างมากในงานที่มีรูปแบบข้อมูลหลากหลายและการตัดสินใจมีความสำคัญ
อย่างไรก็ตาม ลักษณะกล่องดำของโมเดลมัลติโหมดอาจทำให้ประเด็นด้านความอธิบายได้และจริยธรรมเด่นชัดขึ้น
- การลดอคติของโมเดลและการแสดงเหตุผลรองรับผลลัพธ์ที่ได้จะเป็นเรื่องสำคัญ
งานวิจัยที่คล้ายกันมี เช่น NVIDIA DriveNet, Wayve AV2.0 และ Tesla FSD
- แม้แต่ละบริษัทจะเลือกแนวทางที่ต่างกันเล็กน้อย แต่ต่างก็ใช้การเรียนรู้แบบมัลติโหมดร่วมกัน
- คาดว่าทั้งการแข่งขันและความร่วมมือระหว่างบริษัทจะช่วยผลักดันเทคโนโลยีขับขี่อัตโนมัติให้ก้าวหน้าไปอีก

Waymo เปิดตัว EMMA โมเดลมัลติโหมดแบบ End-to-End สำหรับการขับขี่อัตโนมัติ

ประเด็นสำคัญของงานวิจัย

แนะนำ EMMA

ผลลัพธ์สำคัญ

ข้อจำกัด

แนวโน้มในอนาคต

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น