• EMMA: End-to-End Multimodal Model for Autonomous Driving
  • ใช้ Gemini ซึ่งเป็นมัลติโหมด LLM ของ Google เพื่อสร้างวิถีการเคลื่อนที่ในอนาคตของรถโดยตรงจากข้อมูลเซนเซอร์
  • เพิ่มความเข้าใจต่อสภาพถนนผ่านการฝึกและการปรับจูนอย่างละเอียดที่ออกแบบมาเฉพาะสำหรับการขับขี่อัตโนมัติ

ประเด็นสำคัญของงานวิจัย

  • แสดงให้เห็นว่าโมเดลมัลติโหมดสามารถนำมาประยุกต์ใช้กับการขับขี่อัตโนมัติได้อย่างไร
  • สำรวจข้อดีและข้อเสียของแนวทาง End-to-End
  • เน้นย้ำข้อดีของการใช้ความรู้เกี่ยวกับโลกแบบมัลติโหมด
    • มีประโยชน์แม้กับงานขับขี่อัตโนมัติที่ต้องอาศัยความเข้าใจเชิงพื้นที่และความสามารถในการให้เหตุผล
  • พิสูจน์ผลเชิงบวกของ transfer learning ต่อหลายงานสำคัญของการขับขี่อัตโนมัติ
    • การเรียนรู้ร่วมกันของการวางแผนเส้นทาง การรู้จำวัตถุ และความเข้าใจ road graph ให้ประสิทธิภาพดีกว่าการฝึกแยกแต่ละงาน
    • ชี้ให้เห็นว่าการรวมงานหลักด้านการขับขี่อัตโนมัติเพิ่มเติมด้วยแนวทางคล้ายกันเป็นทิศทางวิจัยที่มีอนาคต

แนะนำ EMMA

  • EMMA สะท้อนแนวโน้มงานวิจัย AI ที่พยายามผสานโมเดลและเทคนิคการเรียนรู้มัลติโหมดขนาดใหญ่เข้ากับโดเมนที่กว้างขึ้น
  • สร้างโมเดลที่ต่อยอดจาก Gemini และปรับให้เหมาะกับงานขับขี่อัตโนมัติ เช่น การวางแผนเส้นทางและการรู้จำวัตถุ 3D

คุณลักษณะเด่น:

  1. การเรียนรู้แบบ End-to-End
    • ประมวลผลอินพุตจากกล้องและข้อมูลข้อความ เพื่อสร้างเอาต์พุตหลากหลาย เช่น เส้นทาง วัตถุที่ตรวจจับได้ และองค์ประกอบของ road graph
  2. พื้นที่ภาษาที่รวมเป็นหนึ่งเดียว
    • แทนอินพุตและเอาต์พุตที่ไม่ใช่เซนเซอร์ด้วยข้อความภาษาธรรมชาติ เพื่อใช้ประโยชน์จากความรู้เกี่ยวกับโลกของ Gemini ให้ได้มากที่สุด
  3. การให้เหตุผลแบบ chain-of-thought
    • ปรับปรุงกระบวนการตัดสินใจด้วยการให้เหตุผลแบบ chain-of-thought ทำให้ประสิทธิภาพการวางแผนแบบ End-to-End ดีขึ้น 6.7% และให้เหตุผลที่ตีความได้สำหรับการตัดสินใจขับขี่

ผลลัพธ์สำคัญ

  • ทำผลงานได้ในระดับแนวหน้าทั้งบนเบนช์มาร์กสาธารณะและภายใน
    • ครอบคลุมการวางแผนแบบ End-to-End, การรู้จำวัตถุ 3D จากกล้อง, การพยากรณ์ road graph และความเข้าใจฉาก เป็นต้น
  • ประสิทธิภาพดีขึ้นจากการเรียนรู้ร่วมกัน
    • EMMA โมเดลเดียวสามารถสร้างเอาต์พุตของหลายงานพร้อมกันได้ และมีประสิทธิภาพเทียบเท่าหรือดีกว่าโมเดลที่ฝึกแยกกัน
    • แสดงศักยภาพในการเป็นโมเดลอเนกประสงค์ที่นำไปใช้ได้กับงานขับขี่อัตโนมัติหลากหลายรูปแบบ

ข้อจำกัด

  • มีข้อจำกัดในการประมวลผลลำดับวิดีโอระยะยาว จึงยังยากต่อการให้เหตุผลกับสถานการณ์การขับขี่แบบเรียลไทม์
    • หน่วยความจำระยะยาวเป็นสิ่งจำเป็น
  • ยังไม่ได้ใช้ข้อมูลอินพุตจาก LiDAR และเรดาร์
    • จำเป็นต้องผสานตัวเข้ารหัส 3D sensing ที่มีความละเอียดสูง
  • ยังมีโจทย์ที่ต้องแก้ด้านวิธีจำลองสถานการณ์ที่มีประสิทธิภาพ เวลาอนุมานของโมเดลที่เหมาะสม และการตรวจสอบขั้นตอนการตัดสินใจระหว่างทาง

แนวโน้มในอนาคต

  • แม้ EMMA จะยังมีข้อจำกัดหากใช้เป็นโมเดลขับขี่แบบเดี่ยว แต่ก็แสดงให้เห็นว่าเทคโนโลยีมัลติโหมดสามารถยกระดับประสิทธิภาพและความสามารถในการ generalize ของระบบขับขี่อัตโนมัติได้
  • การนำเทคโนโลยี AI ขั้นสูงไปใช้กับงานจริงกำลังขยายขีดความสามารถของ AI ไปสู่สภาพแวดล้อมที่ซับซ้อนและเปลี่ยนแปลงตลอดเวลา
  • AI อาจช่วยได้ในสาขาสำคัญอื่น ๆ ที่ต้องการการตัดสินใจที่รวดเร็วและแม่นยำจากอินพุตที่หลากหลายภายใต้ความไม่แน่นอน
  • มุ่งสำรวจความเป็นไปได้ของการใช้มัลติโหมด LLM ขนาดใหญ่กับการขับขี่อัตโนมัติ เพื่อช่วยยกระดับความปลอดภัยบนท้องถนนและการเข้าถึง
  • คาดว่าจะมีส่วนช่วยต่อการพัฒนา AI ที่สามารถสำรวจและให้เหตุผลกับสภาพแวดล้อมจริงที่ซับซ้อนได้อย่างมีประสิทธิภาพยิ่งขึ้น

ความเห็นของ GN⁺

  • EMMA เป็นงานวิจัยที่อาจเป็นหมุดหมายสำคัญต่อความก้าวหน้าของเทคโนโลยีขับขี่อัตโนมัติ
    • เป็นกรณีตัวอย่างที่แสดงจุดแข็งของการเรียนรู้แบบมัลติโหมดได้อย่างชัดเจน
    • พิสูจน์ว่าการรวมหลายงานหลักของการขับขี่อัตโนมัติช่วยยกระดับประสิทธิภาพได้
  • แม้ยังมีข้อจำกัดในการนำไปใช้กับการขับขี่จริงทันที แต่ก็น่าจะเป็นข้อมูลอ้างอิงที่ดีสำหรับการพัฒนาเทคโนโลยีที่เกี่ยวข้อง
    • โดยเฉพาะด้านหน่วยความจำระยะยาว การผสานมัลติโหมด และการปรับแต่งการจำลองสถานการณ์ ซึ่งควรเป็นประเด็นวิจัยสำคัญต่อไป
  • คาดว่าเทคโนโลยี AI แบบมัลติโหมดจะถูกนำไปใช้ได้ในหลายสาขา ไม่ใช่แค่การขับขี่อัตโนมัติ แต่รวมถึงการแพทย์ การผลิต และการรับมือภัยพิบัติ
    • จะเป็นประโยชน์อย่างมากในงานที่มีรูปแบบข้อมูลหลากหลายและการตัดสินใจมีความสำคัญ
  • อย่างไรก็ตาม ลักษณะกล่องดำของโมเดลมัลติโหมดอาจทำให้ประเด็นด้านความอธิบายได้และจริยธรรมเด่นชัดขึ้น
    • การลดอคติของโมเดลและการแสดงเหตุผลรองรับผลลัพธ์ที่ได้จะเป็นเรื่องสำคัญ
  • งานวิจัยที่คล้ายกันมี เช่น NVIDIA DriveNet, Wayve AV2.0 และ Tesla FSD
    • แม้แต่ละบริษัทจะเลือกแนวทางที่ต่างกันเล็กน้อย แต่ต่างก็ใช้การเรียนรู้แบบมัลติโหมดร่วมกัน
    • คาดว่าทั้งการแข่งขันและความร่วมมือระหว่างบริษัทจะช่วยผลักดันเทคโนโลยีขับขี่อัตโนมัติให้ก้าวหน้าไปอีก

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น