- โมเดลโลกเชิงกำเนิดสำหรับการจำลองการขับขี่อัตโนมัติขนาดใหญ่ ที่สามารถสร้างสภาพแวดล้อมคล้ายโลกจริงแบบเรียลไทม์
- สร้างบนพื้นฐานของ Genie 3 จึงสามารถจำลอง สถานการณ์หายากหรือรุนแรง (เช่น พายุทอร์นาโด น้ำท่วม การปรากฏตัวของสัตว์) ได้อย่างสมจริง
- สามารถปรับแต่งการจำลองได้อย่างละเอียดผ่าน การควบคุมการขับขี่ การจัดองค์ประกอบฉาก และการควบคุมด้วยภาษา พร้อมสร้าง ข้อมูลจากกล้องและ LiDAR ได้พร้อมกัน
- แปลงวิดีโอทั่วไปหรือวิดีโอจากแดชแคมให้เป็น การจำลองแบบหลายเซ็นเซอร์ เพื่อถ่ายทอดฉากการขับขี่จริงได้แทบจะเหมือนเดิม
- โมเดลนี้เป็นเครื่องมือสำคัญสำหรับ การตรวจสอบความปลอดภัยและการขยายบริการ ทำให้สามารถเตรียมพร้อมแม้ต่อสถานการณ์ที่แทบเป็นไปไม่ได้ในโลกจริง
ภาพรวมของ Waymo World Model
- Waymo Driver วิ่งแบบขับขี่อัตโนมัติเต็มรูปแบบมาแล้วราว 200 ล้านไมล์ในเมืองสำคัญของสหรัฐฯ และยังวิ่งอีก หลายพันล้านไมล์ในสภาพแวดล้อมเสมือน
- ออกแบบมาเพื่อเรียนรู้สถานการณ์ซับซ้อนที่พบได้ยากบนถนนจริงล่วงหน้า
- Waymo World Model คือ ระบบสร้างการจำลองแบบเสมือนจริงขั้นสูง สำหรับการขับขี่เสมือนดังกล่าว
- เป็นหนึ่งใน 3 แกนหลักของระบบนิเวศ AI ของ Waymo และทำหน้าที่เป็นรากฐานในการพิสูจน์ความปลอดภัย
โครงสร้างและความสามารถบนพื้นฐาน Genie 3
- พัฒนาบนพื้นฐานของ Genie 3 จาก Google DeepMind และ ปรับแต่งให้เหมาะกับสภาพแวดล้อมการขับขี่
- Genie 3 เป็นโมเดลโลกอเนกประสงค์ที่สร้าง สภาพแวดล้อม 3D ที่สมจริงและโต้ตอบได้
- ใช้ประโยชน์จาก ความรู้เกี่ยวกับโลกอย่างกว้างขวาง ของ Genie เพื่อจำลองเหตุการณ์ที่แทบเป็นไปไม่ได้ในโลกจริง เช่น การเผชิญหน้ากับพายุทอร์นาโดหรือช้าง
- ควบคุมการจำลองได้อย่างละเอียดผ่าน พรอมป์ต์ภาษา อินพุตการขับขี่ และการจัดวางฉาก
- รองรับ เอาต์พุตหลายเซ็นเซอร์ ที่ สร้างทั้งข้อมูลกล้องและ LiDAR
ความรู้เกี่ยวกับโลกแบบหลายโมดัล
- ซิมูเลเตอร์การขับขี่อัตโนมัติแบบเดิมมัก ฝึกจากข้อมูลที่เก็บเองเท่านั้น แต่โมเดลของ Waymo ใช้ ข้อมูลวิดีโอจำนวนมากที่ผ่านการพรีเทรนของ Genie 3
- ถ่ายทอด ความรู้จากวิดีโอ 2D ไปเป็น เอาต์พุต 3D สำหรับระบบ LiDAR ของ Waymo
- กล้องเด่นด้านรายละเอียดภาพ ส่วน LiDAR เด่นด้าน ข้อมูลความลึกที่แม่นยำ
- สามารถสร้างได้ตั้งแต่ฉากการขับขี่ทั่วไปไปจนถึง สถานการณ์ long-tail ที่พบได้ยาก
-
การจำลองสภาพอากาศรุนแรงและภัยพิบัติทางธรรมชาติ
- สร้างฉากอย่าง การขับรถบนสะพาน Golden Gate ที่ปกคลุมด้วยหิมะ, การเผชิญหน้ากับพายุทอร์นาโด, ย่านชานเมืองที่ถูกน้ำท่วม, ถนนหิมะในเมืองเขตร้อน, การหลบหนีจากไฟไหม้ เป็นต้น
-
เหตุการณ์หายากที่สำคัญต่อความปลอดภัย
- จำลองสถานการณ์ด้านความปลอดภัย เช่น คนขับก้าวร้าว, รถชนกิ่งไม้, รถบรรทุกสัมภาระไม่มั่นคง, รถบรรทุกวิ่งสวนทาง
-
วัตถุแบบ long-tail และสถานการณ์ผิดปกติ
- รองรับการจำลองการเผชิญหน้ากับวัตถุไม่ปกติ เช่น ช้าง, Texas longhorn, สิงโต, คนเดินเท้าในชุดไดโนเสาร์, กังหันลมขนาดยักษ์
ความสามารถในการควบคุมการจำลอง
- ปรับแต่งได้ 3 วิธี ได้แก่ การควบคุมพฤติกรรมการขับขี่, การควบคุมองค์ประกอบฉาก, และ การควบคุมด้วยภาษา
-
การควบคุมพฤติกรรมการขับขี่
- สร้าง ซิมูเลเตอร์แบบโต้ตอบ ที่ตอบสนองตามอินพุตการขับขี่เฉพาะ
- ตัวอย่าง: ทดลองผลลัพธ์หากขับเชิงรุกมากขึ้นในสถานการณ์หนึ่ง
- รักษา ความสอดคล้องทางภาพและความสมจริง ได้ดีกว่าวิธี 3DGS (3D Gaussian Splats) เดิม
-
การควบคุมองค์ประกอบฉาก
- แก้ไข โครงสร้างถนน สถานะสัญญาณ และพฤติกรรมของรถรอบข้าง ได้อย่างอิสระ
- รองรับการสร้างสถานการณ์แบบกำหนดเองและการดัดแปลงสภาพแวดล้อมถนน
-
การควบคุมด้วยภาษา
- เปลี่ยน ช่วงเวลา สภาพอากาศ และฉากโดยรวม ได้ด้วยคำสั่งข้อความ
- ตัวอย่าง: สลับช่วงเวลาเป็นรุ่งสาง เช้า เที่ยง เย็น หรือกลางคืน
- เปลี่ยน สภาพอากาศ เช่น ครึ้ม หมอก ฝน หิมะ หรือท้องฟ้าแจ่มใส
การแปลงวิดีโอเป็นการจำลอง
- รับ วิดีโอจากกล้องทั่วไปหรือแดชแคม เป็นอินพุต แล้วแปลงเป็น การจำลองหลายเซ็นเซอร์จากมุมมองของ Waymo Driver
- เนื่องจากอิงจากวิดีโอจริง จึงมี ความสมจริงและความแม่นยำ สูง
- ตัวอย่าง: การแปลงวิดีโอจากสถานที่จริง เช่น นอร์เวย์, อุทยานแห่งชาติ Arches ในรัฐยูทาห์, Death Valley ในแคลิฟอร์เนีย
การอนุมานที่ขยายขนาดได้ (Scalable Inference)
- การจำลองฉากยาวต่อเนื่อง ใช้การประมวลผลสูง แต่ด้วยโมเดลเวอร์ชันที่ปรับให้มีประสิทธิภาพ จึง คงคุณภาพสูงไว้ได้พร้อมลดภาระการคำนวณลงอย่างมาก
- รองรับสถานการณ์ขับขี่ระยะยาว เช่น การผ่านเลนแคบ สี่แยกซับซ้อน หรือถนนขึ้นเขา
- ตัวอย่างการเล่น 4x: การหลบคอขวดบนทางด่วน, การขับในย่านที่อยู่อาศัยซับซ้อน, การหลบมอเตอร์ไซค์บนทางขึ้นเขา, การกลับรถของ SUV
ความปลอดภัยและการขยายตัว
- จำลองสถานการณ์ที่แทบเป็นไปไม่ได้ในโลกจริงขึ้นมาแบบเสมือน เพื่อเตรียมรับมือล่วงหน้า
- ช่วย ยกระดับมาตรฐานความปลอดภัยของ Waymo Driver และวางรากฐานสำหรับ การขยายบริการไปยังพื้นที่และสภาพแวดล้อมใหม่
- โครงการนี้มี นักวิจัยจำนวนมากจาก Waymo และ Google DeepMind เข้าร่วม
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
จู่ๆ ก็เข้าใจแล้วว่าทำไม DeepMind ถึงโฟกัสกับ world model
ไม่เคยคิดว่า Waymo จะเป็น ‘หุ่นยนต์’ แบบเดียวกับฮิวแมนนอยด์ของ Boston Dynamics มาก่อน แต่จริงๆ แล้วมันก็คือหุ่นยนต์นั่นเอง
Google/Alphabet มี การบูรณาการแนวดิ่ง ในด้าน AI ที่สมบูรณ์จนน่าทึ่ง — มีทั้งการผลิตไฟฟ้าของตัวเอง, ชิป, ดาต้าเซ็นเตอร์, Search·Gmail·YouTube·Gemini·Workspace·Wallet, ผู้ใช้ Android·Chromebook หลายพันล้านคน, เครือข่ายโฆษณา, เบราว์เซอร์, Waymo, ความร่วมมือกับ Boston Dynamics, งานวิจัยนิวเคลียร์ฟิวชัน, ไปจนถึงการพัฒนายาใหม่
เมื่อเห็นสเกลแบบนี้ แชตบอตอย่าง ChatGPT หรือ Grok ก็เทียบกันไม่ได้เลย
เมื่อก่อนเคยคิดว่างานวิจัยรถขับเคลื่อนอัตโนมัติมีไว้เพื่อ Street View แต่ตอนนี้ดูเหมือนว่ามีภาพใหญ่กว่านั้นมาก
ดูงานวิจัยที่เกี่ยวข้องได้ที่นี่
เดิมทีน่าจะอัปเดตสภาพถนนแบบเรียลไทม์จากรถได้ แต่ตอนนี้ให้ความรู้สึกว่าตามหลังไปมากแล้ว
ดูวิดีโอที่เกี่ยวข้องได้ที่นี่
มีการบอกว่าโมเดล Genie สามารถจำลอง เหตุการณ์หายาก (ทอร์นาโด, การเผชิญหน้ากับช้าง ฯลฯ) ได้ แต่ก็ยังสงสัยว่าผลลัพธ์ที่สร้างขึ้นมาจะสมจริงแค่ไหน
ตัวอย่างเช่น หากโมเดลคาดการณ์สถานการณ์ที่มีลูกเหล็กขนาด 5 มม. กระจายอยู่บนถนน ก็อดกังวลไม่ได้ว่าจะตรวจสอบได้อย่างไรว่าค่านี้สมเหตุสมผลจริงหรือไม่
ไม่จำเป็นต้องสมบูรณ์แบบ แค่สร้างวงจรเชิงบวกที่ดีขึ้นเรื่อยๆ ผ่านการใช้งานซ้ำและการตรวจสอบก็พอ
เช่น กรณีสุดขั้วอย่างวัวสีขาวท่ามกลางพายุหิมะ ก็อาจจับได้ผ่านการจำลอง
การคาดการณ์ที่สมบูรณ์แบบเป็นไปไม่ได้ แต่เป็นกระบวนการปรับปรุงอย่างค่อยเป็นค่อยไปเพื่อไปสู่ การตัดสินใจที่ดีที่สุดบนฐานความรู้
มีการบอกว่า Waymo World Model สามารถแปลงวิดีโอจากกล้องทั่วไปให้เป็น การจำลองแบบมัลติโมดัล ได้ ซึ่งหมายความว่าถ้า Waymo ต้องการ ก็อาจ ขับด้วยกล้องอย่างเดียวได้
Tesla ไม่ได้ผ่านขั้น LiDAR มาก่อน จึงยากที่จะได้ผลลัพธ์แบบนี้
มันช่วยเสริมการรับรู้ความลึก คล้ายกับพารัลแลกซ์ของการมองเห็นสองตาในมนุษย์
อย่างแรกใช้เพื่อการฝึก อย่างหลังใช้กับรถจริง
เพราะอย่างนั้น แนวทางที่ใช้แต่กล้องจึงมีข้อจำกัด
เทคโนโลยีน่าประทับใจ แต่คิดว่า การปรับปรุงโครงสร้างพื้นฐานรถไฟ ยังเร่งด่วนกว่า
การโดยสารฟรี, ความรุนแรง, ความสกปรกไม่ถูกสุขลักษณะ ทำให้ผู้ใช้หนีหาย
การเอาแต่พูดเรื่องขนส่งสาธารณะโดยไม่มองความจริงแบบนี้ก็ดูว่างเปล่า
เพราะอย่างนั้น ถ้าบริการอย่าง Waymo มอบคุณภาพตามที่สัญญาไว้ได้จริง ก็ยิ่งน่าจับตามอง
ส่วนตัวคิดว่ามีเพียง ระบบจักรยานสาธารณะ เท่านั้นที่เป็นทางเลือกซึ่งรักษาคำสัญญาได้จริง
ปัญหาอย่างเสียงดัง การขอทาน ปัญหายาเสพติด ทำให้ขนส่งสาธารณะกลายเป็นสิ่งที่คนหลีกเลี่ยง
เมื่อดูจากสภาพโครงสร้างพื้นฐานของสหรัฐฯ การปฏิรูประบบรางครั้งใหญ่เป็นเรื่องไม่สมจริง
แม้แต่ในญี่ปุ่นที่รถไฟพัฒนาแล้ว อัตราการถือครองรถก็ไม่ได้ต่างจากสหรัฐฯ มากนัก
ประเด็นสำคัญของการประกาศครั้งนี้คือเทคโนโลยี สร้างข้อมูล 3D LiDAR จากวิดีโอ 2D
การเข้าถึง DeepMind และโครงสร้างพื้นฐานของ Google คือ ความได้เปรียบในการแข่งขันอย่างท่วมท้น ของ Waymo
การจำลองน้ำท่วม ทอร์นาโด ไฟป่า ฯลฯ น่าประทับใจ แต่ก็ยังสงสัยว่าทำไม Waymo ถึงหยุดพร้อมกันในสถานการณ์ที่พบได้บ่อยอย่าง ไฟฟ้าดับครั้งใหญ่
ถ้าจัดการสถานการณ์พื้นฐานแบบนี้ไม่ได้ ความหมายของการจำลองก็จะลดลงมาก
กล่าวคือ การจำลองยังมีคุณค่า แต่ก็ไม่สามารถป้องกันความล้มเหลวทุกอย่างได้
วิดีโอที่เกี่ยวข้อง
การที่ Waymo ใช้ สถานการณ์ counterfactual แบบสมมุติทางเลือก ในการฝึกดูมีความเสี่ยง
เพราะน่าจะมีวิดีโอแบบ ‘รับมือได้ดี’ มากกว่ากรณีโศกนาฏกรรมจริง สุดท้ายแล้วจึงอาจเรียนรู้ ความมั่นใจเกินจริง ได้
จุดประสงค์คือทำให้ Waymo ไม่ใช่แค่หยุดเมื่อเจอทอร์นาโดหรือช้าง แต่สามารถตอบสนองได้ด้วย
ถ้าไล่ตามความปลอดภัยแบบสมบูรณ์ รถก็จะไม่ขยับเลย
แนวคิดแบบ ‘ช้ายังไงก็ปลอดภัยกว่า’ จึงไม่ถูกต้อง
world model อาจ อันตรายได้จากข้อมูลที่มีอคติ ในสถานการณ์ด้านความปลอดภัยจริง
หากฝึกจากข้อมูลที่แทบไม่มีกรณีล้มเหลว ก็อาจไม่สามารถจำลองอุบัติเหตุจริงได้
ตัวอย่างวิดีโอที่ยกมานั้นแสดงกรณีหลบการชน
อย่างไรก็ตาม เกณฑ์ว่า “สมจริงเพียงพอหรือไม่?” ก็ยังคลุมเครือ
มนุษย์เองก็เชื่อถือได้ไม่ 100% ดังนั้น หากผสาน ความปลอดภัยที่ดีกว่ามนุษย์ 10 เท่า เข้ากับ กลไกความปลอดภัยที่ตรวจสอบได้ด้วยโค้ด ก็อาจทำให้สังคมยอมรับได้มากขึ้น
ดูเหมือนว่า Project Genie ของ DeepMind จะเป็นเทคโนโลยีพื้นฐานของ Waymo
บทความที่เกี่ยวข้อง: Genie 3: A new frontier for world models
การสนทนาบน Hacker News: Genie 3, Project Genie
ทำให้นึกถึง มีม bell curve ของการฝึกระบบขับขี่อัตโนมัติ
ตอนแรกเริ่มจากซิมูเลเตอร์ที่อิงฟิสิกส์ จากนั้นเก็บข้อมูลจริง แล้วก็วนกลับไปสู่ ซิมูเลเตอร์ดีปเลิร์นนิงที่สะท้อนข้อมูลเชิงฟิสิกส์ อีกครั้ง
ดูเป็นขั้นการพัฒนาที่เป็นธรรมชาติจนถึงขั้นควรมีชื่อเรียกสำหรับแพตเทิร์นนี้