Waymo World Model: พรมแดนใหม่ของการจำลองการขับขี่อัตโนมัติ

(waymo.com)

6 คะแนน โดย GN⁺ 2026-02-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลโลกเชิงกำเนิดสำหรับการจำลองการขับขี่อัตโนมัติขนาดใหญ่ ที่สามารถสร้างสภาพแวดล้อมคล้ายโลกจริงแบบเรียลไทม์
สร้างบนพื้นฐานของ Genie 3 จึงสามารถจำลอง สถานการณ์หายากหรือรุนแรง (เช่น พายุทอร์นาโด น้ำท่วม การปรากฏตัวของสัตว์) ได้อย่างสมจริง
สามารถปรับแต่งการจำลองได้อย่างละเอียดผ่าน การควบคุมการขับขี่ การจัดองค์ประกอบฉาก และการควบคุมด้วยภาษา พร้อมสร้าง ข้อมูลจากกล้องและ LiDAR ได้พร้อมกัน
แปลงวิดีโอทั่วไปหรือวิดีโอจากแดชแคมให้เป็น การจำลองแบบหลายเซ็นเซอร์ เพื่อถ่ายทอดฉากการขับขี่จริงได้แทบจะเหมือนเดิม
โมเดลนี้เป็นเครื่องมือสำคัญสำหรับ การตรวจสอบความปลอดภัยและการขยายบริการ ทำให้สามารถเตรียมพร้อมแม้ต่อสถานการณ์ที่แทบเป็นไปไม่ได้ในโลกจริง

ภาพรวมของ Waymo World Model

Waymo Driver วิ่งแบบขับขี่อัตโนมัติเต็มรูปแบบมาแล้วราว 200 ล้านไมล์ในเมืองสำคัญของสหรัฐฯ และยังวิ่งอีก หลายพันล้านไมล์ในสภาพแวดล้อมเสมือน
- ออกแบบมาเพื่อเรียนรู้สถานการณ์ซับซ้อนที่พบได้ยากบนถนนจริงล่วงหน้า
Waymo World Model คือ ระบบสร้างการจำลองแบบเสมือนจริงขั้นสูง สำหรับการขับขี่เสมือนดังกล่าว
- เป็นหนึ่งใน 3 แกนหลักของระบบนิเวศ AI ของ Waymo และทำหน้าที่เป็นรากฐานในการพิสูจน์ความปลอดภัย

โครงสร้างและความสามารถบนพื้นฐาน Genie 3

พัฒนาบนพื้นฐานของ Genie 3 จาก Google DeepMind และ ปรับแต่งให้เหมาะกับสภาพแวดล้อมการขับขี่
- Genie 3 เป็นโมเดลโลกอเนกประสงค์ที่สร้าง สภาพแวดล้อม 3D ที่สมจริงและโต้ตอบได้
ใช้ประโยชน์จาก ความรู้เกี่ยวกับโลกอย่างกว้างขวาง ของ Genie เพื่อจำลองเหตุการณ์ที่แทบเป็นไปไม่ได้ในโลกจริง เช่น การเผชิญหน้ากับพายุทอร์นาโดหรือช้าง
ควบคุมการจำลองได้อย่างละเอียดผ่าน พรอมป์ต์ภาษา อินพุตการขับขี่ และการจัดวางฉาก
รองรับ เอาต์พุตหลายเซ็นเซอร์ ที่ สร้างทั้งข้อมูลกล้องและ LiDAR

ความรู้เกี่ยวกับโลกแบบหลายโมดัล

ซิมูเลเตอร์การขับขี่อัตโนมัติแบบเดิมมัก ฝึกจากข้อมูลที่เก็บเองเท่านั้น แต่โมเดลของ Waymo ใช้ ข้อมูลวิดีโอจำนวนมากที่ผ่านการพรีเทรนของ Genie 3
ถ่ายทอด ความรู้จากวิดีโอ 2D ไปเป็น เอาต์พุต 3D สำหรับระบบ LiDAR ของ Waymo
- กล้องเด่นด้านรายละเอียดภาพ ส่วน LiDAR เด่นด้าน ข้อมูลความลึกที่แม่นยำ
สามารถสร้างได้ตั้งแต่ฉากการขับขี่ทั่วไปไปจนถึง สถานการณ์ long-tail ที่พบได้ยาก
การจำลองสภาพอากาศรุนแรงและภัยพิบัติทางธรรมชาติ
- สร้างฉากอย่าง การขับรถบนสะพาน Golden Gate ที่ปกคลุมด้วยหิมะ, การเผชิญหน้ากับพายุทอร์นาโด, ย่านชานเมืองที่ถูกน้ำท่วม, ถนนหิมะในเมืองเขตร้อน, การหลบหนีจากไฟไหม้ เป็นต้น
เหตุการณ์หายากที่สำคัญต่อความปลอดภัย
- จำลองสถานการณ์ด้านความปลอดภัย เช่น คนขับก้าวร้าว, รถชนกิ่งไม้, รถบรรทุกสัมภาระไม่มั่นคง, รถบรรทุกวิ่งสวนทาง
วัตถุแบบ long-tail และสถานการณ์ผิดปกติ
- รองรับการจำลองการเผชิญหน้ากับวัตถุไม่ปกติ เช่น ช้าง, Texas longhorn, สิงโต, คนเดินเท้าในชุดไดโนเสาร์, กังหันลมขนาดยักษ์

ความสามารถในการควบคุมการจำลอง

ปรับแต่งได้ 3 วิธี ได้แก่ การควบคุมพฤติกรรมการขับขี่, การควบคุมองค์ประกอบฉาก, และ การควบคุมด้วยภาษา
การควบคุมพฤติกรรมการขับขี่
- สร้าง ซิมูเลเตอร์แบบโต้ตอบ ที่ตอบสนองตามอินพุตการขับขี่เฉพาะ
  - ตัวอย่าง: ทดลองผลลัพธ์หากขับเชิงรุกมากขึ้นในสถานการณ์หนึ่ง
- รักษา ความสอดคล้องทางภาพและความสมจริง ได้ดีกว่าวิธี 3DGS (3D Gaussian Splats) เดิม
การควบคุมองค์ประกอบฉาก
- แก้ไข โครงสร้างถนน สถานะสัญญาณ และพฤติกรรมของรถรอบข้าง ได้อย่างอิสระ
  - รองรับการสร้างสถานการณ์แบบกำหนดเองและการดัดแปลงสภาพแวดล้อมถนน
การควบคุมด้วยภาษา
- เปลี่ยน ช่วงเวลา สภาพอากาศ และฉากโดยรวม ได้ด้วยคำสั่งข้อความ
  - ตัวอย่าง: สลับช่วงเวลาเป็นรุ่งสาง เช้า เที่ยง เย็น หรือกลางคืน
  - เปลี่ยน สภาพอากาศ เช่น ครึ้ม หมอก ฝน หิมะ หรือท้องฟ้าแจ่มใส

การแปลงวิดีโอเป็นการจำลอง

รับ วิดีโอจากกล้องทั่วไปหรือแดชแคม เป็นอินพุต แล้วแปลงเป็น การจำลองหลายเซ็นเซอร์จากมุมมองของ Waymo Driver
- เนื่องจากอิงจากวิดีโอจริง จึงมี ความสมจริงและความแม่นยำ สูง
ตัวอย่าง: การแปลงวิดีโอจากสถานที่จริง เช่น นอร์เวย์, อุทยานแห่งชาติ Arches ในรัฐยูทาห์, Death Valley ในแคลิฟอร์เนีย

การอนุมานที่ขยายขนาดได้ (Scalable Inference)

การจำลองฉากยาวต่อเนื่อง ใช้การประมวลผลสูง แต่ด้วยโมเดลเวอร์ชันที่ปรับให้มีประสิทธิภาพ จึง คงคุณภาพสูงไว้ได้พร้อมลดภาระการคำนวณลงอย่างมาก
- รองรับสถานการณ์ขับขี่ระยะยาว เช่น การผ่านเลนแคบ สี่แยกซับซ้อน หรือถนนขึ้นเขา
ตัวอย่างการเล่น 4x: การหลบคอขวดบนทางด่วน, การขับในย่านที่อยู่อาศัยซับซ้อน, การหลบมอเตอร์ไซค์บนทางขึ้นเขา, การกลับรถของ SUV

ความปลอดภัยและการขยายตัว

จำลองสถานการณ์ที่แทบเป็นไปไม่ได้ในโลกจริงขึ้นมาแบบเสมือน เพื่อเตรียมรับมือล่วงหน้า
ช่วย ยกระดับมาตรฐานความปลอดภัยของ Waymo Driver และวางรากฐานสำหรับ การขยายบริการไปยังพื้นที่และสภาพแวดล้อมใหม่

โครงการนี้มี นักวิจัยจำนวนมากจาก Waymo และ Google DeepMind เข้าร่วม

1 ความคิดเห็น

GN⁺ 2026-02-07

ความคิดเห็นจาก Hacker News

จู่ๆ ก็เข้าใจแล้วว่าทำไม DeepMind ถึงโฟกัสกับ world model
ไม่เคยคิดว่า Waymo จะเป็น ‘หุ่นยนต์’ แบบเดียวกับฮิวแมนนอยด์ของ Boston Dynamics มาก่อน แต่จริงๆ แล้วมันก็คือหุ่นยนต์นั่นเอง
Google/Alphabet มี การบูรณาการแนวดิ่ง ในด้าน AI ที่สมบูรณ์จนน่าทึ่ง — มีทั้งการผลิตไฟฟ้าของตัวเอง, ชิป, ดาต้าเซ็นเตอร์, Search·Gmail·YouTube·Gemini·Workspace·Wallet, ผู้ใช้ Android·Chromebook หลายพันล้านคน, เครือข่ายโฆษณา, เบราว์เซอร์, Waymo, ความร่วมมือกับ Boston Dynamics, งานวิจัยนิวเคลียร์ฟิวชัน, ไปจนถึงการพัฒนายาใหม่
เมื่อเห็นสเกลแบบนี้ แชตบอตอย่าง ChatGPT หรือ Grok ก็เทียบกันไม่ได้เลย
- Google โฟกัสกับ R&D ภายในและการนำไปใช้เอง มากกว่าการขาย AI เป็นสินค้า
  เมื่อก่อนเคยคิดว่างานวิจัยรถขับเคลื่อนอัตโนมัติมีไว้เพื่อ Street View แต่ตอนนี้ดูเหมือนว่ามีภาพใหญ่กว่านั้นมาก
- Google วิจัย world model มาตั้งแต่ปี 2018 แล้ว
  ดูงานวิจัยที่เกี่ยวข้องได้ที่นี่
- Tesla ก็สร้างระบบคล้ายกันเพื่อฝึก FSD แต่ น่าเสียดายที่ไม่ได้ทำเป็นผลิตภัณฑ์บริการแผนที่
  เดิมทีน่าจะอัปเดตสภาพถนนแบบเรียลไทม์จากรถได้ แต่ตอนนี้ให้ความรู้สึกว่าตามหลังไปมากแล้ว
- ตอนนี้ก็เข้าใจแล้วว่าทำไม Tesla ถึงเริ่มทำ หุ่นยนต์ฮิวแมนนอยด์
- ถ้าเพิ่งมองเห็นมุมนี้ตอนนี้ ก็ถือว่าช้ากว่า Tesla อยู่ 3 ปี
  ดูวิดีโอที่เกี่ยวข้องได้ที่นี่
มีการบอกว่าโมเดล Genie สามารถจำลอง เหตุการณ์หายาก (ทอร์นาโด, การเผชิญหน้ากับช้าง ฯลฯ) ได้ แต่ก็ยังสงสัยว่าผลลัพธ์ที่สร้างขึ้นมาจะสมจริงแค่ไหน
ตัวอย่างเช่น หากโมเดลคาดการณ์สถานการณ์ที่มีลูกเหล็กขนาด 5 มม. กระจายอยู่บนถนน ก็อดกังวลไม่ได้ว่าจะตรวจสอบได้อย่างไรว่าค่านี้สมเหตุสมผลจริงหรือไม่
- เมื่อเวลาผ่านไป คุณภาพของ world model จะดีขึ้น และทำให้ระบบขับขี่อัตโนมัติสามารถฝึกด้วย ข้อมูลสังเคราะห์ที่ ‘สมจริงเพียงพอ’ ได้
  ไม่จำเป็นต้องสมบูรณ์แบบ แค่สร้างวงจรเชิงบวกที่ดีขึ้นเรื่อยๆ ผ่านการใช้งานซ้ำและการตรวจสอบก็พอ
- จุดประสงค์ไม่ใช่การประกาศว่า “ตอนนี้รถปลอดภัยแม้เจอลูกเหล็กแล้ว” แต่ใช้เพื่อตรวจสอบว่าในสถานการณ์เฉพาะ รถตอบสนองตามคาดหรือไม่ เหมือน unit test
  เช่น กรณีสุดขั้วอย่างวัวสีขาวท่ามกลางพายุหิมะ ก็อาจจับได้ผ่านการจำลอง
- ถ้าจำลองได้ตั้งแต่ “ทอร์นาโดไปจนถึงช้าง” ก็น่าจะเอาไปทำ เกมแบบ The Sims ที่เจ๋งมากได้เหมือนกัน
- จริงๆ แล้วความไม่แน่นอนแบบนี้ก็มีเหมือนกันในมนุษย์
  การคาดการณ์ที่สมบูรณ์แบบเป็นไปไม่ได้ แต่เป็นกระบวนการปรับปรุงอย่างค่อยเป็นค่อยไปเพื่อไปสู่ การตัดสินใจที่ดีที่สุดบนฐานความรู้
- จำเป็นต้องใช้แนวทางที่ฝึกด้วยการจำลอง แล้วค่อยตรวจสอบกับโลกจริง
มีการบอกว่า Waymo World Model สามารถแปลงวิดีโอจากกล้องทั่วไปให้เป็น การจำลองแบบมัลติโมดัล ได้ ซึ่งหมายความว่าถ้า Waymo ต้องการ ก็อาจ ขับด้วยกล้องอย่างเดียวได้
- แต่ในความเป็นจริง มันคือการแปลงไปเป็นตัวแทนข้อมูลที่ bootstrap มาจาก LiDAR, วิดีโอ และเซ็นเซอร์อื่นๆ
  Tesla ไม่ได้ผ่านขั้น LiDAR มาก่อน จึงยากที่จะได้ผลลัพธ์แบบนี้
- LiDAR เป็นอุปกรณ์สำหรับ ชดเชยความผิดพลาด เวลาที่ความแม่นยำของกล้องตกลง
  มันช่วยเสริมการรับรู้ความลึก คล้ายกับพารัลแลกซ์ของการมองเห็นสองตาในมนุษย์
- LiDAR ยังสำคัญอยู่เพื่อรับมือกับ การโจมตีแบบรบกวนสัญญาณ
- การแปลงวิดีโอ → ข้อมูลเซ็นเซอร์ และการขับโดยใช้ข้อมูลนั้น เป็นคนละขั้นกัน
  อย่างแรกใช้เพื่อการฝึก อย่างหลังใช้กับรถจริง
- รถขับเคลื่อนอัตโนมัติต้องปลอดภัยกว่ามนุษย์อย่างมาก จึงจะเป็นที่ยอมรับในสังคมได้
  เพราะอย่างนั้น แนวทางที่ใช้แต่กล้องจึงมีข้อจำกัด
เทคโนโลยีน่าประทับใจ แต่คิดว่า การปรับปรุงโครงสร้างพื้นฐานรถไฟ ยังเร่งด่วนกว่า
- ในฐานะคนที่อยู่ Bay Area แม้จะมีรถไฟอยู่แล้ว แต่ ค่าโดยสาร การจัดการ และความเป็นระเบียบก็แย่จนแทบไม่คุ้มต้นทุนการดำเนินงาน
  การโดยสารฟรี, ความรุนแรง, ความสกปรกไม่ถูกสุขลักษณะ ทำให้ผู้ใช้หนีหาย
  การเอาแต่พูดเรื่องขนส่งสาธารณะโดยไม่มองความจริงแบบนี้ก็ดูว่างเปล่า
  เพราะอย่างนั้น ถ้าบริการอย่าง Waymo มอบคุณภาพตามที่สัญญาไว้ได้จริง ก็ยิ่งน่าจับตามอง
  ส่วนตัวคิดว่ามีเพียง ระบบจักรยานสาธารณะ เท่านั้นที่เป็นทางเลือกซึ่งรักษาคำสัญญาได้จริง
- รถไฟสุดท้ายแล้วจะกลายเป็น นรก หากไม่สามารถรักษาบรรทัดฐานพฤติกรรมของผู้คนไว้ได้
  ปัญหาอย่างเสียงดัง การขอทาน ปัญหายาเสพติด ทำให้ขนส่งสาธารณะกลายเป็นสิ่งที่คนหลีกเลี่ยง
- ไม่ว่าอย่างไร รถยนต์ก็ยังคงมี ข้อได้เปรียบแบบเด็ดขาด
  เมื่อดูจากสภาพโครงสร้างพื้นฐานของสหรัฐฯ การปฏิรูประบบรางครั้งใหญ่เป็นเรื่องไม่สมจริง
  แม้แต่ในญี่ปุ่นที่รถไฟพัฒนาแล้ว อัตราการถือครองรถก็ไม่ได้ต่างจากสหรัฐฯ มากนัก
- คิดว่ารถที่พาไปที่ไหนก็ได้ตามต้องการ และ เดินทางได้อย่างปลอดภัย สะอาด ตามตารางชีวิตส่วนตัว ยังดีกว่า
- ถึงอย่างนั้น Waymo ก็อาจเป็น จุดเปลี่ยนที่ลดคนขับและลดการครอบครองรถส่วนตัว ได้
ประเด็นสำคัญของการประกาศครั้งนี้คือเทคโนโลยี สร้างข้อมูล 3D LiDAR จากวิดีโอ 2D
การเข้าถึง DeepMind และโครงสร้างพื้นฐานของ Google คือ ความได้เปรียบในการแข่งขันอย่างท่วมท้น ของ Waymo
- ที่จริงแล้ว เทคโนโลยีประเมิน 3D จากวิดีโอ 2D มีมาหลายสิบปีแล้ว
- มีวิธีแบบ monodepth อย่าง Metric3D เช่นกัน แต่ผลลัพธ์ของ Waymo ก็ดูเป็นระดับล้ำสมัย (SOTA) อย่างชัดเจน
การจำลองน้ำท่วม ทอร์นาโด ไฟป่า ฯลฯ น่าประทับใจ แต่ก็ยังสงสัยว่าทำไม Waymo ถึงหยุดพร้อมกันในสถานการณ์ที่พบได้บ่อยอย่าง ไฟฟ้าดับครั้งใหญ่
ถ้าจัดการสถานการณ์พื้นฐานแบบนี้ไม่ได้ ความหมายของการจำลองก็จะลดลงมาก
- การจำลองช่วยเพิ่มประสิทธิภาพของรถแต่ละคัน แต่ เหตุไฟฟ้าดับเป็นปัญหาของทั้งระบบจากการที่เจ้าหน้าที่สนับสนุนระยะไกลรับภาระเกิน
  กล่าวคือ การจำลองยังมีคุณค่า แต่ก็ไม่สามารถป้องกันความล้มเหลวทุกอย่างได้
- ในความเป็นจริงก็เคยมีกรณีที่ Waymo ขับเข้าไปในพื้นที่น้ำท่วม เช่นกัน
  วิดีโอที่เกี่ยวข้อง
การที่ Waymo ใช้ สถานการณ์ counterfactual แบบสมมุติทางเลือก ในการฝึกดูมีความเสี่ยง
เพราะน่าจะมีวิดีโอแบบ ‘รับมือได้ดี’ มากกว่ากรณีโศกนาฏกรรมจริง สุดท้ายแล้วจึงอาจเรียนรู้ ความมั่นใจเกินจริง ได้
- แต่ในความเป็นจริง นี่ไม่ใช่ ‘counterfactual’ แต่เป็นการสร้างข้อมูลเพื่อ เติมเต็มสถานการณ์หายาก
  จุดประสงค์คือทำให้ Waymo ไม่ใช่แค่หยุดเมื่อเจอทอร์นาโดหรือช้าง แต่สามารถตอบสนองได้ด้วย
- การขับรถคือปัญหาเรื่อง สมดุลระหว่างความเร็วกับความปลอดภัย
  ถ้าไล่ตามความปลอดภัยแบบสมบูรณ์ รถก็จะไม่ขยับเลย
- การไม่เข้าสี่แยกทั้งที่ปลอดภัย หรือขับแค่ 5 ไมล์ต่อชั่วโมง ก็เป็น พฤติกรรมการขับที่ผิด เช่นกัน
  แนวคิดแบบ ‘ช้ายังไงก็ปลอดภัยกว่า’ จึงไม่ถูกต้อง
world model อาจ อันตรายได้จากข้อมูลที่มีอคติ ในสถานการณ์ด้านความปลอดภัยจริง
หากฝึกจากข้อมูลที่แทบไม่มีกรณีล้มเหลว ก็อาจไม่สามารถจำลองอุบัติเหตุจริงได้
- แต่ Waymo ก็กำลังฝึกจาก ข้อมูลการขับจริงมากกว่า 100 ล้านไมล์ อยู่แล้ว
  ตัวอย่างวิดีโอที่ยกมานั้นแสดงกรณีหลบการชน
- แน่นอนว่ายังมี ความเป็นไปได้เรื่องอคติ อยู่ แต่ก็สามารถเพิ่มความหลากหลายได้ด้วย การสร้างสถานการณ์แบบ prompt-based โดยใช้ LLM
  อย่างไรก็ตาม เกณฑ์ว่า “สมจริงเพียงพอหรือไม่?” ก็ยังคลุมเครือ
  มนุษย์เองก็เชื่อถือได้ไม่ 100% ดังนั้น หากผสาน ความปลอดภัยที่ดีกว่ามนุษย์ 10 เท่า เข้ากับ กลไกความปลอดภัยที่ตรวจสอบได้ด้วยโค้ด ก็อาจทำให้สังคมยอมรับได้มากขึ้น
ดูเหมือนว่า Project Genie ของ DeepMind จะเป็นเทคโนโลยีพื้นฐานของ Waymo
บทความที่เกี่ยวข้อง: Genie 3: A new frontier for world models
การสนทนาบน Hacker News: Genie 3, Project Genie
- DeepMind ไม่ได้เป็นแค่บริษัทลูกของ Alphabet แต่เป็น องค์กรแกนหลักที่ Demis Hassabis เป็นผู้นำ AI ทั้งหมดของ Google
ทำให้นึกถึง มีม bell curve ของการฝึกระบบขับขี่อัตโนมัติ
ตอนแรกเริ่มจากซิมูเลเตอร์ที่อิงฟิสิกส์ จากนั้นเก็บข้อมูลจริง แล้วก็วนกลับไปสู่ ซิมูเลเตอร์ดีปเลิร์นนิงที่สะท้อนข้อมูลเชิงฟิสิกส์ อีกครั้ง
- สุดท้ายก็วนเป็นวงจากการจำลองแบบง่าย → ข้อมูลโลกจริง → การจำลองสำหรับโลกจริงที่หาได้ยาก
  ดูเป็นขั้นการพัฒนาที่เป็นธรรมชาติจนถึงขั้นควรมีชื่อเรียกสำหรับแพตเทิร์นนี้

Waymo World Model: พรมแดนใหม่ของการจำลองการขับขี่อัตโนมัติ

ภาพรวมของ Waymo World Model

โครงสร้างและความสามารถบนพื้นฐาน Genie 3

ความรู้เกี่ยวกับโลกแบบหลายโมดัล

การจำลองสภาพอากาศรุนแรงและภัยพิบัติทางธรรมชาติ

เหตุการณ์หายากที่สำคัญต่อความปลอดภัย

วัตถุแบบ long-tail และสถานการณ์ผิดปกติ

ความสามารถในการควบคุมการจำลอง

การควบคุมพฤติกรรมการขับขี่

การควบคุมองค์ประกอบฉาก

การควบคุมด้วยภาษา

การแปลงวิดีโอเป็นการจำลอง

การอนุมานที่ขยายขนาดได้ (Scalable Inference)

ความปลอดภัยและการขยายตัว

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News