6 คะแนน โดย GN⁺ 2026-02-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลโลกเชิงกำเนิดสำหรับการจำลองการขับขี่อัตโนมัติขนาดใหญ่ ที่สามารถสร้างสภาพแวดล้อมคล้ายโลกจริงแบบเรียลไทม์
  • สร้างบนพื้นฐานของ Genie 3 จึงสามารถจำลอง สถานการณ์หายากหรือรุนแรง (เช่น พายุทอร์นาโด น้ำท่วม การปรากฏตัวของสัตว์) ได้อย่างสมจริง
  • สามารถปรับแต่งการจำลองได้อย่างละเอียดผ่าน การควบคุมการขับขี่ การจัดองค์ประกอบฉาก และการควบคุมด้วยภาษา พร้อมสร้าง ข้อมูลจากกล้องและ LiDAR ได้พร้อมกัน
  • แปลงวิดีโอทั่วไปหรือวิดีโอจากแดชแคมให้เป็น การจำลองแบบหลายเซ็นเซอร์ เพื่อถ่ายทอดฉากการขับขี่จริงได้แทบจะเหมือนเดิม
  • โมเดลนี้เป็นเครื่องมือสำคัญสำหรับ การตรวจสอบความปลอดภัยและการขยายบริการ ทำให้สามารถเตรียมพร้อมแม้ต่อสถานการณ์ที่แทบเป็นไปไม่ได้ในโลกจริง

ภาพรวมของ Waymo World Model

  • Waymo Driver วิ่งแบบขับขี่อัตโนมัติเต็มรูปแบบมาแล้วราว 200 ล้านไมล์ในเมืองสำคัญของสหรัฐฯ และยังวิ่งอีก หลายพันล้านไมล์ในสภาพแวดล้อมเสมือน
    • ออกแบบมาเพื่อเรียนรู้สถานการณ์ซับซ้อนที่พบได้ยากบนถนนจริงล่วงหน้า
  • Waymo World Model คือ ระบบสร้างการจำลองแบบเสมือนจริงขั้นสูง สำหรับการขับขี่เสมือนดังกล่าว
    • เป็นหนึ่งใน 3 แกนหลักของระบบนิเวศ AI ของ Waymo และทำหน้าที่เป็นรากฐานในการพิสูจน์ความปลอดภัย

โครงสร้างและความสามารถบนพื้นฐาน Genie 3

  • พัฒนาบนพื้นฐานของ Genie 3 จาก Google DeepMind และ ปรับแต่งให้เหมาะกับสภาพแวดล้อมการขับขี่
    • Genie 3 เป็นโมเดลโลกอเนกประสงค์ที่สร้าง สภาพแวดล้อม 3D ที่สมจริงและโต้ตอบได้
  • ใช้ประโยชน์จาก ความรู้เกี่ยวกับโลกอย่างกว้างขวาง ของ Genie เพื่อจำลองเหตุการณ์ที่แทบเป็นไปไม่ได้ในโลกจริง เช่น การเผชิญหน้ากับพายุทอร์นาโดหรือช้าง
  • ควบคุมการจำลองได้อย่างละเอียดผ่าน พรอมป์ต์ภาษา อินพุตการขับขี่ และการจัดวางฉาก
  • รองรับ เอาต์พุตหลายเซ็นเซอร์ ที่ สร้างทั้งข้อมูลกล้องและ LiDAR

ความรู้เกี่ยวกับโลกแบบหลายโมดัล

  • ซิมูเลเตอร์การขับขี่อัตโนมัติแบบเดิมมัก ฝึกจากข้อมูลที่เก็บเองเท่านั้น แต่โมเดลของ Waymo ใช้ ข้อมูลวิดีโอจำนวนมากที่ผ่านการพรีเทรนของ Genie 3
  • ถ่ายทอด ความรู้จากวิดีโอ 2D ไปเป็น เอาต์พุต 3D สำหรับระบบ LiDAR ของ Waymo
    • กล้องเด่นด้านรายละเอียดภาพ ส่วน LiDAR เด่นด้าน ข้อมูลความลึกที่แม่นยำ
  • สามารถสร้างได้ตั้งแต่ฉากการขับขี่ทั่วไปไปจนถึง สถานการณ์ long-tail ที่พบได้ยาก
  • การจำลองสภาพอากาศรุนแรงและภัยพิบัติทางธรรมชาติ

    • สร้างฉากอย่าง การขับรถบนสะพาน Golden Gate ที่ปกคลุมด้วยหิมะ, การเผชิญหน้ากับพายุทอร์นาโด, ย่านชานเมืองที่ถูกน้ำท่วม, ถนนหิมะในเมืองเขตร้อน, การหลบหนีจากไฟไหม้ เป็นต้น
  • เหตุการณ์หายากที่สำคัญต่อความปลอดภัย

    • จำลองสถานการณ์ด้านความปลอดภัย เช่น คนขับก้าวร้าว, รถชนกิ่งไม้, รถบรรทุกสัมภาระไม่มั่นคง, รถบรรทุกวิ่งสวนทาง
  • วัตถุแบบ long-tail และสถานการณ์ผิดปกติ

    • รองรับการจำลองการเผชิญหน้ากับวัตถุไม่ปกติ เช่น ช้าง, Texas longhorn, สิงโต, คนเดินเท้าในชุดไดโนเสาร์, กังหันลมขนาดยักษ์

ความสามารถในการควบคุมการจำลอง

  • ปรับแต่งได้ 3 วิธี ได้แก่ การควบคุมพฤติกรรมการขับขี่, การควบคุมองค์ประกอบฉาก, และ การควบคุมด้วยภาษา
  • การควบคุมพฤติกรรมการขับขี่

    • สร้าง ซิมูเลเตอร์แบบโต้ตอบ ที่ตอบสนองตามอินพุตการขับขี่เฉพาะ
      • ตัวอย่าง: ทดลองผลลัพธ์หากขับเชิงรุกมากขึ้นในสถานการณ์หนึ่ง
    • รักษา ความสอดคล้องทางภาพและความสมจริง ได้ดีกว่าวิธี 3DGS (3D Gaussian Splats) เดิม
  • การควบคุมองค์ประกอบฉาก

    • แก้ไข โครงสร้างถนน สถานะสัญญาณ และพฤติกรรมของรถรอบข้าง ได้อย่างอิสระ
      • รองรับการสร้างสถานการณ์แบบกำหนดเองและการดัดแปลงสภาพแวดล้อมถนน
  • การควบคุมด้วยภาษา

    • เปลี่ยน ช่วงเวลา สภาพอากาศ และฉากโดยรวม ได้ด้วยคำสั่งข้อความ
      • ตัวอย่าง: สลับช่วงเวลาเป็นรุ่งสาง เช้า เที่ยง เย็น หรือกลางคืน
      • เปลี่ยน สภาพอากาศ เช่น ครึ้ม หมอก ฝน หิมะ หรือท้องฟ้าแจ่มใส

การแปลงวิดีโอเป็นการจำลอง

  • รับ วิดีโอจากกล้องทั่วไปหรือแดชแคม เป็นอินพุต แล้วแปลงเป็น การจำลองหลายเซ็นเซอร์จากมุมมองของ Waymo Driver
    • เนื่องจากอิงจากวิดีโอจริง จึงมี ความสมจริงและความแม่นยำ สูง
  • ตัวอย่าง: การแปลงวิดีโอจากสถานที่จริง เช่น นอร์เวย์, อุทยานแห่งชาติ Arches ในรัฐยูทาห์, Death Valley ในแคลิฟอร์เนีย

การอนุมานที่ขยายขนาดได้ (Scalable Inference)

  • การจำลองฉากยาวต่อเนื่อง ใช้การประมวลผลสูง แต่ด้วยโมเดลเวอร์ชันที่ปรับให้มีประสิทธิภาพ จึง คงคุณภาพสูงไว้ได้พร้อมลดภาระการคำนวณลงอย่างมาก
    • รองรับสถานการณ์ขับขี่ระยะยาว เช่น การผ่านเลนแคบ สี่แยกซับซ้อน หรือถนนขึ้นเขา
  • ตัวอย่างการเล่น 4x: การหลบคอขวดบนทางด่วน, การขับในย่านที่อยู่อาศัยซับซ้อน, การหลบมอเตอร์ไซค์บนทางขึ้นเขา, การกลับรถของ SUV

ความปลอดภัยและการขยายตัว

  • จำลองสถานการณ์ที่แทบเป็นไปไม่ได้ในโลกจริงขึ้นมาแบบเสมือน เพื่อเตรียมรับมือล่วงหน้า
  • ช่วย ยกระดับมาตรฐานความปลอดภัยของ Waymo Driver และวางรากฐานสำหรับ การขยายบริการไปยังพื้นที่และสภาพแวดล้อมใหม่
  • โครงการนี้มี นักวิจัยจำนวนมากจาก Waymo และ Google DeepMind เข้าร่วม

1 ความคิดเห็น

 
GN⁺ 2026-02-07
ความคิดเห็นจาก Hacker News
  • จู่ๆ ก็เข้าใจแล้วว่าทำไม DeepMind ถึงโฟกัสกับ world model
    ไม่เคยคิดว่า Waymo จะเป็น ‘หุ่นยนต์’ แบบเดียวกับฮิวแมนนอยด์ของ Boston Dynamics มาก่อน แต่จริงๆ แล้วมันก็คือหุ่นยนต์นั่นเอง
    Google/Alphabet มี การบูรณาการแนวดิ่ง ในด้าน AI ที่สมบูรณ์จนน่าทึ่ง — มีทั้งการผลิตไฟฟ้าของตัวเอง, ชิป, ดาต้าเซ็นเตอร์, Search·Gmail·YouTube·Gemini·Workspace·Wallet, ผู้ใช้ Android·Chromebook หลายพันล้านคน, เครือข่ายโฆษณา, เบราว์เซอร์, Waymo, ความร่วมมือกับ Boston Dynamics, งานวิจัยนิวเคลียร์ฟิวชัน, ไปจนถึงการพัฒนายาใหม่
    เมื่อเห็นสเกลแบบนี้ แชตบอตอย่าง ChatGPT หรือ Grok ก็เทียบกันไม่ได้เลย

    • Google โฟกัสกับ R&D ภายในและการนำไปใช้เอง มากกว่าการขาย AI เป็นสินค้า
      เมื่อก่อนเคยคิดว่างานวิจัยรถขับเคลื่อนอัตโนมัติมีไว้เพื่อ Street View แต่ตอนนี้ดูเหมือนว่ามีภาพใหญ่กว่านั้นมาก
    • Google วิจัย world model มาตั้งแต่ปี 2018 แล้ว
      ดูงานวิจัยที่เกี่ยวข้องได้ที่นี่
    • Tesla ก็สร้างระบบคล้ายกันเพื่อฝึก FSD แต่ น่าเสียดายที่ไม่ได้ทำเป็นผลิตภัณฑ์บริการแผนที่
      เดิมทีน่าจะอัปเดตสภาพถนนแบบเรียลไทม์จากรถได้ แต่ตอนนี้ให้ความรู้สึกว่าตามหลังไปมากแล้ว
    • ตอนนี้ก็เข้าใจแล้วว่าทำไม Tesla ถึงเริ่มทำ หุ่นยนต์ฮิวแมนนอยด์
    • ถ้าเพิ่งมองเห็นมุมนี้ตอนนี้ ก็ถือว่าช้ากว่า Tesla อยู่ 3 ปี
      ดูวิดีโอที่เกี่ยวข้องได้ที่นี่
  • มีการบอกว่าโมเดล Genie สามารถจำลอง เหตุการณ์หายาก (ทอร์นาโด, การเผชิญหน้ากับช้าง ฯลฯ) ได้ แต่ก็ยังสงสัยว่าผลลัพธ์ที่สร้างขึ้นมาจะสมจริงแค่ไหน
    ตัวอย่างเช่น หากโมเดลคาดการณ์สถานการณ์ที่มีลูกเหล็กขนาด 5 มม. กระจายอยู่บนถนน ก็อดกังวลไม่ได้ว่าจะตรวจสอบได้อย่างไรว่าค่านี้สมเหตุสมผลจริงหรือไม่

    • เมื่อเวลาผ่านไป คุณภาพของ world model จะดีขึ้น และทำให้ระบบขับขี่อัตโนมัติสามารถฝึกด้วย ข้อมูลสังเคราะห์ที่ ‘สมจริงเพียงพอ’ ได้
      ไม่จำเป็นต้องสมบูรณ์แบบ แค่สร้างวงจรเชิงบวกที่ดีขึ้นเรื่อยๆ ผ่านการใช้งานซ้ำและการตรวจสอบก็พอ
    • จุดประสงค์ไม่ใช่การประกาศว่า “ตอนนี้รถปลอดภัยแม้เจอลูกเหล็กแล้ว” แต่ใช้เพื่อตรวจสอบว่าในสถานการณ์เฉพาะ รถตอบสนองตามคาดหรือไม่ เหมือน unit test
      เช่น กรณีสุดขั้วอย่างวัวสีขาวท่ามกลางพายุหิมะ ก็อาจจับได้ผ่านการจำลอง
    • ถ้าจำลองได้ตั้งแต่ “ทอร์นาโดไปจนถึงช้าง” ก็น่าจะเอาไปทำ เกมแบบ The Sims ที่เจ๋งมากได้เหมือนกัน
    • จริงๆ แล้วความไม่แน่นอนแบบนี้ก็มีเหมือนกันในมนุษย์
      การคาดการณ์ที่สมบูรณ์แบบเป็นไปไม่ได้ แต่เป็นกระบวนการปรับปรุงอย่างค่อยเป็นค่อยไปเพื่อไปสู่ การตัดสินใจที่ดีที่สุดบนฐานความรู้
    • จำเป็นต้องใช้แนวทางที่ฝึกด้วยการจำลอง แล้วค่อยตรวจสอบกับโลกจริง
  • มีการบอกว่า Waymo World Model สามารถแปลงวิดีโอจากกล้องทั่วไปให้เป็น การจำลองแบบมัลติโมดัล ได้ ซึ่งหมายความว่าถ้า Waymo ต้องการ ก็อาจ ขับด้วยกล้องอย่างเดียวได้

    • แต่ในความเป็นจริง มันคือการแปลงไปเป็นตัวแทนข้อมูลที่ bootstrap มาจาก LiDAR, วิดีโอ และเซ็นเซอร์อื่นๆ
      Tesla ไม่ได้ผ่านขั้น LiDAR มาก่อน จึงยากที่จะได้ผลลัพธ์แบบนี้
    • LiDAR เป็นอุปกรณ์สำหรับ ชดเชยความผิดพลาด เวลาที่ความแม่นยำของกล้องตกลง
      มันช่วยเสริมการรับรู้ความลึก คล้ายกับพารัลแลกซ์ของการมองเห็นสองตาในมนุษย์
    • LiDAR ยังสำคัญอยู่เพื่อรับมือกับ การโจมตีแบบรบกวนสัญญาณ
    • การแปลงวิดีโอ → ข้อมูลเซ็นเซอร์ และการขับโดยใช้ข้อมูลนั้น เป็นคนละขั้นกัน
      อย่างแรกใช้เพื่อการฝึก อย่างหลังใช้กับรถจริง
    • รถขับเคลื่อนอัตโนมัติต้องปลอดภัยกว่ามนุษย์อย่างมาก จึงจะเป็นที่ยอมรับในสังคมได้
      เพราะอย่างนั้น แนวทางที่ใช้แต่กล้องจึงมีข้อจำกัด
  • เทคโนโลยีน่าประทับใจ แต่คิดว่า การปรับปรุงโครงสร้างพื้นฐานรถไฟ ยังเร่งด่วนกว่า

    • ในฐานะคนที่อยู่ Bay Area แม้จะมีรถไฟอยู่แล้ว แต่ ค่าโดยสาร การจัดการ และความเป็นระเบียบก็แย่จนแทบไม่คุ้มต้นทุนการดำเนินงาน
      การโดยสารฟรี, ความรุนแรง, ความสกปรกไม่ถูกสุขลักษณะ ทำให้ผู้ใช้หนีหาย
      การเอาแต่พูดเรื่องขนส่งสาธารณะโดยไม่มองความจริงแบบนี้ก็ดูว่างเปล่า
      เพราะอย่างนั้น ถ้าบริการอย่าง Waymo มอบคุณภาพตามที่สัญญาไว้ได้จริง ก็ยิ่งน่าจับตามอง
      ส่วนตัวคิดว่ามีเพียง ระบบจักรยานสาธารณะ เท่านั้นที่เป็นทางเลือกซึ่งรักษาคำสัญญาได้จริง
    • รถไฟสุดท้ายแล้วจะกลายเป็น นรก หากไม่สามารถรักษาบรรทัดฐานพฤติกรรมของผู้คนไว้ได้
      ปัญหาอย่างเสียงดัง การขอทาน ปัญหายาเสพติด ทำให้ขนส่งสาธารณะกลายเป็นสิ่งที่คนหลีกเลี่ยง
    • ไม่ว่าอย่างไร รถยนต์ก็ยังคงมี ข้อได้เปรียบแบบเด็ดขาด
      เมื่อดูจากสภาพโครงสร้างพื้นฐานของสหรัฐฯ การปฏิรูประบบรางครั้งใหญ่เป็นเรื่องไม่สมจริง
      แม้แต่ในญี่ปุ่นที่รถไฟพัฒนาแล้ว อัตราการถือครองรถก็ไม่ได้ต่างจากสหรัฐฯ มากนัก
    • คิดว่ารถที่พาไปที่ไหนก็ได้ตามต้องการ และ เดินทางได้อย่างปลอดภัย สะอาด ตามตารางชีวิตส่วนตัว ยังดีกว่า
    • ถึงอย่างนั้น Waymo ก็อาจเป็น จุดเปลี่ยนที่ลดคนขับและลดการครอบครองรถส่วนตัว ได้
  • ประเด็นสำคัญของการประกาศครั้งนี้คือเทคโนโลยี สร้างข้อมูล 3D LiDAR จากวิดีโอ 2D
    การเข้าถึง DeepMind และโครงสร้างพื้นฐานของ Google คือ ความได้เปรียบในการแข่งขันอย่างท่วมท้น ของ Waymo

    • ที่จริงแล้ว เทคโนโลยีประเมิน 3D จากวิดีโอ 2D มีมาหลายสิบปีแล้ว
    • มีวิธีแบบ monodepth อย่าง Metric3D เช่นกัน แต่ผลลัพธ์ของ Waymo ก็ดูเป็นระดับล้ำสมัย (SOTA) อย่างชัดเจน
  • การจำลองน้ำท่วม ทอร์นาโด ไฟป่า ฯลฯ น่าประทับใจ แต่ก็ยังสงสัยว่าทำไม Waymo ถึงหยุดพร้อมกันในสถานการณ์ที่พบได้บ่อยอย่าง ไฟฟ้าดับครั้งใหญ่
    ถ้าจัดการสถานการณ์พื้นฐานแบบนี้ไม่ได้ ความหมายของการจำลองก็จะลดลงมาก

    • การจำลองช่วยเพิ่มประสิทธิภาพของรถแต่ละคัน แต่ เหตุไฟฟ้าดับเป็นปัญหาของทั้งระบบจากการที่เจ้าหน้าที่สนับสนุนระยะไกลรับภาระเกิน
      กล่าวคือ การจำลองยังมีคุณค่า แต่ก็ไม่สามารถป้องกันความล้มเหลวทุกอย่างได้
    • ในความเป็นจริงก็เคยมีกรณีที่ Waymo ขับเข้าไปในพื้นที่น้ำท่วม เช่นกัน
      วิดีโอที่เกี่ยวข้อง
  • การที่ Waymo ใช้ สถานการณ์ counterfactual แบบสมมุติทางเลือก ในการฝึกดูมีความเสี่ยง
    เพราะน่าจะมีวิดีโอแบบ ‘รับมือได้ดี’ มากกว่ากรณีโศกนาฏกรรมจริง สุดท้ายแล้วจึงอาจเรียนรู้ ความมั่นใจเกินจริง ได้

    • แต่ในความเป็นจริง นี่ไม่ใช่ ‘counterfactual’ แต่เป็นการสร้างข้อมูลเพื่อ เติมเต็มสถานการณ์หายาก
      จุดประสงค์คือทำให้ Waymo ไม่ใช่แค่หยุดเมื่อเจอทอร์นาโดหรือช้าง แต่สามารถตอบสนองได้ด้วย
    • การขับรถคือปัญหาเรื่อง สมดุลระหว่างความเร็วกับความปลอดภัย
      ถ้าไล่ตามความปลอดภัยแบบสมบูรณ์ รถก็จะไม่ขยับเลย
    • การไม่เข้าสี่แยกทั้งที่ปลอดภัย หรือขับแค่ 5 ไมล์ต่อชั่วโมง ก็เป็น พฤติกรรมการขับที่ผิด เช่นกัน
      แนวคิดแบบ ‘ช้ายังไงก็ปลอดภัยกว่า’ จึงไม่ถูกต้อง
  • world model อาจ อันตรายได้จากข้อมูลที่มีอคติ ในสถานการณ์ด้านความปลอดภัยจริง
    หากฝึกจากข้อมูลที่แทบไม่มีกรณีล้มเหลว ก็อาจไม่สามารถจำลองอุบัติเหตุจริงได้

    • แต่ Waymo ก็กำลังฝึกจาก ข้อมูลการขับจริงมากกว่า 100 ล้านไมล์ อยู่แล้ว
      ตัวอย่างวิดีโอที่ยกมานั้นแสดงกรณีหลบการชน
    • แน่นอนว่ายังมี ความเป็นไปได้เรื่องอคติ อยู่ แต่ก็สามารถเพิ่มความหลากหลายได้ด้วย การสร้างสถานการณ์แบบ prompt-based โดยใช้ LLM
      อย่างไรก็ตาม เกณฑ์ว่า “สมจริงเพียงพอหรือไม่?” ก็ยังคลุมเครือ
      มนุษย์เองก็เชื่อถือได้ไม่ 100% ดังนั้น หากผสาน ความปลอดภัยที่ดีกว่ามนุษย์ 10 เท่า เข้ากับ กลไกความปลอดภัยที่ตรวจสอบได้ด้วยโค้ด ก็อาจทำให้สังคมยอมรับได้มากขึ้น
  • ดูเหมือนว่า Project Genie ของ DeepMind จะเป็นเทคโนโลยีพื้นฐานของ Waymo
    บทความที่เกี่ยวข้อง: Genie 3: A new frontier for world models
    การสนทนาบน Hacker News: Genie 3, Project Genie

    • DeepMind ไม่ได้เป็นแค่บริษัทลูกของ Alphabet แต่เป็น องค์กรแกนหลักที่ Demis Hassabis เป็นผู้นำ AI ทั้งหมดของ Google
  • ทำให้นึกถึง มีม bell curve ของการฝึกระบบขับขี่อัตโนมัติ
    ตอนแรกเริ่มจากซิมูเลเตอร์ที่อิงฟิสิกส์ จากนั้นเก็บข้อมูลจริง แล้วก็วนกลับไปสู่ ซิมูเลเตอร์ดีปเลิร์นนิงที่สะท้อนข้อมูลเชิงฟิสิกส์ อีกครั้ง

    • สุดท้ายก็วนเป็นวงจากการจำลองแบบง่าย → ข้อมูลโลกจริง → การจำลองสำหรับโลกจริงที่หาได้ยาก
      ดูเป็นขั้นการพัฒนาที่เป็นธรรมชาติจนถึงขั้นควรมีชื่อเรียกสำหรับแพตเทิร์นนี้