6 คะแนน โดย GN⁺ 2026-01-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Project Genie ของ Google เป็นต้นแบบงานวิจัยเชิงทดลองที่ให้ผู้ใช้ สร้าง·สำรวจ·รีมิกซ์โลกเสมือนที่โต้ตอบได้ ด้วยข้อความและรูปภาพ
  • พัฒนาบนโมเดล Genie 3 และ สร้างเส้นทางกับสภาพแวดล้อมแบบเรียลไทม์ ตามการเคลื่อนไหวของผู้ใช้
  • ให้บริการในรูปแบบเว็บแอป โดยผสานโมเดล Nano Banana Pro และ Gemini เพื่อรองรับการสเก็ตช์โลก การสำรวจ และการรีมิกซ์
  • ด้วยข้อจำกัดของโมเดล เวอร์ชันเริ่มต้นจึงยังมีข้อจำกัด เช่น ความไม่สอดคล้องกับกฎฟิสิกส์ การหน่วงในการควบคุมตัวละคร และข้อจำกัด 60 วินาที
  • ขณะนี้เปิดให้ใช้สำหรับ ผู้สมัครสมาชิก Google AI Ultra ในสหรัฐฯ (อายุ 18 ปีขึ้นไป) และมีแผนขยายไปยังภูมิภาคอื่นในอนาคต

ภาพรวมของ Project Genie

  • Project Genie เป็นต้นแบบงานวิจัยเชิงทดลองบนพื้นฐานของ Genie 3 ที่พัฒนาโดย Google DeepMind โดยมอบสภาพแวดล้อมให้ผู้ใช้สามารถ สร้าง สำรวจ และรีมิกซ์โลกเสมือน ได้ด้วยตนเอง
    • ใช้งานได้สำหรับ ผู้สมัครสมาชิก Google AI Ultra ในสหรัฐฯ (อายุ 18 ปีขึ้นไป)
    • ผู้ใช้สามารถสร้างโลกผ่านพรอมป์ต์ข้อความและรูปภาพ และสำรวจได้แบบเรียลไทม์
  • โครงการนี้เป็นก้าวแรกในการเปิดเผย เทคโนโลยีการสร้างโลกแบบสมจริง ให้ผู้ใช้ทั่วไป และเป็นการต่อยอดงานวิจัยด้าน world model

ความก้าวหน้าของ World Model

  • world model คือระบบที่ จำลองการเปลี่ยนแปลงแบบไดนามิกของสภาพแวดล้อม และคาดการณ์ ผลกระทบจากการกระทำ
  • Google DeepMind ตั้งเป้าพัฒนาระบบ AGI ที่สามารถ สำรวจความหลากหลายของโลกจริง ได้ ก้าวข้ามงานวิจัยเอเจนต์สำหรับสภาพแวดล้อมเฉพาะอย่างหมากรุกหรือโกะ
  • Genie 3 สามารถ สร้างเส้นทางแบบเรียลไทม์ ตามการเคลื่อนที่ของผู้ใช้ และจำลองปฏิสัมพันธ์ทางกายภาพ
    • รองรับ การสร้างโลกแบบไดนามิก ไม่ใช่เพียงสแนปช็อต 3D แบบคงที่
    • นำไปใช้ได้กับหลากหลายสถานการณ์ เช่น หุ่นยนต์ แอนิเมชัน งานแต่งเรื่อง สถานที่ทางประวัติศาสตร์ และการสำรวจ

วิธีการทำงานของ Project Genie

  • เป็นต้นแบบ บนเว็บ ที่นอกจาก Genie 3 แล้ว ยังผสานโมเดล Nano Banana Pro และ Gemini ไว้ด้วย
  • ประกอบด้วยฟีเจอร์หลัก 3 อย่าง
  • 1. World Sketching (สเก็ตช์โลก)

    • ใช้ข้อความและรูปภาพ (ที่สร้างขึ้นหรืออัปโหลด) เพื่อ ออกแบบสภาพแวดล้อมที่มีชีวิต
    • กำหนดตัวละครและวิธีการสำรวจได้ พร้อมรองรับ รูปแบบการเคลื่อนที่หลากหลาย เช่น เดิน บิน ขับรถ
    • การผสาน Nano Banana Pro ช่วยให้ดูตัวอย่างโลกและปรับรายละเอียดได้
    • เลือกมุมมองได้ทั้งบุคคลที่หนึ่งและบุคคลที่สาม
  • 2. World Exploration (สำรวจโลก)

    • โลกที่สร้างขึ้นเป็น สภาพแวดล้อมที่สำรวจได้ โดย เส้นทางจะถูกสร้างแบบเรียลไทม์ ตามการกระทำของผู้ใช้
    • สามารถ ปรับมุมกล้อง ระหว่างการสำรวจได้
  • 3. World Remixing (รีมิกซ์โลก)

    • สามารถ สร้างโลกใหม่ในแบบตีความใหม่ โดยอิงจากพรอมป์ต์ของโลกเดิม
    • ผ่าน แกลเลอรีหรือฟังก์ชันสำรวจแบบสุ่ม ผู้ใช้สามารถสำรวจหรือแก้ไขโลกของผู้อื่นได้
    • สามารถดาวน์โหลดโลกที่เสร็จแล้วและกระบวนการสำรวจ เป็นวิดีโอ ได้

การสร้าง AI อย่างมีความรับผิดชอบ

  • Project Genie เป็น ต้นแบบงานวิจัยเชิงทดลอง ภายใต้ Google Labs และดำเนินงานตาม หลักการพัฒนา AI อย่างมีความรับผิดชอบ
  • จากข้อจำกัดของโมเดลในปัจจุบัน มีการระบุข้อจำกัดดังต่อไปนี้
    • โลกที่สร้างขึ้นอาจ แตกต่างจากความเป็นจริง หรือไม่สอดคล้องกับพรอมป์ต์และกฎฟิสิกส์
    • อาจเกิด ความหน่วงในการควบคุมตัวละคร หรือการตอบสนองลดลง
    • มี ข้อจำกัดเวลาในการสร้าง 60 วินาที
  • ฟีเจอร์ การเปลี่ยนเหตุการณ์ตามพรอมป์ต์ ที่ประกาศในเดือนสิงหาคม 2025 ยังไม่ได้ถูกรวมเข้ามา
  • สามารถติดตามอัปเดตและการปรับปรุงในอนาคตได้จากหน้าอย่างเป็นทางการของ DeepMind

แผนในอนาคตและการขยายการเข้าถึง

  • Project Genie พัฒนาบนพื้นฐานของงานวิจัยร่วมกับ กลุ่มผู้ทดสอบที่เชื่อถือได้
  • การเปิดตัวครั้งนี้เป็น ขั้นตอนเพื่อทำความเข้าใจว่าผู้ใช้จะนำ world model ไปใช้งานจริงอย่างไร
  • ขณะนี้เปิดให้ใช้เฉพาะ ผู้สมัครสมาชิก Google AI Ultra ในสหรัฐฯ และ มีแผนขยายไปยังภูมิภาคอื่นเพิ่มเติมในอนาคต
  • ในระยะยาว Google มีแผน เปิดเทคโนโลยีการสร้างโลกให้ผู้ใช้มากขึ้น

1 ความคิดเห็น

 
GN⁺ 2026-01-30
ความคิดเห็นจาก Hacker News
  • ช่วงนี้นึกถึง The Experience Machine ของ Andy Clark อยู่เรื่อยๆ
    มันคือทฤษฎีที่ว่า สมองมนุษย์ไม่ได้รับรู้โลกโดยตรง แต่สัมผัสความจริงผ่าน การจำลอง ที่สร้างขึ้นภายใน แล้วใช้ประสาทสัมผัสมาปรับแก้
    กล่าวคือ เราอาศัยอยู่ในโมเดลเชิงกำเนิดความละเอียดสูง และประสาทสัมผัสมีหน้าที่ปรับ สัญญาณความคลาดเคลื่อน ของโมเดลนั้น
    เหมือนที่ Genie 3 ทำนายเฟรมถัดไปใน latent space สมองมนุษย์ก็พยายามลดความต่างระหว่างความคาดหวังกับประสบการณ์จริงผ่าน ‘Active Inference’
    สุดท้ายแล้ว ความรู้สึกว่าสมจริงอาจไม่ใช่การบันทึกโลกภายนอกโดยตรง แต่เป็น การจำลองเชิงโต้ตอบ ที่ถูกปรับแก้อยู่ตลอดเวลา

    • ในทางประสาทวิทยา นี่เป็นแนวคิดที่ค่อนข้างได้รับการยอมรับแล้ว
      ตัวอย่างเช่น ความฝัน อาจมองได้ว่าเป็นกรณีที่โมเดลภายในทำงานได้อย่างอิสระในสภาวะที่อินพุตจากประสาทสัมผัสถูกตัดออก
    • วิดีโอที่เกี่ยวข้อง ขอแนะนำ Why Your Brain Blinds You For 2 Hours Every Day ของ kurzgesagt และ รวมแหล่งอ้างอิง
    • Your Brain Hallucinates Your Conscious Reality ของ Anil Seth ก็อยู่ในบริบทเดียวกัน
      ประเด็นลักษณะนี้ถูกพูดถึงมานานแล้วใน ปรัชญาและศาสนา และน่าสนใจตรงที่จิตสำนึกของมนุษย์อาจประกอบสร้างความจริงจากการฉายภาพของตัวเอง
    • การประมวลผลภาพภายหลัง ของภาพถ่ายจากสมาร์ตโฟนก็อาจเป็นอุปมาได้เช่นกัน
      มันชวนให้ตั้งคำถามว่า ตั้งแต่เมื่อไรสิ่งนั้นถึงไม่ใช่ภาพถ่าย แต่กลายเป็น งานอิมเพรสชันนิสม์ที่คำนวณขึ้น
    • หนังสือ 『The Case Against Reality』 ของ Donald Hoffman ก็น่าอ่านควบคู่กัน
  • ดูเหมือนหลายคนจะเข้าใจ Genie ผิดว่าเป็นแค่ ผลิตภัณฑ์สำหรับเกมหรือภาพยนตร์
    แต่เป้าหมายที่แท้จริงคือการสร้าง world model ที่เป็น “เครื่องยนต์แห่งจินตนาการ” สำหรับ AI และหุ่นยนต์ยุคถัดไป โดยจำลองผลลัพธ์ของการกระทำเพื่อช่วยตัดสินใจ

    • เห็นด้วยเหมือนกัน แต่ก่อนคนมักพูดว่า LLM ไม่มี world model และตอนนี้ก็ดูเหมือนเรากำลังก้าวไปสู่ขั้นต่อไป
      ผมนึกภาพโครงสร้างที่เข้ารหัสวิดีโอจากโลกจริงที่เฟรมเรตหนึ่ง เพื่อ ยึดจินตนาการของโมเดลไว้กับข้อมูลจริง แล้วแตกแขนงสถานการณ์การกระทำที่เป็นไปได้เพื่อประเมิน ก่อนส่งการคาดการณ์ที่ดีที่สุดไปยังมอเตอร์
      การจัดจังหวะเวลาอาจไม่ง่าย แต่ภาพรวมใหญ่เริ่มเห็นแล้ว
    • ผมเห็นต่างเล็กน้อย ถ้าต้องการจินตนาการจริงๆ ผมไม่คิดว่าจำเป็นต้องมี การถอดรหัสวิดีโอ
      Genie สร้างวิดีโอขึ้นมาในฐานะ อินเทอร์เฟซที่มนุษย์เข้าใจและดีบักได้
      กล่าวคือ วัตถุประสงค์ต่างออกไปตรงที่มันเป็น เกมทดลอง AI สำหรับนักวิจัย
    • แต่โครงสร้างแบบนี้ ต้นทุนสูงเกินไป ดูแล้วงานหุ่นยนต์น่าจะต้องใช้อาร์กิเท็กเจอร์ที่ต่างออกไปโดยสิ้นเชิง
    • ตอนแรก Instagram ก็เป็นแอปไว้แชร์รูปกับเพื่อน แต่ตอนนี้กลายเป็น แพลตฟอร์มที่ชวนเสพติด ไปแล้ว
      ถ้า Genie ถูกรวมกับ VR ก็อาจเกิด จุดเปลี่ยนแบบดิสโทเปีย คล้ายกันได้
    • การทำ environment mapping แบบนี้และการให้ AI สร้างผลลัพธ์ทดแทน ก็สุดท้ายคือแนวคิดของ holodeck
      แต่ผมก็ยังชอบ ความเสี่ยงและความมีชีวิตชีวา ของโลกจริงมากกว่า
  • ดีใจมากที่ Genie ถูกปล่อยออกมา
    มีวิดีโอจากผู้ใช้ยุคแรกที่น่าสนใจหลายชิ้น:
    สำรวจเมือง, จำลองเฮลิคอปเตอร์, สถานีอวกาศกับ Dunkin Donuts, จำลองแล็ปท็อป, นากนักบิน

    • ผมก็เข้าร่วมเป็น early tester ด้วย
      ลองสร้างโลกหลากหลายแบบ ทั้งเดินบนดวงจันทร์ พบ Holmes กับ Watson ที่ 221B Baker Street หรือสำรวจโลกผ่าน ชานมไข่มุกยักษ์ ในตลาดกลางคืนไทเป
      มี วิดีโอเดโม ด้วย
      ตอนนี้มันยังเป็นต้นแบบเชิงทดลอง แต่ให้ความรู้สึกเหมือน เบาะแสของอนาคต
    • ในเชิงเทคนิคน่าทึ่งมาก แต่ยังขาด ความดื่มด่ำ
      การสร้าง asset ของ Unreal 5 ได้ด้วยคำไม่กี่คำถือว่าเจ๋ง แต่ในทางปฏิบัติผมไม่ได้อยากเล่นแบบนั้น
      แถมก็ไม่คิดอยากจ่ายต้นทุนการคำนวณรายวินาทีด้วย
    • ถ้ามีเวอร์ชันที่จำลองยุคไดโนเสาร์ได้ ผมอยากเห็นมาก
    • อยากรู้ว่าคนอื่นคิดเห็นอย่างไรเกี่ยวกับ Project Genie
  • จุดทะลุผ่านที่แท้จริงของ Genie คือ มันหันกลับไปดูด้านหลังได้
    ซิมูเลเตอร์จากแล็บอื่นๆ รักษาความสอดคล้องของสิ่งที่อยู่นอกมุมมองไม่ได้ แต่ Genie แก้ปัญหานั้นได้

    • ได้ยินมาว่าแล็บของ Fei-Fei Li กำลังสร้าง โลก 3D จริงๆ
      เพียงแต่วิธีนั้นน่าจะมีข้อจำกัดเรื่องการแสดงออกเชิงแอนิเมชัน
    • น่าแปลกใจที่นักวิจัย ML เพิ่งมาตระหนักช้าขนาดนี้ถึงความจำเป็นของ โครงสร้างแคชแบบชัดเจน
    • ถ้าอย่างนั้นก็สงสัยว่า ถ้ากลับไปที่เดิมอีกหนึ่งสัปดาห์ต่อมา ฉากนั้นจะยังคงอยู่ไหม
  • มีวิดีโอสัมภาษณ์ทีม Project Genie
    ลิงก์ YouTube
    Genie เป็น research prototype ที่สามารถสร้าง สำรวจ และโต้ตอบกับ โลกโฟโตรีเอลที่หลากหลายได้ไม่สิ้นสุด แบบเรียลไทม์
    วิดีโอนี้พูดถึงการเปลี่ยนผ่านจากการสร้างวิดีโอแบบรับชมอย่างเดียวไปสู่ สื่อเชิงโต้ตอบ ความท้าทายทางเทคนิคของ ความสอดคล้องของโลกและการคงความจำ รวมถึงบทบาทของมันในฐานะสนามฝึกสำหรับ AI agent

  • ยิ่งเห็นเทคโนโลยีแบบนี้ ก็ยิ่งอยาก ใช้เวลาอยู่ในโลกจริง
    อยากปิดหน้าจอแล้วกลับไปทำสิ่งที่ตัวเองรักอีกครั้ง

    • ผมก็รู้สึกแบบเดียวกัน ทันทีที่เห็นคนในวิดีโอกำลังพิมพ์คีย์บอร์ด ก็มีความรู้สึก ขมขื่น บางอย่างถาโถมเข้ามา
      โลกเสมือนที่สร้างจากฉากที่ถ่ายมาจริงกลับให้ความรู้สึก เศร้า
    • ผมรัก AI แต่ก็หวังว่าเทคโนโลยีแบบนี้จะยิ่งทำให้เห็นคุณค่าของ ประสบการณ์มนุษย์จริงๆ
    • ผมทำงานในวงการเทคโนโลยีมาทั้งชีวิต แต่ตอนนี้กลับอยาก ปิดทุกอย่างทิ้ง
    • น่าขันตรงที่ความก้าวหน้าแบบนี้ทำให้ผมยิ่งเชื่อ สมมติฐานการจำลอง มากขึ้น
      บางทีความจริงเองก็อาจเป็นการจำลองอยู่แล้ว
    • ท้องฟ้าก็สีฟ้า แดดก็ดี แต่ขี้เกียจ เลยคิดว่าเปิด การจำลองการเดินเล่น แทนดีไหม
  • ทำให้นึกถึง โปรเจกต์ส่วนตัวที่ฝึก world model ด้วยวิดีโอสวนสาธารณะ ที่เคยลง HN
    ตอนนั้นยังมี เดโมแบบโต้ตอบ ด้วย และ Genie ก็ให้ความรู้สึกเหมือนยกระดับไอเดียนั้นขึ้นไปอีกขั้น
    น่าเสียดายที่ความเป็นจริงคือบล็อกหรือเดโมอินดี้มักไม่ค่อยถูกอ้างอิง

    • ใช่แล้ว แนวคิดคล้ายกัน แต่ต่างกันที่ ขนาดอย่างสุดขั้ว
      โมเดลสวนสาธารณะมี 5 ล้านพารามิเตอร์ ฝึกจากวิดีโอความยาว 15 นาที และ รันได้บน iPhone
      ส่วน Genie 3 เป็น โมเดลขนาดมหึมา ระดับหลายพันล้านพารามิเตอร์ที่ฝึกจากวิดีโอหลายล้านชั่วโมง
      ตอนนี้โมเดลขนาดกลางก็เริ่มออกมาแล้ว ดังนั้นภายใน 1-2 ปีน่าจะ รันในเครื่องด้วย gaming GPU ได้
      ตัวอย่าง: LingBot-World, Waypoint 1
  • ทั้งหมดนี้ชวนให้นึกถึงธีมของภาพยนตร์ 『The Thirteenth Floor』
    ลิงก์ตัวอย่าง

  • อยากให้ใครสักคนสร้างโลกจาก GIF นี้

  • สงสัยมานานแล้วว่าทำไม Meta(FB) ถึงไม่จริงจังกับ world model
    ทั้งที่นี่แหละคือ หัวใจของวิสัยทัศน์ metaverse แต่กลับปล่อยให้ Yann LeCun ออกไป

    • LeCun ก่อให้เกิดรอยร้าวภายในจาก การไม่มีผลงานและการยึดติดกับทิศทางวิจัยของตน
      เขาไม่เข้าร่วมการแข่งขัน LLM และหมกมุ่นอยู่กับทฤษฎีที่ยังไม่ผ่านการพิสูจน์
      ผลก็คือ Meta หลุดจากกลุ่มผู้นำด้าน AI และ LeCun ก็จากไปโดยยังรักษาเกียรติไว้ได้
    • ผมชอบอุปมาเรื่องความต่างระหว่าง JEPA กับ Genie แบบนี้
      JEPA เหมือน นักเขียนนวนิยาย ที่สรุปว่า “สุนัขวิ่งเข้าหาบุรุษไปรษณีย์”
      ส่วน Genie เหมือน จิตรกร ที่ต้องวาดฉากถัดไปออกมาจริงๆ เรื่องราวถึงจะเกิดขึ้น
      กล่าวคือ Genie คือ การสร้างระดับเฟรม ส่วน JEPA คือ การทำนายในระดับแนวคิด
    • เห็นด้วยเต็มที่ world model นี่แหละคือ ไพ่กู้ชีพของการลงทุนใน Reality Labs
      ถ้าทำให้เป็นผลิตภัณฑ์ไม่ได้ ก็อาจต้องพับโปรเจกต์นี้ไปเลย
    • กรณีที่ล้มเหลวมักไม่ถูกเปิดเผย จึง ไม่ชัดเจน ว่าจริงๆ แล้ว Meta ลงทุนกับอะไรไปบ้าง
    • โดยพื้นฐานแล้วผู้คน ไม่ชอบสวม VR headset
      ไม่ว่าคอนเทนต์จะดีแค่ไหน มันก็ยังคงอยู่ใน ตลาดเฉพาะกลุ่ม