Project Genie: ทดลองโลกที่ไร้ขอบเขตและโต้ตอบได้

(blog.google)

6 คะแนน โดย GN⁺ 2026-01-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Project Genie ของ Google เป็นต้นแบบงานวิจัยเชิงทดลองที่ให้ผู้ใช้ สร้าง·สำรวจ·รีมิกซ์โลกเสมือนที่โต้ตอบได้ ด้วยข้อความและรูปภาพ
พัฒนาบนโมเดล Genie 3 และ สร้างเส้นทางกับสภาพแวดล้อมแบบเรียลไทม์ ตามการเคลื่อนไหวของผู้ใช้
ให้บริการในรูปแบบเว็บแอป โดยผสานโมเดล Nano Banana Pro และ Gemini เพื่อรองรับการสเก็ตช์โลก การสำรวจ และการรีมิกซ์
ด้วยข้อจำกัดของโมเดล เวอร์ชันเริ่มต้นจึงยังมีข้อจำกัด เช่น ความไม่สอดคล้องกับกฎฟิสิกส์ การหน่วงในการควบคุมตัวละคร และข้อจำกัด 60 วินาที
ขณะนี้เปิดให้ใช้สำหรับ ผู้สมัครสมาชิก Google AI Ultra ในสหรัฐฯ (อายุ 18 ปีขึ้นไป) และมีแผนขยายไปยังภูมิภาคอื่นในอนาคต

ภาพรวมของ Project Genie

Project Genie เป็นต้นแบบงานวิจัยเชิงทดลองบนพื้นฐานของ Genie 3 ที่พัฒนาโดย Google DeepMind โดยมอบสภาพแวดล้อมให้ผู้ใช้สามารถ สร้าง สำรวจ และรีมิกซ์โลกเสมือน ได้ด้วยตนเอง
- ใช้งานได้สำหรับ ผู้สมัครสมาชิก Google AI Ultra ในสหรัฐฯ (อายุ 18 ปีขึ้นไป)
- ผู้ใช้สามารถสร้างโลกผ่านพรอมป์ต์ข้อความและรูปภาพ และสำรวจได้แบบเรียลไทม์
โครงการนี้เป็นก้าวแรกในการเปิดเผย เทคโนโลยีการสร้างโลกแบบสมจริง ให้ผู้ใช้ทั่วไป และเป็นการต่อยอดงานวิจัยด้าน world model

ความก้าวหน้าของ World Model

world model คือระบบที่ จำลองการเปลี่ยนแปลงแบบไดนามิกของสภาพแวดล้อม และคาดการณ์ ผลกระทบจากการกระทำ
Google DeepMind ตั้งเป้าพัฒนาระบบ AGI ที่สามารถ สำรวจความหลากหลายของโลกจริง ได้ ก้าวข้ามงานวิจัยเอเจนต์สำหรับสภาพแวดล้อมเฉพาะอย่างหมากรุกหรือโกะ
Genie 3 สามารถ สร้างเส้นทางแบบเรียลไทม์ ตามการเคลื่อนที่ของผู้ใช้ และจำลองปฏิสัมพันธ์ทางกายภาพ
- รองรับ การสร้างโลกแบบไดนามิก ไม่ใช่เพียงสแนปช็อต 3D แบบคงที่
- นำไปใช้ได้กับหลากหลายสถานการณ์ เช่น หุ่นยนต์ แอนิเมชัน งานแต่งเรื่อง สถานที่ทางประวัติศาสตร์ และการสำรวจ

วิธีการทำงานของ Project Genie

เป็นต้นแบบ บนเว็บ ที่นอกจาก Genie 3 แล้ว ยังผสานโมเดล Nano Banana Pro และ Gemini ไว้ด้วย
ประกอบด้วยฟีเจอร์หลัก 3 อย่าง
1. World Sketching (สเก็ตช์โลก)
- ใช้ข้อความและรูปภาพ (ที่สร้างขึ้นหรืออัปโหลด) เพื่อ ออกแบบสภาพแวดล้อมที่มีชีวิต
- กำหนดตัวละครและวิธีการสำรวจได้ พร้อมรองรับ รูปแบบการเคลื่อนที่หลากหลาย เช่น เดิน บิน ขับรถ
- การผสาน Nano Banana Pro ช่วยให้ดูตัวอย่างโลกและปรับรายละเอียดได้
- เลือกมุมมองได้ทั้งบุคคลที่หนึ่งและบุคคลที่สาม
2. World Exploration (สำรวจโลก)
- โลกที่สร้างขึ้นเป็น สภาพแวดล้อมที่สำรวจได้ โดย เส้นทางจะถูกสร้างแบบเรียลไทม์ ตามการกระทำของผู้ใช้
- สามารถ ปรับมุมกล้อง ระหว่างการสำรวจได้
3. World Remixing (รีมิกซ์โลก)
- สามารถ สร้างโลกใหม่ในแบบตีความใหม่ โดยอิงจากพรอมป์ต์ของโลกเดิม
- ผ่าน แกลเลอรีหรือฟังก์ชันสำรวจแบบสุ่ม ผู้ใช้สามารถสำรวจหรือแก้ไขโลกของผู้อื่นได้
- สามารถดาวน์โหลดโลกที่เสร็จแล้วและกระบวนการสำรวจ เป็นวิดีโอ ได้

การสร้าง AI อย่างมีความรับผิดชอบ

Project Genie เป็น ต้นแบบงานวิจัยเชิงทดลอง ภายใต้ Google Labs และดำเนินงานตาม หลักการพัฒนา AI อย่างมีความรับผิดชอบ
จากข้อจำกัดของโมเดลในปัจจุบัน มีการระบุข้อจำกัดดังต่อไปนี้
- โลกที่สร้างขึ้นอาจ แตกต่างจากความเป็นจริง หรือไม่สอดคล้องกับพรอมป์ต์และกฎฟิสิกส์
- อาจเกิด ความหน่วงในการควบคุมตัวละคร หรือการตอบสนองลดลง
- มี ข้อจำกัดเวลาในการสร้าง 60 วินาที
ฟีเจอร์ การเปลี่ยนเหตุการณ์ตามพรอมป์ต์ ที่ประกาศในเดือนสิงหาคม 2025 ยังไม่ได้ถูกรวมเข้ามา
สามารถติดตามอัปเดตและการปรับปรุงในอนาคตได้จากหน้าอย่างเป็นทางการของ DeepMind

แผนในอนาคตและการขยายการเข้าถึง

Project Genie พัฒนาบนพื้นฐานของงานวิจัยร่วมกับ กลุ่มผู้ทดสอบที่เชื่อถือได้
การเปิดตัวครั้งนี้เป็น ขั้นตอนเพื่อทำความเข้าใจว่าผู้ใช้จะนำ world model ไปใช้งานจริงอย่างไร
ขณะนี้เปิดให้ใช้เฉพาะ ผู้สมัครสมาชิก Google AI Ultra ในสหรัฐฯ และ มีแผนขยายไปยังภูมิภาคอื่นเพิ่มเติมในอนาคต
ในระยะยาว Google มีแผน เปิดเทคโนโลยีการสร้างโลกให้ผู้ใช้มากขึ้น

1 ความคิดเห็น

GN⁺ 2026-01-30

ความคิดเห็นจาก Hacker News

ช่วงนี้นึกถึง The Experience Machine ของ Andy Clark อยู่เรื่อยๆ
มันคือทฤษฎีที่ว่า สมองมนุษย์ไม่ได้รับรู้โลกโดยตรง แต่สัมผัสความจริงผ่าน การจำลอง ที่สร้างขึ้นภายใน แล้วใช้ประสาทสัมผัสมาปรับแก้
กล่าวคือ เราอาศัยอยู่ในโมเดลเชิงกำเนิดความละเอียดสูง และประสาทสัมผัสมีหน้าที่ปรับ สัญญาณความคลาดเคลื่อน ของโมเดลนั้น
เหมือนที่ Genie 3 ทำนายเฟรมถัดไปใน latent space สมองมนุษย์ก็พยายามลดความต่างระหว่างความคาดหวังกับประสบการณ์จริงผ่าน ‘Active Inference’
สุดท้ายแล้ว ความรู้สึกว่าสมจริงอาจไม่ใช่การบันทึกโลกภายนอกโดยตรง แต่เป็น การจำลองเชิงโต้ตอบ ที่ถูกปรับแก้อยู่ตลอดเวลา
- ในทางประสาทวิทยา นี่เป็นแนวคิดที่ค่อนข้างได้รับการยอมรับแล้ว
  ตัวอย่างเช่น ความฝัน อาจมองได้ว่าเป็นกรณีที่โมเดลภายในทำงานได้อย่างอิสระในสภาวะที่อินพุตจากประสาทสัมผัสถูกตัดออก
- วิดีโอที่เกี่ยวข้อง ขอแนะนำ Why Your Brain Blinds You For 2 Hours Every Day ของ kurzgesagt และ รวมแหล่งอ้างอิง
- Your Brain Hallucinates Your Conscious Reality ของ Anil Seth ก็อยู่ในบริบทเดียวกัน
  ประเด็นลักษณะนี้ถูกพูดถึงมานานแล้วใน ปรัชญาและศาสนา และน่าสนใจตรงที่จิตสำนึกของมนุษย์อาจประกอบสร้างความจริงจากการฉายภาพของตัวเอง
- การประมวลผลภาพภายหลัง ของภาพถ่ายจากสมาร์ตโฟนก็อาจเป็นอุปมาได้เช่นกัน
  มันชวนให้ตั้งคำถามว่า ตั้งแต่เมื่อไรสิ่งนั้นถึงไม่ใช่ภาพถ่าย แต่กลายเป็น งานอิมเพรสชันนิสม์ที่คำนวณขึ้น
- หนังสือ 『The Case Against Reality』 ของ Donald Hoffman ก็น่าอ่านควบคู่กัน
ดูเหมือนหลายคนจะเข้าใจ Genie ผิดว่าเป็นแค่ ผลิตภัณฑ์สำหรับเกมหรือภาพยนตร์
แต่เป้าหมายที่แท้จริงคือการสร้าง world model ที่เป็น “เครื่องยนต์แห่งจินตนาการ” สำหรับ AI และหุ่นยนต์ยุคถัดไป โดยจำลองผลลัพธ์ของการกระทำเพื่อช่วยตัดสินใจ
- เห็นด้วยเหมือนกัน แต่ก่อนคนมักพูดว่า LLM ไม่มี world model และตอนนี้ก็ดูเหมือนเรากำลังก้าวไปสู่ขั้นต่อไป
  ผมนึกภาพโครงสร้างที่เข้ารหัสวิดีโอจากโลกจริงที่เฟรมเรตหนึ่ง เพื่อ ยึดจินตนาการของโมเดลไว้กับข้อมูลจริง แล้วแตกแขนงสถานการณ์การกระทำที่เป็นไปได้เพื่อประเมิน ก่อนส่งการคาดการณ์ที่ดีที่สุดไปยังมอเตอร์
  การจัดจังหวะเวลาอาจไม่ง่าย แต่ภาพรวมใหญ่เริ่มเห็นแล้ว
- ผมเห็นต่างเล็กน้อย ถ้าต้องการจินตนาการจริงๆ ผมไม่คิดว่าจำเป็นต้องมี การถอดรหัสวิดีโอ
  Genie สร้างวิดีโอขึ้นมาในฐานะ อินเทอร์เฟซที่มนุษย์เข้าใจและดีบักได้
  กล่าวคือ วัตถุประสงค์ต่างออกไปตรงที่มันเป็น เกมทดลอง AI สำหรับนักวิจัย
- แต่โครงสร้างแบบนี้ ต้นทุนสูงเกินไป ดูแล้วงานหุ่นยนต์น่าจะต้องใช้อาร์กิเท็กเจอร์ที่ต่างออกไปโดยสิ้นเชิง
- ตอนแรก Instagram ก็เป็นแอปไว้แชร์รูปกับเพื่อน แต่ตอนนี้กลายเป็น แพลตฟอร์มที่ชวนเสพติด ไปแล้ว
  ถ้า Genie ถูกรวมกับ VR ก็อาจเกิด จุดเปลี่ยนแบบดิสโทเปีย คล้ายกันได้
- การทำ environment mapping แบบนี้และการให้ AI สร้างผลลัพธ์ทดแทน ก็สุดท้ายคือแนวคิดของ holodeck
  แต่ผมก็ยังชอบ ความเสี่ยงและความมีชีวิตชีวา ของโลกจริงมากกว่า
ดีใจมากที่ Genie ถูกปล่อยออกมา
มีวิดีโอจากผู้ใช้ยุคแรกที่น่าสนใจหลายชิ้น:
สำรวจเมือง, จำลองเฮลิคอปเตอร์, สถานีอวกาศกับ Dunkin Donuts, จำลองแล็ปท็อป, นากนักบิน
- ผมก็เข้าร่วมเป็น early tester ด้วย
  ลองสร้างโลกหลากหลายแบบ ทั้งเดินบนดวงจันทร์ พบ Holmes กับ Watson ที่ 221B Baker Street หรือสำรวจโลกผ่าน ชานมไข่มุกยักษ์ ในตลาดกลางคืนไทเป
  มี วิดีโอเดโม ด้วย
  ตอนนี้มันยังเป็นต้นแบบเชิงทดลอง แต่ให้ความรู้สึกเหมือน เบาะแสของอนาคต
- ในเชิงเทคนิคน่าทึ่งมาก แต่ยังขาด ความดื่มด่ำ
  การสร้าง asset ของ Unreal 5 ได้ด้วยคำไม่กี่คำถือว่าเจ๋ง แต่ในทางปฏิบัติผมไม่ได้อยากเล่นแบบนั้น
  แถมก็ไม่คิดอยากจ่ายต้นทุนการคำนวณรายวินาทีด้วย
- ถ้ามีเวอร์ชันที่จำลองยุคไดโนเสาร์ได้ ผมอยากเห็นมาก
- อยากรู้ว่าคนอื่นคิดเห็นอย่างไรเกี่ยวกับ Project Genie
จุดทะลุผ่านที่แท้จริงของ Genie คือ มันหันกลับไปดูด้านหลังได้
ซิมูเลเตอร์จากแล็บอื่นๆ รักษาความสอดคล้องของสิ่งที่อยู่นอกมุมมองไม่ได้ แต่ Genie แก้ปัญหานั้นได้
- ได้ยินมาว่าแล็บของ Fei-Fei Li กำลังสร้าง โลก 3D จริงๆ
  เพียงแต่วิธีนั้นน่าจะมีข้อจำกัดเรื่องการแสดงออกเชิงแอนิเมชัน
- น่าแปลกใจที่นักวิจัย ML เพิ่งมาตระหนักช้าขนาดนี้ถึงความจำเป็นของ โครงสร้างแคชแบบชัดเจน
- ถ้าอย่างนั้นก็สงสัยว่า ถ้ากลับไปที่เดิมอีกหนึ่งสัปดาห์ต่อมา ฉากนั้นจะยังคงอยู่ไหม
มีวิดีโอสัมภาษณ์ทีม Project Genie
ลิงก์ YouTube
Genie เป็น research prototype ที่สามารถสร้าง สำรวจ และโต้ตอบกับ โลกโฟโตรีเอลที่หลากหลายได้ไม่สิ้นสุด แบบเรียลไทม์
วิดีโอนี้พูดถึงการเปลี่ยนผ่านจากการสร้างวิดีโอแบบรับชมอย่างเดียวไปสู่ สื่อเชิงโต้ตอบ ความท้าทายทางเทคนิคของ ความสอดคล้องของโลกและการคงความจำ รวมถึงบทบาทของมันในฐานะสนามฝึกสำหรับ AI agent
ยิ่งเห็นเทคโนโลยีแบบนี้ ก็ยิ่งอยาก ใช้เวลาอยู่ในโลกจริง
อยากปิดหน้าจอแล้วกลับไปทำสิ่งที่ตัวเองรักอีกครั้ง
- ผมก็รู้สึกแบบเดียวกัน ทันทีที่เห็นคนในวิดีโอกำลังพิมพ์คีย์บอร์ด ก็มีความรู้สึก ขมขื่น บางอย่างถาโถมเข้ามา
  โลกเสมือนที่สร้างจากฉากที่ถ่ายมาจริงกลับให้ความรู้สึก เศร้า
- ผมรัก AI แต่ก็หวังว่าเทคโนโลยีแบบนี้จะยิ่งทำให้เห็นคุณค่าของ ประสบการณ์มนุษย์จริงๆ
- ผมทำงานในวงการเทคโนโลยีมาทั้งชีวิต แต่ตอนนี้กลับอยาก ปิดทุกอย่างทิ้ง
- น่าขันตรงที่ความก้าวหน้าแบบนี้ทำให้ผมยิ่งเชื่อ สมมติฐานการจำลอง มากขึ้น
  บางทีความจริงเองก็อาจเป็นการจำลองอยู่แล้ว
- ท้องฟ้าก็สีฟ้า แดดก็ดี แต่ขี้เกียจ เลยคิดว่าเปิด การจำลองการเดินเล่น แทนดีไหม
ทำให้นึกถึง โปรเจกต์ส่วนตัวที่ฝึก world model ด้วยวิดีโอสวนสาธารณะ ที่เคยลง HN
ตอนนั้นยังมี เดโมแบบโต้ตอบ ด้วย และ Genie ก็ให้ความรู้สึกเหมือนยกระดับไอเดียนั้นขึ้นไปอีกขั้น
น่าเสียดายที่ความเป็นจริงคือบล็อกหรือเดโมอินดี้มักไม่ค่อยถูกอ้างอิง
- ใช่แล้ว แนวคิดคล้ายกัน แต่ต่างกันที่ ขนาดอย่างสุดขั้ว
  โมเดลสวนสาธารณะมี 5 ล้านพารามิเตอร์ ฝึกจากวิดีโอความยาว 15 นาที และ รันได้บน iPhone
  ส่วน Genie 3 เป็น โมเดลขนาดมหึมา ระดับหลายพันล้านพารามิเตอร์ที่ฝึกจากวิดีโอหลายล้านชั่วโมง
  ตอนนี้โมเดลขนาดกลางก็เริ่มออกมาแล้ว ดังนั้นภายใน 1-2 ปีน่าจะ รันในเครื่องด้วย gaming GPU ได้
  ตัวอย่าง: LingBot-World, Waypoint 1
ทั้งหมดนี้ชวนให้นึกถึงธีมของภาพยนตร์ 『The Thirteenth Floor』
ลิงก์ตัวอย่าง
อยากให้ใครสักคนสร้างโลกจาก GIF นี้
สงสัยมานานแล้วว่าทำไม Meta(FB) ถึงไม่จริงจังกับ world model
ทั้งที่นี่แหละคือ หัวใจของวิสัยทัศน์ metaverse แต่กลับปล่อยให้ Yann LeCun ออกไป
- LeCun ก่อให้เกิดรอยร้าวภายในจาก การไม่มีผลงานและการยึดติดกับทิศทางวิจัยของตน
  เขาไม่เข้าร่วมการแข่งขัน LLM และหมกมุ่นอยู่กับทฤษฎีที่ยังไม่ผ่านการพิสูจน์
  ผลก็คือ Meta หลุดจากกลุ่มผู้นำด้าน AI และ LeCun ก็จากไปโดยยังรักษาเกียรติไว้ได้
- ผมชอบอุปมาเรื่องความต่างระหว่าง JEPA กับ Genie แบบนี้
  JEPA เหมือน นักเขียนนวนิยาย ที่สรุปว่า “สุนัขวิ่งเข้าหาบุรุษไปรษณีย์”
  ส่วน Genie เหมือน จิตรกร ที่ต้องวาดฉากถัดไปออกมาจริงๆ เรื่องราวถึงจะเกิดขึ้น
  กล่าวคือ Genie คือ การสร้างระดับเฟรม ส่วน JEPA คือ การทำนายในระดับแนวคิด
- เห็นด้วยเต็มที่ world model นี่แหละคือ ไพ่กู้ชีพของการลงทุนใน Reality Labs
  ถ้าทำให้เป็นผลิตภัณฑ์ไม่ได้ ก็อาจต้องพับโปรเจกต์นี้ไปเลย
- กรณีที่ล้มเหลวมักไม่ถูกเปิดเผย จึง ไม่ชัดเจน ว่าจริงๆ แล้ว Meta ลงทุนกับอะไรไปบ้าง
- โดยพื้นฐานแล้วผู้คน ไม่ชอบสวม VR headset
  ไม่ว่าคอนเทนต์จะดีแค่ไหน มันก็ยังคงอยู่ใน ตลาดเฉพาะกลุ่ม

Project Genie: ทดลองโลกที่ไร้ขอบเขตและโต้ตอบได้

ภาพรวมของ Project Genie

ความก้าวหน้าของ World Model

วิธีการทำงานของ Project Genie

1. World Sketching (สเก็ตช์โลก)

2. World Exploration (สำรวจโลก)

3. World Remixing (รีมิกซ์โลก)

การสร้าง AI อย่างมีความรับผิดชอบ

แผนในอนาคตและการขยายการเข้าถึง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News