- Project Genie ของ Google เป็นต้นแบบงานวิจัยเชิงทดลองที่ให้ผู้ใช้ สร้าง·สำรวจ·รีมิกซ์โลกเสมือนที่โต้ตอบได้ ด้วยข้อความและรูปภาพ
- พัฒนาบนโมเดล Genie 3 และ สร้างเส้นทางกับสภาพแวดล้อมแบบเรียลไทม์ ตามการเคลื่อนไหวของผู้ใช้
- ให้บริการในรูปแบบเว็บแอป โดยผสานโมเดล Nano Banana Pro และ Gemini เพื่อรองรับการสเก็ตช์โลก การสำรวจ และการรีมิกซ์
- ด้วยข้อจำกัดของโมเดล เวอร์ชันเริ่มต้นจึงยังมีข้อจำกัด เช่น ความไม่สอดคล้องกับกฎฟิสิกส์ การหน่วงในการควบคุมตัวละคร และข้อจำกัด 60 วินาที
- ขณะนี้เปิดให้ใช้สำหรับ ผู้สมัครสมาชิก Google AI Ultra ในสหรัฐฯ (อายุ 18 ปีขึ้นไป) และมีแผนขยายไปยังภูมิภาคอื่นในอนาคต
ภาพรวมของ Project Genie
- Project Genie เป็นต้นแบบงานวิจัยเชิงทดลองบนพื้นฐานของ Genie 3 ที่พัฒนาโดย Google DeepMind โดยมอบสภาพแวดล้อมให้ผู้ใช้สามารถ สร้าง สำรวจ และรีมิกซ์โลกเสมือน ได้ด้วยตนเอง
- ใช้งานได้สำหรับ ผู้สมัครสมาชิก Google AI Ultra ในสหรัฐฯ (อายุ 18 ปีขึ้นไป)
- ผู้ใช้สามารถสร้างโลกผ่านพรอมป์ต์ข้อความและรูปภาพ และสำรวจได้แบบเรียลไทม์
- โครงการนี้เป็นก้าวแรกในการเปิดเผย เทคโนโลยีการสร้างโลกแบบสมจริง ให้ผู้ใช้ทั่วไป และเป็นการต่อยอดงานวิจัยด้าน world model
ความก้าวหน้าของ World Model
- world model คือระบบที่ จำลองการเปลี่ยนแปลงแบบไดนามิกของสภาพแวดล้อม และคาดการณ์ ผลกระทบจากการกระทำ
- Google DeepMind ตั้งเป้าพัฒนาระบบ AGI ที่สามารถ สำรวจความหลากหลายของโลกจริง ได้ ก้าวข้ามงานวิจัยเอเจนต์สำหรับสภาพแวดล้อมเฉพาะอย่างหมากรุกหรือโกะ
- Genie 3 สามารถ สร้างเส้นทางแบบเรียลไทม์ ตามการเคลื่อนที่ของผู้ใช้ และจำลองปฏิสัมพันธ์ทางกายภาพ
- รองรับ การสร้างโลกแบบไดนามิก ไม่ใช่เพียงสแนปช็อต 3D แบบคงที่
- นำไปใช้ได้กับหลากหลายสถานการณ์ เช่น หุ่นยนต์ แอนิเมชัน งานแต่งเรื่อง สถานที่ทางประวัติศาสตร์ และการสำรวจ
วิธีการทำงานของ Project Genie
- เป็นต้นแบบ บนเว็บ ที่นอกจาก Genie 3 แล้ว ยังผสานโมเดล Nano Banana Pro และ Gemini ไว้ด้วย
- ประกอบด้วยฟีเจอร์หลัก 3 อย่าง
-
1. World Sketching (สเก็ตช์โลก)
- ใช้ข้อความและรูปภาพ (ที่สร้างขึ้นหรืออัปโหลด) เพื่อ ออกแบบสภาพแวดล้อมที่มีชีวิต
- กำหนดตัวละครและวิธีการสำรวจได้ พร้อมรองรับ รูปแบบการเคลื่อนที่หลากหลาย เช่น เดิน บิน ขับรถ
- การผสาน Nano Banana Pro ช่วยให้ดูตัวอย่างโลกและปรับรายละเอียดได้
- เลือกมุมมองได้ทั้งบุคคลที่หนึ่งและบุคคลที่สาม
-
2. World Exploration (สำรวจโลก)
- โลกที่สร้างขึ้นเป็น สภาพแวดล้อมที่สำรวจได้ โดย เส้นทางจะถูกสร้างแบบเรียลไทม์ ตามการกระทำของผู้ใช้
- สามารถ ปรับมุมกล้อง ระหว่างการสำรวจได้
-
3. World Remixing (รีมิกซ์โลก)
- สามารถ สร้างโลกใหม่ในแบบตีความใหม่ โดยอิงจากพรอมป์ต์ของโลกเดิม
- ผ่าน แกลเลอรีหรือฟังก์ชันสำรวจแบบสุ่ม ผู้ใช้สามารถสำรวจหรือแก้ไขโลกของผู้อื่นได้
- สามารถดาวน์โหลดโลกที่เสร็จแล้วและกระบวนการสำรวจ เป็นวิดีโอ ได้
การสร้าง AI อย่างมีความรับผิดชอบ
- Project Genie เป็น ต้นแบบงานวิจัยเชิงทดลอง ภายใต้ Google Labs และดำเนินงานตาม หลักการพัฒนา AI อย่างมีความรับผิดชอบ
- จากข้อจำกัดของโมเดลในปัจจุบัน มีการระบุข้อจำกัดดังต่อไปนี้
- โลกที่สร้างขึ้นอาจ แตกต่างจากความเป็นจริง หรือไม่สอดคล้องกับพรอมป์ต์และกฎฟิสิกส์
- อาจเกิด ความหน่วงในการควบคุมตัวละคร หรือการตอบสนองลดลง
- มี ข้อจำกัดเวลาในการสร้าง 60 วินาที
- ฟีเจอร์ การเปลี่ยนเหตุการณ์ตามพรอมป์ต์ ที่ประกาศในเดือนสิงหาคม 2025 ยังไม่ได้ถูกรวมเข้ามา
- สามารถติดตามอัปเดตและการปรับปรุงในอนาคตได้จากหน้าอย่างเป็นทางการของ DeepMind
แผนในอนาคตและการขยายการเข้าถึง
- Project Genie พัฒนาบนพื้นฐานของงานวิจัยร่วมกับ กลุ่มผู้ทดสอบที่เชื่อถือได้
- การเปิดตัวครั้งนี้เป็น ขั้นตอนเพื่อทำความเข้าใจว่าผู้ใช้จะนำ world model ไปใช้งานจริงอย่างไร
- ขณะนี้เปิดให้ใช้เฉพาะ ผู้สมัครสมาชิก Google AI Ultra ในสหรัฐฯ และ มีแผนขยายไปยังภูมิภาคอื่นเพิ่มเติมในอนาคต
- ในระยะยาว Google มีแผน เปิดเทคโนโลยีการสร้างโลกให้ผู้ใช้มากขึ้น
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ช่วงนี้นึกถึง The Experience Machine ของ Andy Clark อยู่เรื่อยๆ
มันคือทฤษฎีที่ว่า สมองมนุษย์ไม่ได้รับรู้โลกโดยตรง แต่สัมผัสความจริงผ่าน การจำลอง ที่สร้างขึ้นภายใน แล้วใช้ประสาทสัมผัสมาปรับแก้
กล่าวคือ เราอาศัยอยู่ในโมเดลเชิงกำเนิดความละเอียดสูง และประสาทสัมผัสมีหน้าที่ปรับ สัญญาณความคลาดเคลื่อน ของโมเดลนั้น
เหมือนที่ Genie 3 ทำนายเฟรมถัดไปใน latent space สมองมนุษย์ก็พยายามลดความต่างระหว่างความคาดหวังกับประสบการณ์จริงผ่าน ‘Active Inference’
สุดท้ายแล้ว ความรู้สึกว่าสมจริงอาจไม่ใช่การบันทึกโลกภายนอกโดยตรง แต่เป็น การจำลองเชิงโต้ตอบ ที่ถูกปรับแก้อยู่ตลอดเวลา
ตัวอย่างเช่น ความฝัน อาจมองได้ว่าเป็นกรณีที่โมเดลภายในทำงานได้อย่างอิสระในสภาวะที่อินพุตจากประสาทสัมผัสถูกตัดออก
ประเด็นลักษณะนี้ถูกพูดถึงมานานแล้วใน ปรัชญาและศาสนา และน่าสนใจตรงที่จิตสำนึกของมนุษย์อาจประกอบสร้างความจริงจากการฉายภาพของตัวเอง
มันชวนให้ตั้งคำถามว่า ตั้งแต่เมื่อไรสิ่งนั้นถึงไม่ใช่ภาพถ่าย แต่กลายเป็น งานอิมเพรสชันนิสม์ที่คำนวณขึ้น
ดูเหมือนหลายคนจะเข้าใจ Genie ผิดว่าเป็นแค่ ผลิตภัณฑ์สำหรับเกมหรือภาพยนตร์
แต่เป้าหมายที่แท้จริงคือการสร้าง world model ที่เป็น “เครื่องยนต์แห่งจินตนาการ” สำหรับ AI และหุ่นยนต์ยุคถัดไป โดยจำลองผลลัพธ์ของการกระทำเพื่อช่วยตัดสินใจ
ผมนึกภาพโครงสร้างที่เข้ารหัสวิดีโอจากโลกจริงที่เฟรมเรตหนึ่ง เพื่อ ยึดจินตนาการของโมเดลไว้กับข้อมูลจริง แล้วแตกแขนงสถานการณ์การกระทำที่เป็นไปได้เพื่อประเมิน ก่อนส่งการคาดการณ์ที่ดีที่สุดไปยังมอเตอร์
การจัดจังหวะเวลาอาจไม่ง่าย แต่ภาพรวมใหญ่เริ่มเห็นแล้ว
Genie สร้างวิดีโอขึ้นมาในฐานะ อินเทอร์เฟซที่มนุษย์เข้าใจและดีบักได้
กล่าวคือ วัตถุประสงค์ต่างออกไปตรงที่มันเป็น เกมทดลอง AI สำหรับนักวิจัย
ถ้า Genie ถูกรวมกับ VR ก็อาจเกิด จุดเปลี่ยนแบบดิสโทเปีย คล้ายกันได้
แต่ผมก็ยังชอบ ความเสี่ยงและความมีชีวิตชีวา ของโลกจริงมากกว่า
ดีใจมากที่ Genie ถูกปล่อยออกมา
มีวิดีโอจากผู้ใช้ยุคแรกที่น่าสนใจหลายชิ้น:
สำรวจเมือง, จำลองเฮลิคอปเตอร์, สถานีอวกาศกับ Dunkin Donuts, จำลองแล็ปท็อป, นากนักบิน
ลองสร้างโลกหลากหลายแบบ ทั้งเดินบนดวงจันทร์ พบ Holmes กับ Watson ที่ 221B Baker Street หรือสำรวจโลกผ่าน ชานมไข่มุกยักษ์ ในตลาดกลางคืนไทเป
มี วิดีโอเดโม ด้วย
ตอนนี้มันยังเป็นต้นแบบเชิงทดลอง แต่ให้ความรู้สึกเหมือน เบาะแสของอนาคต
การสร้าง asset ของ Unreal 5 ได้ด้วยคำไม่กี่คำถือว่าเจ๋ง แต่ในทางปฏิบัติผมไม่ได้อยากเล่นแบบนั้น
แถมก็ไม่คิดอยากจ่ายต้นทุนการคำนวณรายวินาทีด้วย
จุดทะลุผ่านที่แท้จริงของ Genie คือ มันหันกลับไปดูด้านหลังได้
ซิมูเลเตอร์จากแล็บอื่นๆ รักษาความสอดคล้องของสิ่งที่อยู่นอกมุมมองไม่ได้ แต่ Genie แก้ปัญหานั้นได้
เพียงแต่วิธีนั้นน่าจะมีข้อจำกัดเรื่องการแสดงออกเชิงแอนิเมชัน
มีวิดีโอสัมภาษณ์ทีม Project Genie
ลิงก์ YouTube
Genie เป็น research prototype ที่สามารถสร้าง สำรวจ และโต้ตอบกับ โลกโฟโตรีเอลที่หลากหลายได้ไม่สิ้นสุด แบบเรียลไทม์
วิดีโอนี้พูดถึงการเปลี่ยนผ่านจากการสร้างวิดีโอแบบรับชมอย่างเดียวไปสู่ สื่อเชิงโต้ตอบ ความท้าทายทางเทคนิคของ ความสอดคล้องของโลกและการคงความจำ รวมถึงบทบาทของมันในฐานะสนามฝึกสำหรับ AI agent
ยิ่งเห็นเทคโนโลยีแบบนี้ ก็ยิ่งอยาก ใช้เวลาอยู่ในโลกจริง
อยากปิดหน้าจอแล้วกลับไปทำสิ่งที่ตัวเองรักอีกครั้ง
โลกเสมือนที่สร้างจากฉากที่ถ่ายมาจริงกลับให้ความรู้สึก เศร้า
บางทีความจริงเองก็อาจเป็นการจำลองอยู่แล้ว
ทำให้นึกถึง โปรเจกต์ส่วนตัวที่ฝึก world model ด้วยวิดีโอสวนสาธารณะ ที่เคยลง HN
ตอนนั้นยังมี เดโมแบบโต้ตอบ ด้วย และ Genie ก็ให้ความรู้สึกเหมือนยกระดับไอเดียนั้นขึ้นไปอีกขั้น
น่าเสียดายที่ความเป็นจริงคือบล็อกหรือเดโมอินดี้มักไม่ค่อยถูกอ้างอิง
โมเดลสวนสาธารณะมี 5 ล้านพารามิเตอร์ ฝึกจากวิดีโอความยาว 15 นาที และ รันได้บน iPhone
ส่วน Genie 3 เป็น โมเดลขนาดมหึมา ระดับหลายพันล้านพารามิเตอร์ที่ฝึกจากวิดีโอหลายล้านชั่วโมง
ตอนนี้โมเดลขนาดกลางก็เริ่มออกมาแล้ว ดังนั้นภายใน 1-2 ปีน่าจะ รันในเครื่องด้วย gaming GPU ได้
ตัวอย่าง: LingBot-World, Waypoint 1
ทั้งหมดนี้ชวนให้นึกถึงธีมของภาพยนตร์ 『The Thirteenth Floor』
ลิงก์ตัวอย่าง
อยากให้ใครสักคนสร้างโลกจาก GIF นี้
สงสัยมานานแล้วว่าทำไม Meta(FB) ถึงไม่จริงจังกับ world model
ทั้งที่นี่แหละคือ หัวใจของวิสัยทัศน์ metaverse แต่กลับปล่อยให้ Yann LeCun ออกไป
เขาไม่เข้าร่วมการแข่งขัน LLM และหมกมุ่นอยู่กับทฤษฎีที่ยังไม่ผ่านการพิสูจน์
ผลก็คือ Meta หลุดจากกลุ่มผู้นำด้าน AI และ LeCun ก็จากไปโดยยังรักษาเกียรติไว้ได้
JEPA เหมือน นักเขียนนวนิยาย ที่สรุปว่า “สุนัขวิ่งเข้าหาบุรุษไปรษณีย์”
ส่วน Genie เหมือน จิตรกร ที่ต้องวาดฉากถัดไปออกมาจริงๆ เรื่องราวถึงจะเกิดขึ้น
กล่าวคือ Genie คือ การสร้างระดับเฟรม ส่วน JEPA คือ การทำนายในระดับแนวคิด
ถ้าทำให้เป็นผลิตภัณฑ์ไม่ได้ ก็อาจต้องพับโปรเจกต์นี้ไปเลย
ไม่ว่าคอนเทนต์จะดีแค่ไหน มันก็ยังคงอยู่ใน ตลาดเฉพาะกลุ่ม