Google DeepMind เปิดตัวโมเดลโลก Genie 3

(deepmind.google)

14 คะแนน โดย GN⁺ 2025-08-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลโลกแบบอเนกประสงค์รุ่นแรกที่สร้าง สภาพแวดล้อม 3D แบบโต้ตอบได้แบบเรียลไทม์ ได้ด้วยข้อความพรอมป์ต์เพียงอย่างเดียว
รองรับ 24fps, ความละเอียด 720p และคงความสอดคล้องได้นานหลายนาที พร้อมยกระดับ การโต้ตอบ ความสมจริง และความต่อเนื่อง อย่างมากเมื่อเทียบกับ Genie 2
สามารถสร้างโลกเสมือนในหัวข้อที่หลากหลายได้อย่างเป็นธรรมชาติและมีสีสัน เช่น ปรากฏการณ์ทางฟิสิกส์ ระบบนิเวศ แอนิเมชัน และฉากหลังทางประวัติศาสตร์·ภูมิศาสตร์
ฟีเจอร์ Promptable world events ช่วยให้ผู้ใช้ควบคุมอีเวนต์แบบไดนามิก เช่น การเปลี่ยนสภาพอากาศหรือการเพิ่มวัตถุ ด้วยข้อความแบบเรียลไทม์
ออกแบบมาสำหรับงานวิจัยเอเจนต์ โดยทำงานร่วมกับ SIMA agent เป็นต้น เพื่อทดสอบการบรรลุเป้าหมายระยะยาวหรือซีเควนซ์พฤติกรรมที่ซับซ้อนได้

Genie 3: นวัตกรรมของการจำลองโลก

เบื้องหลังพัฒนาการของโมเดลโลก

DeepMind เป็นผู้นำการวิจัยด้านสภาพแวดล้อมจำลองสำหรับ การฝึก AI agent, open-ended learning และ robotics มาอย่างต่อเนื่อง
โมเดลโลกคือระบบ AI ที่สามารถ คาดการณ์และจำลองการเปลี่ยนแปลงของสภาพแวดล้อมรวมถึงผลลัพธ์จากการกระทำของเอเจนต์ และถูกมองว่าเป็นขั้นกลางสำคัญบนเส้นทางสู่ AGI
ต่อเนื่องจาก Genie 1 และ 2, Genie 3 คือโมเดลโลกตัวแรกที่มอบทั้งการโต้ตอบแบบเรียลไทม์และความสอดคล้องด้านภาพกับฟิสิกส์ ไปพร้อมกัน

ความสามารถหลักของ Genie 3

การจำลองธรรมชาติและปรากฏการณ์ทางฟิสิกส์
- สร้างปรากฏการณ์ธรรมชาติของโลกจริง เช่น น้ำ แสง และปฏิสัมพันธ์ของสภาพแวดล้อมที่หลากหลาย ได้อย่างเป็นธรรมชาติด้วยพรอมป์ต์เพียงอย่างเดียว
ระบบนิเวศที่ซับซ้อนและแอนิเมชัน
- สามารถสร้างทั้ง ความพลวัตของระบบนิเวศ เช่น พฤติกรรมสัตว์ การเติบโตของพืช และ โลกแอนิเมชันจากจินตนาการ
โฆษณา
การสร้างฉากหลังทางประวัติศาสตร์และภูมิศาสตร์
- สามารถสร้าง พื้นที่หลากหลายที่ข้ามพรมแดนทางภูมิศาสตร์และช่วงเวลา เป็นสภาพแวดล้อมเสมือนได้แบบเรียลไทม์
การโต้ตอบและการควบคุมแบบเรียลไทม์
- แสดงภาพ การเปลี่ยนแปลงของโลกทันทีตามอินพุตของผู้ใช้ที่ 24fps และ 720p
- จดจำตำแหน่งและสถานะที่เคยไปเยือน ทำให้ รักษาความสอดคล้องทางฟิสิกส์และภาพได้นานหลายนาที
Promptable World Events
- สามารถทำให้เกิด อีเวนต์การเปลี่ยนแปลงสภาพแวดล้อม เช่น การเปลี่ยนสภาพอากาศ หรือการเพิ่มวัตถุ·ตัวละคร ด้วยข้อความพรอมป์ต์ ได้แบบเรียลไทม์
- นอกเหนือจากการควบคุมการสำรวจแล้ว ยังเปิดโอกาสให้ประยุกต์ใช้กว้างขวาง เช่น สถานการณ์ “ถ้าหากว่า” หรือการสร้างเหตุการณ์นอกชีวิตประจำวัน
การวิจัยและการทดลองด้านเอเจนต์
- AI agent ที่เชี่ยวชาญสภาพแวดล้อม 3D อย่าง SIMA สามารถไล่ตามเป้าหมายที่ซับซ้อนภายในโลกของ Genie 3 และตรวจสอบความสามารถในการทำซีเควนซ์ระยะยาวได้
- เป้าหมายของเอเจนต์จะไม่ถูกแชร์ให้ Genie 3 โดยระบบจะสร้างผลลัพธ์จากซีเควนซ์การกระทำและการจำลองโลกเท่านั้น

ความท้าทายและผลงานทางเทคนิค

ในกระบวนการสร้างแบบ autoregressive รายเฟรม จำเป็นต้องสะท้อนทั้งอินพุตของผู้ใช้และซีเควนซ์ในอดีตแบบเรียลไทม์ จึงต้องอาศัยเทคนิคระดับสูงมาก
ต่างจาก NeRF, Gaussian Splatting และแนวทางเดิมอื่น ๆ Genie 3 ใช้การสร้างเชิงกำเนิดล้วนโดยไม่มีตัวแทน 3D แบบชัดแจ้ง จึงสร้างสภาพแวดล้อมที่มีความพลวัตและสมบูรณ์ยิ่งกว่าได้

ข้อจำกัดและความท้าทาย

ขอบเขตการกระทำยังจำกัด: แม้การเปลี่ยนแปลงสภาพแวดล้อมด้วยพรอมป์ต์จะหลากหลาย แต่การกระทำที่ทำได้โดยตรงยังมีข้อจำกัด
ปฏิสัมพันธ์หลายเอเจนต์: การจำลองปฏิสัมพันธ์ระหว่างหลายเอเจนต์อย่างแม่นยำยังคงเป็นโจทย์วิจัย
ข้อจำกัดในการจำลองตำแหน่งจริง: ยังไม่ให้ความแม่นยำสมบูรณ์แบบของพื้นที่ทางภูมิศาสตร์จริง
ข้อจำกัดด้านการเรนเดอร์ข้อความ: จะแสดงข้อความได้ชัดเจนก็ต่อเมื่อมีการป้อนอย่างชัดแจ้งเท่านั้น
ข้อจำกัดด้านเวลาการโต้ตอบ: ปัจจุบันรองรับ การโต้ตอบต่อเนื่องได้เพียงราวไม่กี่นาที

ความรับผิดชอบและขอบเขตการเปิดเผย

คุณลักษณะของ Genie 3 ที่เป็น การสร้างแบบ open-ended และเรียลไทม์ มาพร้อมประเด็นด้านความปลอดภัยและจริยธรรมใหม่ ๆ จึงมีการทำงานร่วมอย่างใกล้ชิดกับ Responsible Development & Innovation Team
ในระยะแรกจะ เปิดให้เฉพาะกลุ่มนักวิจัยและครีเอเตอร์จำนวนจำกัดในรูปแบบ research preview และมีแผนขยายอย่างค่อยเป็นค่อยไปพร้อมจัดทำแนวทางรับมือความเสี่ยงจากฟีดแบ็ก

อนาคตและแนวโน้มการใช้งาน

Genie 3 นำเสนอความเป็นไปได้ใหม่ในหลายด้าน เช่น การศึกษา การฝึกอบรม การเรียนรู้ของ AI agent และการตรวจสอบประสิทธิภาพ
คาดว่าจะมี บทบาทสำคัญในการวิจัย AGI (ปัญญาประดิษฐ์ทั่วไป) และจะถูกพัฒนาอย่างปลอดภัยในทิศทางที่เป็นประโยชน์ต่อมนุษยชาติ

1 ความคิดเห็น

GN⁺ 2025-08-06

ความคิดเห็นจาก Hacker News

ถ้ามีใครทำงานหรือมีความเชี่ยวชาญในด้านนี้ อยากรู้ว่าพอจะช่วยคาดเดาได้ไหมว่า Genie 3 ถูกสร้างขึ้นด้วยเทคโนโลยี สถาปัตยกรรม การออกแบบระบบ และข้อกำหนดด้านคอมพิวต์แบบไหน ตอนนี้ข้อมูลที่เปิดเผยยังมีน้อยมาก เลยอยากฟังโดยเฉพาะว่าผู้เชี่ยวชาญในสายนี้ใช้วิธีคิดหรืออนุมานกันอย่างไรว่าเบื้องหลังมันน่าจะถูกทำขึ้นแบบไหน
ไม่คิดเลยว่าจะไปได้ไกลถึงขั้นทำความสอดคล้องต่อเนื่องหลาย phútที่ 720p แบบเรียลไทม์ได้ ได้ยินมาว่าความสอดคล้องของ Genie 3 เป็น emergent capability ที่เกิดจากการขยายสเกลของโมเดล หมายความว่าไม่ใช่เพราะจงใจปรับสถาปัตยกรรมให้ดีขึ้น แต่เหมือนเป็นความสามารถที่โผล่มาเองเมื่อทำโมเดลให้ใหญ่ขึ้น มีคนที่ลองใช้จริงสรุปข้อจำกัดไว้(ลิงก์ X):
- การจำลองฟิสิกส์ยังคงยากอยู่ และมีเคสล้มเหลวชัดเจนในงานทดลองฟิสิกส์เชิงสัญชาตญาณที่ใช้ในจิตวิทยา เช่น การซ้อนบล็อก
- ปฏิสัมพันธ์ทางสังคมหรือสถานการณ์ที่มีหลายเอเจนต์พัวพันกันยังยาก และเกมแบบดวล 1:1 ก็ทำได้ไม่ดี
- คำสั่งที่ซับซ้อนหรือ logic ของเกม เช่น เก็บกุญแจไปเปิดประตู ก็ยังทำได้ไม่ดี
- action space เองก็ยังมีข้อจำกัด
- ยังห่างไกลจากการเป็นเกมเอนจินจริง ๆ แต่ก็ชัดเจนว่าเป็นโอกาสให้ได้เห็นภาพตัดขวางของอนาคตด้วยตาตัวเอง ถึงจะมีข้อจำกัดพวกนี้ ก็ยังให้ความรู้สึกว่า world model จะมีบทบาทสำคัญกว่าที่คิดในอนาคตของหุ่นยนต์และ AI ในโลกจริง บางทีหุ่นยนต์แห่งอนาคตอาจเป็นยุคที่เรียนรู้จากความฝันก็ได้
- อยากรู้มากว่าระบบ multiplayer จะทำให้เป็นไปได้อย่างไร ไม่ใช่แค่ในเชิงโลจิสติกส์หรือเทคนิค แต่รวมถึงในมุมมองของเกมเพลย์ด้วย
- เกมเป็น use case หลักอย่างชัดเจน แต่โดยพื้นฐานแล้วดูเหมือนว่ามันถูกพัฒนามาเพื่อทำ synthetic data generation สำหรับฝึกหุ่นยนต์คลังสินค้าของ Google มากกว่า ดูข่าวที่เกี่ยวข้องได้จาก บทความของ The Guardian และ โพสต์ HN เมื่อ 4 เดือนก่อนการเปิดตัว Gemini Robot
- ไม่คิดว่าความก้าวหน้าทางเทคโนโลยีจะเร็วขนาดนี้ เมื่อไม่กี่เดือนก่อนฉันเขียนไว้ว่า world-model output manipulation คือก้าวถัดไปของเกม AAA(โพสต์บล็อก) ตอนนั้นยังคิดว่าอีกหลายปีเลยกว่าจะมาถึง ถึงกับล้อเล่นว่า Rockstar อาจหลงไปกับ world model ระหว่างพัฒนา GTA6 แต่ตอนนี้ฟังดูไม่แปลกเท่าไรแล้ว พอดูความคืบหน้าหลัง GameNGen ก็เริ่มรู้สึกว่ามันอาจพลิกแซงก่อน GTA6 จะออกเสียอีก
- ระดับนี้น่าจะช่วยปิด reality gap ในเชิงภาพได้ จึงน่าจะเป็นเครื่องมือที่ดีมากสำหรับงานหุ่นยนต์ แน่นอนว่าการจำลองฟิสิกส์ยังเป็นโจทย์แยกต่างหากอยู่ดี
- นี่เป็นอีกครั้งที่บทเรียนแบบ bitter lesson ใช้ได้จริง
เป็นความก้าวหน้าที่น่าตื่นเต้นมาก น่าจะเป็นสิ่งที่ Demis เคยเกริ่นไว้เมื่อเดือนก่อน(ทวีตที่เกี่ยวข้อง) ถ้าลองเดารายละเอียดทางเทคนิคจากคลิปที่เผยแพร่ออกมา มีข้อสังเกตไม่กี่อย่าง:
1. มีอาการที่ texture "กระโดด" ทุก 4 เฟรม ซึ่งน่าจะหมายถึงใช้ VAE ที่ downscale ตามแกนเวลา 4 เท่า และจึงมี interaction latency ขั้นต่ำ 4 เฟรมอยู่ด้วย(เว้นแต่ VAE จะรองรับ control conditioning) ยังไม่ได้เห็นวิดีโอแบบเรียลไทม์จริง ๆ แต่มีการตัดสลับระหว่างการอัดหน้าจอกับคีย์บอร์ด b-roll ในฉากเดียวกัน
2. ตอนมีการเคลื่อนไหวเร็วจะเห็น spatial blocking แบบ 16x16 จึงเดาได้ว่า VAE น่าจะ downscale ในแกนพื้นที่ด้วย 16x16 พอรวมกับข้อแรกก็จะเท่ากับประมวลผล 21,600 โทเค็นต่อวินาที หรือราว 1.3 ล้านโทเค็นต่อนาที
3. เฟรมแรกของแต่ละคลิปดูคมชัดและไม่เหมือนวิดีโอเกมเท่าเฟรมถัด ๆ ไป จึงเหมือนมีการใช้ t2i(ข้อความสู่ภาพ) + i2w(ภาพสู่โลก) ร่วมกัน โดย t2i น่าจะใช้ข้อมูลทั่วไป ส่วน i2w น่าจะเป็นระบบที่ fine-tune ด้วยข้อมูลเกมและคอนโทรลที่ติดป้ายกำกับไว้ มีแนวโน้มที่ contrast และ saturation จะแรงขึ้นเมื่อเวลาผ่านไป แต่ก็ยังน้อยกว่าโมเดลวิดีโอแบบ autoregressive อื่น ๆ (วิดีโอตัวอย่าง)
- เรื่อง latency นั้น จาก วิดีโอเกมเพลย์แบบเรียลไทม์นี้ คำนวณได้ว่ามีเวลาหน่วงระหว่างการกดปุ่มกับการเคลื่อนไหวของวัตถุราว 1.1 วินาที(ประมาณ 33 เฟรมที่ 30fps) ส่วน รีวิว ของผู้ใช้ Genie 3 research preview บอกว่าได้ยินมาว่า "มีความหน่วงของการควบคุมอยู่บ้าง แต่เป็นเพราะอินฟราสตรักเจอร์ที่ใช้ให้บริการมากกว่าตัวโมเดลเอง" จึงน่าจะมี latency จำนวนมากที่มาจากโครงสร้าง client/server streaming
อยากให้เปิดเผยวิธีการทำงานมากกว่านี้ ถ้ามีอย่างน้อยสัก paper สำหรับนักวิจัยก็คงดี เดาของฉันคือมันคล้ายโมเดลสร้างวิดีโอที่มีอยู่แล้ว แต่ conditioning ด้วยอินพุตอย่าง movement direction, viewangle เป็นต้น และน่าจะเป็นอินพุตแบบสัมบูรณ์ไม่ใช่สัมพัทธ์ อีกทั้งอาจมี state simulation อยู่บางส่วนด้วย(แต่ก็อาจไม่ใช่ เพราะในวิดีโอเดโมมีเอฟเฟกต์ฟิสิกส์การชนของวัตถุให้เห็น หรืออาจเป็นการสร้าง up axis ใน 2D ก็ได้) ดูชัดว่าเรียนรู้จากข้อมูลที่มาจากเกมเอนจิน เพราะมี artifact แบบ screen-space reflection โผล่ให้เห็น น่าจะผสมข้อมูลจาก photogrammetry/splat ด้วย และองค์ประกอบที่ไม่สมจริงก็ดูมีความละเอียดต่ำเป็นพิเศษ มีความไม่สอดคล้องกันหลายจุดที่สังเกตได้จากเดโม:
- ฉาก wingsuit ดูคุณภาพภาพต่ำกว่า(อาจเริ่มต้นจากภาพความละเอียดสูง?)
- ในเดโมสวน geometry ดูต่างกันในแต่ละ variation สายยางเส้นที่สองมีอยู่แค่ในเวอร์ชันเดียว และเหมือน geometry ใหม่ถูกสร้างสดขึ้นมาทุกครั้งที่เห็นครั้งแรก
- ในเดโมโรงเรียนมีรถที่โผล่อยู่นอกหน้าต่างแค่ครึ่งคัน และมีลวดลายที่ซ้ำกันให้เห็น(ถ้า transformer มีพารามิเตอร์น้อยก็มักเกิดแพตเทิร์นลูปไม่รู้จบ ซึ่งก็อาจหมายถึงมันยังขยายสเกลได้อีก ดูเหมือนจะใช้ greedy sampling เพื่อความเสถียร)
- ในฉากพิพิธภัณฑ์มีเงาสะท้อนแปลก ๆ ของกล่อง amethyst และส่วนหลังของ mammoth โผล่ออกมาโดยไม่มีเงาสะท้อนตรงขอบกล่องด้านขวา ก่อนจะกระเด้งโผล่ขึ้นมาเมื่อมองผ่านกล่อง เงาสะท้อนของ tusk ก็โผล่มาแบบฉับพลัน ซึ่งไม่เกี่ยวกับ Fresnel effect
มันน่าประทับใจจริง ๆ แต่รายละเอียดกลับมีน้อยมาก ฉันไม่ได้เห็นด้วยเสียทีเดียวกับคอมเมนต์ที่บอกว่าถ้าไม่ได้ลองใช้เองก็ไม่มีความหมาย แต่ก็อดทึ่งไม่ได้ว่าถ้าเป็นการประกาศแบบนี้เมื่อไม่กี่ปีก่อนคงต้องมี paper ออกมาคู่กัน ตอนนี้มีองค์ประกอบเหมือนบางส่วนของ paper เช่น รายชื่อทีมงาน เดโม และ bibtex citation แต่ไม่มีการเปิดเผยงานวิจัยจริง ระหว่างคุยกับคนรู้จัก ฉันกลับกังวลมากกว่าว่าไม่ใช่แค่ AI ทำอะไรได้ทันทีบ้าง แต่แรงขับทางเศรษฐกิจกำลังเปลี่ยนจากโหมดวิจัย/วิชาการไปเป็นการ "สกัดมูลค่า" อย่างรวดเร็ว การเอาสิ่งนี้ไปใช้เป็นฐานทางอ้อมในนโยบายหรือเศรษฐกิจก็มีความเสี่ยงไม่น้อย ไม่ได้คัดค้านการค้าเชิงพาณิชย์ แต่การที่มีการเปิดตัวผลิตภัณฑ์ในลักษณะคล้าย paper วิจัยพร้อม ๆ กับคำเตือนจากนักคณิตศาสตร์เรื่องการลดการสนับสนุนงานวิชาการช่วงหลัง ๆ เป็นสิ่งที่บั่นทอนความน่าเชื่อถือในระยะยาว
ยังนึกภาพยากว่าการทำนายแบบคาดเดาเพื่อสร้าง "พิกเซลถัดไป" จะดีกว่าวิธีเดิมที่สร้างฉากอย่างกำหนดได้แน่นอนแล้วค่อยเรนเดอร์ออกมา ตัวอย่างเช่น ใช้ AI สร้าง texture, model, motion sequence แล้วให้การ์ดจอนำสิ่งเหล่านั้นมาประกอบกันเพื่อเรนเดอร์ฉาก แบบนั้นผู้ใช้ก็ยังสามารถปรับ wire model, texture, ตำแหน่งกล้อง ฯลฯ ได้อย่างอิสระ
- ถ้าต้องการคุณภาพภาพเกินระดับหนึ่ง ก็จะมีจุดที่การทำนาย "พิกเซลถัดไป" กลับถูกกว่าการเรนเดอร์แบบเดิมเสียอีก โมเดลสามารถบรรยาย(ทำนาย) ได้แม้กระทั่งว่าถ้าซูมเข้าไปบนพื้นผิวอย่างไม่มีที่สิ้นสุดจะเห็นอะไรอยู่ข้างใน ซึ่งช่วยลดโจทย์เทคนิคที่ยากมากซึ่งการเรนเดอร์แบบดั้งเดิมเข้าถึงได้ยาก
ให้ความรู้สึกปฏิวัติมาก คาดไว้ว่ามันต้องมา แต่พอเจอเข้าจริงก็ยังใหม่อยู่ดี ถึงจะมีข้อจำกัดแต่นี่คือจุดเริ่มต้น ตลอดมาสิ่งสำคัญของเกมเอนจินคือให้นักพัฒนาหรือวิศวกรจัดวางรูปทรงอย่างสามเหลี่ยมให้ตรงกับพิกเซลพอดี แต่ตอนนี้เหมือนคอมพิวเตอร์กำลัง "วาดภาพ" เองทุกเฟรม และสร้างภาพได้โดยไม่ต้องคำนวณสามเหลี่ยมเลย
การเรนเดอร์ข้อความ ข้อความที่ชัดและอ่านได้ส่วนใหญ่สร้างได้ก็ต่อเมื่อมีรวมอยู่ในคำอธิบายโลกที่ป้อนเข้าไป ทำให้นึกถึงตอนที่ AI สร้างภาพยังสร้างข้อความไม่ได้ ปัญหานั้นก็ถูกแก้ในไม่ช้า ดังนั้นน่าจะเป็นแค่เรื่องของเวลา
- และคุณภาพการวาดมือก็เคยแย่กว่านี้เกิน 10 เท่า ตอนนี้ทั้งมือ ข้อความ และภาพดีขึ้นหมดแล้ว เลยคงต้องกลับไปเล่นเกม "Where's Waldo" เพื่อหาจุดบกพร่องกันอีก คาดว่าในสักวันจะมีวิดีโอซูมไม่สิ้นสุดที่ซ่อน AI watermark ไว้ลึกถึงระดับ 1/3 พิกเซล ส่วนตัวฉันสนใจวงการ augmented video มากกว่า วิดีโอสไตล์ stormtrooper vlog ก็มี Runway และที่อื่นเริ่มลองทำกันแล้ว แต่ราคาแพงมาก
- จะบอกว่าปัญหาข้อความถูกแก้หมดแล้วคงยังเร็วไปหน่อย แน่นอนว่าดีขึ้นมาก แต่แม้แต่ gpt-image-1 ก็ยังพลาดการสร้างข้อความเป็นบางครั้ง
- พรอมป์ตกับข้อความบนกระดานดำที่สร้างขึ้นไม่ตรงกันในเรื่องการมีหรือไม่มีเครื่องหมายขีดกลาง(-)
นี่เป็นครั้งแรกที่ได้ดูพรีเซนเทชันแล้วความรู้สึกต่อความเป็นจริงถูกสั่นคลอนหลายรอบ เป็นประสบการณ์ที่ทำให้มึนงงจริง ๆ
ยิ่ง generative AI ก้าวหน้าเท่าไร ฉันก็ยิ่งรู้สึกหดหู่ เหมือนความคิดสร้างสรรค์กำลังถูกแย่งไปเร็วขึ้นเรื่อย ๆ ถ้าเทคโนโลยีจะอยู่ในฐานะเครื่องมือเพื่อช่วยการสร้างสรรค์ของมนุษย์ก็คงโอเค แต่ตอนนี้กลับดูเหมือนมุ่งไปสู่การแทนที่ทั้งหมด แน่นอนว่าอาจพูดได้ว่า "คุณก็ยังแต่งเพลงหรือวาดรูปเองได้" แต่ในเชิงประวัติศาสตร์ งานศิลปะไม่ได้เกิดขึ้นเพื่อเจ้าของเพียงลำพังล้วน ๆ หากเกิดในบริบททางสังคมที่ต้องการแบ่งปันกับคนอื่น สุดท้ายแล้วจะเหลืออะไรให้พวกเรา? มีเพียงแรงงานง่าย ๆ ที่ยังไม่ถูกอัตโนมัติ และถ้าสิ่งนั้นถูกอัตโนมัติด้วย มนุษย์จะเหลืออะไรบ้างก็ไม่รู้ หรือสุดท้ายเราจะไปสู่อนาคตที่สมองพังจากการได้รับสิ่งกระตุ้นแบบปรับเฉพาะบุคคลเพื่อเร่งโดพามีน(ซึ่งบางส่วนก็เกิดขึ้นแล้วกับอะไรแบบ TikTok) ถ้าทุกอย่างกลายเป็นอัตโนมัติหมด ก็สงสัยว่าจะคงโครงสร้างเศรษฐกิจไว้ได้อย่างไร บางทีนี่อาจเป็นหนึ่งในคำอธิบายของ Fermi paradox ก็ได้ โลกที่ไม่มีใครแตะต้องเทคโนโลยีได้เพราะไม่เข้าใจ ไม่มีแม้แต่การเข้าถึงเทคโนโลยีอย่างง่าย และทรัพยากรถูกใช้จนไม่อาจย้อนคืน ในสถานการณ์แบบนั้นจะหาความหมายของชีวิตได้อย่างไรกัน
- ข้ออ้างที่ว่างานศิลปะไม่ได้สร้างขึ้นอย่างแท้จริงเพื่อตัวเองโดยไม่แบ่งปันต่อสาธารณะ มีนักเขียน จิตรกร และศิลปินชื่อดังจำนวนมากที่เป็นข้อโต้แย้งได้ Kafka ก็เป็นตัวอย่างเด่น และผลงานสำคัญจำนวนไม่น้อยถูกค้นพบภายหลังเจ้าตัวเสียชีวิต หรือแม้กระทั่งขัดกับความตั้งใจของเจ้าตัวเอง สิ่งนี้ไม่ได้ลบประเด็นอื่น ๆ ที่เหลือ แต่ศิลปะก็มีอยู่เพื่อตัวมันเองมาโดยตลอด และจะยังเป็นเช่นนั้นต่อไป
- สำหรับคำพูดว่า "ฉันยอมรับไม่ได้กับคนที่บอกว่าดีใจที่ได้มีชีวิตอยู่ในยุคนี้" ความยินดีเป็นความรู้สึก ไม่ใช่การกระทำเชิงตรรกะ มันเป็นอารมณ์ที่มาจากความหวังและจินตนาการ ความมองโลกในแง่ดีไม่จำเป็นต้องมีตรรกะ และเรื่องการค้นหาความหมายของชีวิตก็ไม่ใช่คำถามที่เพิ่งเกิดขึ้นเพราะ LLM แต่มันเป็นหัวข้อที่มนุษย์ถามกันมาหลายพันปีแล้ว ตัวอย่างเช่นใน [ภควัทคีตา] ตัวเอกก็ถามพระเจ้าว่า "ถ้าผลลัพธ์ก็ไร้ความหมาย แล้วทำไมฉันยังต้องลงมือทำ" แต่ก็ไม่มีคำตอบตายตัว เหลือเพียงการใคร่ครวญเชิงสมาธิ คำถามนี้เป็นสิ่งที่มนุษย์เผชิญมานานก่อนยุคปัญญาประดิษฐ์
- คล้ายกับทุกวันนี้ที่เราไม่จำเป็นต้องเดินหรือยกของหนักเพื่อเอาชีวิตรอดแล้ว จึงค่อย ๆ อ่อนแอลงถ้าไม่ออกกำลังกาย ในอนาคตเมื่อคนส่วนใหญ่ไม่จำเป็นต้องคิด สร้างสรรค์ หรือสำรวจเพื่อหาเลี้ยงชีพอีกต่อไป เราก็จะยิ่งโง่ลง มีเพียงคนส่วนน้อยที่ยังฝึกฝนสมอง แต่สุดท้ายพวกเขาก็ไม่มีวันฉลาดกว่าจักรได้อยู่ดี เหมือนนักกีฬาที่เก่งที่สุดก็เอาชนะเครื่องจักรไม่ได้
- ในโลกที่เราอยู่ตอนนี้เอง ก็มีเพลงมากมายบน YouTube และ Spotify ที่แต่งโดยคนที่เล่นดนตรีเก่งกว่าฉันมากอยู่แล้ว ดังนั้นฉันจึงมองว่าการเปลี่ยนแปลงครั้งนี้เป็นเพียงส่วนต่อเนื่องของสิ่งนั้น
- ฉันไม่เห็นด้วยกับข้อโต้แย้งของคุณเลย ฉันแต่งเพลงมาหลายร้อยเพลงตลอดชีวิตแต่ไม่เคยแชร์กับใคร และเพื่อนนักดนตรีทุกคนของฉันก็เป็นแบบเดียวกัน การสร้างสรรค์เป็นคนละเรื่องกับการมีผู้ชม จริง ๆ แล้วแทบจะตรงกันข้ามด้วยซ้ำ และประวัติศาสตร์ของการทำเพลงก็เป็นเรื่องของการลดกำแพงการเข้าถึงลงเรื่อย ๆ ด้วยเทคโนโลยีใหม่ ๆ ในอดีตผู้คนถูกกันออกไปเพราะอุปกรณ์มีราคาแพง

Google DeepMind เปิดตัวโมเดลโลก Genie 3

Genie 3: นวัตกรรมของการจำลองโลก

เบื้องหลังพัฒนาการของโมเดลโลก

ความสามารถหลักของ Genie 3

การจำลองธรรมชาติและปรากฏการณ์ทางฟิสิกส์

ระบบนิเวศที่ซับซ้อนและแอนิเมชัน

การสร้างฉากหลังทางประวัติศาสตร์และภูมิศาสตร์

การโต้ตอบและการควบคุมแบบเรียลไทม์

Promptable World Events

การวิจัยและการทดลองด้านเอเจนต์

ความท้าทายและผลงานทางเทคนิค

ข้อจำกัดและความท้าทาย

ความรับผิดชอบและขอบเขตการเปิดเผย

อนาคตและแนวโน้มการใช้งาน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News