
刚刚,谷歌开放了世界模型Genie 3实验性研究原型Project Genie的使用,此前在25年8月,谷歌曾初步预览了Genie 3的世界模型,它能够生成多样化的可交互环境。早期测试者已经用它创造了一系列世界和体验,并发现了全新的使用方式。现在,通过这个专注于沉浸式世界创建的互动原型,谷歌决定扩大其使用范围
年满18岁的美国Google AI Ultra订阅用户今天起可以率先体验,这个原型,旨在让用户能够创建、探索并重混属于自己的互动世界
界面长这样:
如何玩转Project Genie
Project Genie是一个原型Web应用,由Genie 3、Nano Banana Pro和Gemini共同驱动,用户可以通过它亲身体验世界模型带来的沉浸式感受。
工作流程如下:
🔵 设计: 使用文本和视觉提示设计你的世界和角色。
🔵 预览: Nano Banana Pro会生成一个图像预览,供你在进入前进行调整。
🔵 生成: Genie 3世界模型会随着你的移动实时生成环境。
🔵 重混: 在作品库中重新混合现有世界或发现新世界。
该体验围绕三个核心能力构建:
1. 世界草图绘制 (World sketching)
通过文本提示以及生成或上传的图像,创建一个生动且不断扩展的环境。你可以创建自己的角色和世界,并定义探索方式——从步行、骑行、飞行到驾驶,以及任何其他方式
为了实现更精确的控制,谷歌集成了“世界草图绘制”与Nano Banana Pro。这让用户可以在进入世界前预览其样貌,并修改图像以进行微调。你还可以定义角色的视角——如第一人称或第三人称——从而在进入场景前控制你的体验方式
2. 世界探索 (World exploration)
你创造的世界是一个等待探索的可导航环境。当你移动时,Project Genie会根据你采取的行动实时生成前方的路径。在穿越世界的过程中,你还可以调整镜头。
3. 世界重混 (World remixing)
你可以基于现有世界的提示词进行构建,将其重混成新的诠释。你也可以在作品库或通过随机功能探索精选世界以获取灵感,或在它们的基础上进行创作。完成后,你可以下载你的世界和探索过程的视频
AGI与世界模型
世界模型用于模拟一个环境的动态变化,预测其演变方式以及行为所带来的影响。尽管Google DeepMind在国际象棋或围棋等特定环境中已拥有成熟的智能体,但构建AGI需要能够驾驭现实世界多样性的系统。
为此,谷歌开发了Genie 3。与静态3D快照中的可探索体验不同,Genie 3能够在你移动和与世界互动时,实时生成前方的路径。它能为动态世界模拟物理和交互,其突破性的一致性使得模拟任何真实世界场景成为可能——从机器人技术、建模动画和小说,到探索地点和历史场景。
基于与各行业和领域的信任测试者合作的模型研究,谷歌通过实验性研究原型Project Genie迈出了下一步
写在最后
Project Genie是Google Labs中的一个实验性研究原型,由Genie 3驱动。由于Genie 3仍是一个早期的研究模型,存在一些已知的待改进领域:
生成的世界可能看起来不完全逼真,或不总是严格遵循提示词或图像,或不符合现实世界的物理规律
角色有时可能不太可控,或在控制时延迟较高
生成时长限制在60秒内
此外,去年8月宣布的某些Genie 3模型功能,例如在你探索时可以改变世界的“可提示事件”(promptable events),尚未包含在此原型中。