谷歌邀马斯克联手做AI游戏!DeepMind版Sora是个3D游戏引擎 profile-avatar
梦晨 来源: 量子位这个大佬们都在押注的方向,真的要火了~
下一代世界模型炸场, 一张图生成无限多样的3D游戏世界 。
谷歌推出,可响应键鼠操作,可玩、可控制。
与此前研究相比,Genie 2拥有长期记忆,即使玩家把视角转开,再回来时也可稳定渲染世界中已存在的部分。
游戏世界中还可以有其他AI NPC存在,与玩家控制的角色进行复杂交互。
这下,沉迷《暗黑破坏神4》的 马斯克 都觉得很酷,随后DeepMind创始人邀请他一起做个AI游戏。
关键马部长他还真答应了~
结合马斯克此前声称,xAI将开办一家AI游戏工作室,两者联手的可能性还真不低。
不过谷歌DeepMind搞这项研究,可不光是为了给人类玩游戏的——
AI具身智能体,迈向AGI的途径
Genie 2可用于 训练和评估具身智能体 ,通过创建丰富多样的环境,可以生成AI在训练期间没见过的评估任务。
比如通过文字指令,训练智能体打开正确的门。
谷歌表示尽管这项研究仍处于早期阶段,在智能体和环境生成能力方面仍有大量改进空间……
此前,世界模型研究在很大程度上仅限于建模一个狭窄的领域,比如一个模型只能模拟《我的世界》像素风格游戏的。
谷歌在Genie 1中实现了生成多样2D世界的方法。
Genie 2则完成了向生成丰富3D世界的飞跃,展示了世界模型的涌现能力,包括对象交互、复杂的角色动画、物理模拟,以及建模并预测其他智能体行为的能力。
从同一帧出发,但玩家的操作不同,可以生成不同的运动轨迹。
这意味着可以模拟 反事实体验 (counterfactual experiences)用于训练智能体,也就是从“假如当时采取另一种行动会怎样”中获得经验。
智能体还可以在3D世界中学会与其他对象交互,如气球挨打就会爆。
实现这一切,靠的依然是扩散模型。
Genie 2是一种自回归潜空间扩散模型,在大型视频数据集上训练。
(是谁拥有Youtube里上亿小时的游戏视频数据,我不说)
经过自编码器处理后,视频的Lantent frames被传递到一个大型Transformer动力学模型,该模型使用与大型语言模型类似的因果掩码进行训练。
在推理时,Genie 2可以自回归方式采样,对单个操作和过去的帧逐帧执行,使用classifier-free guidance来提高操作可控性。
此外,谷歌还透露,现在给出的视频示例都是由为蒸馏的模型生成,以展示可能性。
蒸馏模型可以做到实时控制,但会降低输出质量。
One More Thing
就在2天前,李飞飞创业公司World Labs也推出了从单个图像生成3D世界技术。
这个大佬们都在押注的方向,真的要火了~
参考链接:[1]
版权所有,未经授权不得以任何形式转载及使用,违者必究。