您的位置：首页 > 科技

真•AI创世“精灵”！谷歌交互世界模型重磅发布铺开AGI康庄大道？

2024年02月28日 21:04:41 来源：科创板日报 作者：郑远方

    ①一句话/一张图，召唤一个交互世界——Genie将是“实现通用AI Agent的催化剂”、“具身智能体的主干之作”。

《科创板日报》2月27日讯（编辑郑远方）谷歌出品，可以交互的AI基础世界模型，真的来了。

日前，谷歌研究人员发布了110亿参数的全新AI模型，仅用一张图片，便可生成一个交互式世界，生成的世界“动作可控”，用户可以在其中逐帧行动。

谷歌将该模型定义为“生成式AI的一种新模式”，并命名为Genie（全称generative interactive environments，生成式交互环境，Genie一词中文意为“精灵”）。

谷歌宣称，Genie开启了“图/文生成交互世界”的时代，还将成为实现通用AI Agent的催化剂。

英伟达高级研究科学家、通用具身智能体（Embodied Agent）研究小组负责人Jim Fan也“发来贺信”称，“Sora很好，但是Genie将会是具身智能体的主干之作”，“与Sora不同，Genie实际上是一个由行动驱动的世界模型，具有推断行动的能力。2024年也将是基础世界模型之年。”

▌Genie“神”在哪里？

作为一个基础世界模型，Genie的数据集主要是大量公开的互联网视频，其中重点是2D游戏与机器人视频。

不过谷歌也强调，“我们的方法是通用的，适用于任何类型领域，且可以扩展到更大的互联网数据集。”

不仅如此，Genie是在没有任何动作标注的情况下进行的训练——这是训练中的一大挑战，也是Genie的亮点与独特之处。

一般来说，网上视频不会有任何标注，标注正在执行什么动作、应控制图像哪一部分。Genie在这种情况下“自学成才”，可以专门从网上视频中学习控制细粒度：它不仅可以了解观察到哪些部分是可控的，还能推断出在生成环境中的潜在动作，这种潜在动作甚至还可以转移到真实的人类设计的环境中。

正如前文说到的，Genie只需要一张图，一张它从未见过的图，就能创建一个全新的交互环境。这里说的“一张图”，可以是任意类型的图：AI生成的图、人类画的设计草图、真实世界照片……

值得一提的是，Genie还有望用于机器人领域。谷歌研究人员们用来自RT1的无动作视频训练了一个较小的2.5B模型，证明Genie 能够学习一致的动作空间，可以帮助训练机器人。

谷歌指出，Genie有助于实现“通用AI Agent”——此前研究表明，对于AI Agent开发而言，游戏环境是有效测试平台，但这种方法难免会受到可用游戏数量的限制。Genie则可以帮助生成新世界，让AI Agent不断接受训练。

总而言之，一句“芝麻开门”，《一千零一夜》中的阿里巴巴打开了宝藏大门；指尖轻轻一擦，召唤出神灯精灵的阿拉丁走上了人生巅峰。

如今，AI行业也有了自己的“精灵”，一句话，或是一张图，通向通用人工智能世界的大道，正在徐徐铺开。

责任编辑：陈浩然

谷歌
人工智能

欢迎关注中国城市报微信号

分享到：

新闻推荐

新闻图集

更多>

中国城市报
抖音号

抖音号
dyrjb32my0kv
官方微信
官方微博
观城者微信
观城者微博
官方快手号

1417597972

视频专区

更多>

真•AI创世“精灵”！谷歌交互世界模型重磅发布铺开AGI康庄大道？

新闻推荐

新闻图集

中国城市报
抖音号

抖音号
dyrjb32my0kv

官方微信

官方微博

观城者微信

观城者微博

官方快手号

1417597972

视频专区

5G增强版上线我国首个海上采油平台5.5G站点开通

7岁女孩用防晒喷雾后接近白肺

黑神话悟空取景地门票销量暴涨3倍

中欧班列东通道通行量突破3万列

关于我们

城市服务

报社业务

真•AI创世“精灵”！谷歌交互世界模型重磅发布 铺开AGI康庄大道？

新闻推荐

新闻图集

中国城市报抖音号

抖音号dyrjb32my0kv

官方微信

官方微博

观城者微信

观城者微博

官方快手号

1417597972

视频专区

5G增强版上线 我国首个海上采油平台5.5G站点开通

7岁女孩用防晒喷雾后接近白肺

黑神话悟空取景地门票销量暴涨3倍

中欧班列东通道通行量突破3万列

关于我们

城市服务

报社业务

真•AI创世“精灵”！谷歌交互世界模型重磅发布铺开AGI康庄大道？

中国城市报
抖音号

抖音号
dyrjb32my0kv

5G增强版上线我国首个海上采油平台5.5G站点开通