您的位置:首页 > 科技

真•AI创世“精灵”!谷歌交互世界模型重磅发布 铺开AGI康庄大道?

2024年02月28日 21:04:41 来源:科创板日报 作者:郑远方

    ①一句话/一张图,召唤一个交互世界——Genie将是“实现通用AI Agent的催化剂”、“具身智能体的主干之作”。

《科创板日报》2月27日讯(编辑 郑远方)谷歌出品,可以交互的AI基础世界模型,真的来了。

日前,谷歌研究人员发布了110亿参数的全新AI模型,仅用一张图片,便可生成一个交互式世界,生成的世界“动作可控”,用户可以在其中逐帧行动。

谷歌将该模型定义为“生成式AI的一种新模式”,并命名为Genie(全称generative interactive environments,生成式交互环境,Genie一词中文意为“精灵”)。

谷歌宣称,Genie开启了“图/文生成交互世界”的时代,还将成为实现通用AI Agent的催化剂。

英伟达高级研究科学家、通用具身智能体(Embodied Agent)研究小组负责人Jim Fan也“发来贺信”称,“Sora很好,但是Genie将会是具身智能体的主干之作”,“与Sora不同,Genie实际上是一个由行动驱动的世界模型,具有推断行动的能力。2024年也将是基础世界模型之年。”

image

▌Genie“神”在哪里?

作为一个基础世界模型,Genie的数据集主要是大量公开的互联网视频,其中重点是2D游戏与机器人视频。

image

不过谷歌也强调,“我们的方法是通用的,适用于任何类型领域,且可以扩展到更大的互联网数据集。”

不仅如此,Genie是在没有任何动作标注的情况下进行的训练——这是训练中的一大挑战,也是Genie的亮点与独特之处。

一般来说,网上视频不会有任何标注,标注正在执行什么动作、应控制图像哪一部分。Genie在这种情况下“自学成才”,可以专门从网上视频中学习控制细粒度:它不仅可以了解观察到哪些部分是可控的,还能推断出在生成环境中的潜在动作,这种潜在动作甚至还可以转移到真实的人类设计的环境中。

image

正如前文说到的,Genie只需要一张图,一张它从未见过的图,就能创建一个全新的交互环境。这里说的“一张图”,可以是任意类型的图:AI生成的图、人类画的设计草图、真实世界照片……

image

image

image

值得一提的是,Genie还有望用于机器人领域。谷歌研究人员们用来自RT1的无动作视频训练了一个较小的2.5B模型,证明Genie 能够学习一致的动作空间,可以帮助训练机器人。

image

谷歌指出,Genie有助于实现“通用AI Agent”——此前研究表明,对于AI Agent开发而言,游戏环境是有效测试平台,但这种方法难免会受到可用游戏数量的限制。Genie则可以帮助生成新世界,让AI Agent不断接受训练。

总而言之,一句“芝麻开门”,《一千零一夜》中的阿里巴巴打开了宝藏大门;指尖轻轻一擦,召唤出神灯精灵的阿拉丁走上了人生巅峰。

如今,AI行业也有了自己的“精灵”,一句话,或是一张图,通向通用人工智能世界的大道,正在徐徐铺开。

责任编辑:陈浩然
  • 谷歌
  • 人工智能
欢迎关注中国城市报微信号
分享到: 

关于我们

城市服务

报社业务


版权所有 违者必究   Copyright © 2016-2026 by www.zgcsb.com. all rights reserved 网站备案号:京ICP备15005404号-4 京公网安备 11010502043907号
互联网新闻信息服务许可证10120190005 举报邮箱: jubao@people.cn  违法和不良信息举报电话: 010-65367114  010-65363263 地址:北京市金台西路2号人民日报社 邮编 100733