您的位置：首页 > 科技

中国首个Sora级视频大模型Vidu发布

2024年04月29日 12:02:44 来源：中国新闻网 作者：陈溯

在2024中关村论坛年会未来人工智能先锋论坛上，清华大学联合生数科技27日正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。

该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。

4月27日，在2024中关村论坛年会未来人工智能先锋论坛上，清华大学联合生数科技正式发布Vidu。中新社记者陈溯摄

据介绍，Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。Vidu是自Sora发布之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平，并在加速迭代提升中。

在当天的论坛上，清华大学教授、生数科技首席科学家朱军表示，与Sora一致，Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。除了在时长方面的突破外，Vidu在视频效果方面实现显著提升，主要体现在模拟真实物理世界、多镜头语言、时空一致性高、理解中国元素等方面。

4月27日，在2024中关村论坛年会未来人工智能先锋论坛上，清华大学联合生数科技正式发布Vidu。Vidu在视频效果方面实现显著提升，能够生成特有的中国元素，例如熊猫、龙。中新社记者陈溯摄

“值得一提的是，Vidu采用的是‘一步到位’的生成方式。”朱军表示，与Sora一样，文本到视频的转换是直接且连续的，在底层算法实现上是基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理。

朱军表示，Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构，完全由团队自主研发。

自今年2月Sora发布推出后，团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验，在短短两个月进一步突破长视频表示与处理关键技术，研发推出Vidu视频大模型，显著提升视频的连贯性与动态性。

“Vidu的命名不仅谐音‘Vedio’，也蕴含‘We do’的寓意。”朱军表示，模型的突破是一个多维度、跨领域的综合性过程，需要技术与产业应用的深度融合，希望与产业链上下游企业、研究机构加强合作，共同推动视频大模型进展。

责任编辑：陈浩然

Sora级
大模型Vidu

欢迎关注中国城市报微信号

分享到：

新闻推荐

新闻图集

更多>

中国城市报
抖音号

抖音号
dyrjb32my0kv
官方微信
官方微博
观城者微信
观城者微博
官方快手号

1417597972

视频专区

更多>

中国首个Sora级视频大模型Vidu发布

新闻推荐

新闻图集

中国城市报
抖音号

抖音号
dyrjb32my0kv

官方微信

官方微博

观城者微信

观城者微博

官方快手号

1417597972

视频专区

进村东北虎放归自然现场视频！

“我不要你以为! ”反诈版“霸道民警”上线

新高考对高校招生有何影响？招办主任这样说

来自父亲的浪漫！高铁司机与女儿的特殊约会

关于我们

城市服务

报社业务

中国首个Sora级视频大模型Vidu发布

新闻推荐

新闻图集

中国城市报抖音号

抖音号dyrjb32my0kv

官方微信

官方微博

观城者微信

观城者微博

官方快手号

1417597972

视频专区

进村东北虎放归自然现场视频！

“我不要你以为! ”反诈版“霸道民警”上线

​新高考对高校招生有何影响？招办主任这样说

来自父亲的浪漫！高铁司机与女儿的特殊约会

关于我们

城市服务

报社业务

中国城市报
抖音号

抖音号
dyrjb32my0kv

新高考对高校招生有何影响？招办主任这样说