您的位置:首页 > 地方稿件中心

Kino V2.2冲上vBench全球TOP榜,百万级成本驯服Sora同级模型

2025年06月26日 22:12:52 来源:日照新闻网

新一代自研AI视频模型Kino V2.2在全球权威测评平台vBench中以82.02综合得分跻身全球顶尖阵营,与Sora、Wan2.1等商业闭源模型同列TOP榜,并在关键维度力压Mochi、Open-Sora等开源竞品。

一、性能实测:多维度顶尖表现

在vBench实测中,Kino展现出对影视制作至关重要的三项核心能力:

复杂场景构建封王:64.59场景分(超开源模型均值37%),可稳定生成雨夜东京、丛林兽群等高动态环境;

多角色动态控制:80.93分实现群体运动精准调度,避免传统AI视频中常见的肢体错位;

电影级时序连贯:99.31运动平滑度比肩Sora,消除帧间撕裂卡顿,满足长镜头拍摄需求。

此外,还在主体一致性、美学质量、语义分数等多个维度上,取得与顶尖开源标杆模型和商业模型相当的表现。

vBench关键指标对比(精选TOP阵营)

二、成本革命:百万级实现技术核爆

在行业动辄千万训练成本的背景下,Kino团队交出震撼答卷:

3个月极速迭代:基于Kinov1.0的continue training高效升级

百万级成本破局:仅需100KH100 GPU小时

语料精炼革命:自研6层数据蒸馏管道,从海量素材中提纯1000小时黄金数据集,创新设计并基于Qwen2.5-VL-32B实现六维标注引擎,实现语义-视觉精准对齐

为提升Kino模型的可扩展性和训练效率,训练中应用了多种并行策略,根据硬件和数据动态调整,并优化了分布式训练;针对显存分配碎片问题,优化了动态内存分配策略,以防止显存不足并最大化GPU利用率。

三、三大技术引擎驱动影视级生成

Kino在行业保持领先地位源于其融合了三维变分自编码器(3D Variational Auto-Encoder, 3D VAE)与 Diffusion Transformer(DiT)架构,展现出卓越的时空建模能力与跨模态对齐。

Kino使用3D VAE技术压缩视频,将复杂视频数据映射到潜在空间。它通过动态调整patch大小来平衡压缩比和重建质量,优化信息保留。解码器将这些潜在表征还原成高质量视频。

人物动作表现human action

多物体处理能力multiple_objects

在视频生成主干中,Kino构建一个基于全注意力机制的Diffusion Transformer架构,融合双流(dual-stream)与单流(single-stream)处理模块。其中,双流模块分别独立建模文本与视觉模态,从而增强模态内语义特征;单流模块则通过跨模态注意力机制实现语义融合,对齐文本与视觉之间的语义,提升文本驱动下的视频生成精度与一致性。

此外,Kino在Transformer的注意力模块中引入3D RoPE,能够更有效捕捉帧间动态变化及空间结构特征,从而提升生成视频的时空一致性。在语义建模方面,Kino采用多语言预训练模型 umt5 对输入文本进行表征,增强模型对复杂语言结构的理解与泛化能力。同时,Kino融合多模态大模型作为辅助教师模型,通过跨模态语义对齐策略提升语言到视觉的映射质量,进一步增强生成视频在语义响应性与指令遵循方面的表现。

通过以上多维度优化,Kino在视频生成任务中展现出领先的时空连贯性、视觉逼真度与文本指令执行能力,适用于多场景的高质量视频生成应用。

Kino能力已覆盖从创意生成、分镜设计到多语言译制的影视全流程工业化生产,未来不仅是工具迭代,更是生产关系的重构。

责任编辑:韩利
  • kino
欢迎关注中国城市报微信号
分享到: 

关于我们

城市服务

报社业务


网站备案号:京ICP备15005404号-4 京公网安备 11010502043907号
互联网新闻信息服务许可证10120190005 举报邮箱: jubao@people.cn  违法和不良信息举报电话: 010-65367114  010-65363263 地址:北京市金台西路2号人民日报社 邮编 100733

《中国城市报》社有限公司版权所有,未经书面授权禁止使用

Copyright © 2015-2025 by www.zgcsb.com. all rights reserved