您的位置：首页 > 地方稿件中心

Kino V2.2冲上vBench全球TOP榜，百万级成本驯服Sora同级模型

2025年06月26日 22:12:52 来源：日照新闻网

新一代自研AI视频模型Kino V2.2在全球权威测评平台vBench中以82.02综合得分跻身全球顶尖阵营，与Sora、Wan2.1等商业闭源模型同列TOP榜，并在关键维度力压Mochi、Open-Sora等开源竞品。

一、性能实测：多维度顶尖表现

在vBench实测中，Kino展现出对影视制作至关重要的三项核心能力：

复杂场景构建封王：64.59场景分（超开源模型均值37%），可稳定生成雨夜东京、丛林兽群等高动态环境；

多角色动态控制：80.93分实现群体运动精准调度，避免传统AI视频中常见的肢体错位；

电影级时序连贯：99.31运动平滑度比肩Sora，消除帧间撕裂卡顿，满足长镜头拍摄需求。

此外，还在主体一致性、美学质量、语义分数等多个维度上，取得与顶尖开源标杆模型和商业模型相当的表现。

vBench关键指标对比（精选TOP阵营）

二、成本革命：百万级实现技术核爆

在行业动辄千万训练成本的背景下，Kino团队交出震撼答卷：

3个月极速迭代：基于Kinov1.0的continue training高效升级

百万级成本破局：仅需100KH100 GPU小时

语料精炼革命：自研6层数据蒸馏管道，从海量素材中提纯1000小时黄金数据集，创新设计并基于Qwen2.5-VL-32B实现六维标注引擎，实现语义-视觉精准对齐

为提升Kino模型的可扩展性和训练效率，训练中应用了多种并行策略，根据硬件和数据动态调整，并优化了分布式训练；针对显存分配碎片问题，优化了动态内存分配策略，以防止显存不足并最大化GPU利用率。

三、三大技术引擎驱动影视级生成

Kino在行业保持领先地位源于其融合了三维变分自编码器（3D Variational Auto-Encoder, 3D VAE）与 Diffusion Transformer（DiT）架构，展现出卓越的时空建模能力与跨模态对齐。

Kino使用3D VAE技术压缩视频，将复杂视频数据映射到潜在空间。它通过动态调整patch大小来平衡压缩比和重建质量，优化信息保留。解码器将这些潜在表征还原成高质量视频。

人物动作表现human action

多物体处理能力multiple_objects

在视频生成主干中，Kino构建一个基于全注意力机制的Diffusion Transformer架构，融合双流（dual-stream）与单流（single-stream）处理模块。其中，双流模块分别独立建模文本与视觉模态，从而增强模态内语义特征；单流模块则通过跨模态注意力机制实现语义融合，对齐文本与视觉之间的语义，提升文本驱动下的视频生成精度与一致性。

此外，Kino在Transformer的注意力模块中引入3D RoPE，能够更有效捕捉帧间动态变化及空间结构特征，从而提升生成视频的时空一致性。在语义建模方面，Kino采用多语言预训练模型 umt5 对输入文本进行表征，增强模型对复杂语言结构的理解与泛化能力。同时，Kino融合多模态大模型作为辅助教师模型，通过跨模态语义对齐策略提升语言到视觉的映射质量，进一步增强生成视频在语义响应性与指令遵循方面的表现。

通过以上多维度优化，Kino在视频生成任务中展现出领先的时空连贯性、视觉逼真度与文本指令执行能力，适用于多场景的高质量视频生成应用。