您的位置：首页 > 科技

Sora理解物理世界吗？肖仰华、傅盛说法也不一

2024年02月28日 21:40:21 来源：澎湃新闻 作者： 宦艳红王瑞

·视频大模型Sora一经登场，逼真的视频呈现让全球科技圈沸腾。Sora背后的技术架构是怎样的，它的出现是否意味着AGI进程从10年变成了1年？Sora到底有没有理解物理世界的能力？以Sora为代表的AI技术将如何影响人类社会？我们又将如何应对？

2月20日，澎湃新闻邀请复旦大学教授、上海市数据科学重点实验室主任肖仰华，猎豹移动董事长兼CEO、猎户星空董事长傅盛，全国政协委员、上海科技馆馆长倪闽景，做客澎湃新闻直播室，共同探讨有关Sora的热点话题。以下节选自直播实录。

肖仰华：Sora的出现在意料之中也在意料之外。(00:53)

Sora的出现在意料之中也在意料之外

澎湃新闻记者王瑞（以下简称王）：三位看到Sora生成的视频后，第一感受是怎样的？

肖仰华（以下简称肖）：意料之中也意料之外。

所谓意料之中，是因为ChatGPT诞生之后，业内专家都普遍预测大模型一定会从纯文本的大模型向多模态发展。所谓多模态指的是图文混合、和视频相结合的这类大模型。

意料之外是指当你亲眼看到了Sora生成的视频具备如此的逼真度，冲击力还是很激烈的。它对模拟物理世界的逼真程度，达到了空前的水平，是之前人工智能技术从来没有做到过的。

因为它是完全基于用数据喂养出来的大模型生成的，不再是通过包括建模、渲染等传统的电影工业技术做出来的，所以我认为它可能会带来非常深远的影响，它实际上代表的是人工智能对现实物理世界的模拟达到了一个全新的高度。它会带来一系列的产业影响，可能对整个人类社会包括教育都会带来非常深远的影响。

倪闽景（以下简称倪）：Sora生成的视频中，很好地把握了人与人、人与物之间微妙的关联，这也是过去很多生成式视频做不到的，所以令人非常震惊。

傅盛（以下简称傅）：Sora的视频就效果来说是非常震惊的，它超出了我们对这个行业当前的认知。OpenAI作为一家科技企业，市场宣传方面的能力也是超一流的。他们选择放出来的每个视频，几乎都是今天视频制作市场上的难点和热点，很多都是用传统建模方法做视频难以企及的。譬如几只小狗在玩雪花的视频，对于传统技术来说，雪花是最难制作的。

“相比ChatGPT，Sora技术突破有限 ”

王：Sora也是OpenAI的产品，它和之前的ChatGPT有何联系？

肖：ChatGPT和Sora都使用了Transformer神经网络架构，本质上是一种大模型。这样一种大模型为何会带来这么好的效果呢？

因为世界本质上是非常复杂的，非线性的。我们传统的模型只能建一些线性的简单关系。像这个流体力学之类非常复杂的现象，用传统的模型非常难建模。但是今天我们看到基于Transformer深度神经网络的大模型架构，Sora已经具备了对现实世界复杂现象非常逼真的建模能力，这是Sora带来的一个新高度。

傅：现在我冷静下来再想想，当然也去看了很多文献，我又觉得Sora这个事本质上是因为视频是一个需求很旺盛的巨大行业，才造就了热潮。从技术上来说，我现在的观点是它没有那么大的突破。

其实如果深入分析下去，你会看到Sora是使用了跟以前完全不同的一条路径去构造了一个世界，它更像我们人的本能认知。很多传统做视频建模很麻烦的事，可能对于它来说并没有那么难。可能对于它来说，生成水面的倒影、眼镜的反光和生成鸡蛋的画面，难度是一样的，它是一种直觉认知。

我一直有个观点，就是事实上如果没有大语言模型作为基座，今天Sora在视频领域是不会产生这么大突破的。

我想表达的一个观点是，其实语言对世界的认知是远超视频的，虽然视频看起来更让我们有直觉的冲动，但语言的抽象和逻辑是最难理解的。一旦语言对世界的描述建立以后，视频的这种抽象和描述相对来说是简单的。当然，在工程角度，视频可能因为数据量更大，工程难度更高。但如果没有大语言模型，今天视频是做不到这个能力的。其实对图像的理解是我们每个人的直觉，其实我们做梦就是一个还原世界的过程。

傅盛认为Sora的技术突破不如ChatGPT。(00:43)OpenAI的胜利是技术信仰的胜利

王：在Sora之前，也有很多公司做文生视频，但时长都比较短。Sora和他们的技术路线不一样吗？

傅：我一直有个观点，就是OpenAI能走到今天与其说是技术积累的胜利，不如说是技术信仰的胜利；与其说是它有什么超牛的技术，还不如说它坚持在别人不相信的道路上勇敢前行。

其实即便到前年之前，OpenAI在硅谷都不是一个被看好的公司。但它自成立之初就相信一件事：让机器读大量的文字，它就能理解语言，甚至理解世界。这件事其实以前大家都不相信，只有它相信，所以它就坚定的去干，直到ChatGPT出来后，所有人突然发现，原来可以做成这样。ChatGPT的底层架构 transformers最早是谷歌发布的。

我觉得之所以会有Sora是因为他们相信通过大语言模型的加持，能够干到一个你想象不到的效果。

我觉得Sora和其它文生视频的底层技术没有本质区别，可能没有OpenAI这么坚定而已。所以我想说Sora的重大突破并不一定代表技术上的重大升级，你更可以理解成是一个暴力美学，因为相信这事能成，所以投的资源比其他人大一百倍，可以不计成本投入。我相信这是巨大的算力和很多的尝试最后试出来的。

没有哪个技术会突然有一天从哪里冒出来，那可能是我们读武侠小说读多了，总觉得在深山老林里面有个人拿了本宝典，最后全世界都被他征服了。但技术的演进不是这样的，技术底层的差异化并没有那么大。技术信仰使得他们全力以赴，从而有了一个产品级的突破。

我判断Sora不会是独一无二的，很快文生视频的行业都会从四秒、十秒变成六十秒，文生视频会像雨后春笋一样出来。

肖：我很赞同傅总刚才说的，OpenAI的胜利本质上是一种信仰的胜利，是对信仰的长期坚持的胜利。

欧洲近几百年流行的虚无主义，认为人类对世界的认知可能只是认知世界的一种方式而已。我们已经建立起来所有知识体系，可能不过就是人类对世界的一种有限的认识方式。

大模型的成功恰恰也证明了这一点，我们完全可以用数据驱动的方法让机器学习，它建立的对世界的建模和认知，有可能远远超过我们人类对这个世界的认知方式，所以我们人类可能不能太过自信。

最近杨立昆等专家指责Sora（编者注：杨立昆（Yann LeCun）：图灵奖得主，Meta公司首席科学家、AI团队负责人。在他看来，仅仅根据提示词生成逼真视频并不能代表一个模型理解了物理世界，生成视频的过程与基于世界模型的因果预测完全不同。他认为Sora并不能模拟物理世界，在社交平台上发文称 “这里存在‘巨大’的误导。”）杨立昆代表的是人类的意志，他觉得我们人是有作用的，我们人类专家所积累的这些知识经验，应该在世界建模中扮演重要角色。但实际上我倾向于认为Sora摆脱了专家所谓的一些知识干预后，可能是更接近世界本源的，更准确的一种建模方式。

肖仰华觉得用数据驱动的机器对于世界有自己的理解。(01:20)Sora到底能理解世界吗？

王：关于Sora对物理世界的理解与模拟，现在也有很多不同的观点，三位是怎么看？

肖：实际上以往我们认为的理解都是以人为中心的，我们说理解的主体都是人，如果你不承认机器的主体地位的话，是谈不上所谓的理解的。

但我们人类理解世界的结果也是为了表达世界，也是为了再去创造一个新的世界。像Sora这种工具，它能够非常高精度的建模这个现实世界，可以视作一种理解能力。所以对机器而言，可能建模就是理解。

我们人类对这个世界重现都是通过一些简化的公式去重现的，但Sora可以非常高精度的重建整个物理世界。从这个意义上来讲，它的建模水平可以说是远超人类水平。

倪：我觉得它至少理解了什么是人，什么是樱花，什么是雪花，什么是街道，否则也不可能生成这些东西。但机器在表达时，会按照它看到的、认为的规律来生成，这有可能和我们平时看到的规律不一样。因为我们人观察东西也永远是片面的，我们所有的观察只是局部。我看到你的前面，但看不到背面，看见了外面看不见里面。

傅：这个问题在我脑海里这两天也是激烈变化。虽然在感官上Sora生成的视频非常惊艳，但在对世界的理解度上，我觉得它肯定是不如语言模型本身的。

我注意到一个细节，其中有个中国舞龙视频，如果你认真看它后面的每一个中国字都不是中国字，它只是长得像中国字的一个图形。

所以我认为Sora某种意义上一定是具备对世界的某种理解。但如果你说它把整个物理世界复刻了，我觉得这肯定不是真实的。我认为它对世界的理解还停留在比较初级的水平。就像一个五六岁的小孩，对世界的理解并不深，但画图方面是一个天才儿童。我认为这也是电脑特性决定的，计算机的能力和人类能力并不一样，对我们来说很难的事情对它来说可能很简单，画画对计算机来说就是一堆的像素点打出来，这个色阶正好符合你的审美。

所以我觉得仅以视频本身去惊叹Sora对物理世界的理解到了一个什么高度，这点我是绝对不认同的，“AGI因此由十年变一年”，这个我也不认同。

人才、数据、算力，国内公司缺哪样？

王：说到大模型公司，国内也涌现了非常多企业，现在国内的这个情况和大环境是怎么样的？

肖：其实从ChatGPT开始，很多人就问为什么我们没有率先推出这类产品，总体上我们国内的态势应该来讲处于在跟随学习，差距如果能够不拉大，已经算是相当不容易了，应该说是在努力地追赶。

大模型需要的无外乎就是人才、数据、算力，我倒不不认为人才真的是我们的短板。大模型本质上是一次工程创新，我们国家最不缺的就是工程人才，很多国外团队中也频频出现华人的身影，所以从人才来讲，我不认为我们有多大的劣势，我们的学生完全能胜任。

再来看数据，当然大家说数据有这样那样的问题，但我也不认为数据是我们根本短板。我们可以集中力量办大事，我们有数据要素市场，也在推动这个数据语料联盟，只要齐聚人力就能把数据给治理好。

可能现在最直接的因素还是算力上面，Sora说白了也是一个大力出奇迹的活，但我们现在算力跟不上，是一个明显的短板。

另外，我认为可能还有我们很缺的因素就是所谓的信心。我觉得可能国内对于AGI这条道路信心不足，对AGI理念的坚持从文化上来讲接受度不高。我们中国人还是强调经济务实啊，都喜欢跟哪个场景一结合就能够去变现，快速变现。但真正说要静下心来坐冷板凳，在一条很有风险的道路上做一个巨大的投入，我看到的还是很少。这本质上还是一个信仰和信心的问题。

傅：AI本质上是个平权工具，它让很多以前离技术很远的人能够很快地用上技术成果。当这个工具变得足够廉价和便宜时，哪怕质量差一点，也可以让更多人去完成创作。所以我觉得Sora在颠覆一个行业的同时也在启动一个行业，新的行业一定会蓬勃发展，会有越来越多的人投入到这个行业，越来越多可能没有看过摄像机的人也能做出好视频。

我相信Sora今天不肯开放，还在内测，肯定时因为成本还很高。但我估计很快就会有成本是Sora的百分之十，但质量也是Sora百分之十的这样的工具出现。所以我觉得这个行业会百花齐放，机会是非常大。

傅盛：Sora的成功得益于大语言模型的成功。(00:52)绝大部分人还是低估了AI的影响力

王：Sora出现之后，有些人很焦虑，AI的快速发展可能对当下的生活、未来就业、劳动力等都会影响。

肖：大家焦虑、担心可能有几个原因：

首先我们研发这些技术的人很担心，为什么？因为现在AI很多技术对我们来讲还是黑盒，我们并没有完全弄明白它的这个原理。AI生成的过程和结果很大程度仍然是不可控的。

第二个是社会层面的担心，就业可能会是非常直接的影响，AI已经能够实现我们人类的很多能力。人机协作实际上会极大的降低人员的需求量。

从更长远来讲，最大的担心还是AI是个先进生产力，势必要求我们整个生产关系，整个上层建筑适应这个生产力。但我们整个社会结构的调整，适应这个先进生产力的过程相当缓慢，但AI发展却很快速，所以也曾有人呼吁过按下AI发展的暂停键。AI哪些该做，哪些不该做，可能还是要设立一些应用的原则和边界，来确保社会平稳有序的过渡到了适应先进生产力的阶段。

傅：AI虽然这么热，其实我觉得绝大部分人还是低估了AI的影响力，其实它影响的不仅是视频，比如现在生命科学、材料，包括核聚变能源，我觉得它都会产生影响。核聚变这么多年没有太大突破，我相信AI介入以后可能会超出人类的想象。

所以它是一场底层革命，任何社会的每一个层面，今天我们不能成为AI原住民，我们就会被淘汰。

技术的进步是不以哪个人的意志为转移的，按暂停键是摁不住的，只能是跟着技术的变化去适应技术，所有社会生产力的发展，其实最根本的变革都是科学和技术。所以今天我们肯定要拥抱AI。全社会尤其是教育要率先变革。

倪：现在我们是处在科技的寒武纪时代啊，寒武纪大爆发的特点就是会产生稀奇古怪的东西，但也有东西出来很快就消亡了。很多投资人现在很痛苦，因为以往的投资逻辑改变了。但这个过程也许对我们人类来说是非常有意思的一个大爆发阶段。过去寒武纪可能是要几千万年，现在可能十年就会进化到一个超出想象的阶段，变革的速度越来越快。

对我们教育者来说，也会产生很多反思。机器学习到底对我们人的学习会带来怎样的启示？我觉得我们可能会更多的人会投身到这个问题的学习研究中。对人类的学习进化的研究也会迎来一个爆发期。教育的变革绝对不只是老师的变革，我觉得是所有教育人，甚至全社会都要反思的。