Sora对国内大厂是机会还是挑战？ - 科技资讯(古典风资讯网)

抛开技术路线不谈，单就实现效果而言，国内大模型企业们在生成视频方面，是否有着同样的“飞升机会”？

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍龙年的第一个月，正如去年的ChatGPT，OpenAI开年再出一王炸——文生视频领域的Sora。

面对这样的AI生成能力，包括几乎所有类型的从业者都感受到了不小的震动。一位IT出身的电影制片人告诉陆玖商业评论，Sora的的惊艳表现，让他周围的从业者都有了不小的危机感。电影制作成本的急剧下降，和新锐电影人的出头，将会比以往更加容易。

不过，在面对陆玖商业评论提出的“Sora是否已具备商业化条件”“文生视频对于算力的要求是否更高，以及如何解决”等问题时，这位制片人则用“发展问题，发展解决”的说法给出回复。

这显然过于乐观。毕竟更多从业者认为，从概念到成熟的工业化商用阶段，即便是Sora也有很多不成熟的地方。

也因此，抛开技术路线不谈，单就实现效果而言，国内在文生文等通用模型有相关布局的大模型厂商，是否有着同样的“飞升机会”？文生视频，到底相比过去文生文，有哪些实质性的飞跃？这是一个很有意思的话题。

Sora，革命还是泡沫？

必须承认， Sora 的出现，让通用人工智能（ AGI ）的实现，又近了一步。原因在于，它已经做到了模拟真实物理世界的运动，譬如物体的移动与相互作用。

不过，仅仅是这种程度的改进，也算不得“惊艳”。根据OpenAI的官方报告，Sora的“革命性”主要体现在下面几点。

首先是时长。作为通用的文生视频大模型，它能根据用户提供的文本描述生成长达60秒的视频，不仅品质上乘，且能更完整准确地还原用户输入的prompt，即提示词。

其次，是在场景的复杂度和角色生成水平的突破。到目前为止，Sora已经能够生成包括多个角色、特定运动类型以及主题精确、背景细节复杂的场景。且镜头语言也开始复杂，这使得视频本身开始具有一定的叙事功能，而这正是目前短视频领域所需要的东西。

再次，除了文本生视频，Sora还能做到从静态图像开始动画化图像，抑或是从已有视频生成新视频，实现填补缺失帧或者延展视频内容的效果。

一位资深科技媒体人对陆玖商业评论表示，Sora这类AI产品的出现，是一种“思维平权”的机会，因为一些长期跟踪行业的科技记者，经常会有一些“脑洞大开”的设想，但没有合适的工具让想法落地。但有了GPT和Sora这类AI工具之后，记者们一旦看到了机会和想法，AI就可能会帮助他实现产品，剩下的就是验证这个产品的可行性。

但陆玖商业评论在与多个行业人士交流以后发现，即便是眼下风光无限的Sora，同样有被高估的可能性。

行行AI董事长李明顺对此较为理性，在他看来，Sora的出现，很大程度上是文生文的通用模型，延展到视频领域的阶段性技术迭代。Sora能有如今的质变，很大程度上也是算力和资金不设上限投入，再加以海量训集的不断重复训练，这是“大力出奇迹”的结果。

相比技术实现上的优越，Sora在“资源禀赋”上的优越，显然跟国内一众“算力荒”厂商拉开了更大的距离。这是国内大模型相关厂商，在相当长时间里难以逾越的鸿沟。

而从投资角度而言，Sora这类垂直领域的“通用模型”也算不得热门标的。

一位一级市场从业者告诉陆玖商业评论，纯一级市场投资，通常只会投资大概念和高估值标的。原因主要在于一级市场的基金存续期是7年，投资期2年，5年退出是大概率事件。但文生视频的垂直模型在5年内能否实现工业化商用，谁都无法下定论。

此外，目前的Sora，所有已知信息只有2月15日发布的技术报告，但在3天后就传出了融资新闻。在没有开放使用、外界不知其实际水平的情况下，在风投公司Thrive Capital牵头融资中，OpenAI的估值已经逼近800亿美元。这位一级市场从业者向陆玖商业评论坦言，这次技术发布很可能是OpenAI“估值管理”的一部分。

昆仑万维的董事长周亚辉在朋友圈表示，“（硅谷）这边的Scientist和工程师根本不认除了Open Al以外的创业公司股票价值，觉得都是纸面财富。宁可要OpenAI.谷歌、FB、微软100万Package(一半股票)的Offer，也不要创业公司300万(80%股票)的Offer。”

可见，Sora之后，OpenAI进一步拉大了与其他AI大厂的差距。

国产大模型，厂商们的危与机

尽管 Meta 、 Google 以及微软都在蠢蠢欲动，但相较于资本市场对 Sora 的疯狂，国内大模型厂商则显得冷静得多。国内大厂大多数选择的，仍是立足于自身应用的大模型开发，并非去追求所谓的原生态 AI 大模型升级。

字节即是其中之一，其对于生成式AI的保守态度，早在文生文阶段就已经体现。而从入局时间看，字节并不晚。据晚点报道，2020年6月OpenAI发布GPT-3后，字节曾训练了一个数十亿参数的生成式语言大模型。

如果按部就班开发，到2023年时，字节与OpenAI的GPT，距离不会很远。只是在ROI挂帅的业务体系下，字节这笔投资显然没有算过账来。因此，其在生成式AI的探索上，始终相较竞品慢了一些。

从发布时间来看，百度文心一言于2023年3月份发布，同年10月便迭代至4.0版，紧随其后的是阿里的通义千问、腾讯混元助手，而字节发布云雀大模型的发布时间是2023年8月。

后发导致的结果之一，是用户量不足——文心一言的月活去年就已经破亿，字节的豆包仍然在千万以下。不过，字节在选派张楠执掌剪映之后，有望在生成式AI的进度上更快一点。

如果说字节在文生视频领域暂时没有看到可立即使用的产品，那么百度和阿里则不然。早在去年的百度世界大会上，百度已经演示过文心一言的文生视频能力，主要集成在“一镜流影”插件当中。

当然，出现在世界大会现场的生成视频，只是一镜流影无数次抽卡中的成功案例。陆玖商业评论经过测试发现，一镜流影仍然存在一些局限。

其一是素材库。目前一镜流影使用的是无版权素材库，这导致无法用于特定品牌的工业化商用环节。

其二是出于可能的肖像权考虑，目前无法生成带人像的视频，但可用于生成不带商标的商品视频。

其三则是，目前生成的视频，都是30秒左右的，如果想要达到与Sora类似的效果，还需要做到两段视频素材的拼接。如果要保持内容和风格的一致，显然变成了难事。

通义千问目前用的最多，热度最大的相关技术，则是以全民舞王为代表的图生视频技术。只需一张全身照，就可以让其做出各种热门的舞蹈动作。在B站，以慈禧等历史人物跳科目三的二创视频，加起来的视频播放量，大约在千万级别。

虽然还没有做到工业化的水准，也没有与国外的Sora拉平差距，但国外的Sora同样也没有做到工业化，这也就意味着，起码在商业化进程上，二者仍然没有太大的距离。剩下的只需不断追赶就好。

行行AI董事长李明顺也持类似的观点。他告诉陆玖商业评论，目前OpenAI仍然占据行业头部的位置，但很大程度上是建立在此前的算力储备和技术积累之上。国内诸如BAT、字节等通用大模型厂商，也会不断去追赶。原因很简单，在某种程度上，通用大模型已经变成了互联网公司基础能力的一种象征。

竞赛似乎才刚刚开始。

文生视频，真正的胜负手在哪？

当然，无论是 OpenAI 的 Sora ，还是国内一众大模型厂商，其最终目的，仍然是工业化、流水线化生产高质量的视频内容。

但就目前来看，即便强如Sora，也是有诸多不成熟的因素，导致其无法应用到工业化领域。AI动态视频解决方案产品知行元（www.creatlyai.cn）的产品架构师告诉陆玖商业评论，虽然目前Sora看起来很方便，通过文字能直接生成高质量的视频，且只需要通过几个提示词来控制，对用户的心智与操作负担看起来很小。

但由于目前的sora对真实物理世界的理解还有限，在某些场景仍然会出现问题。诸如烛光方向错乱、精准数量失序，空间物体进出畸变等细节，这些细节到后期剪辑都是很难去改动的。

这并非没有解决方案。因为Sora目前已经有视频延展和视频拼接功能，用户完全可以生成数个几秒钟的视频进行后期裁剪。如果对于提示词工程的知识储备不足的人来说，多次生成+人工后期是难以避免的。

此外，在工业化的商品宣传片中，通常客户会发布一些新款商品，譬如新款羽绒服、新车、新手机等等。但用户的素材并不存在于视频模型的训练集中，导致只能生成类似商品后再二次加工，也就是影视后期。

这里同样有专业用户与非专业用户的需求差别。譬如对于一般的轻度用户，如果没有商业化需求，那么模型就是一个试玩产品，任何新生成的作品对他而言都是惊喜。但对于专业用户（譬如导演），如果一次生成的不够满意，那么还涉及到多次生成和多次后期，对于算力与人工都是不小的负担。

前述电影制片人告诉陆玖商业评论，在影视制作流程中，后期最大的成本，就是负责剪辑与特效，也就是二次加工的人工成本。如果工作流不够先进，那么很可能会在后期制作过程中拉高成本，进而影响项目的ROI。

如果目前的文生视频仍然需要大量人工去调校，且镜头和对物理世界的还原也无法做到1：1，那么用AI生成视频素材的性价比，其实是不高的。

有基于此，一位影视后期从业者告诉陆玖商业评论，在他看来，AI能直接替代的，其实是搭建和拍摄等中期工作。因为AI对物理世界的模拟还原，可以通过不断训练来接近真实水平。

以上仅仅是Sora对影视产业的部分改变推演。至于对于游戏、广告、短视频创作等细分领域，变革肯定远大于问题。AI的应用，其革命性的变化，肯定波澜壮阔。而国内大厂，在AI应用的商业化探索上，显然更愿意发力和尝试。

同样，根据周亚辉的朋友圈剧透，“Open AI很快会发布GPT4.5，而且估计会故意选择Anthropic发布Claude 3的时候发布。”最新迭代版本的Open AI除了Sora生成式视频外，还有什么令人惊艳的创新，应该是国内大厂从事大模型战略和业务部门，最关心的事情。

最后，对于文生视频而言，是立足于+AI做大模型应用，还是立足于AI+去训练升级自己的原生态大模型。显然，美国大公司与中国大公司已经分别做出了自己的选择。