快手可灵，把压力给到了抖音剪映 - 财经资讯(古典风资讯网)

视频生成大模型会是下一个竞争高地吗？

撰文 | 蓝洞商业赵卫卫

快手自研视频生成大模型「可灵」上线后，截至目前，申请使用的预约人数已经超过 6.5 万。一时间，引发行业轰动。

原因很简单，OpenAI 的文生视频 Sora 发布后，一直处于内测状态，外界无缘得以使用；而快手「可灵」发布即测试，通过快手旗下创作工具快影 App，用户可以直接申请公测，通过后可生成 2 分钟左右、分辨率为 1080p 的文生视频，视觉效果并不弱于 OpenAI 的 Sora。

文生视频需要耗费巨大的算力资源，对模型的能力维度要求更高，是国内大模型厂商尚未充分竞争的领地。让人意外的是，快手「可灵」成为国产大模型中最先「交卷」的一家，早于字节。

但快手这种领先优势并不会维持太久，「字节跳动的视频生成大模型也在内测中，估计很快（发布）了。」行业知情人士透露，预计跟快手类似，字节旗下视频生成大模型也将通过旗下创作工具剪映最先上线。

此外，就在「可灵」上线一周后的 6 月 13 日，Luma AI 发布最新文生视频模型 Dream Machine，向所有用户免费开放使用，其效率可以达到每 120 秒就能生成 120 帧画面，还能快速生成 5 秒钟的电影级别视觉效果的视频片段，此外，Luma的模型超越快手可灵的地方，还有丰富的美学风格选项。

更多竞争的对手正在赶来的路上。「6月底之前，大模型厂商都会不断放出 Sora 类模型产品，文生视频和图生视频大模型将遍地开花。」大模型行业分析人士认为，此前各家大模型厂商都具备了视频生成能力，只是碍于算力成本以及视频效果尚未全面优化，所以并未全面铺开。

大模型之战，从技术卷到应用，从百模大战卷到价格战，视频生成大模型会是下一个竞争高地吗？答案正在揭晓。

弯道超车字节？

「可灵的效果是目前中国 Sora 类的第一，非常意外的是来自快手团队。」行业分析人士认为。

快手自研视频生成大模型「可灵」上线后，让外界意外的，一方面是视频生成的效果可以比肩 Sora；另外一方面是其来自快手团队。因为，在此前的大模型竞争中，快手并不是引人关注的第一梯队成员。快手此前发布通用大语言模型「快意」、文生图大模型产品「可图」，影响范围都很有限，直到如今的「可灵」。

从快手「可灵」公布的数据看，中国版 Sora 确实是其对标的目标。

从技术路线上看，快手「可灵」采用的是跟 Sora 雷同的 DiT 架构，用 Transformer 代替了传统扩散模型中基于卷积网络的 U-Net。快手大模型团队还自研了一款 3D 时空联合注意力模块和 3D VAE 网络，以实现更好的时空运动建模与更高效的隐空间编/解码。

而从「可灵」的官方网站上，可以一目了然其产品卖点。

最引人注意的是，可灵支持生成长达 2 分钟的 30 帧视频，分辨率最高 1080p，自由定制宽高比，这一点远超 Sora 和国内大模型厂商。而在生成视频的效果上，可灵强调自己的能力包括生成大幅度的合理运动、模拟物理世界特性、具备概念组合能力和想象力这三大优势。

而从传播上，「可灵」也区别于以往国内大模型的发布，最先从国外社交媒体上引起关注，然后在国内热度升高，实现了「出口转内销」或者「墙内开花墙外香」的特点。

在推特上，对「可灵」的使用评价和评测非常广泛。

「感觉大家也别等 Sora 这种又贵又费时的工业级 AI 了，先可灵免费用起来。快手这次真是让人惊喜。」

「与国外的 Sora 视频生成大模型相比，中国大模型开发者更理解本土文化，大模型生成的内容也更能满足本土用户的需求。」

「下午充了一个快影的年费会员，好像就跳过了快手可灵的排队，直接可以通过更改 prompt 生成视频了，效果很惊艳呀。生成一个视频的时间，在 VIP 会员下，大概需要 3 分钟。」

正是靠着国外社交媒体的热度，「可灵」的热度水涨船高。发布一周之后，快手才正式在官方公众号上推荐这款产品，标题为「今天你‘可灵’了吗？」

事实上，腾讯和字节等互联网公司，同样拥有视频生成大模型，只是尚未完全公测或者效果不尽人意。字节跳动剪映旗下的产品「即梦」就具备短视频生成功能，可以选择运镜类型、视频比例和运动速度，生成 3-6 秒的视频，但在视频呈现效果和时间长度上，并没有展示出比肩 Sora 的优势。

这也更凸显了快手「可灵」令人惊讶的优势，因为行业一直认为要对模型训练做扎实，本质上不存在弯道超车，如果基础模型做不好，文生文和文生图都做不好，何谈文生视频。但意外就在于，快手的视频大模型奇袭成功了。

可灵背后的人

谁才是「可灵」背后的决定性人物？这可能是一个人才流动前仆后继的故事。

就在快手「可灵」正式发布的前几天，快手专家研究员王鑫涛对外做过一个《视频生成的初探及其可控性研究》学术分享，这被认为是快手内部对「可灵」大模型技术层面的思考，相关 PPT 也很快流传出来成为大模型行业研究的资料。

「可灵」发布之后，王鑫涛又出现在深圳的一次人工智能学术分享会中，王鑫涛提到在追赶 Sora 的过程中，面临的核心挑战在于，如何实现在长视频和长镜头中学习到物理规律，从而确保生成的视频具有高度的物理一致性。

因而这是王鑫涛认为最值得深入研究的问题，「传统上，AI 生成的视频往往局限于单一镜头，缺乏复杂场景下的连贯性和真实感。然而，Sora 却能在复杂的长视频中实现镜头的流畅切换，同时保持强大的三维、时序和物理一致性。」

事实上，王鑫涛入职快手的时间并不长，目前是快手视觉生成与互动中心的高级研究员，隶属于快手多模型与 AIGC 部门，负责视觉内容生成方面的研究。公开资料显示，去年他还是腾讯 AI 实验室的高级研究员，领导了视觉内容生成 (AIGC)方面的工作。

可以说，快手「可灵」奇袭的背后，离不开王鑫涛这样的腾讯前 AI 力量的贡献。

此前腾讯混元开源混元大模型时，就已经公开其具备文生视频、图生视频、图文生视频、视频生视频等多种视频生成能力，已经支持 16s 视频生成。当时混元大模型文生图负责人芦清林就提到，不同模态之间的对齐是难点之一，混元想做视频和音频的同时生成，但要解决二者用一个模型输出的对齐有很大混淆。

而另外一方面，「可灵」出圈的背后，也意味着昔日快手 AI 团队成员的某种失落。

前快手技术副总裁王仲远，如今已经是北京智源人工智能研究院院长。去年 12月，快手组织架构大调整中，主站、电商与商业化三个事业部下属都拥抱了变化，而负责 AI 业务的王仲远不再担任任何职务。

仅仅半年前，王仲远作为快手 AI &用户增长业务负责人，在快手创作者大会上首次公布了快手 AIGC 的进展，其核心旨在提升短视频内容的创作力和生产力。当时快手已经开放了「可图」大模型产品，支持文生图和图生图两类功能，已上线 20 余种 AI 图像玩法。

整个 2023 年，是快手缺少 CTO 的一年，也是快手大模型组建团队和业务的落地之年。从组织架构上看，快手大模型团队隶属于快手社区科学线，而业务包含大语言模型、文生图大模型、视频生成大模型等多个方向，但大语言模型和文生图模型相比同行都乏善可陈。

中国版的 Sora 肯定也是王仲远的期待之一，只是不知道他如何看待「可灵」。

离开快手之后，王仲远代表智源研究院对外接受过采访，谈及 AGI(通用人工智能）正在加速到来，过去他觉得实现科幻片里超级人工智能的场景还有四五十年，现在他感觉可能再用四五年 AGI 就会诞生。

「Sora 的出现也是一个划时代的时刻，它真正的价值不是文字生成精美的视频，而是说明大模型可能具备了理解三维世界的能力。换句话说，Sora 初步展现了世界模型上的 scaling law（规模法则）。」王仲远认为。

第一能维持多久？

当下的快手「可灵」备受好评，但国内 Sora 第一的位置能维持多久？

「可灵」唯一的使用渠道就是快手创作工具快影 App，但快影 App 的下载数据并没有太大的波动。根据七麦数据，App Store 近七日日均下载量仍旧维持在 2 万左右，在应用（免费）和摄影与录像（免费）榜单上的排名依然保持稳定，并没有太大的变化曲线。

从商业路径上看，目前「可灵」吸引的更多还是 C 端消费者。相比文生图和文生文等模型在广告等领域已经有广泛的使用场景，文生视频大模型的使用场景依然有限，所以策略往往先服务于内容生产者，不断扩展消费端的使用场景，最终吸引 B 端客户和商家付费使用。

更重要的是，国内 Sora 第一的竞争对手正在赶来的路上。

一方面是国内市场，根据消息人士透露，字节跳动旗下视频生成大模型也在内测中，估计很快发布，也将依靠旗下创作工具剪映上线。对剪映来说，此前已经上线的「即梦」已经实现了文生视频大模型的相应功能，只是目前这部分功能优化程度不足而已。

而变化更快的是国际市场，就在 6月 13 日，Luma AI 首发了自己的视频生成模型 Dream Machine，用户可以通过文字或图片生成高质量的高清视频，比快手「可灵」更进一步的是，Luma 实现了免费全量开放，登录即用并不用预约等待。

但与快手「可灵」面临的问题一样，Luma AI 也面临算力不足的问题，使用时需要长时间等待，等待结果也有可能是生成内容失败，所以算力是制约文生视频大模型最大的瓶颈。

大模型行业此前公开过相关数据，大模型要实现 Sora 类似的水平，就需要有千卡级别的算力，进一步优化能力则需要万卡级别的算力，这意味着大规模算力集群的调动能力，不论是使用英伟达的旗舰 GPU 芯片，还是华为昇腾的国产 AI 芯片。

大模型竞争依然处于初期，AI 大模型本身对云服务来说是锦上添花，如何把应用落地做好，把成本最低，依然是当下大模型行业面临的共同命题。

相比于字节跳动的大模型策略，快手在大模型上的策略仅仅有「可灵」依然是不够的。字节跳动豆包大模型最明显的策略和标签就是成本低，通过价格战大幅降低模型推理的单位成本，吸引 B 端客户进入火山引擎的云服务之中。如果字节跳动发布视频生成大模型，那一定是实现了成本更低的一条路。

无论如何，追赶 Sora，已经成为大模型行业在 2024 年的主要共识和任务之一，快手要稳住国内 Sora 第一的位置，还要面临残酷的考验。