国产Sora真的来了！实测快手可灵Kling文生视频大模型

自从年初（2024.2） OpenAI 发布 Sora 模型到现在，已经过去将近 4 个月的时间了。至今依然没能体验上 Sora（除了极少部分人）。

真是吊足了人们胃口！

而就在最近，国内第一个可以和 Sora 相媲美的 AI 视频生成模型发布了——它就是快手的可灵（Kling）。

相比之下，快手可就「实在」多了。

快手可灵（Kling）视频生成大模型上线后，立马就开放了内测。

在快影 APP 的「AI创作」下面，可以看到「AI生视频」的模块，点击就可以申请加入内测了。小鹿大概在申请后半天的时间就通过了。

快手可灵生成视频的方法也非常简单：

输入想生成的画面的文字描述，点「生成视频」，就可以等待生成了。

而且可以同时生成多个视频，减少等待时间。

快手可灵有哪些突出表现

快手可灵（Kling）视频生成大模型，采用和 Sora 相似的技术路线，并结合了多项自研技术。

下面是可灵（Kling）官网对该视频生成大模型特点的描述。

更多特性的示例视频可以移步官网查看：

https://kling.kuaishou.com/

1、大幅度的合理运动

可灵（Kling）利用 3D 时空联合注意力机制，可以更精确地建模复杂的时空运动。

2、长达 2 分钟的视频生成

得益于高效的训练基础设施、极致的推理优化和可扩展的基础架构，可灵（Kling）大模型能够生成长达 2 分钟的视频，且帧率达到 30 fps。

在官网给出的示例中，可以看到最长生成了一个长达 2 分多钟的视频，来模拟人坐在列车里看车窗外风景的场景。

不过目前在快影 APP 中，生成的视频是 5s。

3、模拟物理世界特性

基于自主研发的模型架构和 Scaling Law，可灵（Kling）拥有强大的建模能力，能够模拟现实世界的物理特性，生成符合物理规律的视频内容。

4、强大的概念组合能力

可灵（Kling）通过对文本-视频语义的深刻理解，结合 Diffusion Transformer 架构，可生成真实世界中不会出现的的场景。

5、电影级的画面生成

借助自主研发的 3D VAE，可灵（Kling）可以生成 1080p 分辨率的电影级视频，宏大的场景和特写镜头都可以生动地表现出来。

6、支持自由的输出视频宽高比

可灵（Kling）采用了可变分辨率的训练策略，支持自由的输出视频宽高比。

不过在快影 APP 中暂不支持视频比例的设定，目前生成的视频都是 16:9 的。

不足

1、对于语义的理解，还不是特别好

目前对于语义的理解，还不是特别好。

比如想生成「一只大熊猫在开心地吃粽子」，快手的可灵貌似并不知道粽子长什么样子，生成了几个大水饺。

再比如，想生成几只猫咪赛龙舟的场景，它要么完全忽略了猫咪的存在：

要么直接把龙舟开到了地面上：

都没有表现得很完美。

2、真实性

虽然在大部分场景下，生成的视频还是非常真实的，尤其像一些风景类的视频，完全辨不出真假。

但也不得不承认，有些视频确实还是可以看出是 AI 生成的。

结束语

不过快手可灵（Kling）作为目前国内唯一可以和 Sora 媲美且还真正可用的视频生成模型，整体来说，各方面都表现出了非常不错的实力。

毕竟可灵刚刚上线不久，各方面都还在不断完善，相信后续一定会更加出色。一起期待一下~

古典风资讯网