国产Sora真的来了!实测快手可灵Kling文生视频大模型

雅新财 2024-06-13 21:54:48

自从年初(2024.2) OpenAI 发布 Sora 模型到现在,已经过去将近 4 个月的时间了。至今依然没能体验上 Sora(除了极少部分人)。

真是吊足了人们胃口!

而就在最近,国内第一个可以和 Sora 相媲美的 AI 视频生成模型发布了——它就是快手的可灵(Kling)。

相比之下,快手可就「实在」多了。

快手可灵(Kling)视频生成大模型上线后,立马就开放了内测。

在快影 APP 的「AI创作」下面,可以看到「AI生视频」的模块,点击就可以申请加入内测了。小鹿大概在申请后半天的时间就通过了。

快手可灵生成视频的方法也非常简单:

输入想生成的画面的文字描述,点「生成视频」,就可以等待生成了。

而且可以同时生成多个视频,减少等待时间。

快手可灵有哪些突出表现

快手可灵(Kling)视频生成大模型,采用和 Sora 相似的技术路线,并结合了多项自研技术。

下面是可灵(Kling)官网对该视频生成大模型特点的描述。

更多特性的示例视频可以移步官网查看:

https://kling.kuaishou.com/

1、大幅度的合理运动

可灵(Kling)利用 3D 时空联合注意力机制,可以更精确地建模复杂的时空运动。

2、长达 2 分钟的视频生成

得益于高效的训练基础设施、极致的推理优化和可扩展的基础架构,可灵(Kling)大模型能够生成长达 2 分钟的视频,且帧率达到 30 fps。

在官网给出的示例中,可以看到最长生成了一个长达 2 分多钟的视频,来模拟人坐在列车里看车窗外风景的场景。

不过目前在快影 APP 中,生成的视频是 5s。

3、模拟物理世界特性

基于自主研发的模型架构和 Scaling Law,可灵(Kling)拥有强大的建模能力,能够模拟现实世界的物理特性,生成符合物理规律的视频内容。

4、强大的概念组合能力

可灵(Kling)通过对文本-视频语义的深刻理解,结合 Diffusion Transformer 架构,可生成真实世界中不会出现的的场景。

5、电影级的画面生成

借助自主研发的 3D VAE,可灵(Kling)可以生成 1080p 分辨率的电影级视频,宏大的场景和特写镜头都可以生动地表现出来。

6、支持自由的输出视频宽高比

可灵(Kling)采用了可变分辨率的训练策略,支持自由的输出视频宽高比。

不过在快影 APP 中暂不支持视频比例的设定,目前生成的视频都是 16:9 的。

不 足

1、对于语义的理解,还不是特别好

目前对于语义的理解,还不是特别好。

比如想生成「一只大熊猫在开心地吃粽子」,快手的可灵貌似并不知道粽子长什么样子,生成了几个大水饺。

再比如,想生成几只猫咪赛龙舟的场景,它要么完全忽略了猫咪的存在:

要么直接把龙舟开到了地面上:

都没有表现得很完美。

2、真实性

虽然在大部分场景下,生成的视频还是非常真实的,尤其像一些风景类的视频,完全辨不出真假。

但也不得不承认,有些视频确实还是可以看出是 AI 生成的。

结 束 语

不过快手可灵(Kling)作为目前国内唯一可以和 Sora 媲美且还真正可用的视频生成模型,整体来说,各方面都表现出了非常不错的实力。

毕竟可灵刚刚上线不久,各方面都还在不断完善,相信后续一定会更加出色。一起期待一下~

0 阅读:1