自从年初(2024.2) OpenAI 发布 Sora 模型到现在,已经过去将近 4 个月的时间了。至今依然没能体验上 Sora(除了极少部分人)。
真是吊足了人们胃口!
而就在最近,国内第一个可以和 Sora 相媲美的 AI 视频生成模型发布了——它就是快手的可灵(Kling)。
相比之下,快手可就「实在」多了。
快手可灵(Kling)视频生成大模型上线后,立马就开放了内测。
在快影 APP 的「AI创作」下面,可以看到「AI生视频」的模块,点击就可以申请加入内测了。小鹿大概在申请后半天的时间就通过了。
快手可灵生成视频的方法也非常简单:
输入想生成的画面的文字描述,点「生成视频」,就可以等待生成了。
而且可以同时生成多个视频,减少等待时间。
快手可灵有哪些突出表现
快手可灵(Kling)视频生成大模型,采用和 Sora 相似的技术路线,并结合了多项自研技术。
下面是可灵(Kling)官网对该视频生成大模型特点的描述。
更多特性的示例视频可以移步官网查看:
https://kling.kuaishou.com/
1、大幅度的合理运动
可灵(Kling)利用 3D 时空联合注意力机制,可以更精确地建模复杂的时空运动。
2、长达 2 分钟的视频生成
得益于高效的训练基础设施、极致的推理优化和可扩展的基础架构,可灵(Kling)大模型能够生成长达 2 分钟的视频,且帧率达到 30 fps。
在官网给出的示例中,可以看到最长生成了一个长达 2 分多钟的视频,来模拟人坐在列车里看车窗外风景的场景。
不过目前在快影 APP 中,生成的视频是 5s。
3、模拟物理世界特性
基于自主研发的模型架构和 Scaling Law,可灵(Kling)拥有强大的建模能力,能够模拟现实世界的物理特性,生成符合物理规律的视频内容。
4、强大的概念组合能力
可灵(Kling)通过对文本-视频语义的深刻理解,结合 Diffusion Transformer 架构,可生成真实世界中不会出现的的场景。
5、电影级的画面生成
借助自主研发的 3D VAE,可灵(Kling)可以生成 1080p 分辨率的电影级视频,宏大的场景和特写镜头都可以生动地表现出来。
6、支持自由的输出视频宽高比
可灵(Kling)采用了可变分辨率的训练策略,支持自由的输出视频宽高比。
不过在快影 APP 中暂不支持视频比例的设定,目前生成的视频都是 16:9 的。
不 足
1、对于语义的理解,还不是特别好
目前对于语义的理解,还不是特别好。
比如想生成「一只大熊猫在开心地吃粽子」,快手的可灵貌似并不知道粽子长什么样子,生成了几个大水饺。
再比如,想生成几只猫咪赛龙舟的场景,它要么完全忽略了猫咪的存在:
要么直接把龙舟开到了地面上:
都没有表现得很完美。
2、真实性
虽然在大部分场景下,生成的视频还是非常真实的,尤其像一些风景类的视频,完全辨不出真假。
但也不得不承认,有些视频确实还是可以看出是 AI 生成的。
结 束 语
不过快手可灵(Kling)作为目前国内唯一可以和 Sora 媲美且还真正可用的视频生成模型,整体来说,各方面都表现出了非常不错的实力。
毕竟可灵刚刚上线不久,各方面都还在不断完善,相信后续一定会更加出色。一起期待一下~