【眼观】Sora一夜刷屏,文生视频大模型何以如此炸裂?

第三眼界 2024-02-18 16:43:44

继ChatGPT之后,Open AI旗下的Sora或再次颠覆行业

最近,关于Open AI的消息更多是关于其涉足AI芯片制造的讨论,却不曾想山姆·奥特曼(Sam Altman)又悄无声息地放了一个“大招”——几天前,Open AI发布了名为“Sora”的文生视频大模型,成为继Gen-2(Runway)、Pika、Stable Video、Emu Video(Meta)、 Lumiere(谷歌)等之后,文生视频领域的又一重磅玩家。从目前Sora的演示视频效果来看,其在视频延续性、视觉逼真性及连贯性等方面的出色表现,无疑让一众竞品相形见绌。

前阵子,笔者分享过谷歌的VideoPoet大模型,当时其多元化的通用能力和出众的表现力,便较之前的同类大模型进步明显;彼时,谷歌这款AI大模型大有盖过Open AI风头的趋势,没想到这次Open AI“反将一军”,瞬间又回归了行业“顶流”,并引发科技圈的不小震动。

也几乎在一夜之间,全行业都在讨论Sora是何来路,其效果如何如何炸裂等。连马斯克、周鸿祎等大佬都忍不住下场发声。

马斯克表示,人类已完败(gg humans);周鸿祎则表示,Sora的诞生意味着AGI(通用人工智能)实现将从10年缩短至一两年。

这种全球围观的情形,丝毫不亚于当年AlphaGo的横空出世以及ChatGPT的一鸣惊人,所不同的是,这次人类所受到震惊和威胁似乎更大一些。

类似下面这些视频片段,如果不提前说明,你很难想象AI已经进化到如此自然、细腻且逼真的程度了。

图一:夜景下的城市街头模特;

图二:浪漫东京的街头漫步;

图三:中国龙年舞龙视频;

图四:东京郊区火车窗外的倒影;

图五:美丽的黄金海岸……

在动画领域,Sora也手到擒来,仅通过自然学习,便可以短时间内完成类似动画电影《怪兽公司》的毛发质感。

要知道,为了呈现《怪兽公司》当中极其复杂的毛发质感,创意团队付出了大量时间和人力成本。可AI仅用几分钟便完成了效果“秒杀”,多少有些让人细思恐极。

Sora的最突出优势在于生成视频的时间超长性、镜头的连贯性以及角色(或建筑)在镜头多角度运动下的一致性。以往的图生视频或文生视频,最多只能持续几秒钟,并且镜头的连贯性和人物的运动性往往也存在瑕疵。

而Sora不仅能支持最长达60秒的视频生成,并且其自然和逼真程度,也几乎到了以假乱真的地步。因此,不少人惊呼:视频从业人员恐将迎来集体失业的黑暗时刻!

据悉,Sora使用了世界模型,即能够理解和模型现实世界的模型,这无疑有AGI的味道了。

得益于ChatGPT的革新优势,人们丝毫不怀疑Open AI能够开启并引领一个崭新的时代。但这里有一个前提,即Open AI的优势更多基于文字这种单模态的输入与输出,对于其能否在图文、视频等多模态领域同样表现出众,其实要打一个问号;尤其是谷歌、Meta等纷纷入局多模态,且向外界展示了各自的阶段性成果之后,Open AI的“静悄悄”,反而让人替奥特曼捏一把汗。

但借助本次Sora的演示,我们恐怕要改变之前的看法了。

作为生成式人工智能领域的先行者和首屈一指的大玩家,Open AI并未满足于ChatGPT的持续惊艳,而是悄然在文生视频领域下了重注,这不免让我们看到了“AI时代,赢家通吃”的可怕。而在各大小玩家纷纷杀入文生视频赛道的当下,对于Open AI在多模态领域的建树,我们同样多了几分期待。

随着文生视频或图生视频行业的发展,不少专家、学者预言:全部由AI大模型生成的90分钟以上的AI大电影或将很快诞生。而Sora大模型的出现,无疑将加速这一进程。

当然,Sora的强大不仅体现在对电影制作效率的极大提升,以及新电影风格的开创,更可能给诸多行业带来颠覆性的变化。

比如广告行业,视频演示和提案,将在很大程度上取代传统的PPT汇报或图片展示,演示变得更生动,也更具说服力,同时传统的广告视频制作模式将被彻底颠覆,百万甚至千万级预算和数十人的团队,将变为几万甚至几千预算,外加一个导演和一个AI大模型;

比如教学方面,AI视频无疑将成为辅助教学的常用工具之一,教师的生产力和教学效果将得到极大提升;

再比如短视频领域,大量创意型的视频内容会被批量化生产出来,自媒体视频创作将变得更加容易。

当然,这同时也会带来一些负面影响,比如假视频更加难以甄别,虚假旅游、虚假体验等,可能也会在一定程度上,重创现有的创作者生态。

不过,先不必过于恐慌,因为目前1.0版本的Sora并不完美,一些明显的瑕疵和不自然,还是能够轻易捕捉到。比如下面这些视频片段,仔细观察,你便能发现其中的不合理之处(吹不灭的蜡烛、悬浮的椅子、穿帮的篮球、由少变多的狗狗等等)。

但是,面对不完美的Sora,我们也不可大意。就像当初大家对AI画不好人手的嘲讽一样,随着技术的进步,这些明显违反常识的错误会得到逐步修正,而技术的迭代速度往往要比想象中来得更快。到那时,我们恐怕再也笑不出来了。

同谷歌的Lumiere、VideoPoet类似,目前Sora尚未开源,相关技术报告也刚刚发布,普通消费者想要体验,还需要等待时日。不过,相信这个时间不会太久。

结语:

继AI文字对话、文生图之后,文生视频成为生成式AI的下一个战场。而随着Open AI的参赛,文生视频赛道或迎来新的发展契机。

从更长远的角度看,文生视频或成为未来行业竞争的主流。参考如今视频成为继文字、图片之后的主流信息载体和信息传播方式,文生视频或迎来属于AGI的“iPhone时刻”。

当然,机会不是属于所有人,产业重构之下,有人得利,也必然有人出局。

“大模型全行业通吃”已逐渐成为趋势共识之下,Open AI最终会不会成为那个全球科技领域的唯一霸主,谷歌、Meta们有没有机会将Open AI挑落马下,我们不妨持续关注。

0 阅读:10