【眼观】Sora一夜刷屏，文生视频大模型何以如此炸裂？

继ChatGPT之后，Open AI旗下的Sora或再次颠覆行业

最近，关于Open AI的消息更多是关于其涉足AI芯片制造的讨论，却不曾想山姆·奥特曼（Sam Altman）又悄无声息地放了一个“大招”——几天前，Open AI发布了名为“Sora”的文生视频大模型，成为继Gen-2（Runway）、Pika、Stable Video、Emu Video（Meta）、 Lumiere（谷歌）等之后，文生视频领域的又一重磅玩家。从目前Sora的演示视频效果来看，其在视频延续性、视觉逼真性及连贯性等方面的出色表现，无疑让一众竞品相形见绌。

前阵子，笔者分享过谷歌的VideoPoet大模型，当时其多元化的通用能力和出众的表现力，便较之前的同类大模型进步明显；彼时，谷歌这款AI大模型大有盖过Open AI风头的趋势，没想到这次Open AI“反将一军”，瞬间又回归了行业“顶流”，并引发科技圈的不小震动。

也几乎在一夜之间，全行业都在讨论Sora是何来路，其效果如何如何炸裂等。连马斯克、周鸿祎等大佬都忍不住下场发声。

马斯克表示，人类已完败（gg humans）；周鸿祎则表示，Sora的诞生意味着AGI（通用人工智能）实现将从10年缩短至一两年。

这种全球围观的情形，丝毫不亚于当年AlphaGo的横空出世以及ChatGPT的一鸣惊人，所不同的是，这次人类所受到震惊和威胁似乎更大一些。

类似下面这些视频片段，如果不提前说明，你很难想象AI已经进化到如此自然、细腻且逼真的程度了。

图一：夜景下的城市街头模特；

图二：浪漫东京的街头漫步；

图三：中国龙年舞龙视频；

图四：东京郊区火车窗外的倒影；

图五：美丽的黄金海岸……

在动画领域，Sora也手到擒来，仅通过自然学习，便可以短时间内完成类似动画电影《怪兽公司》的毛发质感。

要知道，为了呈现《怪兽公司》当中极其复杂的毛发质感，创意团队付出了大量时间和人力成本。可AI仅用几分钟便完成了效果“秒杀”，多少有些让人细思恐极。

Sora的最突出优势在于生成视频的时间超长性、镜头的连贯性以及角色（或建筑）在镜头多角度运动下的一致性。以往的图生视频或文生视频，最多只能持续几秒钟，并且镜头的连贯性和人物的运动性往往也存在瑕疵。

而Sora不仅能支持最长达60秒的视频生成，并且其自然和逼真程度，也几乎到了以假乱真的地步。因此，不少人惊呼：视频从业人员恐将迎来集体失业的黑暗时刻！

据悉，Sora使用了世界模型，即能够理解和模型现实世界的模型，这无疑有AGI的味道了。

得益于ChatGPT的革新优势，人们丝毫不怀疑Open AI能够开启并引领一个崭新的时代。但这里有一个前提，即Open AI的优势更多基于文字这种单模态的输入与输出，对于其能否在图文、视频等多模态领域同样表现出众，其实要打一个问号；尤其是谷歌、Meta等纷纷入局多模态，且向外界展示了各自的阶段性成果之后，Open AI的“静悄悄”，反而让人替奥特曼捏一把汗。

但借助本次Sora的演示，我们恐怕要改变之前的看法了。

作为生成式人工智能领域的先行者和首屈一指的大玩家，Open AI并未满足于ChatGPT的持续惊艳，而是悄然在文生视频领域下了重注，这不免让我们看到了“AI时代，赢家通吃”的可怕。而在各大小玩家纷纷杀入文生视频赛道的当下，对于Open AI在多模态领域的建树，我们同样多了几分期待。

随着文生视频或图生视频行业的发展，不少专家、学者预言：全部由AI大模型生成的90分钟以上的AI大电影或将很快诞生。而Sora大模型的出现，无疑将加速这一进程。