我跟万圣节的AI次元壁,看起来要被PixVerseV3打破了

极客公园 2024-11-08 11:44:40

近日,OpenAI 和 Sora 项目的动荡让外界对热闹的 AI 视频行业捏了一把汗。

9 月末,OpenAI 首席技术官米拉·穆拉蒂(Mira Murati),以及在 o1 模型、GPT-4o、GPT-4v 模型的开发过程中扮演了重要角色的研究副总裁巴雷特·佐夫(Barret Zoph)与首席研究官鲍勃·麦克格卢(Bob McGrew)也宣布离职。

10 月 4 日,Sora 项目负责人蒂姆・布鲁克斯(Tim Brooks)在社交平台 X 上官宣离职,加入谷歌 DeepMind。

如果搭配 Sora 正式版一直没有确切时间表的现实一起食用,这像极了某个明星项目泡沫被戳破,局中人各自打算的熟悉戏码。

而最近 AI 视频的竞赛,也开始呈现出一些白热化。

据 SimilarWeb 统计,位居全球前列的 AI 视频生成企业 Luma AI 网站在 9 月的总访问量仅为 1181 万次,环比下跌 38.49%。红极一时的 Pika 也在 9 月总访问量出现跌落。虽然其在 10 月新版本中凭借一批新的模版效果再次爆火,但产品如何持续的吸引用户兴趣的问题也逐渐浮出水面。

一些最初对 Sora 持谨慎态度的声音现在再度被拿出来重新咀嚼,比如电影制作人帕特里克·塞德伯格(Patrick Cederberg)在 4 月所说,他必须让模型生成数百个短片,才能找到一个可用的短片。换句话说,Sora 的使用非常困难。

所幸的是,Tim Brooks 并没有告别 AI 视频,他大概率加入了 DeepMind 的 AI 视频生成工具 Veo。Sora 的起落或许不是 AI 视频行业的唯一标尺,至少在能力上,开始有 Meta Movie Gen 这样的挑战者开始宣称干掉了 Sora。而国内的 AI 视频产品生态,也一直在有新的变化。

AI 视频赛道的降温,换句话说,也是下一批更好产品迭代出来之前的酝酿期。而最近似乎有了一个足够惊艳的产品走入大众视野。

这个视频的「始作俑者」,是爱诗科技几天前发布的 PixVerse V3。随着 PixVerse V3 的发布,不仅在模型方面再次惊艳行业,而且在 toC 落地方面也开始「破圈」。

01

PixVerse V3 真把次元壁打破了

在市面上的 AI 视频产品已经充实到让人开始「视觉疲劳」情况下,PixVerse V3 真的足够特别?

如果你抱着类似的疑惑,那这只皮卡丘的出现就足够打消大半。

除了那些无法被复现的发布会演示作品,这大概是 AI 视频生成中二次元形象和真实世界第一次能够如此和谐的进行互动。

画面里,这只皮卡丘的形象与我们印象中卡通片中的样子别无二致,但它却出现在一条真实的繁忙街道上,然后就这么水灵灵的跳到了一个小哥怀里。

这是这段视频所需要的 Prompt:

中置前置摄像头: 皮卡丘站在熙熙攘攘的城市街道上,旁边是一位背包客,背包客从镜头前走过,皮卡丘从背后跑来。 跳到了背包客的怀里。 皮卡丘开心的搂着他的脖子,非常亲近。 行人匆匆忙忙,背包客抱着皮卡丘继续往前走,皮卡丘的脸颊兴奋地闪闪发光,点亮了这一刻。 迷人而轻松。

1934 年,米高梅出品的《Hollywood Party》里吉米·杜兰特用手指」叼着「米老鼠的动作,成为世界影史中卡通与真实影像结合的第一个经典画面。 90 年后,这个充满巧思但在实现上却异常繁琐的效果终于可以用 AI 来代为效劳。

离谱的是,皮卡丘是 AI 做的,皮卡丘所在的真实世界也是 AI 做的。从效果看,PixVerse V3 对于动画进入现实世界这件事,理解的相当丝滑。

不止是皮卡丘,你还可以用用下面这段看起来要素过多的 Prompt,来生成一个马里奥大叔进火车站的视频:

The video shows a bustling train station filled with a diverse crowd of passengers eagerly waiting for their trains. The camera sweeps across the scene, capturing the lively atmosphere. Super Mario, a stout Italian character with a round face, dons his iconic red hat and blue overalls. The camera closely follows Mario as he steps confidently onto the platform, his face beaming with excitement.. The video is in a realistic style. 视频中,火车站熙熙攘攘,各色乘客焦急地等待火车。镜头扫过整个场景,捕捉到热闹的气氛。当火车缓缓驶近站台时,镜头紧跟身材魁梧、脸庞圆润的意大利人物超级马里奥,他戴着他标志性的红帽子和蓝色工作服,自信地走上站台,脸上洋溢着兴奋的笑容。视频的风格很写实。

画面里有着鲜明的主角马里奥,背后熙熙攘攘的人群每个人都有各自不同的动作细节,而在马里奥沿着镜头向前走的同时,动画人物与真实环境相交的边缘处理的也非常清晰干净,与此同时,火车也进站了。

如果卡通人物已经满足不了你的胃口了,那我们来看看 PixVerse V3 在大场面上的发挥。

——关键词:巨龙入睡。

完整的 Prompt 是这样的:

Steadycam tracking shot of a dragon diving into the water, the monk raises his arms in appreciation. 由斯坦尼康稳定器跟踪拍摄:一条龙潜入水中,僧人举起双臂以示赞赏。

虽然视频中仍然缺乏 Prompt 中提到的一些细节,但总体上无论是从运镜的连贯程度,还是用阴郁的影调来微妙的表现画面张力的能力,以及对远景的怪兽、前景的废弃汽车的刻画,PixVerse V3 的视频生成能力都已经开始逼近电影级的画面质感。

除了文生视频,此次 PixVerse V3 也展现了优秀的图生视频能力。

图生视频的想象力可就大了,你可以试试找一张帅气的美国西部电影海报,加一段 Prompt,让他做一些「离谱」的事——比如碰到了一把质量不太好的左轮枪:

Prompt 是这样的:

完整的 Prompt 是这样的:

The pistol misfires with black smoke, which makes the man's face dirty. 手枪哑火,冒出黑烟,弄脏了男子的脸。

PixVerse V3 在文生视频和图生视频能力上给人最鲜明的感受,就是它无比接近普通人日常生活中的兴趣点。事实上,除了专业的视频创作相关从业者,没有太多人有用 AI 视频软件雕刻一段完美影视作品的需求。反而更多刚用上视频生成能力的人,他们的好奇心在于这个能力能不能和真实世界甚至自己玩在一起。比如把喜欢的卡通形象引入自己每天出入的场合,甚至把自己变成钢铁侠之类的动漫人物。

AI 视频产品目前遇到的困局,很多都是因为陷在技术能力的自嗨里,而用户的身影消失了。在这个文生视频技术刚刚崭露头角的阶段,可能更大多数的普通人所中意的,首先是一个足够靠近自己,又足够亲和的 AI 视频产品。

从这个角度上来看,当下的 PixVerse V3 或许是那个把用户心思猜的最准的产品。

PixVerse V3 的惊艳除了归功于 PixVerse V3 背后 AI 视频大模型的能力迭代之外,其在提示词理解能力上的优化也功不可没,相信看到上面这几个 Prompt 示例,细心的人已经看出来了。

"主体+主体描述+运动+环境"是一个让 AI 视频生成时能最大可能发挥效用的 Prompt 公式,相比 V2.5,现在你可以对 PixVerse V3 增加一个「镜头描述」的维度。

当然,除了遵循这个公式,Prompt 需要尽可能详细描述人物的动作,避免太过简单的描述。

同时,PixVerse V3 在输出视频的选择上也更加丰富,在输出视频的格式上 PixVerse V3 支持包括 16:9、9:16、3:4、4:3、1:1 在内的多种视频比例,风格化功能也在本次版本更新后得到升级,现在文生视频和图生视频两种模式同时支持动漫、现实、粘土和 3D 四种风格选择。

一句话来说就是,这次 PixVerse V3 不仅变强了,它甚至想要把产品说明说一行行交到你手上。

社交平台 X 上,很多 AI 产品的关注者已经开始上手 PixVerse V3,比如粉丝众多的 Pierrick Chevallier。他甚至整理了一个专门的帖子来展示自己用 PixVerse V3 生成的视频。除了强大的生成能力以外,吸引人眼球的是他在其中展示了很多非常「万圣节味儿」的视频。

02

这个万圣节,

让 PixVerse V3 来「搞效果」

一个足够有趣的 AI 视频产品的破圈,除了要有足够的技术能力支撑,也需要一个好的契机。说起来 PixVerse V3 的发布也算得上恰逢其时。

11 月 1 日就是万圣节,10 月末的此时此刻,正是年轻人一年一度的想象力巅峰期。结合万圣节主题,PixVerse V3 一并发布了一系列万圣节主题模板,让你能够用 AI 对身边的一切「施法」。

此次 PixVerse V3 发布的万圣节主题模板总共有 8 个,其中有一类主打的是「大变活人」。

比如无中生有的在城市里变出一只怪兽。

除了这种大场面,PixVerse V3 可以直接让一张照片里的的元素「活」起来,比如让《我在雨中等你》中的那只小狗从照片里真实的走出来:

小狗起身前甚至还有个抬头的自然动作。而从照片里走出后,原来的照片只留下一片平静的草坪,整个效果还是挺惊艳的。

这个模版也有更打开想象力的玩法。比如,能不能让达芬奇笔下的维特鲁威人从那个框住他的圈里走出来?

类似这样:

万圣节能拿出这么一个节目也足够惊艳全场了。

这次 PixVerse V3 为万圣节准备的第二类模版,走的是抽象路线。

比如让一个铁盒站起来逃跑:

或者把一辆保时捷打散,变成一堆积木:

当然,这次 PixVerse V3 的模版中也有很多更有万圣节味儿的效果可以玩,比如给人物照带上一顶巫师帽,然后动起来,就像这样:

这些万圣节模版包含在 PixVerse V3 全新上线的 Effect 功能中。使用起来很简单,上传图片后,选择你想要的效果点击即可进行生成,这中间不需要再费心思输入 Prompt 了,对一门心思都想着万圣节的人来说非常友好。

而此次 PixVerse V3 显示了更强的多模态生成能力,在本身文生视频以及图生视频的基础上,PixVerse V3 现在可以让生成的视频带上用户想要的声音内容,并且如果原本的视频长度不够长,PixVerse V3 现在有能力对原视频进行进一步的延续创作。

这些多模态生成能力也变成了与 Effect 一同在 PixVerse V3 首发的两个新功能。第一个功能是能为视频生成多语言人物声音同步的对口型功能 Lipsync。

Lipsync 功能允许用户在生成的视频基础上,自己输入输入文案或上传音频文件,然后 PixVerse 会自动根据文案或音频文件内容,对视频中的人物口型进行适配。目前 Lipsync 能够支撑 30 秒的视频长度,可以对口型的语言已经包括了英语,汉语,法语,日语四种。

另一个功能是视频延长 Extend,或者可以理解为故事续写。

针对现在生成视频长度过短的问题,在 PixVerse V3 中用户可以选择已经生成的视频,点击「Extend」按钮,输入与视频如何进一步发展相关的提示词,点击「create」,原视频就会照着拟定的方向实现情节递进,同时保持人物和动作高度连贯一致。

多模态视频生成能力的加入,PixVerse V3 现在能够生成叙事量更大、视听效果更佳的 AI 视频,AI 视频创作的边界也进一步被拓宽。

做一个真正能玩起来的 AI 视频产品

「当普通用户也能用起来时,才是 ChatGPT 时刻。」爱诗科技创始人兼 CEO 王长虎在今年 4 月的一次采访中说道。

过去两年,大模型技术透出的每一丝新的微光都会转变成一场场关于生产方式新的宏大叙事,仿佛人类的生活会在短时间内被完全颠覆。但到目前为止,这一切还并没有发生。

与此同时,Sora 带来的兴奋以及过于宏大的技术想象力让整个 ai 视频产品领域逐渐失焦,找不到与大众生活的连接处。所以一方面 runway 这种定位是专业工具的 AI 视频产品由于过高的使用门槛而难以破圈,而定位更偏大众的产品则陷入一种在众人尝鲜后的「阅后即焚」困境,用户在新鲜劲过了之后难以留存,产品缺乏明确而具体的发展思路,于是只好向着「滤镜化」「特效化」的简单逻辑下沉。

换句话说,AI 生成能力巨大的的开放性让 AI 视频这个领域目前几乎所有产品都像是某种半成品,生成内容的随机性和不可控被包装成一种新奇体验,也同时意味着其难以在一种具体而具有持续性的场景中被使用起来。

就像当外界被 Sora 气球人的生成能力所惊艳的时候,帕特里克·塞德伯格则被 Sora 内容生成一致性的缺乏所困扰,他抱怨气球的颜色在每次生成中都会改变,而这样的瑕疵意味着大量后期制作的工作量仍然不可避免。类似的问题很多,这也是为什么虽然好莱坞一年前已经开始为大模型对电影工业潜在的颠覆可能罢工,但一年后,sora 仍然无法真正进入影视的工作流。

眼下 AI 视频产品也都或多或少的陷入了类似的处境——虽然 AI 视频生成能力已经让所有人兴奋了很长一段时间,但 AI 视频生成产品仍然是一场看起来很美的「卖家秀」。

在新的技术洪流面前,一个产品要保持「具体」很难。但爱诗科技从最初的 PixVerse 网页版到现在 PixVerse V3 传递出来的却是一条难得的清晰有序的迭代路径。

今年 1 月,爱诗科技正式发布了文生视频产品 PixVerse 网页版。但当时包括 PixVerse 在内,几乎所有的文生视频产品都会遇到的问题是生成形象的不可控,这意味着用户无法持续性的围绕统一角色来生成视频内容。3 个月后,PixVerse 网页版搭载了基于自研视频大模型开发的 C2V(Character to Video)功能,通过精确提取人物特征来锁定角色,初步解决 AI 视频创作中的一致性难题。

把视频中的「角色」固定下来之后,PixVerse 把之后的迭代重心放在了生成内容中行为的「可控」上。今年 6 月,爱诗科技发布 Magic Brush 运动笔刷,用户可以通过对视频画面中内元素简单的涂涂抹抹,来精确控制各个元素的运动及运动方向。7 月末 PixVerse V2 上线,产品中除了展现了足够多对生成内容的控制能力,Prompt 难度也又了大幅下降,同时微调生成效果的手段则趋于丰富。

这又是一次意图非常明确的迭代——「具体产品形态需要去试,但最终我们还是希望服务广大普通用户」,就像王长虎在此前一次采访中所说。

在视频生成能力还不能直接满足普通用户的需求时,服务专业创作者,基于新的内容生成范式去做下一代的工具是更优先的选择。「当生产要素被技术囊括后——比如 AI 把拍摄时的演员、场景、摄像机取代了——这时候 AI 视频生成能力就可以开始为大众所用,用户的圈层会逐渐扩大,就会产生巨大的机会。」

此次 PixVerse 3V 开始尝试推出更多与普通人生活相关联的玩法,并且尝试用 Prompt 来设定镜头,后者可以被看作是一种部分代替摄像机的尝试。如此看来,爱诗科技对产品方向的打磨一直在一条很笃定的道路上。

在 AI 视频生成这场以发散性为美的技术浪潮中,爱诗科技的选择是与整体的流势相反,远离宏大叙事,给出一个 AI 视频产品可以怎么玩的,最具体的方案。

只有尽可能的让人拿在手里玩起来,AI 视频应用才会从 Sora 所引领的一场「卖家秀」,过渡到生机盎然的「买家秀」。

PixVerse V3 的惊艳登场,或许就是这场 AI 视频「降温」背后,另一场积极变化的开始。

*头图来源:PixVerse V3

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

0 阅读:1