OpenAI全新发布Sora,建议我们普通人这从四个字做起

慧想文艺评科技 2024-02-21 05:36:22

春节假期的最后两天,被Sora刷屏。

一、什么是Sora呢?

OpenAI发布的人工智能文生视频大模型,可以根据文字生成一分钟的视频。网络上已经有很多解释了。

(比较有意思的是,谷歌在同一天发了新一代多模态大模型Gemini 1.5 Pro,最高可支持10,000K Token上下文,直接将性能提升到了百万级别。)

OpenAI, 就是在2022年11月30日发布了ChatGPT的公司。

ChatGPT(Chat Generative Pre-trained Transformer),一款聊天机器人程序。

引用吴军博士的话,其本质是语言模型,就是对人类的语言建立数学模型。

ChatGPT让人工智能再次成为人类创新的焦点。

二、Sora做出来的视频是什么样的呢?

OpenAI官方公布了数十个示例视频,

我截了几个,可以参看慧约科技的视频。

直观来看,至少有这几点,是肉眼可见的进步。

-AI视频时长从当前的5-15秒,直接拉长到了1分钟

-可以生成多个镜头,并且各个镜头具有角色和视觉风格的一致性。

-可以拼接完全不同的视频,使之合二为一、前后连贯。

如果说上面的视频,还让我觉得,嗯,确实很厉害。

让我感到震撼的,是下面这个片段。prompt中描绘了“一个短毛绒怪物跪在一支红蜡烛旁的动画场景”,同时描述了怪物的动作和视频的氛围。

他给出了对“毛发纹理物理特性”的理解,用可视的形式呈现了出来

“这并非我们预先设定的——它完全是通过观察大量数据自然而然地学会的。”

还有这个,也是类似用提示词生成的。

这不仅是所见即所得,而是所想即所得了。

也就是说,Sora在学习理解的,不仅是构图、内容,而是现实世界的动态变化,是这个世界的“物理规律”,并用计算机视觉技术模拟这些变化,从而想出、并按自己的理解创造出新的视频内容。

用OpenAI自己的话来说:正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。

根据文本提示生成视频,仅仅是整个计划其中的一步。

三、业界怎么看Sora?

有几个较为集中的观点:

第一,完胜现在的行业

比如马斯克回应称:“gg人类(gg humans)。”

gg是网络游戏用语“good games”的缩写,主要用于游戏结束后,输赢双方都可以用。但现在多由失败方发出,表示认赌服输、心服口服的意思。

在马斯克帖子的评论区里,还有用户附和道:“gg好莱坞”。

第二,对中国AI发展的担忧

胡锡进,原话是:美国AI公司的快速进步对中国意味着什么?中国的相关AI技术发展得怎么样了?Sora的出现是人类AI技术新的里程碑,但从国家竞争意义上来说,它对中国又是新的警钟,是我们必须进一步行动起来新的倒逼。Sora的出现对中国是新的警钟

还有360董事长周鸿祎,表示:中美两国的人工智能差距在拉大。

第三,通用人工智能(AGI)的重要里程碑

继文本、图像之后,OpenAI将其先进的AI技术拓展到了视频领域。发展超出了人类想象。

而一个已经能够理解和模拟现实世界的模型,也就意味着离实现通用人工智能AGI已经不远了。

四、我们能做什么?

越来越多的人认可,第四次产业革命正在到来,而这次革命是以人工智能为标志的。

对行业来说,这将会大幅推动人工智能基础设施的需求。

首先当然是AI芯片相关企业。英伟达创始人兼CEO黄仁勋在迪拜世界政府峰会(WGS)上接受采访时被问到,7万亿美元能买多少GPU?黄仁勋回答:所有。

为什么问7亿美元这个数字?因为 据说OpenAI将筹资7万亿美元造芯。

还有运营商。因为在数字中国战略中的重要位置,运营商能做的,不仅仅作为算力基础提供商,还可以整合自身在全国一体化算力网络、政企市场、云服务等领域的多种优势,重构竞争优势。

如你我这样的普通人,当下能做什么?

我的建议是,

一是参与到商业化路径中去。

2024年,包括中国移动、中国电信、中国联通三大运营商,都把做视频做为新赛道。包括Sora的种种神话故事,还是有一段商业化的路径,需要靠人工或技术+商业创新完成。

二是AI为身边事降本增效

百度的李彦宏,曾经举过一个例子:“比如说,我想查一下4月份,我的公司有哪些产品的毛利率,超过了疫情前的水平?这个事,在过去很可能需要我的助理花半天一天时间才能获得。今天,如果计算机懂你的自然语言,一秒钟之内就可以给你一个表格。”

三是比其他人更好掌握Prompt(提示词)

有一种说法,我们其实不是和AI竞争,而是和用AI的人竞争。

把AI用得好,切入点是自然语言的提示词。提示词是我们用来和 AI交互对话的。清晰、明确的提示词,我们能够准确表达自己的意图和问题,从而得到系统更精确的回答。这是我们有效利用AI工具提升我们工作学习效率的第一步。

正如,我们常常会说,提出问题比解决问题更重要。

其实,所有的建议,如果聚集到一点,只有这四个字 :身在现场

关键在于,我们要身在现场,身在现场就有了资格和权力。当我们离得足够近,我们就会足够快。--2015年 《移动互联网的秘密》北京邮电大学出版社出版

0 阅读:0