今年以来,最重磅的消息就是OpenAI发布文生视频模型Sora,其之于视频大模型的意义丝毫不亚于ChatGPT之于文本模型领域的意义。
文生视频模型Sora的出现,意味着OpenAI实现了对生成式AI主流模型的全面覆盖,其中包括文本模型GPT、文生图模型DALL·E、文生视频模型Sora。
然而,这并不是OpenAI故事的全部。近期,随着越来越多信息的披露,OpenAI试图垄断AI产业的野心暴露无疑。
据WSJ报道,OpenAI正在持续探索进入芯片制造的可能,并抛出了一个5万亿到7万亿美元的超级融资计划。与此同时,OpenAI也在加速对AI核心应用场景的产品研发,其中包括一款搜索产品和两款革命性的Agent软件。
这意味着,OpenAI正在向基础设施层和AI应用层同时发力,试图通吃整个生成式AI的软硬件基础设施,进而垄断整个AI产业。
/ 01 / 通吃上下游的野心
人们总把OpenAI简单当作模型层公司。但现在这个看法要改改了。种种迹象显示,OpenAI正在向基础设施层和AI应用层同时发力。
在基础设施层,Sam Altman抛出了一个增加全球芯片制造能力的项目,并与包括阿拉伯联合酋长国政府在内的不同投资者谈判,计划募资金额高达5万亿到7万亿美元。
事实上,Altman这一计划由来已久,自去年10月开始就不断有OpenAI准备投资芯片的消息传出,Altman本人也同包括G42、软银、英特尔、台积电和三星电子等公司谈判过合作。
除了往基础设施层走,OpenAI也在加速对AI核心应用场景的产品研发。根据媒体报道,据了解 OpenAI 计划的知情人士透露,OpenAI一直计划开发一款网络搜索产品,这项产品将得到Bing支持。
与此同时,OpenAI还在开发两款革命性的Agent软件。其中一款能够有效接管客户的设备来自动执行复杂的任务。例如,把文档中的数据传输到电子表格中进行分析,或者自动填写费用报告并将其输入会计软件,或者根据一定的预算制定行程或预订机票。
上个月,OpenAI员工本·纽豪斯在X上发布了一则招聘信息,为自己的团队招聘,方向是利用最新模型的特性,开发一款可能会改变行业格局的新产品。对于产品具体情况,他没有详细说明。但OpenAI的产品副总裁彼得·韦林德在X上评论说,纽豪斯所说的产品将会改变一切。
无论是Agent还是AI搜索工具,都被认为是当下AI应用探索最成功的场景之一,前者的代表产品是AutoGPT,后者的代表产品是Perplexity。其中,Perplexity 已经融资 1 亿美元,最近投资者对它的估值为 5.2 亿美元。据 The Information 报道,截至上个月,这家初创公司每年从产品订阅中获得约 800 万美元常规收入。
尽管谷歌、Meta等公司在芯片和AI产品也都有动作,但远远没有OpenAI这么活跃。而之所以OpenAI花这么多力气往上下游走,很重要的一个原因就是对AI产业终局的押注。
/ 02 / 押注AI产业终局
表面上看,OpenAI去造芯片,是因为购买AI芯片的成本太高了。但说到底,OpenAI还是不想被卡脖子。
现在提升模型智能水平只有一个路径,就是 Scaling Law。在肉眼可见的未来,仍然看不到Scaling Law的尽头。而且即使不开发任何新的模型,OpenAI 离“用 GPT-4 服务所有人”的目标仍然很远。这意味着,在可见的未来,算力都是一个巨大的瓶颈。
这可不光是钱的事情。算力成本的下降速度,决定了AI在很多场景里的落地。这一点和当初的互联网很像,移动互联网应用大规模爆发,起于从3G到4G的所带来的流量成本大幅下降。
而现在算力成本的下降,很大程度上取决于芯片厂商。尽管H100相比A100性能有明显提升,但并没有像模型训练算力需求那样有明显数量级的增长。这也意味着,算力成本已经成为OpenAI通往AGI的最大阻碍。
抛开卡脖子的因素外,在AGI终局里,算力本身也足够“性感”。在这一轮AI热潮的驱动下,英伟达的市值已经一举超越了亚马逊与谷歌。
与布局芯片类似于,OpenAI做AI应用产品也出于类似的考虑。从历史中看,软件行业的最终赢家是直接掌控用户和数据资产的平台型应用,“只掌握技术”在互联网世界里被证明并没有价值。
这个逻辑放在生成式AI也同样适用。正如此前月之暗面杨植麟所说:
“现在‘吃’的是 Base Model 的 Scaling Law,未来可能会去“吃”用户这个数据源的 Scaling Law。历史上基本所有的互联网产品要跑出来,最终都要靠用户数据的 Scale。今天 MidJourney 已经能看到一些迹象,它通过“吃”用户的Scaling Law 可以胜过 Base Model 的Scale up,但如果只看语言模型和文本,Base Model 的scaling 效果仍然远远超过用户的。“
按照杨植麟的说法,AI大模型智能水平驱动力从基础数据的Scaling Law转移到用户的Scaling Law,只是个时间问题。在这种情况下,应用层公司既是模型层的下游客户,也是数据提供者。只有掌握用户的公司,才真正意味着掌控模型。
/ 03 / OpenAI的终局思维
如果你足够了解OpenAI,就会对这家公司的目标印象深刻。从创业开始,这家公司的目标只有一个,就是 all in AGI,一切研究围绕着探索通往 AGI 的路径。你能看到,无论是OpenAI还是掌舵人Sam Altman,他们在行为上都有着极强终局思维的烙印。
之所以OpenAI能跑通从文本、图片到视频的所有 AGI 技术栈,而且在很多领域都展现出了远超行业的能力,恰恰离不开OpenAI基于终局思维建立的方法论。
作为Scaling Law这一暴力美学的坚定支持者,为了最大程度地发挥Scaling Law的价值,OpenAI做了三件事情:良好且通用的数据表示,良好且通用的数据标注,良好且通用的算法。
根据加州大学伯克利分校 (UC Berkeley) 计算机科学 PHD、知乎作者 SIY.Z的分析:
在GPT中,良好且通用的数据表示,是 tokenizer 带来的 embedding。良好且通用的数据标注是文本清理和去重的一套方法(因为自然语言训练是 unsupervised training,数据本身就是标注)。良好且通用的算法就是大家熟知的 transformers + autoregressive loss。
在Sora中,良好且通用的数据表示,是 video compress network 带来的 visual patch。良好且通用的数据标注是 OpenAI 自己的标注器给视频详细的描述(很可能是 GPT-vision)。良好且通用的算法也是大家熟知的 transformers + diffusion。
以上的种种调整,为GPT和Sora的成功打下了基础。而如今,这样的思维也从技术探索也延伸到了业务布局。
就拿做芯片这事来说,很多人觉得奥特曼提出的7万亿是天方夜谭,但如果放到终局思维的路径里,其实也就能够理解了。
现在全球每年的GDP大约在100万亿美元,7万亿也就占7%而已。要知道,人脑的能量开销占每天人体耗能的 20%以上,因此最终 AI 相关的算力开销或许也应该达到类似的比例才合理。全球 70 亿人分 7 万亿美元,平摊下来人均也就 1000 美元,只有1 部苹果手机或笔记本电脑的价钱,但你从中获得的生产力提升可能翻倍都不止。
以终局思维出发,进行业务布局,让OpenAI将AI产业的竞争拉高到一个新的维度,而不仅仅取决于模型的智能水平。但这事也会带来一个问题:OpenAI将面临比互联网巨头更严厉的垄断监管。
如果OpenAI这条路能跑通,意味着AI产业将比互联网更加垄断。原因很简单,当算力、算法和数据三者的价值全被OpenAI拿走的,很多人工智能产业链上的公司会死掉。
在互联网时代,由于信息流动方式的问题,导致数据最终聚集在了少数互联网巨头的手里,他们通过广告这个精妙的商业模式,把财富聚集在自己手里,垄断开始出现。
生成式AI所带来的技术变革本有望打破这一切。但OpenAI的AGI野心,很有可能让长成一个吸血的怪兽,垄断所有的知识来靠此收费,在垄断这件事上不仅没有减少,甚至换了新方法变本加厉上演。
从长远看,OpenAI吃掉AI绝大部分蛋糕的故事固然性感,但对于AI行业乃至整个世界来说,未必是一件好事。