ScalingLaw撞墙?预训练终结?亚马逊云科技为什么在做基础大模型

岁月如歌醉 2024-12-23 10:26:14

前段时间,亚马逊云科技在美国拉斯维加斯举办了今年度的 re:Invent 大会。会上,亚马逊云科技发布了相当多东西,其中之一便是新的大模型系列 Nova。说实话,这确实出乎了相当多人的意料 —— 毕竟亚马逊已经重金押注 Anthropic,似乎没有必要再自起炉灶了。

亚马逊总裁兼 CEO 安迪・贾西(Andy Jassy)宣布 Nova 系列模型,包括 Micro、Lite、Pro 和 Premier 四个版本,其中后三者是多模态模型。

虽然事实上 Nova 并非亚马逊发布的第一款基础大模型 —— 这家科技巨头在 2023 年的 re:Invent 大会上就曾发布过 Titan 系列 AI 模型,但考虑到前段时间关于「Scaling Law 是否撞墙」的问题甚嚣尘上,很多人都认为继续耗费资源和时间来训练基础大模型并不划算,还不如基于已有的模型进行微调、再训练或推理时间优化。

那亚马逊云科技训练 Nova 就算是无用功了吗?并非如此。实际上,从 re:Invent 大会后一些研讨会上的讨论情况看,亚马逊云科技在基础模型上的投入并未受到「Scaling Law 撞墙论」的影响,依然认为基础大模型大有可为;同时,训练基础大模型对亚马逊云科技自身以及 AI 领域的创业者来说都具有巨大的潜在价值。这篇文章将告诉你为什么亚马逊云科技不可能放弃基础大模型,还会继续一路走下去。

Scaling Law 就算撞墙也无妨

基础大模型依然大有可为

Scaling Law 是否已经或将要撞墙?对这个问题的争论已经遍布整个学术界和产业界。毫不夸张地讲,这个问题的答案直接决定着 AI 领域的资源和资金流向。但到目前为止,即便这个问题已经引发许多业内大佬的争论,我们依然没能看到一个确切答案的苗头。

OpenAI CEO Sam Altman 坚信「没有墙」,而著名研究者 Ilya Sutskever 却多次表示「我们所知的预训练将会终结」,图片分别来自 X 和 NeurIPS 2024 演讲。

虽然关于「Scaling Law 是否撞墙」的争论纷纷扰扰,但刚刚发布 Nova 系列模型的亚马逊云科技显然并不受影响;不仅如此,他们还对基础大模型的前景非常乐观。亚马逊云科技大中华区产品部总经理陈晓建就表达了这样的观点,他说:「到今天为止,基础大模型还远远没有到非常成熟、已经不需要新的提供商入局的阶段,它其实还是在一个非常早期的阶段。」

事实上,恐怕不止亚马逊一家公司这么想,毕竟它并不是唯一仍在积极布局基础大模型的科技巨头。比如苹果就一直在研发规模不大的基础大模型,前些天还刚刚发布了一款多模态模型 STIV;重金支持 OpenAI 的微软也没有放弃自家的大模型,更遑论谷歌和 Meta 了。在国内,字节跳动、阿里巴巴和腾讯等巨头也都有自己的基础大模型项目。陈晓建也说明了这一点:「在亚马逊云科技内部,我们有高度共识认为要做大模型。」

究其根本,目前关于 Scaling Law 是否撞墙的问题其实主要集中在数据上。前段时间有一项研究认为,如果 LLM 保持现在的发展势头,预计在 2028 年左右,已有的数据储量将被全部利用完;前些天 Ilya Sutskever 也表示数据就像是 AI 的化石燃料,迟早会消耗光:「我们已经达到了数据的峰值,未来不会再有更多数据。我们必须利用现有的数据,因为互联网只有一个。」

来自论文《Will we run out of data? Limits of LLM scaling based on human-generated data》

但实际上,公共互联网数据并不能完全代表所有数据。人类世界还有很多数据并未数字化或没有公开,包括大量古老的纸质文献、大量涉及机密或隐私的数据、许多物联网和传感器数据以及封闭的行业数据等。

此外,人类每一天都还在继续产生大量新数据 —— 虽然其中绝大部分都是低质量或重复的数据,但也不能否认,当任何一种新技术得到广泛应用,又会创生出大量新形势的高质量数据,而我们又正处于一个新技术迸发的时代,量子计算、生物技术、虚拟和混合现实、物联网…… 它们都有可能成为下一代 AI 的重要数据来源。

因此,就算基于公共互联网的数据 Scaling 撞墙了,基础大模型的发展也不会停滞,私有数据和新型数据有望继续创造新的可能性。

陈晓建也指出了这一点:「数据的价值是毫无疑问的。我们一直在强调,在这个大模型时代,合适的模型和平台只是其中一个部分,远远不是做大模型的全部。你的整个数据资产,你的数据基座才是你真正实现业务差异化的能力。」

此外,已有数据是否已被充分利用也是一个有待商榷的问题,毕竟我们不能保证现在的 token 化方案就是完美的,能够在不丢失任何信息的情况下完成对文本、视频、时间和空间等信息的编码。随着模型规模的扩大以及编码技术的进一步演进,基础大模型或许能从已有数据中发掘出新的养分,实现进一步的 Scaling。

当然,另一个重要的探索方向也不容忽视,即利用 AI 合成高质量数据来训练下一代 AI。

亚马逊云科技开源的一个使用 Amazon Bedrock 生成合成数据集的项目架构,项目地址:https://github.com/aws-samples/amazon-bedrock-synthetic-manufacturing-data-generator

总之,Scaling Law 撞墙论显然无法动摇亚马逊等科技巨头继续投入基础大模型的决心。事实情况可能刚好相反,它们不仅看到了基础模型目前的应用价值,还看到了未来通过技术进步和数据挖掘实现更大突破的机会。

在 re:Invent 大会上,亚马逊云科技发布了多款与数据相关的产品,包括可以连接多个外部数据源的Kendra Index、让用户可以使用自己的私有数据的结构化数据检索能力、用于知识图谱的GraphRAG 技术、用于非结构化数据的数据增强功能以及升级版的SageMaker(将数据、分析和 AI 整合到一起的服务)。陈晓建表示:「所有这些工具都是为了帮助大家更好地把自己的私有数据 —— 无论是结构化还是非结构化数据 —— 通过 Bedrock 平台更方便地跟大模型能力整合起来。」

下一代 Amazon SageMaker 概况,来自亚马逊云科技 re:Invent 2024

在「Scaling Law 是否撞墙」的争论中,亚马逊云科技一方面没有放弃基础大模型,另一方面也在积极探索其它有潜力的技术方向。比如,去年 11 月,亚马逊云科技就宣布为 Bedrock 的智能体(Agents)配备上了思维链(CoT)推理能力;此外,在今年的 re:Invent 大会上,亚马逊云科技还推出了一个名叫 Automated Reasoning checks 的服务,可通过自动推理减少大模型幻觉、检查提高对话式 AI 准确性。

利己也利创业者

为市场提供另一个选择

毫无疑问,亚马逊云科技之所以投入大量资源来训练基础大模型,首先这肯定是对其自身有利的。

我们知道,创业公司或小公司往往缺乏像 OpenAI 或谷歌那样的资源,很难自己训练出满足自身业务的大模型,因此,面向企业(To B)的大模型有一个存在强烈需求的市场。目前,几乎所有的云服务商和大模型服务提供商都在努力争夺这一快速增长的市场的份额。亚马逊云科技,坐在云服务商的头把交椅上,自然不可能错过这块潜力无限的大蛋糕。

亚马逊云科技继续维持在云市场的领先地位,来自 Statista

从用户,尤其是创业者的角度来看,不论是计划自己训练模型的团队,还是希望基于现成模型部署应用的开发者,亚马逊云科技的基础模型都提供了一个有力的替代选项。亚马逊云科技中国区技术合作伙伴总监李奔也在研讨会上提到了这一点,他表示:「我们面对的客户有两种属性:一种是 Buyer 属性,一种是 Builder 属性。Builder 公司可能更喜欢用工具链自己去构建。但还有很多客户群是 Buyer 属性的,他们不大会去自己 build,他们更愿意直接购买好的应用产品来提升能力。」

作为用户,替代选项带来的好处显而易见,尤其是我们中国互联网用户,对此的感受可能尤为深刻。而亚马逊云科技的 Nova 系列可为创业者和小公司提供一个并不比其它竞争者差的替代选项,并且不同规模的版本还能满足不同层次的需求,降低了进入壁垒。比如 Nova Pro 和 Nova Lite 虽然性能不及 Nova Premier,但同样可以处理文本、图像和视频等多种模态的数据。对于预算有限的创业公司来说,这些低成本且性能优越的模型提供了一种能够快速部署并支持创新的解决方案。

使用 Nova Pro 执行文档分析示例,来自亚马逊云科技博客

与此同时,替代选项还能保证创业公司的业务安全。这不,前些天 ChatGPT 宕机事件还历历在目,全世界的用户都深深受到影响。Vozo AI 创始人周昌印在研讨会上也表达了类似的看法:「我觉得对于大模型,我们希望有 Multiple LLM,这对我们的业务来说是比较安全的。」

并且,多样化的选择也能有效激发创新。当多个提供商竞争同一市场时,为了吸引客户,他们必然会不断提升服务质量、优化成本结构。这不仅让创业者能够更轻松地基于基础模型构建应用,还能将更多精力投入到差异化创新中,进一步推动 AI 技术和应用的繁荣发展。

李奔分享了他在跨境电商领域观察到的状况:「这个行业是一个充分竞争的市场,竞争特别激烈,而深圳人使用新工具的速度也非常快。我去年年初到深圳去的时候,发现 GPT 才刚出来,很多跨境电商企业就在用了,使用场景从营销侧一直延伸到售后,包括使用 AI 工具来生成广告和营销素材、执行用户反馈分析、增强中间的各种数据分析等等。亚马逊云科技跟电商客户在这个应用场景里的探索也特别多。」

在基础模型赛道上,亚马逊云科技通过 Nova 系列为企业用户带来了新的可能性,也在一定程度上推动了市场的良性循环与健康竞争。

此外,从亚马逊自身的角度,我们还可以总结出以下几点原因:

强化自身的云服务生态:通过提供基础模型及相关服务,亚马逊云科技可以吸引更多企业上云,并借此深度绑定客户,强化其云计算市场的领先地位。

数据和技术的长远布局:自主训练基础模型能帮助亚马逊云科技积累宝贵的技术和数据经验,形成核心竞争力,并为未来潜在的颠覆性 AI 应用奠定基础。

参与行业标准的定义:通过持续发布基础模型,亚马逊云科技可以在 AI 领域成为标准制定者,塑造行业对模型能力和 API 服务的认知,甚至影响开源模型的发展方向。

增强亚马逊内部服务和产品:基础模型可以直接应用于亚马逊电商平台、语音助手 Alexa 及物流系统,提升搜索、推荐和自动化能力,从而实现全方位优化。

应对竞争压力:在面对谷歌、Meta 和微软等巨头和众多初创企业的竞争时,亚马逊需要保持技术领先。这种战略不仅是防守,更是进攻。

基础大模型体现了亚马逊坚持的长期主义

「长期主义」,是亚马逊创始人及现任董事长杰夫・贝佐斯所著文集的中文版书名,也是亚马逊一直以来都坚持的企业文化。

业内人士普遍认为,构建基础大模型需要大量的资金、时间和技术资源,而亚马逊的坚持与投入展现了它作为科技巨头的责任感与前瞻性。Nova 系列模型的推出表明,亚马逊不仅希望通过自身的技术创新引领 AI 的发展,还致力于降低开发者和企业进入 AI 领域的门槛,为创业公司提供灵活的替代方案。这种多样化选择带来的生态效应,可被视为其「长期主义」文化的具体体现。

而在坚持基础大模型的道路上,亚马逊云科技不仅能稳固和提升自身的市场占有率,还能帮助更多企业进入 AI 应用生态,从而提升整个市场的活力与创造力。这是亚马逊云科技不可忽视的重要贡献。

0 阅读:2