阿里云全力打造AI“钻井机”

科技每日十点见 2024-09-20 20:05:18

AI时代需要什么样的基础设施?阿里云给出了自己的答案。

9月19日,在2024杭州云栖大会上,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭在上午的主题演讲中提到,阿里云正在以前所未有的强度投入AI技术研发和基础设施建设。

“我们的单网络集群已拓展至十万卡级别,正在从芯片、服务器、网络、存储到散热、供电、数据中心等方方面面,重新打造面向未来的AI先进基础设施。”吴泳铭说。

紧接着,阿里云CTO周靖人就在下午的主题演讲中,揭开了阿里云在AI基础设施层面进行的一系列具体创新。

做大做强AI infra

周靖人在演讲的前半部分重点讲了在基础设施层面的创新,后半段讲了在大模型方面的创新和成绩。

在基础设施层面,阿里云的最新创新包括但不限于:

最新上线的磐久AI服务器,支持单机16卡、显存1.5T,并提供AI算法预测GPU故障,准确率达92%;阿里云ACS首次推出GPU容器算力,通过拓扑感知调度,实现计算亲和度和性能的提升;为AI设计的高性能网络架构HPN7.0,可稳定连接超过10万个GPU,模型端到端训练性能提升10%以上;阿里云CPFS文件存储,数据吞吐20TB/s,为AI智算提供指数级扩展存储能力;人工智能平台PAI,已实现万卡级别的训练推理一体化弹性调度,AI算力有效利用率超90%。

对于不懂技术的人,上面这段关于阿里云围绕 AI 而展开的创新看上去“不明觉厉”,但正是这些计算、存储、网络、工具等形成的创新组合,才让今天的大模型训练、大模型的推理成为可能。

反过来,大模型等生成式AI技术对数字世界和物理世界的重构,又强化了计算架构朝着适应AI工作负载迁移的趋势。

现在生成式AI浪潮的兴起对行业的影响是,过去几十年,以CPU主导的计算体系正在式微,取而代之是是以GPU主导的AI计算体系。

在智能超参数看来,相比大模型创新,基础设施层面的创新,对于今天的阿里云而言其实更重要一点。

背后的原因主要是两点:一方面,在新增算力市场上,超过50%的新需求由AI驱动产生,AI算力需求已经占据主流地位;另外一方面,放眼全球,阿里云的主要竞争对手——亚马逊AWS、微软Azure 、谷歌云都在聚焦新一代的AI基础设施,而这是必须要参与的一场新战役。

阿里云副总裁张启透露,吴泳铭去年9月上任之后曾在阿里云内部表态说,阿里云唯一的产品就是“一张遍布全球的理想的AI云计算网络”。“我们所有的发布,都是围绕这个目标。 ”

所以从这种表态来看,在这场从CPU到GPU计算体系的范式转移中,阿里云决心要做大做强AI infra。

企业需求推动基础设施重构

对于AI基础设施的需求首先会让人想到科技公司,实际上,它正在逐渐深入到各行各业之中。

这种转变已经在一些数据密集型公司中开始实施,例如小鹏汽车。19日,小鹏汽车董事长何小鹏驾驶“全球首款AI汽车”P7+亮相2024云栖大会,这款车搭载了业内领先的端到端大模型。据了解过去2年,小鹏汽车与阿里云共建的AI算力规模提升超4倍。

实际上,在云栖大会的展区内,利用大模型重塑工作流的案例非常多,覆盖的行业也很广泛,在汽车、生物医药、工业仿真、气象预测、教育、企业软件、移动APP、游戏等行业,AI计算正在加速渗透。

国内高校最大的云上智算平台CFFF,是一台为发现和解决复杂科学问题而建的科研“超级计算机”。它由复旦大学与阿里云等共同打造,以先进的公共云模式提供超千卡并行智能计算,支持千亿参数的大模型训练。

基于CFFF平台,复旦大学发布的45亿参数量中短期天气预报大模型只用一天就完成训练,预测效果在公开数据集上首次达到业界公认的ECMWF(欧洲中期天气预报中心)集合平均水平,并将预测速度从原来的小时级缩短到了3秒内。

阿里云透露的数据显示,中国一汽、联想、微博、携程、喜马拉雅、三得利(中国)等30多万企业客户已经接入通义大模型。

整体上看,越来越多的企业已经意识到了人工智能的价值,但是要想用好AI,企业面临的问题其实非常多。其中,很重要的一点就是没有合适的基础设施去支撑企业想要使用的AI工作流。

市场分析机构Forrester咨询和Ipsos益普索去年进行的一项调研显示,56%的企业没有合适的基础设施去支撑企业想要使用的AI工作流。

因为基础设施是AI创新的基石,它决定了AI应用、解决方案或平台的速度、质量、易用性、创新性和吸引力。但现有基础设施很少能够满足AI的需求和复杂性。

目前,几乎所有行业,都需要性能更强、规模更大、更适应AI需求的基础设施。据IDC预测,2022-2027年期间,我国智能算力规模的年均复合增长率将达到33.9%,远高于通用算力16.6%的增速。

当然,对于类似阿里云这样的计算型企业而言,这确实是一个很大的市场机会,但可能也是新型基础设施厂商的创新机会。

算力市场的新战役

目前,阿里云正以前所有未有的强度投入AI基础设施,全面重构服务器、弹性计算、网络、存储等全栈技术体系,树立AI基础设施的新标准。

实际上,现在摆在阿里云面前的是一场不能输的新战役。在云栖大会之前,谷歌云、微软在召开的年度技术大会上都已经先后亮剑,而AI基础设施同样是关键词。

在AI基础设施这场新的竞赛中,大型算力提供商未来比拼的优先项可能不再优先是数据中心的布局多广泛,服务器规模有多少,而是你如何在新技术堆栈中建立全栈竞争力,比如底层AI芯片、AI大模型和新的开发工具层面能有多少创新。

日前,国内大模型竞争激烈,模型的算力成本也持续下降,甚至一些厂商打出了负毛利,用补贴的方式做大AI开发者的生态。

在这些降价大战中,阿里云也没有退却,进行了多轮次的降价。今年五月首次降价,时隔四个月,云栖大会再次宣布通义主力模型降价:Qwen-Turbo价格直降85%,低至百万tokens 0.3元,Qwen-Plus和Qwen-Max分别再降价80%和50%。

“今天的价格不存在说已经足够低了,相对未来庞大的应用来说,还太贵了。”周靖人表示,阿里云能够降价,主要是把计算的红利、技术的红利让利给企业客户和开发者,而核心目的是能够让大家用得起,激发更多的产业级创新。

现在,整个科技行业的聚光灯都聚焦模型本身上,似乎模型是AI 这一波技术浪潮的决定性力量。但是实际上,相比模型,底层的基础设施其实蕴藏了一个更大的机会,这不但是大模型爆发的必备条件,未来随着AI的普及,后面还会是一个全新的、更大的应用生态。

而这可能开启一个新的算力消费时代。

阿里云判断,未来几乎所有的软硬件都会具备推理能力,它们的计算内核将变成GPU AI算力为主、CPU传统计算为辅的计算模式。

这样的技术发展趋势意味着什么呢?前微软高管沈向洋日前在公开场合表示,现在GPU算力是一年涨四倍,十年下来的增长将会是100万倍。

即使我们对这个数据打一个狠狠的折扣,这也意味着未来的算力市场规模将比今天大出上万倍,乃是十万倍以上。这样看来,未来算力消费的赛道足够长,池子也足够大。

作为一家全球性的算力厂商,阿里云显然清晰这样的发展趋势。因此才有周靖人的强势表态:“为应对GPU算力的指数级增长需求,尤其是即将爆发的推理市场,阿里云已经准备好了。”

如果智能是新时代的石油,那么AI基础设施的创新就是那台永不疲倦的钻井机。

现在,阿里云的首要任务就是打造好这台AI“钻井机”,为新一轮更大的、可持续的增长打下坚实的基石。

0 阅读:3