开放,解耦的智算网络,与大模型激情燃烧的时代

科技正能量 2024-07-03 17:50:21

对社会文明来说,人工智能已经不仅仅是一项简单的技术革命,它是一个新时代的更迭。就如同工业时代之于农业时代一样,会带来天翻地覆的变革,影响人类社会未来百年的进程。

和历史上的几次时代更替相似,总有一些新的技术或是产品,会颠覆人们的固有认知,正如大模型技术的出现,似乎点燃千行百业奔向智能升级的“引线”,让一个激情燃烧的时代,向我们呼啸而来……

异构算力体系,填平AI时代的算力鸿沟

每个新的时代,都有新的生产力源泉,无疑大模型时代的源泉就是算力。算力如笔墨,正在中国960万平方公里的广袤土地上,勾勒出一幅充满生机与活力的数字化图景。

在街头巷口,算力犹如指挥棒,智能交通系统以精准的算法控制着车辆的流动,减少拥堵;在田间地头,以算力作为牵引,实时监测农田的土壤湿度、温度等数据,让农民不再靠天吃饭;在校园课堂,以算力为“教鞭”,大数据和人工智能技术,为学生提供个性化的学习方案,帮助老师更有效的传递知识;在科研领域,科学家们利用算力,刷新宇宙深空的天图,探索星球的起源和演化……

在千行万业智能化转型的趋势下,AI应用领域的多样化,市场规模的不断扩大,带来了对AI算力的巨大需求。

大模型的盛行,算力已经不是像过去一样,每18-20个月翻一倍,也不是在深度学习时候,每6个月翻一倍,而是现在每年上百倍的增长,算力的缺口在逐渐扩大。

我们知道,异构算力通常由多种不同的算力处理体系组成,如CPU、GPU、FPGA、ASIC等。这些不同类型的处理器各自具有独特的优势,能够满足不同场景中的应用需求。通过将它们组合在一起,可以实现计算资源的优化分配和高效利用,进而实现计算效力最大化。

这意味着在大模型时代,要发挥算力的最佳价值,迈向多元异构计算体系是必由之路。

但是,在异构算力体系建设过程中,涉及大量计算单元内部的信息交互,也形成了庞大的生态系统,除了多种类型的专用芯片之外,各种形态的交换机、光模块/线缆等连接介质,以及各服务提供商交付的算力运营、算力调度、算法交易平台相互交织,为算力体系带来了巨大的复杂性。

解决问题的关键其实是网络,因为网络不仅是连接算力单元的纽带,更决定了算力调度、数据流通的效率与稳定性。

那么,如果将网络平台和智算平台解耦,增强网络对于多元异构算力的承载能力,通过网络的应用感知和资源分配机制,去响应各类应用需求,是否能够铺设一条解决异构算力体系建设的“康庄大道”?

为什么要开放,解耦的智算网络?

其实,当前传统企业的算力部署存在明显的错位现象,大模型所需要的算力是异构算力架构,是融合了通用算力、高性能算力和AI算力的混合算力架构,这与企业传统ICT架构严重不符。

这就导致了一个局面:尽管异构算力体系可以充分发挥各种计算设备的优势,为用户提高智算效率、降低采购成本、提升系统安全性。但对很多企业来说,并不能像传统ICT基础设施建设那样可以轻车熟路的进行规划、采购、部署。

因为,传统ICT架构,遵循既定的标准和规则,体系生态封闭但很成熟,企业IT团队可以很容易搭建自己的算力基础设施。但异构计算的生态复杂多样,大量的异构组件间的互联互通无法解决,就无法串联起整个架构,更别提输出高效的算力。

所以,既要依赖网络组件间的互通互联,也必须要倡导一种开放和解耦的理念。

异构算力体系当中,“开放”原本就是一个最核心的话题。异构算力体系的核心优势就在于能够充分发挥各种计算设备的优势,提高智算效率。如果体系不够开放,企业客户会面对更多的兼容性和集成性问题,不仅会增加开发的成本和难度,还会导致不同计算硬件的性能无法充分发挥,从而降低了应用的性能和效率。同时在安全性上,不够开放也意味着信息交互的复杂性和不确定性增加,增加系统安全和稳定性的风险。

唯有“开放”,才能发挥异构算力最大的效能,也唯有要开放,解耦的智算网络,配得上大模型激情燃烧的时代。

而“开放”,恰是新华三智算网络解决方案最重要的价值主张。新华三集团副总裁、网络产品线副总裁、交换机产品线总经理李玉涛认为,“通过将网络平台和智算平台解耦,可以充分发挥算力生态中各领域的优势,实现资源共享和高效协作,帮助客户享有先进的AI智算平台、优秀的网络设备和高品质的联接介质。此外,用户可利用以太网开放标准特质,逐步构建大规模智算集群,实现与现有设施的无缝互通,并根据业务需求灵活扩展升级。”

开放智算网络的三个启示

以开放、解耦为基石的“智算网络解决方案”究竟是如何增强网络对于多元异构算力的承载能力的呢?

秘密就在“多元可靠联接、场景化网络调优、异构算网联动”三个关键词当中。

首先,以太网的技术已经非常成熟,且具备拉通和兼容多种不同终端的能力。面对智算的异构需求,以太网一方面需在网络侧解决端口密度、设备形态、通道标准、传输介质的扩展性和兼容性,另一方面需在计算侧筛选AI服务器网卡规格,为智算业务提供高性能算力,这种“多元可靠联接”的能力正是打通异构算力所需要的。

新华三《智算网络异构连通专项测试》标准

其次,在高性能网络领域,无损以太网(RoCE)是一个快速普及且被大众所认可的技术,其在成本、未来演进和生态丰富度上具备天然优势。当RoCE发展到智算网络时代,连接非智能网卡、智能网卡、可编程智能网卡等不同能力的网卡时,以“场景化网络调优”的模式解决Hash极化问题,降低网络拥堵风险,成为智算网络构建无损能力的关键。

新华三全场景负载均衡技术

第三,智算网络如果脱离了与算力的联动,那就是孤立、被动的,为确保智算业务有序的平稳发展,网络必须与算力调度平台联动起来。而国内大多算力厂商没有配套的网络设备和平台,因此,想用网络打通异构算力,则必须具备与多家厂商的CCL(集合通信库)的兼容对接能力,将算力需求转译为网络配置,也就是所谓的“异构算网联动”。

异构算网联动也是开放、解耦的关键一环。当用户在算力调度平台上对算力资源进行了分配、回收、调度等操作,网络需要跟随算力资源联动,缩短路径调整的时间,让算力节点和网络转发路径均达到最优。

新华三的思路是:通过网络控制器的开放能力,可以与各算力厂商的集合通信协议进行兼容互通,使客户可以在一张物理网络中承载多种异构算力,并通过网卡样本能力与网络资源的匹配运算,利用负载均衡技术来提升网络利用率。同时,控制器不但能够完成智算网络自动上线/扩容能力,还能够基于仿真技术对算力调度变化进行推演,规避风险,确保算网协同调度效果。

无疑,随着大模型与AI技术与千行百业的场景结合越来越紧密,AI算力的需求鸿沟仍将是各个行业迈向智能化升级的最大障碍,要依靠异构算力来填平鸿沟,开放、解耦的智算网络就必不可少。

0 阅读:3