为中小企业智能化转型打开方便之门腾讯云智算降低AI训练30%成本

人工智能的大爆发给我们带来了什么？

从生成式AI大模型成熟以来，在短短六年时间里，模型参数规模增长了上百万倍，达到了万亿量级。模型参数的指数级增长还让大模型往全模态、MOE及大窗口的方向发展演进。由此对AI算力基础设施的要求也发生了量变。

在近日召开的2024腾讯全球数字生态大会上，腾讯云发布了腾讯云智算品牌产品。

针对AI智算三大挑战的算存网数一体底座

这款腾讯云智算产品是对AI所带来的智算方案作出的综合布局，是一套集算、存、网、数高效一体的高性能底座，满足大模型用户在进行大模型训练推理的需要。AI大模型的应用带来了智算的三大挑战：

如何应对AI算力需求的爆发式增长？

如何简化AI落地技术，进一步降低成本？

如何提升AI解决方案的部署简洁性和跨平台兼容性？

统计显示，我国国内算力规模的增长年均高达33.9%，异构算力需要广开来源，广开渠道应对增长需求。多元异构背景下对算力基础设施的扩容能力和算力调度能力都带来了挑战。对此，腾讯云提出“一云多芯”的策略。虽然多样化的国产芯片让选择更多，让业务层的适配工作更加复杂，但云计算却让复杂的适配工作在内部消化。以通用接口对外开放，以智算平台持续为客户提供中间兼容层和完备的工具链。进而实现提升客户训练大模型的效率。

腾讯云副总裁沙开波表示，英伟达在推介其产品时，通常为客户训练大模型都是采用IB网络解决方案来进行GPU的集群。而腾讯云智算的解决方案对标IB网络解决方案则能降低30%的成本。

业内超一流的集群训练能力

腾讯云智算是如何实现AI大模型训练效率的提升呢？

其实，纵观AI大模型训练的全过程，要提升其效率，不外乎三个方面的要素：数据读取快、训练计算快、网络交换快。

所谓“数据读取快”就是CPU将数据从海量的分布式存储拉入内存，并快速将数据从内存转入显存。所谓“训练计算快”就是采用最佳搭配的异构加速器进行张量计算。而“网络交换快”则是高效利用超大宽带的RDMA网络减少同步时间，以此来让AI训练提速。

在今年，腾讯云对算力做了全面升级。高性能的国产HCC计算集群生态配套齐全，全面升级到星脉2.0网络架构。其采用二层双平面多轨道组网方案，单节点支持高达3.2Tbps RDMA超大宽带接入，最高可以支持1.6万卡的集群，全部流量都收敛在一个全互联的二层Fat Tree网络架构当中，并支持多厂商的异构卡型混合部署。

计算、存储和网络作为高性能计算这个木桶的三块最关键的木板，每一块木板的短板都可能造成木桶整体算力效率的下降。RDMA指的是不同的计算节点间通信不需要内核参与，所有payload的发送传输处理工作直接下沉到网卡上进行处理的一种网络方案。这样的好处是可以大大减少数据拷贝和上下文切换。

在软件方面，基于星脉2.0的自研负载均衡和拥塞控制算法，千卡规模训练集群性能扩展比可以高达96%。相比于业内通常强调的提高吞吐量的一些技术方案，那些解决方案往往单纯提高吞吐量，但是却会以机身延迟作为代价，而腾讯云智算的技术设计则是以降低延迟来提高吞吐量。

在集群监控和运维方面，国产化集群也都全面兼容HCC监控和自动运维能力，支持计算、存储、网络等硬件和软件栈全方位的监控和告警。可以支持qp级、毫秒级的网络流量监控。可以动态定位到训练过程中的慢节点。支持自动化、快速故障节点迁移等等。

全流程的简便部署选择

AI的大规模应用带来了创造力的极大飞跃，为企业带来了更多业务拓展的可能。但部署算力基础设施的成本高昂，也限制了企业AI创新的能力。虽然中小企业可以选择API调用来减少成本，但定制化的限制和安全性的考量也会让其望而却步。因此，云上私有化部署就以其成本低、多样化、可定制和安全性强成为了许多中小企业可以考虑的首选。

当然理想和现实是有一段距离的，部署AI并不如乐观者宣传的那么简单。从GPU的选型到兼容的磨合，这是一个复杂的工作。腾讯云则以其云原生开发和AI应用部署的经验为客户提供了覆盖从开发测试到业务部署全流程。

很显然，腾讯云智算的推出整合了腾讯云在HCC、星脉网络、AIGC云存储等优势单项产品能力，并为客户提供了简便而低成本的部署选择，将为更多中小企业的AI智能化转型打开方便之门。（文/徐培炎）

古典风资讯网

为中小企业智能化转型打开方便之门腾讯云智算降低AI训练30%成本

兴贤说趣事