AI爆发,乘云直上,金山云智算服务优势何在?

兴贤说趣事 2024-09-27 21:08:38

人工智能时代,生成式AI和大模型便成为两个热词被许多企业作为未来发展战略布局。相应的,各种智算云平台应运而生。事实上,这些智算云平台的底层逻辑大同小异,真正决定客户选择的是服务的契合度和效率的提升。

今年6月,金山云发布了搭载英特尔至强6能效核处理器的第九代云服务器高效型SE9。此后数月中,又围绕基础设施及平台能力构建起了其智算服务能力。

技术立业 加码智能基础设施建设

对生成式AI和大模型训练场景来说,计算、存储、网络是一体的,而且这些场景对云基础设施的高性能、高稳定性等方面的要求更多。

在此背景下,金山云对核心产品进行持续打磨,以更好地满足客户不断增长的业务需求。例如,针对客户对效能和价格的双重需要,金山云发布了第九代云服务器高效型SE9,最大套餐规格256核512G,全面支持企业级服务,客户可在享受效能的同时,收获更优质的产品和服务体验。此外,金山云第八代云服务器标配极速云盘ESSD,最大套餐规格可达128核512G,最高可支持虚机内网吞吐100G,内置AMX专用硬件,加速深度学习负载。同时,金山云也打造了较为完备的智能计算集群,能满足客户在智算场景的需求。

金山云高级副总裁刘涛

正如金山云高级副总裁刘涛接受赛迪网采访时说的那样,“算力业务的服务不是简单的卖机器,它包含很多种能力,是一种全方位能力的服务,用行业的术语说就是‘赋能’”。不难看出,金山云在算力方面一直在修炼内功。

在高性能网络层面,金山云借助自研的 RoCE 技术,结合端侧和网侧交付验收工具,实现了整个链路的探测能力,对全网的性能进行全面测试。这为大模型的流畅运行提供了坚实的后盾。“对高性能网络的需求也是AI业务催生出来的,技术本身也在进化当中。”金山云高级副总裁刘涛接受赛迪网采访时说道。很明显,作为较早入局云计算的厂商,走在技术前沿是金山云的常态。成熟的技术往往需要他们自己摸着石头过河总结经验,市场上常常并无可靠的经验模仿。

从成本和性能方面来看,金山云从一开始就选择的RoCE颇具优势,这不仅是战略眼光的体现,也是其技术实力作保障的结果。

在存储方面,金山云对象存储KS3极速型最高可提供1Tbps/PB的兑付带宽,相较基于机械硬盘(HDD)的对象存储性能提升了上百倍,能为AIGC、存算分离、动漫渲染和高性能计算等场景提供强有力的存储解决方案,有效应对CheckPoint快速写入问题。

严守中立 满足客户实际场景需求

在人工智能爆发阶段,金山云没有像其他厂商那样去做大模型,而是坚守中立定位,不断夯实核心能力,做大模型的助力者。

事实上,拥有硬件和资源并不意味着就有高性能的算力,要能把这些资源高效管理和调度起来,才能盘活算力。“经过与客户不断磨合,我们已经具备较强的异构算力调度能力。”刘涛表示。

刘涛告诉记者,金山云自研的RoCE网络监控平台提供集群端侧和网侧的基础信息与指标、网络故障感知和告警、主动排障能力;在GPU自动化运维插件方面,通过整合资源管理、硬件监控和Kubernetes调度能力,实现秒级故障感知、分钟级完成故障自愈动作,这又从运维层面为客户提供了便捷。

同时,针对生成式AI客户对数据清洗的需求,金山云还整合星曜裸金属服务器EPC、大数据平台KMR和对象存储KS3推出了针对该场景的数据清洗解决方案,满足预训练数据集、微调数据集生成对于数据清洗的需求。

“智驾场景非常特殊,不同于其他公有云场景。因此,金山云为该领域的客户提供公有云专区解决方案,这是一种创新的分布式云建设模式,能够满足客户对数据安全和合规性的高要求。金山云与客户私有云环境的身份验证系统进行集成,实现了统一的管理界面和API支持,为客户提供了便捷的使用体验。”刘涛表示。

从生成式AI和大模型当前的发展速度来看,未来几年,该领域的应用落地还将为云计算带来更大的发展空间。定位中立的金山云,也将从其在技术和服务的双向提升中汲取到更大的增长潜力。(文/徐培炎)

0 阅读:2