腾讯云胡利明:AI步入大模型时代资源最大化利用成服务器OS关键

岸白薇 2024-07-21 21:06:52

随着云和AI时代加速来临,服务器OS作为承接底层硬件与上层应用的核心,如何更好地发挥软硬件性能、实现服务器资源的最大化利用,成为了行业的关键命题。

7月19日,在2024中国国际金融展上,腾讯云副总裁胡利明发布了全新的腾讯云国产服务器操作系统TencentOS Server V3。据胡利明介绍,TencentOS Server V3具备安全可信、稳定高效等特性,并针对云和AI场景做了众多升级,极大提升了数据库等软件性能,以及CPU、GPU等资源的利用率。

据了解,TencentOS Server是腾讯自主研发的企业级Linux服务器操作系统,自2010年诞生以来,已有14余年的技术积累,在Linux内核社区持续贡献。在实践方面,TencentOS Server V3全面兼容主流的国产芯片服务器,支持建设了鲲鹏、海光和飞腾三大主流CPU超大规模的服务器集群。目前TencentOS Server凭借近1000万套的部署规模成为国内部署量最大的Linux操作系统。

CentOS正式停服 服务器操作系统平滑替换成刚需

众所周知,CentOS是国内企业广泛运用的主流OS之一。今年6月30日,CentOS宣布全面停服,缺失的安全补丁更新和缺陷修复无法满足关键生产系统的需求。CentOS的停服让中国企业用户迫切需要一个新的服务器OS,进行原有业务的迁移与替换。而对于业务不能中断的金融机构而言,能否实现无缝替换、平滑迁移至关重要。

据胡利明介绍,TencentOS Server为企业提供简单易用的CentOS原地替换工具,面向金融业务需求,专注替换过程中业务的可用性和安全性,实现低风险、低影响的CentOS到TencentOS Server的原地替换。腾讯云在替换工具中设计了多种保障机制,包括备份、预检、替换、回滚等等,支持不同范围的软件包替换,兼容CentOS7和CentOS8,兼容x86和ARM架构,替换后后重启就能生效。通过这些保障机制,实现业务系统100%安全。另据腾讯云平台统计数据,TencentOS Server在一年内发生的故障率比CentOS低90%。

除平滑替换CentOS外,服务器OS能否更好地发挥软硬件性能以及带来更好的用户体验也是企业关注的重点。近几年,TencentOS Server 在国产数据库场景做了许多实践,与鲲鹏和海光分别搭建了国产数据库实验室,探索为数据库搭建一个高效的运行平台。同时,腾讯云也推出了NVME软RAID解决方案,保障了数据库可用性的同时,大幅提高了性能。

2023年,腾讯云TencentOS Server与TDSQL组合的自主创新方案,打破了交易型数据库性能记录,做到每分钟处理8.14亿次交易,标志着国产数据库技术取得新的突破。据测试,最新发布的TencentOS Server V3,能够使国产数据库的整体性能提升30%,运行内存节省超过15%。

不仅如此,TencentOS Server全面兼容主流的国产芯片服务器,支持建设了鲲鹏、海光和飞腾三大主流CPU超大规模的服务器集群,并且支持腾讯专有云TCE实现一云多芯。作为云上的GuestOS,TencentOS有丰富的北向软件兼容能力,可以支撑客户的丰富业务应用。同时,TencentOS针对虚拟化场景的性能优化,虚拟机性能损耗小于2%的领先水平。

AI步入大模型时代 资源的最大化利用成服务器OS关键命题

目前,AI的发展已步入大模型时代,众所周知做大模型很“贵”,若能提高现有资源的利用效率,便能大幅降低大模型的建设和运行成本。

“因此,TencentOS Server V3也针对AI时代的典型场景需求进行了升级和优化。”胡利明表示,“在金融行业中,有很多的传统推理业务,例如OCR、智能客服等,这些分类型的场景消耗了大量昂贵的GPU卡资源,GPU本身的利用率往往非常不高。TencentOS Server可提供qGPU组件,将一张卡虚拟化切分为多张卡,可极大提升卡的复用度。”据了解,某券商客户利用腾讯云qGPU技术,成功节约了60%的Nvidia集群卡的采购成本。

胡利明还表示,TencentOS Server中默认集成大模型训练和推理加速框架,能够极大提高吞吐量,降低延迟,可以实现2倍效率提升,从而节省大量的GPU卡资源。此项技术在腾讯混元、微信输入法、腾讯代码助手等腾讯内部业务中都已得到实践验证。

此外,针对企业的服务器CPU平均利用率低、服务器内存占用成本高和运营成本高等痛点,TencentOS Server采用离线混部的技术,合理部署客户的高优和低优任务,将整个服务器的部署密度变得更高。微信采用TencentOS Server的离线混部方案后,运行成本降低了43%,业务响应能力也有了相应的提升。在腾讯云的公有云和金融云原生实践案例中,CPU利用率可提升20%以上。

同时,TencentOS Server也对缓存占用机制进行优化。一方面减少内存占用,另外一方面对真实的物理内存所占用的空间变少,系统的宕机概率降低,使得系统的稳定性明显提升。

0 阅读:0