苹果的iPhone手机,精密而复杂,由大约1500个零件组成。
百达翡丽Calibre 89怀表,被誉为有史以来最复杂的计时器,它由1728个零件组成。
而一台服务器,则需要整合超过10000个零部件,其中包括50多类专用芯片,涉及30多个技术方向,应用超过100种传输协议,使用100多种加工和制造工艺,并对200多个关键过程的控制点进行把控。
让人难以想象的是,世界上最大的数据中心拥有100万台如此复杂的服务器组成,这样的算力集群不仅仅要承载一个个企业的数字化业务,更支撑着网购、追剧、打游戏、吃饭、生活中的方方面面。
随着算力需求的指数级爆发,算力创新机遇与挑战并存。在算力创新的风景线上,其实有若干微小而重要的瞬间,它们对整个算力创新都能起到决定性的作用。
01
一块“小”基板,让芯片互连跨入新时代
一个信号连接器的微小提升,一个芯片互联拓扑方案的又一次尝试,甚至是十几层PCB板上的其中一层的铜箔厚度的改变……所有这些平凡而又细微的尝试、努力,都会影响服务器的算力性能。服务器作为最小的算力单元,在其复杂系统上的每一次微小的创新,都可以通过算力网络映射到整个数字世界。
从这个角度看,世界没有任何微小的创新,能够比得上算力单元的微创新的价值更大。往往一次细节的创新,就能撬动一个无法想象的局面。
比如大模型训练背后的算力需求巨大,动辄成千上万张芯片的互连架构,才能支撑起大模型的发展。任何小问题,在规模化面前,都会演变成大问题,两张芯片的互连,并不困难,但两颗芯片之间的互联速度,决定了成千上万颗芯片互连的基础,这个基础的技术,就不那么简单了。
浪潮信息定义了业界第一个符合OAM(开放加速模块)规范的8卡互连AI系统,这是一个遵循开放计算标准的互连的基板,首次达到了单通道56Gbps速率,并且在冲刺112Gbps单通道的高速互连通信。
互连速率的“倍增”,也带来了新的系统性挑战:要在物理尺寸近乎不变的情况下,将GPU间的互连速率提升一倍,就必然要需要牺牲信噪比。这意味着112Gbps信号对于抖动和噪声的敏感程度更为强烈,即对于信道的串扰、SCD(信号在通过该通道时的差分能量变为共模能量的模态转化量,越低越好。)、PN Skew(内外线路不等长造成的传输差异)、ILD(损耗,线损/阻抗的影响程度,即漂移度)等指标的要求都更为严苛。
要知道,这个基板的厚度仅为3.26mm,层数却高达22层,每层厚度仅有100微米左右,且包含了近1000个高速互连差分对。要减少噪音和EMI(电磁干扰),将使得布线量增加一倍,在信号布线密度近乎极限的基板来说,不仅需要寻找更低损耗的树酯、玻璃纤维及更平滑的铜箔,同时也要确保这些材料在加工之后能够符合可靠度的规范,设计与工艺复杂度极高。
这些几乎不可能完成的任务,正在浪潮信息的实验室紧锣密鼓的推进着。一块小小的基板,让众多AI芯片公司芯片互连的速率翻倍提升,这就好比通信领域从5G一步跨入6G时代。
这是“小”创新,但却撬动着大时代。
02
有机体里的“小”创新,解决的是大麻烦
人体,是拥有22个关节、206颗牙齿、639块肌肉,500多万根毛发的有机体。而服务器,则是由上万颗零件组成的算力单元,等于是人类智慧的结晶。
如果也将服务器看做一个“有机体”,那么这个复杂的系统,必须时刻分毫不差,哪怕有一丝丝的“小”变化,都有可能导致整个系统的崩塌。
这并不是危言耸听。甚至连声音,也会影响到服务器的可靠性。四五年前,相当数量的数据中心用户几乎都遇到了同一个问题:风扇转速越快,硬盘越有可能出现性能波动,严重时还会直接掉线。
这是因为:风扇产生的噪音一旦达到120分贝,极易造成硬盘磁头偏移、读写效率下降,进而导致扇区失效乃至硬盘报废、服务器宕机。显然这个“小”问题背后,实则是风扇与硬盘的冲突,典型的架构问题。
但知易行难,解决问题永远要比发现问题难得多。
浪潮信息的团队,在尝试过正弦波、1/3倍频程等走不通的路径后,才逐渐找到了最合适的噪音带宽,并以混频、扫频的模式模拟出多样化的噪声源,能够测量硬盘在500Hz~10000Hz噪音刺激下的共振频率和声压阈值。基于大量机理性研究和测试,团队发现硬盘性能损失与声压强度间的数学规律,构建出业界首个硬盘敏感度模型,量化出不同硬盘受到各类噪声影响后的性能表现。
这个方法,直接将硬盘与噪音的关系变得“可见”,这就有希望实现“可控”。
在确定机箱内真正影响硬盘工作的噪音频谱的基础上,浪潮信息的工程师对服务器系统展开全方位的优化设计。首先从噪声振动的源头入手,通过CFD流体动力学仿真改进风扇的叶片形态,抑制扇叶表面因涡流脱落形成的高频噪音;其次,在机箱内通过设计40多种歌院式的消音结构,有效消除特定的高频噪声;此外,还对硬盘固件中的伺服控制算法进行调整,让硬盘磁头的噪声共振摆动控制在10纳米以内,在提升读写效率、性能翻倍的同时,实现服务器安全运行。
03
匠心精神,为算力的价值负责
在企业级科技领域,我们很少谈匠心,因为企业级产品的复杂性远远超过了我们过去对匠心这个词的理解
其实广义的工匠精神,是指对产品的精雕细琢,精益求精,一丝不苟与持之以恒。它虽然不是从0到1的发明创新,但却是从1到100的关键晋级方式。越是复杂的系统,越需要一种匠心精神。
从今天的两个服务器在设计上创新的两个“小故事”,都有同样的特点,它们在实际的应用场景中发生,要在反复的验证、优化、迭代中不断的改进,它们也许并不是“颠覆式”的创新,但解决的问题,对于算力创新而言,都是不可或缺的。
算力时代的发展,其实也蕴含这一种从粗犷到精致的发展路径。过去服务器,仅为算力供给负责,今天的算力单元则要对算力的价值负责。
这也是为什么浪潮信息一直在谈融合架构,从池化的角度上解决所有算力问题的复杂性,给到用户的是高价值的、可持续的算力。而在算力单元和架构创新,两个维度上,其实通过一个又一个的“小”创新,解决了复杂系统各种各样的难题,才做到了化繁为简。
在算力创新的风景线上,也正因为有了这一个个决定性的瞬间,才让我们对未来数字世界有了更多的期待。