网易云音乐,“省”出事故?

长三角momo 2024-08-20 15:34:12

周一下午3点,用户打不开网易云音乐了。宕机长达两小时,“网易云音乐崩了”登上热搜第一。

在一个需要精神抚慰的工作日下午大面积瘫痪,不管从舆论角度,还是内部组织角度,这对网易都是一场级别极高的事故。

官方账号很快回应是基础设施出了故障;晚上9点,网易云音乐又补充称,是因为“业务扩容”出现的技术事故。

无论是“基础设施”还是“业务扩容”,这些解释普通人几乎都很难看懂。

流言开始以大家能理解的方式口口相传,版本不一,但背后的叙事逻辑无外乎“裁员裁到大动脉”,程序员离职报复导致的问题——这是大家喜闻乐见的爽文模式。

网易很快辟谣,称“没有删库、没有跑路”。

截至发稿,网易集团没有对外释放更详细的解释公告;但根据目前两个公开解释,结合网易云音乐近期的技术动作,背后的原因也几乎浮现出来。

答案其实还是“省钱”。

但这个“省”并不一定直接指向裁员。而是指网易在技术基建、方案上的省钱;也指网易这家公司在创始人就是唯一决策人的文化基因下,一直贯彻的省钱禀赋。

01

一位大公司的技术人员告诉我们,所谓“业务扩容”,是公司为了应对更多用户或者更大规模的使用需求,在技术上增加或升级服务能力。这是一个相对常规的动作,是一家公司在正常运维过程中需要保障的东西。

简而言之,“业务扩容”对一家技术合格的公司几乎不可能会造成如此严重的问题。

网易集团是目前中国互联网市值前五的上市公司,云音乐也是一家年收入已经达到20亿的上市公司,这意味着,正常“业务扩容”不太可能、也不应该出现这样级别的事故。

网易此次的特殊性在于,它刚刚完成了从杭州到贵州数据中心的迁移。

7月11日,网易云音乐技术团队在程序员社区“稀土掘金”以及自己的公众号都发布了一篇名为《云音乐贵州机房迁移总体方案回顾》(后续简称《迁移方案》)的文章。

通过文章,我们可以看出云音乐整体迁移至贵州机房是一个巨大的系统工程,规模大、难点多、风险大。

上述大公司技术人员向我解释,像贵州机房这种规模的迁移即便完成也可能有很大潜在问题,因为它会让整体稳定性和保障性降低。在这样的设施基础上,一次简单的“业务扩容”就可能让问题大爆发。

换句话说,虽然网易云音乐宕机可能并不发生在迁移过程中,但因为换到了贵州机房,网易很多应用的稳定性至少在短时间内会变得更加脆弱。

既然一次大规模迁移可能带来多次不可预知的问题——不到半年前的3月,网易云音乐也出现过短暂宕机——那为什么一定要迁到贵州?

地理要素是其一,比如贵州一年四季气候凉爽宜人,其喀斯特地貌和洞穴可以为服务器更好降温;而且贵州远离地震带,是很安全的数据储存库。

但对企业来说,更重要的决策原因可能还要回到我们一开始就已经提到的答案:省钱。

根据China Daily的报道,与在东南部沿海地区建立同样的数据中心相比,在贵州可以节省大约58%的电费。1万个标准服务器机架,每年光电费就可以节省1.3亿元。更别提贵州作为大数据产业先行区,提供的政策支持和税收优惠了。

这与想降本增效的大公司一拍即合。

2021年到2022年,腾讯是对“降本增效”最明确的公司,它也是第一个在贵州建立数据中心的大公司。到2022年9月,网易贵安数据中心项目也正式签约,项目规划的标准机架就是1万架。

这意味着,这个项目落地后,网易未来在数据中心的花费上,仅电费就可以节省1.3亿元。

02

省钱换更好的地方无可指摘。但对网易来说,宕机事故的爆发,再往深追溯,其实是另一个问题——技术基建的薄弱。

大规模的数据迁移以及后续的保障是考验一家公司技术底子的时候。在《迁移方案》中,网易技术团队就列出了一系列技术债务;迁移完成后,也反思还存在应用元信息(即“信息标签”)建设不足、应用配置等多个问题。

保障性和稳定性也依然存在漏洞,网易技术团队自己总结:

“尽管在贵州机房迁移中,做了大量的稳定性保障措施,但依赖每个研发对各自负责领域的理解、运维能力。是否能在团队管理、设施管理、服务管理、稳定性管理、架构设计等多方面,探索出一套可持续的长效保障机制?并进行一定的稳定性系统化建设?从而避免点状问题随机发生。”

这个问题暂时无人可以回答,或许在这次事故出现后的复盘里,技术团队可以重提。

不过一家企业技术基建、技术团队管理的问题,归根究底也是它的文化和组织优先级的问题。

一位网易前员工告诉我们,网易并不是个追求技术先进的公司;技术架构可能一开始还行,但后来会因为工期问题,只能继续往上堆垃圾。

另一位从网易跳槽到阿里的员工,对比两家公司的技术基建,也觉得网易在技术投入上过于看重投入产出比,一旦看不到效果就收缩,难有动力长期投入。

网易对技术人才的重视度从招聘上也能看出。不仅平均薪资低于其他大厂,岗位也更少。

一位今年毕业的技术岗位应届生告诉我,在他们理想公司的排序里,字节是首选;阿里和腾讯是优选;快手对新技术很看重,面试体验不错;而京东和网易岗位不多,在校招生中存在感不强。

相比追求技术进步,网易是一家产品文化驱动的公司。这也跟创始人的志趣相关。

创业前两年,网易创始人丁磊还在担任网易的联席首席技术执行官;到2005年底,他仍是网易的首席架构师。此后,你能看到,他的兴趣就从技术转移到了产品,他在逐渐成为网易的“头号产品经理”。

对丁磊来说,产品经理的含义非常广阔。互联网应用、实体商品、游戏,他的好奇心强烈,新点子也源源不断;而这些新点子可以在网易这个王国里完全地被满足、被试验。

游戏赚钱、环境很好的时候,杭州研究院几乎就是丁磊个人兴趣的实验室。这里孵化了多个业务,云音乐、云课堂都是从这里出生,他们独立、壮大,有的甚至上市。

丁磊得到的正反馈越多,就越发肯定自己,他有时对产品经理们说,“我觉得自己的产品能力越来越强了。”

在网易,普通员工与丁磊打交道最多的一类也是产品经理。有员工看到,在丁磊的眼里,技术员工只会跟他说能不能实现,设计的作用是具象化,跟他们讨论都不过瘾,只有产品经理能接住他的理念。

和其他已经实现了更现代化治理的公司相比,网易仍是一家创始人介入深、说了算的公司。这意味着,对技术投入程度基本取决于老板的心态。

年景好的时候,网易也有资金投在数据中台、云服务的建设上,但这个钱不好挣,也没有创造一个产品来得开心和有成就感。年景不好的时候,这都是需要被收缩和优化的项目。

网易员工私下谈论起丁磊,形容他仍是个“宁波小老板”。

一位网易前员工看到,5000元的项目,管理层都得拿着单子亲自找丁磊签字,也得提前准备好答案以防丁老板问起细节。

这种生意人的特点,可以解释丁磊为什么从不投资网易的离职创业者。他在跟吴晓波的一次对谈中,说只相信自己的“商业模式”,只做自己懂、或者感兴趣的事情。

创始人的禀赋让网易在大环境开始变化时,提前就开始应对。2018年后,丁磊就已经陆续开始对“兴趣项目”进行盘点,2022年,整个互联网行业都在省钱,而网易赶在寒流到来之前就完成了大部分的“降本增效”。

回到技术基础设施建设的问题,一位员工抛出自己的观点:“你如果是一个‘乡镇企业家’,会重点投入在生产线升级换代上吗?”

0 阅读:45