看标题一定会有些歧义, 总觉着是来讨论航运的, 其实是来和大家研讨我厂海量服务器的营运。 出厂诞生之后, 经过物流环节抵达指定数据中心, 移动上架构后通过检测和配置, 再交付应用部门使用,在数据中心恒温恒湿的小波动环境中运行几年后,一台服务器便可以光荣地退休回收,也意味着走完了它的一生。这样安安稳稳的小日子,是每个运营人员梦寐以求的好时光。

然而现实往往是残酷的,腾讯服务器的巨大保有量,诸多的供应厂商和系统体系,广泛分布的数据中心,不同业务的供配时效和SLA要求, 每一个点都对运营的纬度和深度提出新的挑战,也让腾讯服务器运营团队多年来“有机会”去探索和解决“业内无参照”的挑战。今天给大家呈现的是现有运营能力,更多的是探讨未来。

认识腾讯服务器运营的能力,可以从腾讯云的黑石裸金属服务器入手,从一组数据让大家有感性认识:标准型黑石服务器,复用腾讯海量机型的5种服务器机型,可以支持29种操作系统预装(含客户定制操作系统),95%情况下2小时交付,最晚不超过4小时,这满足了大部分客户的配置需求,覆盖了Web接入/缓存/KV/数据存储/大数据计算/数据库等通用场景。

不止于此,另一种是黑石弹性机型服务器,以更灵活的方式提供了27000多种配置组合,2天极速交付,满足客户端自定义的诉求。纵观国内和海外,没有一家云服务商能提供对等的配置种类和交付SLA,黑石对裸金属服务器进行了一次重定义。

下一张图是对黑石服务器交付流程的一个概括,简单而直观,反映了弹性配置机型的整体流程,通过种子机的物理改造和测试验证,确保交付配置的一致性,系统的可靠性和预期的性能。其实标准机型也使用这样一个流程,但是交付的切入点不同而已。对于5类标准机型,进行预购和预检,形成资源池,在客户下单后更新BIOS/BMC配置,并灌装操作系统,最终验证交付。只有这样,4小时以内的交付才有可能。这里要给黑石服务器和背后的运营团队一些掌声,展现了腾讯运营能力,也体现了运营的智慧。

能有这样的交付能力, 得力于多年以来几个关键运营能力的构建:部件标准化使得部件库扁平化,实现部件资产管理和跨厂商集中后备模式;弹性配置体系的构建,让我们拥有了Configuration-To-Order的流程体系,构建了基于部件与系统的质量认证体系;运营自动化打通引入/测试/运营/管控/质量等关键点,实现部件与系统的生命周期管理精细化和高效化,辅以自维保体系的建设,逐步形成设备故障自维保和改造。快速响应和交付效率,始终是运营团队追求的目标。

由于海量的存在,腾讯服务器运营能力站上了一个新的高度,但必须保持自省的态度:我能做得更好么?对现有部件引入流程进行复盘,我们不难发现并非所有部件都能支持灵活配置。例如,GPU和其他一些部件可能需要厂商的深度配合,对系统设计规格需要做工程评估和验证,这完全依赖于厂商的资源,时间和成本不可控,快速响应就无从谈起。由于我们与现有系统供应商之间为简单的供配模式,系统规格和设计黑盒化,对现有采购系统不具备工程化能力。“教育从娃娃抓起”,未来运营的入口,必须从系统设计开始,搭建深度的联合开发模式,确保部件导入时的规格兼容性和验证能力。

通过服务器系统BMC和BIOS的自主实现为例,可以统一运营侧的监管控接口,简化管理封装成本,丰富管控路径。深入系统和部件设计来拓宽采集数据的纬度和颗粒度,有助于精细化的健康管理,也为后端分析平台提供了更有价值的信息。把握系统散热和供电控制设计,利于建立宽泛规格的支持能力。

从服务器系统的设计阶段开始,我们就会融入对于运营的理解,无缝对接运营系统,实现高效交付和后期管理。始于此,而不止于此,新运营的时代正在到来!

文章来源于腾讯云开发者社区,点击查看原文