导读:2017年8月22日“ODCC 2017开放数据中心峰会”在北京国际会议中心召开,峰会由工信部、发改委指导,百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院和英特尔等均出席了此次论坛,旨在打造中国的数据中心开放平台,推动互联网产业发展和基础设施标准化、产业化进程。与会观众超过3000人。
会议公布了ODCC在数据中心领域的最新研究成果并分享了相关的热点话题。以下内容是来自腾讯技术工程事业群网络平台部在现场的主题分享。
本篇文章共3654字,读完大约需6分钟
腾讯服务器实验室工作经验分享
演讲嘉宾:TEG网络平台部 Vizta
本次腾讯服务器实验室分享的三个要点是建设、管理运营、成就。
首先说建设。肯定很多人会好奇我们为什么要建这么一个实验室?
功能一是承载基准测试。简单来说每种服务器引入,腾讯团队先摸个底,再进行投产。
功能二是质量保障。例如近期的一个项目。我们作为终端用户,在早期参与到英特尔新硬件平台研发当中。这个大项目中,我们把质量保障方面的测试项目引进到腾讯实验室里来。
以上两个功能在现有实验室已经满足的情况下,我们扩建实验室的目的实际上就是为了满足现在飞速发展的各种服务器技术和云平台技术的认证。
实验室怎么建?有三个“必须”原则。
一个是真,它必须是非常真实地模拟现网环境。真实的实验室环境是对现网高运营要求的非常有效的保障手段。
二是简,在保证真实的环境情况下我们必须要非常好的控制整个实验室的成本。
最后是全,我们必须尽可能把业界所有先进的技术都拿到实验室来认证,才能对行业有比较全面的了解;如果不全的话,实验室作为技术的前瞻预研机构,就会失去了领先性。
但对中小企业来说,可能接下来要讲的管理运营章节才是比较有价值的东西。
我为什么这么说?因为管理一个实验室就是在,管人,管物,管事,这三个管好了就能把一个很简单的数据中心管起来,这些经验对于在运营自己数据中心的企业会多少有帮助。管理这三个维度我们用了一套系统。这套系统开发者就在隔壁服务器分会场,我们腾讯的服务器管理平台组长王镇。他的演讲是关于现网海量运营系统的开发经验。
这套系统大致有三个部分。线上的资产管理系统、工单系统和测试平台。重点说一下测试平台。这一个我们正在做的项目,通过把自动化的测试用例集合到测试平台里,解决了测试效率的问题。因为整个服务器实验室都是联网的系统,如果有测试平台的话就可以远程进行工具下发并且进行数据回收,自动化流程可以保证用少量的人力来完成这个事情。
最后说一下,腾讯服务器实验室有什么成就。
在质量保障方面,我们有一个工厂预测试项目。所有服务器在服务器厂家出厂之前必须跑上腾讯的工厂预测试的程序,程序开发就是在实验室中进行的;最近英特尔新平台的整机质量认证,实验室部署了三个机柜的新平台机器进行长期压力测试;此外还有一些自研服务器设备也会在实验室里完成测试认证。关于技术孵化的成就,除了高性能虚拟化网卡应用之外,还有液冷服务器,新型存储介质应用等在业界领先的项目。在实验室完成了POC并且已经商用的案例,包括25G以太云主机、云存储池化、海量数据迁移装置等等。
类比云平台,在有限的计算网络存储资源里面要创造更多的服务,就是腾讯硬件实验室最大的价值。
海量服务器监管控最佳实践
演讲嘉宾:TEG网络平台部 王镇
管控平台建设有那么长时间,总结了不少经验和系统设计理念,最想跟大家分享的是:管控平台要提供原子化的底层能力和统一开放的API。所有接口都按照“相互独立,完全穷尽”的设计理念进行设计开发,希望能像微信的开放接口体系一样,定义出基础架构的原子服务接口。
在管控系统中,配置系统必须先行设计,数据在底层采集模块收集后,经过审计进入CMDB。功能模块包括BME基础管控引擎、集成监控Onemonitor和集成告警Onealert,通过统一的API对外服务。除海量的业务系统外,针对云业务的个性化需求,开辟了单独的API接口。
随着自动化程度的不断提高,数据的积累也越来越丰富,大数据智能化的时代也随之来临。从数据的生命周期来看,把数据分为数据生产、数据接入、数据分析和数据应用这四类。业务场景包括:利用率分析、部件审计、备件管理、运营指标、健康度管理等等。
以上是数据平台的模块示意图。数据采集上来之后集中到统一的消息队列kafka,经过数据格式化和清洗,用于实时数据处理模块,数据批量处理模块和数据的出库和入库。数据结果有两个输出,第一个是数据上报的环节,还有一块是内部的应用,包括硬盘故障预测,批次问题分析,温度和能耗管理等。
讲到机器学习和AI,分享三个应用:1)故障告警原因分析。把非明确的告警原因分析出来,翻译成业务看得懂的工单说明,让业务对我们机器有更多的信心。2)硬件故障预测,在全网用得量最多的一款硬盘上,提前30天预测的准确率达到90%,覆盖率达到80%以上。3)健康度管理,通过机器学习,把服务器分不同的维度来对其状态进行等级的划分。
在管控系统建设过程中,遇到不少数据无法采集和不全等问题,我们也跟各个服务器厂商一起推动了多个硬件和FW标准的落地,这个事情不是一蹴而就的,需要在座各位和业界上下游厂商共同努力。如果做成了,绝对是一件功在当代、利在千秋的大事。
如何共建ARM服务器的新生态
演讲嘉宾:TEG网络平台部 王伟
回顾历史,传统云计算的兴起其实是伴随着PC行业的衰落在同步进行的,没有谁前谁后、谁因谁果,是同步的。从2006年,亚马逊发布公有云业务,国内也有很多公有云产品相继进入市场,到了2011年已经明显看到PC发货量下滑,大量的企业对PC的诉求开始向云端迁移。现在我们给大家分享另外一个数据,2009年到2020年智能手机发货量将会在2018/2019年出现新的拐点。可是,我们发现无论是IoT的发展,还是个人对于生活、办公、家庭、设备管理的诉求,都意味着手机端的计算量还在一直增长。但是设备不可能无限增加,每个设备的计算量受限于智能终端的一些因素,比如它的电池,因此终端的计算量是有瓶颈的。再加上终端发货量下降,未来个人手机终端的计算量何去何从?
可以肯定的说是往云端迁移,毋庸置疑,往云端怎么走?可以走传统的CS的模式,一些计算量可以向传统的服务器端迁移,但是会遇到了一些问题。智能手机,无论是苹果、安卓,都是基于ARM的处理器架构,上面运行的是IOS或是安卓,让它的计算量向云端迁移会遇到什么问题呢?
我们熟知,现在传统的服务器都是X86的体系架构,上面运行的Windows也好,Linux也好,跟终端的软硬件环境是不同的。行业有些先行者尝试在X86上运行安卓的模拟器,再去跑智能终端的这些应用,遇到了性能问题。也有些尝试把软件重新编译、重新开发、重新调试,发现工作量更是不可接受的。
这个事情何去何从,我们在探索一个新的方向,使用ARM服务器,运行安卓OS,再运行虚拟机,这样智能终端上的软件应用可以非常简单的向云端迁移。目前我们已经有了高性能的ARM服务器,缺少的是在ARM服务器上运行的原生安卓OS。腾讯云也在这个领域进行了很多尝试,并在腾讯内部业务、云客户做了一些探索。目前腾讯云已经推出了一款ARM的服务器,为企业或个人的智能终端用户提供云计算能力,云端智能手机。现在生态还在建立中,希望行业中的合作伙伴在这方面共同投入。
腾讯在IPOC领域的探索和实践
演讲嘉宾:TEG网络平台部 耿竞一
说到IPOC,它并不是指某一种具体的技术,而是一种方法,一种追求更高效、更灵活、更开放的解决IP在光层传输问题的思路。随着互联网应用和云计算时代的持续爆发,数据业务对数据中心间的互联带宽的诉求在极速增大。以腾讯为例,目前单一城市的城域网带宽总量已经达到了52T,且年增长率超过100%。这意味着城域网带宽建设成本在整个数据中心基础网络交付成本中的占比越来越高;同时,规模越来越庞大、结构越来越复杂的网络,对网络运营团队带来了很多困难与挑战。
所以我们需要一个成本更低、灵活度、开放度更高,可运维、可管理能力更强的传输方案,这就是今天要讨论的IPOC。
相较于传统的OTN传输网络,IPOC网络架构中,将传输设备的电层处理部分直接转移到交换机侧处理,以太网设备通过相干光技术直接发出不同波长的彩光,经由中间的传统传输设备的光层,或者是未来的开放式线路系统,完成光层传输。这样带来几个好处,第一,整个网络结构变得更加简单,为后续基于SDN思想的统一运营提供了可能。第二,由于减少了一次电层处理,所以端到端的转化时间有所降低。第三点是降低了成本。
交换机直出彩光方案目前有几种选择。第一种,CPF2 ACO方案,将DSP芯片集成在核心交换机的业务板卡上,所以该方案无法实现跨厂商交换机的互通。第二种是CFP2 DCO方案,将DSP芯片直接集成在光模块上,这样就解决了跨厂商交换机互通的问题。另外它的集成度更高,功耗更低,但板卡端口密度较低。第三种方案是QSPP28 colorZ,该方案可大幅提升单板卡容量,但其数据传输距离只能做到80公里,且单光纤最大容量只有4T。所以综合几种方案的分析,我们现阶段选择的是第二种方案。并且交换机供应厂商为我们研发了8×200G CFP2 DCO的核心交换机板卡。
腾讯针对基于CFP2 DCO的交换机直出彩光方案制定了相关规范,并在现网中部署了实验局测试环境。期望随着产业链的发展,后续会有性价比更高、开放性更强的方案可以选择,让我们拭目以待。