tag

运维

导语:运维可以说是世界上最紧张且强度最大的工作之一,每个杂乱无章的问题背后都需要我们的深入的抽丝剥茧。尤其是当你面对的问题直接与收入业务、海量服务运营挂钩时,可谓是肾上腺素瞬间飙升。压力的存在可能诱发我们犯下低级错误。要克服这种白痴般的本能,就需要强迫自己以有条不紊的方式逐一开展尝试。其实做运维练就

**作者:**潘晓东 企业IT部潘晓东专注于云计算技术,在虚拟化、云计算、服务运维领域有超过十年的工作经验。本文是将其在OpenStack Days China的分享进行整理,内容上从稳定、可控、可运营三个方面,将其在大规模运算环境Tstack运维过程中所积累的经验进行总结分享。 1腾讯私有云Tst

作者:吕越 TDSQL作为金融级数据库,目前已大量应用部署在计平内部,业务伙伴,公有云以及私有云。随着业务增长,线上单一TDSQL集群的实例数最大可到1200+ SET,近3600+ MySQL instance,当初为快速实现监控覆盖的老TDSQL监控面临挑战,运行状况急需改善;同时为提升监控的有

**导读:**2017年8月22日“ODCC 2017开放数据中心峰会”在北京国际会议中心召开,峰会由工信部、发改委指导,百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院和英特尔等均出席了此次论坛,旨在打造中国的数据中心开放平台,推动互联网产业发展和基础设施标准化、产业化进程。与会观众超

摘要 如果说云计算拼的就是运维的话,那么公有云的运维拼的就是容量管理。公有云上容量管理(以下容量管理特指公有云上容量管理)就是要保障有充足的资源可对外售卖,即“有货可卖”。当资源供应不足,用户无法购买需要的云计算资源时,就产生了所谓的“售罄”事件。售罄问题对公有云口碑影响很大,影响用户体验的同时甚至

腾讯社交业务规模庞大,历史悠久,架构复杂。从运维的全局角度来看,无论从运维技术还是监控难度都很大。传统的监控手段和思想已经无法应对如此海量的场景,腾讯织云平台经历多年的迭代改进,在运维监控领域经过了多个建设阶段,通过技术创新,将运维监控技术提升到新的高度,解决了很多海量业务规模下的运维监控难题。 提

互联网时代,大数据扮演着极为重要的角色;腾讯作为中国最大社交平台,具备最具权威、代表性的互联网大数据。数据平台部TDW作为公司级的海量数据存储和计算平台,集中了公司90%以上产品(近400款)的核心数据,覆盖全部BG,积累约4000个开发者,如何保障如此之多的用户安全合理地使用这么丰富珍贵的数据?本

​ 最近有不少质疑大数据的声音,这些质疑有一定的道理,但结论有些以偏概全,应该具体问题具体分析。对大数据的疑问和抗拒往往是因为对其不了解,需要真正了解之后才能得出比较客观的结论。 大数据是一个比较宽泛的概念,它包含大数据存储和大数据计算,其中大数据计算可大致分为计算逻辑相对简单的大数据统计,以及计算

​ 腾讯推荐 “腾讯推荐”是腾讯大数据近期大力打造的开放服务平台,旨在集业务接入、数据上报、算法计算、实时推荐和效果监控于一体,对外提供全自动实时精准推荐服务。 腾讯推荐官网: tuijian.qq.com 推荐是什么?文章中提到的推荐均是指在海量的物品中自动为用户选取到感兴趣或合适的信息。就腾讯新

1Why:Hermes为什么会诞生? 传统的关系型数据库,在大数据面前显得势单力薄,无论数据处理、数据分析上都力不从心。**TDW(腾讯数据仓库,Tencent Data Warehouse)**很好的解决了海量数据的离线处理分析。然而,很多应用场景往往要求在数秒内完成对几亿、几十亿甚至几百上千亿的

Zookeeper作为TDBank系统的一个重要模块,我们运营它已经两年多。在使用过程中,我们也遇到了一些问题及走过很多弯路,本文主要对zookeeper运营经验进分享。 Zookeeper在TDBank中的使用场景 ‍ TDBank主要利用zookeeper实现配置管理、配置更新通知、节点主备容灾

作者介绍:2012年进入腾讯,负责腾讯云数据库平台(CDB)和腾讯云分布式存储平台(CBS)的运维工作,对数据库高可用、数据库调优、分布式存储运维等领域有丰富的经验。 记CBS一次动人心魄的数据保卫战 接触分布式存储已经有一年多的时间了,首次遇到存储侧三份数据都有异常的情况,三份数据异常意味着客户数

作者 :sileng 前言 近年来,机器学习领域取得了突破性的发展,越来越多的应用场景受益于此,也取得突破。机器学习善于解决重复性,有规律的的问题,而运维的某些业务场景也恰是被枯燥的、重复性的工作所堆积。为此作者尝试使用机器学习的方法来解决运维场景下的某些问题,记录此文。 机器学习与平时编程解决问题

引言 服务器出现故障是大家都非常关心的,而服务器由CPU,内存,磁盘,主板,电源等多种部件组成,一定会有一定的失效率。本文介绍服务器失效的特性及一些部件的失效标准,探讨降低服务器失效对业务的影响。 经常会有运维同事说,我刚拿到几周的新上架服务器就出现了故障,为什么这么新的服务器就故障了?那么我们就来

本文转载自CSDN 2017年7月24日~25日,2017 OpenStack Days China官方盛典在北京国家会议中心盛大召开。腾讯技术工程事业群企业IT部总经理刘若潇参加这次会议。刘若潇目前主要负责腾讯内部IT平台环境规划及运营管理,对于腾讯内部IT环境选择、部署和应用OpenStack都