本文来自腾讯蓝鲸智云社区用户: CanWay

邮件系统作为企业重要的基础应用之一,承载着企业信息传输与存储,是用户每天工作的必备应用。但近来听闻各行业频发运行异常,每次故障都影响一大批用户无法正常工作,也给企业信息安全泄露带来极大压力。尽管邮件系统在企业运营中扮演着举足轻重的角色,但因非核心业务常被忽视。

5月9日,由嘉为蓝鲸产品市场总监冯立亮及汽车金融IT运维经理刘文广带来主题为《从Exchange 谈企业邮件系统运维》的分享,聚焦邮件系统运维难题,围绕系统可用性、轻量邮件安全(SIEM)和成本经济性展开探讨。

背景介绍:实际邮件事故案例

案例1

在这里插入图片描述

案例2

在这里插入图片描述

案例3

在这里插入图片描述

企业邮件系统缺乏运维

以上事件在众多企业经常发生,与邮件系统运维工作不完善有直接关系。经嘉为走访客户后得知,大约 90% 的Exchange管理员在灾难发生之前很少进行规范性维护……为什么?

在当前的大背景下,市场上Exchange专业人员很少,企业无法寻找或自行培养专业的邮件技术专家,大多数邮件管理员往往身兼多职,作为兼职管理员,很难深入钻研邮件系统的技术细节,根本不清楚邮件系统运维的都需要做哪些动作,因此,系统出现问题是难以避免的;

另外,企业邮件恶意事故出现的频率并不算很高,也并非核心业务系统,其重要性往往被忽视;

然而,当邮件事故真正发生时,几乎都是影响一大批用户,企业管理员往往感到力不从心,难以迅速定位并解决,多数临时找寻外部资源支持,这无疑延长了故障解决的时间,引发用户不满和管理员无奈。

在这里插入图片描述

通过以上分析,我们了解到并不是管理员不想运维好邮件系统,而是现实的条件限制了管理员无法抓住邮件系统运维的主要方面,不知应开展哪些运维工作,本方案就是结合企业兼职邮件管理员的特点,为他们提供一套有一定指导性的运维思路和模板。

邮件系统应如何运维?

针对企业邮件系统运维管理难题,本次Exchange邮件运维方案研讨,重点梳理了邮件运维的“运维框架”和“运维模板”两大内容。

在这里插入图片描述

运维框架

建议Exchange邮件系统(或同类邮件系统)的运维工作,围绕邮件系统的运行可用性、轻量邮件安全可控性(SIEM)、系统的成本经济性三大框架进行开展,如下图所示:

在这里插入图片描述

  • 围绕运行可用性开展相关运维工作,可以帮助管理员提升邮件系统的业务连续性,符合SLA要求;
  • 围绕轻量邮件安全可控(SIEM)开展相关运维工作,可以提升邮件系统的安全性,尤其是来自用户侧的安全性;
  • 围绕系统成本经济性开展相关运维工作,可以保证邮件系统尽可能以合理的成本投入来支撑邮件服务。

运维(工作)模板

基于运维框架,具体开展哪些运维工作呢?以下是一些具体的优化建议:

运行可用性

如何保证邮件系统持续可用?可通过运行状态监控、运营告警及处理、故障快速排查、日常巡检、邮件服务SLA等5个方面来保障邮件应用的可用性。

在这里插入图片描述

1、运行状态监控

性能监控:邮件系统运行相关的性能负载

连接性监控:用户连接邮箱的通畅性,包括连接服务、端口、链路状态等

传输性监控:邮件传输是否通畅,包括邮件服务、队列情况、带毒邮件等

数据库监控:邮件数据存储空间、信息存储服务、数据库状态、数据库复制状态等

2、运行告警及处理

整合邮件系统资产/监控/日志等平台数据,并可集成第三方告警源,实现告警集中管控

依托事件中心的聚类、抑制、收敛及屏蔽等告警算法,实现邮件系统精准告警,避免告警潮汐

可融合流程、自动化等功能,自动化或人工干预解决问题,并可扩展ChatGPT智能运维

3、故障快速排查

将邮件系统有关的网络架构、服务状态、网络连通性、性能、告警、日志等信息,集中于同一仪表盘,快速拉通故障时间各组件的健康情况,加快排障效率

Exchange故障处置仪表盘

在这里插入图片描述

在这里插入图片描述

4、日常巡检

日常巡检内容:

服务状态

性能状态

数据库复制

磁盘空间

数据库备份

在这里插入图片描述

日常巡检配置页面

在这里插入图片描述

巡检报告示例

5、邮件服务SLA

统计某一段时间内邮件系统各项服务的SLA水平,与企业SLA要求进行匹配:

在这里插入图片描述

轻量邮件安全可控(SIEM)

通过账号异常登录分析、密码暴力破解监测、账户锁定监测、邮箱创建/禁用审计、敏感邮件筛选/追溯、邮箱活跃度分析等6个方面提升邮件轻量安全性。

在这里插入图片描述

1、账户异常登录分析

IP-用户登录:是否存在同一IP地址,多个用户登录的情况,如果存在:

该IP所有者可能涉嫌登录他人邮箱

有人在他人电脑上登录个人邮箱

用户异地登录监测:是否存在同一用户地址,多个IP地址登录的情况,如果存在:

该用户多IP登录的数量多少,是否合理

大概率每个用户应该不超3个

在这里插入图片描述

2、密码暴力破解监测

登录失败监测:过往一段时间内,是否存在用户多次登录失败的情况,如果存在:

某一个用户输错用户名、密码是合理的

次数过多,可能存在其他用户在尝试暴力破解密码

在这里插入图片描述

3、账户锁定监测

被锁定的用户:统计过往一段时间内,登录失败被锁定的用户:

某一个用户输错用户名、密码是合理的

次数过多,可能存在其他用户在尝试暴力破解密码

4、邮箱创建/禁用审计

新建邮箱:统计在过往一段时间内的新建邮箱:

邮箱数量是否符合员工新增数量

是否存在异常邮箱新增情况

禁用的邮箱:统计在过往一段时间内的禁用的邮箱:

禁用的邮箱是否符合员工离职数量

5、敏感邮件筛选/追溯

按照邮箱、主题、发件人、收件人、发送时间等属性进行邮件批量筛选

可将筛选出来的邮件进行批量移动

如需对邮件执行批量删除,工具会给出批量删除的官方命令,提醒谨慎操作

在这里插入图片描述

6、邮箱活跃度分析

邮箱登录活跃度:展示过往一段时间内,邮箱登录次数最少的用户

在这里插入图片描述

邮箱发送活跃度:展示过往一段时间内,邮箱对外发送邮件数量最少的用户

识别不同人员的邮件繁忙程度

在这里插入图片描述

系统的成本经济性

对Exchange而言,在保证高级别的邮件服务前提下,保持一个合理的资源和成本投入,确保系统的成本经济性,是当前经济严峻形势下企业追求的重要目标。

所以如何控制邮件系统的合理化投入,是一个非常重要的方面,资源分配不足,会导致邮件系统运行缓慢或不正常;资源分配过多,又会造成资源浪费。通过系统架构及资源、Exchange磁盘空间统计、邮箱空间使用分析、邮件收发量统计、资源趋势分析等6方面入手,不断优化系统运行的成本经济性。

在这里插入图片描述

1、系统架构及资源

展示Exchange邮件系统拓扑架构,以及所占用的资源情况

可拓展大屏展示

在这里插入图片描述

2、Exchange磁盘空间统计

磁盘资源不足,会触发Exchange反压机制,导致邮件传输服务暂停,所以资源使用趋势,可以提前预警并解除反压风险。

在这里插入图片描述

3、邮箱空间使用分析

请在此添加图片描述

4、邮件收发量统计

内网用户发送邮件排行:统计过往一段时间内,公司内部发送邮件数量最多的用户:

识别不同人员的邮件繁忙程度;

统计邮件系统一段时间内的负荷。

内网用户接收邮件排行:统计过往一段时间内,公司内部接收邮件数量最多的用户:

识别不同人员的邮件繁忙程度;

统计邮件系统一段时间内的负荷。

可扩展:内网用户发送/接收邮件的数据量排行:

识别不同人员的邮件繁忙程度;

统计邮件系统一段时间内的负荷。

在这里插入图片描述

5、资源趋势分析

组织内邮箱服务器的资源使用情况:

识别一段时间内邮箱服务器的资源占用情况;

分析资源占用的使用情况,全面了解资源占用变化和趋势。

用户经验分享:企业邮件系统运维管理

“邮件系统往往不是关键业务系统,但其实际重要性却通常远高于普通办公系统。”特约嘉宾汽车金融IT运维经理刘文广先生分享时表示,其公司有上百个系统,占据数据存储量最大的是Exchange邮件系统,企业邮件管理面临着邮件系统的数据敏感性、信息安全性、系统可用性、架构经济性等多重挑战。

在这里插入图片描述

针对以上难题,刘文广作出如下经验分享:

难题:数据敏感性

经验:引入邮件归档系统及相应的权限设置,以更安全可控的方式保障邮件的留存

难题:信息安全性

经验:

管理:全员安全意识、定期钓鱼演练、完善应急预案

技术:防毒墙、邮件安全网关、终端安全、对外网邮件的警示(低成本且有效)

难题:系统可用性

经验:

内部当成重要系统进行管理(监控、容量、安全等级等)

引入安全邮件沙箱(手机EMM、零信任SDP等)

难题:架构经济性

经验:

生产数据放高性能全闪服务器,三个月以上数据进行归档削减,并存储在次级硬件上

配额可以不限,但单封邮件收发最好进行限制

Coremail、Winmail、中标麒麟、U-Mail,TurboEx等

总结

在这里插入图片描述

综上所述,本次直播内容涵盖了Exchange运维框架的各个环节,由运维模板的详细解析到运维目标的全面保障,均进行了系统且深入的阐述。旨在为企业在邮件系统运维方面提供一套具有指导意义的思路和模板。当然,邮件系统的运维工作涉及众多复杂且精细的方面,例如数据泄露防护(DLP)、邮件归档管理、海外邮件智能收发策略以及Exchange混合架构配置等,这些在本方案中未能一一详尽阐述,期待后续有机会跟广大朋友交流学习。

文章来源于腾讯云开发者社区,点击查看原文