——一份给“已经上线,但必须稳定活着”的 Exchange 运维指南


一、这份手册解决什么问题?

这不是安装教程,而是上线之后你每天要面对的现实问题

  • 邮件突然发不出去 / 收不到

  • 用户说 Outlook 一直转圈

  • 磁盘莫名其妙快满了

  • 邮件被退回,对方说没收到

  • 老板问:这个系统到底稳不稳?

如果你已经把 Exchange 跑起来了,那这篇就是你真正会用到的内容。


二、Exchange 日常运维必做清单(核心)

✅ 每日 / 每周必看

项目

建议频率

服务状态

每天

磁盘空间

每天

邮件队列

每天

事件查看器

每周

备份状态

每天


1️⃣ 检查 Exchange 服务是否正常

Get-Service *Exchange*

重点关注:

  • MSExchangeTransport

  • MSExchangeMailboxAssistants

  • MSExchangeIS

❗ 有服务停了 ≠ 马上重启
先看 事件日志


2️⃣ 检查邮件队列(非常重要)

Get-Queue

关注点:

  • 队列数量是否持续增长

  • 是否有 Retry 状态

如果队列卡住:

Retry-Queue -Identity 队列ID

3️⃣ 磁盘空间监控(90% 的事故源头)

必须重点关注:

  • 邮箱数据库盘

  • 日志盘(Transaction Log)

Get-MailboxDatabase | fl Name,EdbFilePath,LogFolderPath

⚠️ 日志不清理 = 磁盘爆满 = Exchange 停摆


三、最常见故障场景与排查思路


场景一:能收邮件,发不出去

可能原因(按概率排序)

  1. 运营商封 25 端口

  2. DNS 解析异常

  3. 队列堵塞

  4. SPF / DKIM 配置问题


排查步骤

① 看队列

Get-Queue

如果看到:

451 4.4.0 DNS query failed

👉 DNS 问题


② 测试 SMTP 出口

Test-NetConnection smtp.qq.com -Port 25

不通 → 25 端口被封

解决方案:

  • 改用 587

  • 或找运营商解封


场景二:外部邮件进不来

典型原因

  • MX 记录错误

  • 公网 IP 改了

  • 防火墙端口未放行


快速排查

Get-ReceiveConnector | fl Name,Bindings,RemoteIPRanges

确保:

  • 监听 0.0.0.0:25

  • 没限制外部 IP


场景三:Outlook 一直转圈 / 连接不上

90% 是自动发现问题


检查自动发现

Test-OutlookWebServices -Identity user@company.com

重点看:

  • AutoDiscover

  • EWS


DNS 里必须有:

autodiscover.company.com

场景四:磁盘突然爆满,Exchange 停了

本质原因

日志没被截断


快速止血(临时)

Dismount-Database 数据库名

❗ 仅用于应急,不是长期方案


正确解决方式

  • 确认成功备份

  • 日志才会被自动清理

Get-MailboxDatabase | fl Name,LastFullBackup

四、Exchange 备份与恢复(运维必会)

1️⃣ 正确的备份方式

  • 支持 VSS 的备份工具

  • 必须是 完整备份

文件级复制 = ❌ 错误方式


2️⃣ 单用户邮箱恢复思路

推荐流程:

  1. 还原数据库到恢复模式

  2. 创建 Recovery Database

  3. 导出指定用户邮箱

New-MailboxRestoreRequest

五、垃圾邮件与投递问题排查


1️⃣ 查看邮件投递日志

Get-MessageTrackingLog -Recipients user@company.com -Start (Get-Date).AddDays(-1)

你能看到:

  • 是否收到

  • 是否被拒绝

  • 是否转发成功


2️⃣ 发信进垃圾箱怎么办?

排查顺序:

  1. SPF 是否正确

  2. DKIM 是否生效

  3. 是否被列入黑名单

  4. 是否群发过多


六、Exchange 安全运维(非常重要)

1️⃣ 绝对不要做的事

❌ ECP 暴露公网
❌ 使用弱密码
❌ 长期不打补丁


2️⃣ 必做安全加固

  • 限制 ECP IP

  • 启用强密码策略

  • 关闭旧 TLS

  • 定期审计登录日志


七、推荐的日常运维命令速查表

用途

命令

服务状态

Get-Service *Exchange*

邮件队列

Get-Queue

投递日志

Get-MessageTrackingLog

数据库状态

Get-MailboxDatabase

测试连通

Test-OutlookWebServices


八、Exchange 运维心法(真实经验)

  • Exchange 不怕复杂,怕没人看

  • 磁盘 > CPU > 内存

  • 邮件问题,先看队列

  • 日志问题,先看备份

  • 出事前一定有征兆


九、真实公司运维 Checklist(建议打印)

  • 服务全运行

  • 队列无异常堆积

  • 磁盘空间 > 20%

  • 备份成功

  • 外部收发正常


写在最后

Exchange 是那种:

90% 的时间很安静,
10% 的时间能让你心跳加速

但只要你:

  • 盯住磁盘

  • 盯住队列

  • 盯住备份

它就会是一套非常稳的企业级邮件系统