Exchange 日常运维与故障排查手册
——一份给“已经上线,但必须稳定活着”的 Exchange 运维指南
一、这份手册解决什么问题?
这不是安装教程,而是上线之后你每天要面对的现实问题:
邮件突然发不出去 / 收不到
用户说 Outlook 一直转圈
磁盘莫名其妙快满了
邮件被退回,对方说没收到
老板问:这个系统到底稳不稳?
如果你已经把 Exchange 跑起来了,那这篇就是你真正会用到的内容。
二、Exchange 日常运维必做清单(核心)
✅ 每日 / 每周必看
1️⃣ 检查 Exchange 服务是否正常
Get-Service *Exchange*
重点关注:
MSExchangeTransport
MSExchangeMailboxAssistants
MSExchangeIS
❗ 有服务停了 ≠ 马上重启
先看 事件日志
2️⃣ 检查邮件队列(非常重要)
Get-Queue
关注点:
队列数量是否持续增长
是否有
Retry状态
如果队列卡住:
Retry-Queue -Identity 队列ID
3️⃣ 磁盘空间监控(90% 的事故源头)
必须重点关注:
邮箱数据库盘
日志盘(Transaction Log)
Get-MailboxDatabase | fl Name,EdbFilePath,LogFolderPath
⚠️ 日志不清理 = 磁盘爆满 = Exchange 停摆
三、最常见故障场景与排查思路
场景一:能收邮件,发不出去
可能原因(按概率排序)
运营商封 25 端口
DNS 解析异常
队列堵塞
SPF / DKIM 配置问题
排查步骤
① 看队列
Get-Queue
如果看到:
451 4.4.0 DNS query failed
👉 DNS 问题
② 测试 SMTP 出口
Test-NetConnection smtp.qq.com -Port 25
不通 → 25 端口被封
解决方案:
改用 587
或找运营商解封
场景二:外部邮件进不来
典型原因
MX 记录错误
公网 IP 改了
防火墙端口未放行
快速排查
Get-ReceiveConnector | fl Name,Bindings,RemoteIPRanges
确保:
监听
0.0.0.0:25没限制外部 IP
场景三:Outlook 一直转圈 / 连接不上
90% 是自动发现问题
检查自动发现
Test-OutlookWebServices -Identity user@company.com
重点看:
AutoDiscover
EWS
DNS 里必须有:
autodiscover.company.com
场景四:磁盘突然爆满,Exchange 停了
本质原因
日志没被截断
快速止血(临时)
Dismount-Database 数据库名
❗ 仅用于应急,不是长期方案
正确解决方式
确认成功备份
日志才会被自动清理
Get-MailboxDatabase | fl Name,LastFullBackup
四、Exchange 备份与恢复(运维必会)
1️⃣ 正确的备份方式
支持 VSS 的备份工具
必须是 完整备份
文件级复制 = ❌ 错误方式
2️⃣ 单用户邮箱恢复思路
推荐流程:
还原数据库到恢复模式
创建 Recovery Database
导出指定用户邮箱
New-MailboxRestoreRequest
五、垃圾邮件与投递问题排查
1️⃣ 查看邮件投递日志
Get-MessageTrackingLog -Recipients user@company.com -Start (Get-Date).AddDays(-1)
你能看到:
是否收到
是否被拒绝
是否转发成功
2️⃣ 发信进垃圾箱怎么办?
排查顺序:
SPF 是否正确
DKIM 是否生效
是否被列入黑名单
是否群发过多
六、Exchange 安全运维(非常重要)
1️⃣ 绝对不要做的事
❌ ECP 暴露公网
❌ 使用弱密码
❌ 长期不打补丁
2️⃣ 必做安全加固
限制 ECP IP
启用强密码策略
关闭旧 TLS
定期审计登录日志
七、推荐的日常运维命令速查表
八、Exchange 运维心法(真实经验)
Exchange 不怕复杂,怕没人看
磁盘 > CPU > 内存
邮件问题,先看队列
日志问题,先看备份
出事前一定有征兆
九、真实公司运维 Checklist(建议打印)
服务全运行
队列无异常堆积
磁盘空间 > 20%
备份成功
外部收发正常
写在最后
Exchange 是那种:
90% 的时间很安静,
10% 的时间能让你心跳加速
但只要你:
盯住磁盘
盯住队列
盯住备份
它就会是一套非常稳的企业级邮件系统。