1.
评估目标与准备工作
评估目的:确认网络与电力满足业务SLA与故障恢复要求。
准备清单:SLA、机房拓扑图、PDU/UPS/Gen手册、最近12个月维护与测试记录、承运商名单及合同。
工具准备:笔记本、以太网线、网卡、光纤转接头、手持红外温度计、噪声计、便携式负载仪、笔和相机。
2.
审阅文档与认证
检查资质:Uptime Tier证书/ISO27001/ISO50001等。
审查合同与SLA:带宽、链路冗余、MTTR、故障通报时限与罚则。
查看维护记录:UPS更换电池、发电机测试、传感器校准时间点与结果。
3.
现场外观与环境检查
门禁与安防:核实门禁日志、摄像头覆盖与入侵报警联动。
环境监测:记录温湿度探头位置与报警阈值,使用红外温度计巡检母线和配电柜表面温度。
消防系统:检查气体灭火、烟感联动及年检记录。
4.
电力架构与冗余验证
核对PDU/配电图:确认A/B路独立供电并分布在不同UPS/发电机回路。
冗余等级:确认UPS与发电机为N+1或2N配置,并查看并机切换说明。
电缆与变压器:检查主变压器供应点、ATS(自动转换开关)与燃油存储保障。
5.
UPS与发电机实测流程
UPS能力测试:查SNMP/MIB或UPS面板确认负载率与电池健康,建议进行一次计划性放电测试或负载柜测试(load bank)。
发电机演练:与机房方预约进行熄电演练,观察ATS切换时间、发电机启动时间与频率/电压稳定性。
燃油与维护:核实燃油储量、供应商应急供油协议与最近更换周期。
6.
网络冗余与连通性检查
物理冗余:检查是否存在多条承运商光纤、不同POP入场、设备级双链路与不同交换机/路由器。
BGP/路由策略:查看边界路由器配置、AS号及多宿主策略,确认是否启用BGP多路径与本地优先策略。
互联/对等:核实是否在本地IX或主要云/服务提供商建立对等或直连。
7.
网络性能与故障模拟测试
连通性测试:执行 ping -c 100 <目标IP>、mtr -r -c 100 <目标域名>,记录丢包与跳数。
吞吐与稳定性:使用 iperf3 -c
-t 60 -P 4 测试吞吐,记录抖动与重传率。
故障切换演练:模拟单链路/单交换机故障,观察BGP收敛时间与业务恢复时间。
8.
监控、告警与日志检查
监控覆盖:确认网络设备、UPS、发电机、环境探头都接入NMS并配置阈值告警。
告警路径:测试邮件/SMS/电话告警链路并记录响应时间。
日志保留:核查syslog/UPS/发电机日志保留策略与集中日志分析是否可追溯至事件根因。
9.
评估打分与风险矩阵
制定评分规则:例如文档(10分)、电力冗余(20分)、发电机/UPS测试(20分)、网络冗余(20分)、监控与告警(15分)、演练记录(15分)。
风险矩阵:对每项低/中/高风险给出等级并列出整改建议与优先级。
输出报告:包含发现、证据照片、时间轴与整改截止期。
10.
整改建议与复测计划
短期改进:更换老化电池、补足燃油、修复单点故障链路。
中长期:提升到2N设计、增加第三方承运商接入、引入自动化告警抑制与演练计划。
复测安排:整改完成后30天内进行复测,并保留测试记录以便下次审计。
11.
示例检查清单(可复制执行)
文档:SLA、拓扑图、证书、维护记录(已核对/缺失)。
电力:UPS型号/容量、电池年限、发电机启动时间、燃油天数。
网络:承运商数量、BGP/直连状态、mtr/iperf结果、故障演练记录。
12.
问:如何验证机房发电机的可靠性?
答:安排一次计划性熄电演练:先与机房通知所有相关方,记录ATS切换时间、发电机启动到稳定输出(电压/频率)的时间并用电压表/数据记录器采样;同时检查燃油量、冷却系统与负载能力(建议用负载银行模拟实际负载)。检查日志中是否有启动故障记录并确认维护合同与备件供应时效。
13.
问:如何评估海马来西亚机房的网络冗余是否足够?
答:检查是否存在至少两条独立承运商的物理入场链路、不同路径到核心交换机、边界路由采用多宿主BGP;通过mtr和长期ping收集丢包与时延分布并做故障切换测试(断开一条链路观察路由收敛时间与业务影响),若单点故障导致业务中断即不满足冗余要求。
14.
问:常见高风险点与快速缓解措施有哪些?
答:高风险点包括单电源供电、过期UPS电池、发电机未做全负载测试、单一承运商链路。快速缓解:增加临时发电机燃油储备、调整关键设备到双电源、临时租用第二承运商链路、提升监控告警级别并安排24/7值守直到整改完成。
来源:如何评估海马来西亚机房网络与电力可靠性保障能力