1.
SLA 基本项目清单与量化指标
(1)可用性(Uptime):通常以月度可用率表示,常见目标为 99.9%、99.95% 或 99.99%。
(2)网络性能:包括最大允许丢包率、平均延迟(ms)和抖动(jitter)。
(3)带宽与吞吐:承诺的带宽上行/下行及峰值处理能力(如 1Gbps 保证)。
(4)故障恢复时间(MTTR):首次响应时间和完全恢复时间的承诺(如 15 分钟响应,4 小时恢复)。
(5)资源配额与部署时间:新实例交付时间、扩容速度、IP 分配时延等量化承诺。
(6)数据保护与备份频率:备份频次、保留周期、恢复点目标(RPO)与恢复时间目标(RTO)。
2.
关于域名、DNS、CDN 与 DDoS 的 SLA 细项
(1)DNS 解析可用性:权责范围、多个任意节点失效时的冗余保证。
(2)CDN 命中率与缓存回源延迟:边缘节点可用率与回源成功率指标。
(3)DDoS 防护 SLA:检测/清洗启动时间(如 5 分钟内)、最大可防护流量(如 500Gbps)。
(4)域名解析修复时间:WHOIS 更改、TTL 生效与域名移转的约定时限。
(5)安全告警与合规性:是否包含日志保留、入侵检测/入侵防护(IDS/IPS)告警时限。
3.
SLA 违约判定规则与监控数据来源
(1)监控来源:运营商监控、客户监控(需提供数据)与第三方监测(如 Pingdom、RIPE Atlas)。
(2)排除项:计划维护窗口、客户配置错误、上游互联网故障等通常被定义为免责情况。
(3)判定周期:以日、周或月为单位统计,通常以月度为准计算可用率。
(4)时间对齐:SLA 计算需指定时区与计时起止(如每月 00:00-24:00)。
(5)证据保留:故障日志、流量抓包、BGP 路由变更记录需保存至少 90 天以支持仲裁。
4.
违约后的处理流程(技术与流程并行)
(1)自动告警与工单:检测到 SLA 异常时自动创建事件工单并通知客户。
(2)紧急响应:按优先级启动应急预案(例如触发 DDoS 清洗、路由切换、资源热迁移)。
(3)故障隔离与缓解:先做短期缓解(流量清洗、回源限流),随后根本修复(补丁、硬件更换)。
(4)证据收集:收集监控截图、网络流量统计、syslog 与恢复时间证明,形成事件报告。
(5)赔偿与 SLA 计算:依据合同中的计算公式发放服务费抵扣或延长服务期,必要时启动争议仲裁。
5.
SLA 赔偿计算示例与分级表
(1)常用计算方式:按月度实际可用率与目标可用率差额换算为月费抵扣,或按阶梯比例赔付。
(2)示例规则(示范性,具体以合同为准):若月可用率 >=99.95% 无赔偿;99.0%-99.95% 赔 10%;95%-99.0% 赔 25%;<99% 赔 50%。
(3)计算公式示例:赔偿额 = 当月应付费用 × 赔偿比例(上限通常为当月费用的 50%)。
(4)示例数据计算:若月费 RM 1,000,月度实际可用率 99.79%,落在 99.0%-99.95%,则赔偿 10% 即 RM 100。
(5)下表给出分级与对应示例赔偿(假设月费 RM 1,000):
| 目标可用率 | 实际可用率范围 | 赔偿比例 | 示例赔偿(RM) |
| 99.95% | >=99.95% | 0% | 0 |
| 99.95% | 99.00% - 99.95% | 10% | 100 |
| 99.95% | 95.00% - 99.00% | 25% | 250 |
| 99.95% | <95.00% | 50% | 500 |
6.
真实案例:马来西亚电商因 DDoS 导致的 SLA 违约与处置
(1)案例背景:2025-08-12,马来西亚某电商 A 公司在促销时段遭遇大流量 DDoS,攻击峰值 220Gbps。
(2)架构与配置示例:A 公司使用托管云实例:4 vCPU、8GB RAM、100GB NVMe、1Gbps 带宽,主机月费 RM 300。
(3)事件经过:流量在 10:02 开始激增,ISP 首轮滤波未果,供应商在 10:10 启动云端清洗,10:40 恢复部分服务,12:00 全部恢复;累计影响服务时间约 118 分钟。
(4)SLA 计算示例:当月总分钟数 43,200,99.95% 允许停机 21.6 分钟,实际停机 118 分钟,超出 96.4 分钟,导致实际可用率约 99.726%(低于 99.95%)。
(5)处理结果:依合同赔付阶梯,该事件落在 99.0%-99.95% 区间,供应商对当月费用按 10% 抵扣,并在后续增加边缘清洗资源与 24x7 快速响应条款作为改进措施。
7.
如何在合同中设计清晰可执行的 SLA 条款(建议)
(1)明确量化指标:用具体数字(百分比、分钟、毫秒、Gbps)而非模糊表述。
(2)定义排除项与维护窗口:列明不可抗力、上游故障等免责情况并给出维护公告规则。
(3)证据与仲裁机制:规定双方认可的监控来源、证据提交期限和第三方仲裁机构。
(4)赔偿上限与替代方案:设定赔偿上限(如不超过当月费用 50%)并可约定免费延长服务时长作为替代。
(5)技术可行性条款:要求演练恢复流程、定期 DDos 压力测试和容量证明(例如清洗带宽不少于 2 倍峰值)。
8.
结论与运维建议
(1)选择供应商时评估历史可用性、清洗能力、网络骨干与本地支持能力。
(2)对于关键业务建议采用多可用区和 CDN + WAF + DDoS 多层防护策略。
(3)签约时把监控与证据提交流程写进合同,避免后续争议。
(4)定期演练故障切换、备份恢复与 DDoS 响应,保持 RTO/RPO 达标。
(5)遇到违约请按流程保留证据、及时提交工单并在合同约定时间内申请赔偿或仲裁。