灾难恢复

本文约需 2 分钟阅读

灾难恢复 (DR: Disaster Recovery) 是指当 IT 系统因自然灾害、网络攻击、硬件故障等而停止时，根据事先制定的步骤和目标恢复系统的计划与流程的总称。通过 RPO (恢复点目标) 和 RTO (恢复时间目标) 这两个指标来定义恢复级别，从而将对业务的影响降至最低。截至 2025 年，随着基于云的 DRaaS (Disaster Recovery as a Service) 的普及，中小企业也能够以可承受的成本构建 DR 体系。

现场使用案例

“数据中心的空调故障导致服务器机房温度骤升，主要系统紧急关机。我们依据 DR 计划故障转移到 AWS 的另一个区域，相对于 2 小时的 RTO 目标，用 1 小时 40 分钟恢复了全部服务。”

DR 流程

风险评估与 BIA (业务影响分析)

设定 RPO / RTO 并制定恢复策略

构建备份与复制环境

定期实施 DR 演练与测试

故障发生时执行故障转移并确认恢复

与 BCP 的区别

与作为整个经营层面持续战略的业务连续性计划 (BCP)不同，DR 是专注于 IT 系统恢复的技术性计划。BCP 还包括确保备用办公场所、确认员工安危等内容，而 DR 则聚焦于服务器、数据库、网络的恢复步骤。DR 是 BCP 的重要组成部分，将二者协同运用至关重要。DR 计划入门书 (Amazon)可供你系统性地学习。

恢复策略的选择

DR 策略是在成本与恢复速度的权衡中进行选择的。冷站点 (仅准备最低限度的基础设施) 成本低，但恢复需要数天。温站点 (将部分系统保持在运行状态) 可在数小时内恢复。热站点 (将与生产同等的环境实时同步) 可在数分钟内切换，但成本最高。在云环境中，利用 AWS 的 Cross-Region 复制或 Azure Site Recovery 实现的灵活 DR 配置已成为主流。请为每个服务设置唯一且强的密码，以保护 DR 环境的管理控制台，并结合备份策略来构建稳固的恢复体系。云 DR 书籍 (Amazon)也可作为参考。

灾难恢复

现场使用案例

DR 流程

与 BCP 的区别

恢复策略的选择

相关文章

相关术语