Atlas架构完善框架的可靠性支柱包括可最大限度地减少停机时间和防止数据丢失的功能和策略。可靠的工作负载能够感知发生的故障,并可以采取高效且通常是自动的动作来重新获得可用性并从数据丢失中恢复。
可靠性基础
以下是设计可靠且有弹性的Atlas部署的基础:
高可用性 (HA):部署在基础架构出现故障时自动进行自我修复的架构。HA 提供自动故障转移,RPO = 0 和 RTO(以秒为单位)。
灾难恢复 (DR):针对自动故障转移无法解决的情况,例如数据损坏或意外删除,使用备份实施手动恢复程序。
业务连续性规划 (BCP):创建一个结合高可用性架构、灾难恢复程序、测试和文档的全面计划,以满足您的 RTO 和 RPO 目标。
定义
恢复时间目标 (RTO)是指在中断后,应用程序恢复并开始提供服务之前可接受的最长停机时间。
恢复点目标 (RPO)是指在服务中断时,您可以承受的最大数据丢失量,以时间单位来衡量。
可用性是衡量系统在需要时可访问和功能正常的可靠性。它通常以百分比形式表示,反映系统在给定时间段内的可用时间占比。示例,可用性的黄金标准通常被认为是 99.999%,或称为“五个9”,这意味着每年大约有 5 分 25 秒的潜在停机时间。
Atlas 可靠性功能概述
Atlas提供以下互补的可靠性方法:
高可用性 - 自动保护
Atlas部署使用具有自动故障转移的副本集,在基础架构故障期间提供持续可用性。每个集群至少部署三个分布在不同可用区的数据库实例。当节点或区域发生故障时,自动故障转移会在几秒钟内完成,并且数据丢失为零(使用 majority写关注(write concern)时)。将部署扩展到多个区域或云提供商,以防止区域或提供商服务中断。
灾难恢复 - 手动保护
备份为自动故障转移无法解决的情况提供保护,例如数据损坏、意外删除或完全部署丢失。Atlas提供具有可配置频率、时间点恢复和多区域分布的完全托管备份。这些需要手动干预才能恢复,但要防止跨所有节点复制的数据完整性问题。
您的综合计划
将这两种方法结合到一个业务连续性计划中,该计划记录了不同故障场景的恢复目标、部署架构、备份策略、测试程序和响应计划。
使用以下 Atlas Architecture Center 资源,了解更多关于 Atlas 可靠性功能和策略的信息:
高可用性
创建满足可用性需求并加快灾难恢复的集群配置。
灾难恢复
使用备份针对数据损坏、意外删除以及自动故障转移解决的情况实现手动恢复。
业务连续性规划
创建一个结合高可用性架构、灾难恢复程序、测试和文档的全面韧性计划。