适用场景

  1. 同城容灾,生产中心和灾备中心之间的容灾链路距离≤100km
  2. 要求RPO=0
  3. RTO≈0,部件故障或生产中心故障,能自动切换;
  4. 生产中心和灾备中心之间有裸光纤网络。

RPO:即数据恢复点目标,主要指的是业务系统所能容忍的数据丢失量

RTO:恢复时间目标,主要指的是所能容忍的业务停止服务的最长时间,也就是从灾难发生到业务系统恢复服务功能所需要的最短时间周期

RPO和RTO

存储双活架构选择

  • 双活架构描述

双活数据中心的定义是指两个数据中心共享存储、网络以及服务器资源,两个数据中心同时对外提供服务,整个系统具有业务负载均衡和自动故障切换功能。

存储双活解决的两大核心问题:

  1. 如何在两个数据中心间实现数据实时同步,从而保证异常情况下,零数据丢失(RPO=0)。
  2. 如何实现存储资源的虚拟化,提供可同时被两个数据中心主机访问的存储共享卷,从而实现主机应用集群的跨站点部署,保证异常情况下,应用的自动切换(RTO≈0)。
  • 业界存储双活技术路线

存储业务通常有以下两种实现存储双活方案的架构。

  1. 基于专业的虚拟化存储设备来实现
  2. 基于磁盘阵列的同步复制技术,配合自动化的复制切换软件来实现。
  3. 基于存储系统内的镜像卷双写技术实现,该技术表现看似是两套存储,软件上却属于一套,系统的软件故障容易发生扩散。
  • 存储双活架构对比
方案可靠性数据实时同步技术及性能影响存储卷的双活访问特性方案业务连续性能力弹性可扩展
基于虚拟化存储通常可以在每个站点部署一台或多台全冗余架构的虚拟化存储设备,站点间和站点内都不存在单点故障的风险。采用存储虚拟化设备的卷镜像技术实现两站点间的数据实时同步。两台存储设备上的LUN被虚拟化为一个虚拟的卷,主机写操作通过卷虚拟化镜像技术同时写入这两个存储设备,保持数据实时一致。其中任何一个存储设备故障,虚拟卷仍能提供正常的IO读写能力,主机业务不受影响。待存储设备恢复正常后,存储虚拟化设备将增量数据后台同步到修复的存储设备,整个过程对主机“透明”,不会影响主机业务。基于跨数据中心的双活虚拟化存储平台,提供可供两数据中心主机同时进行读写访问的共享存储卷。主机访问请求由本数据中心所在的虚拟化存储引擎响应,无需跨越同城网络访问另一数据中心的虚拟化存储引擎。同一个共享的存储卷可经过两个数据中心的任意节点被主机访问。其中一个数据中心的虚拟化引擎故障、主机故障,甚至整个站点故障时,都无需对存储进行切换,另一数据中心的虚拟化引擎可继续为主机提供访问。故障修复后,无需中断主机访问即可恢复故障前运行状态。通常可以在每个站点部署一台或多台全冗余架构的虚拟化存储设备。因此,随着业务的增长,方案能够支持引擎的横向扩展,且新增引擎与现有引擎构成一个统一的虚拟化存储集群,提供统一的IO处理能力。
基于磁盘阵列同步复制技术实际上采用的是Stretched架构,即将一台阵列的两个控制器部署在两个站点,每站点内部只有一个控制器,存在单点故障风险。基于磁盘阵列同步复制技术的双活方案是通过建立主存储设备复制到从存储设备的同步复制关系,在从存储设备生成一个实时一致的数据副本来实现的。同步复制对上层主机而言,两个数据中心的存储体现为两个不同的LUN。由于同步复制的从存储设备不能被主机访问,因此,当主站点存储设备发生故障,需要配合上层的自动切换软件实现业务的自动切换。恢复业务需要先切换复制关系,将从存储上的副本变为可读写,并改变主机的存储访问路径,切换时间长。1. 将一台阵列的两个控制器部署在两个数据中心,且两个控制器处于主备模式,备控制器无法被主机访问,只能提供一条备用的存储路径,不是真正的双活。两个数据中心的主机都只能通过访问其中一个控制器来进行IO读写,不仅增长了主机IO的路径,而且增加了主控制器的业务压力,影响系统性能。2. 基于存储间数据实时镜像技术,跨数据中心两套存储阵列配置为双活,部分厂家能提供AA架构的存储层双活,华为HyperMetro双活即是该方案。由于备控制器无法被主机访问,当发生主控制器故障或站点级故障时,需要先切换同步复制关系,再切换主机访问路径,来使存活站点的控制器强行接管故障站点控制器的工作。切换流程复制,部分场景甚至需要手工执行命令来强行切换控制器和访问路径。故障修复后,需要中断业务运行来恢复到故障前状态。通常只支持双控,不具备控制器的横向扩展能力。无法实现存储资源的整合与共享,不能支持弹性可扩展。

为了保证两个数据中心存储的数据实时一致,同步复制与虚拟化卷镜像的写操作都需要等待两端存储同时写成功之后再返回给主机“写成功”。因此,两种架构都将对IO写操作带来一定的时延增加,必须提供低时延的同城网络,以减小对写时延的影响。

针对客户的业务既有SAN又有NAS的情况,业界有以下几种常见的满足方式:

  1. SAN双活和NAS双活分别由两套架构提供,该方式割裂了原有的业务联系,当数据中心级的故障发生时,例如数据中心间链路中断,业务可能按两种仲裁逻辑分别存在两个数据中心,导致业务中断。该方式最常见的是在原SAN双活基础上部署NAS控制器,提供NAS业务。
  2. SAN双活由传统的双活平台提供,而NAS使用非双活方案提供,该方式只有业务的一部分而非全部数据实现双活,并非真正实现双活。
  3. SAN和NAS双活由一套双活平台提供,用户业务可以直接由一套存储平台提供,该方式有两种主要表现形式:
  4. 由一套拉远的存储系统提供,双活两边的写请求均由收到业务请求的控制器完成。
  5. 由两套独立的存储系统提供,两套存储系统自身的写请求由各自独立完成,收到写请求的控制器只负责写自身存储和发送数据至另一套存储系统,并不负责跨存储的数据写入,该方式软件系统更为独立主,软故障不会跨存储系统扩散,可靠性更高。

SAN和NAS双活均有以下3种方案

方案可靠性数据实时镜像技术性能影响弹性可扩展
基于网关设备的双活方案。通常可以在每个站点部署一台或多台全冗余架构的虚拟化存储设备,站点间和站点内都不存在单点故障的风险,但是组网也是最复杂的,组网的复杂性直接导致整个架构更容易发生风险。采用存储虚拟化设备的卷镜像技术实现两站点间的数据实时同步。两台存储设备上的LUN被虚拟化为一个虚拟的卷,主机写操作通过卷虚拟化镜像技术同时写入这两个存储设备,保持数据实时一致。其中任何一个存储设备故障,虚拟卷仍能提供正常的IO读写能力,主机业务不受影响。待存储设备恢复正常后,存储虚拟化设备将增量数据后台同步到修复的存储设备,整个过程对主机“透明”,不会影响主机业务。通常可以在每个站点部署一台或多台全冗余架构的虚拟化存储设备。因此,随着业务的增长,方案能够支持引擎的横向扩展,且新增引擎与现有引擎构成一个统一的虚拟化存储集群,提供统一的IO处理能力。但是该方案存在最大的问题是无法直接复用存储本身的高级特性,例如复制、一体化备份、快照等功能实现方案的直接扩展,通常会在业务发展后期遇到扩展上的难点
基于跨磁盘阵列镜像技术的双活方案。该方案有两种,一种实际上采用的是Stretched架构,即将一台阵列的两个控制器部署在两个站点,每站点内部只有一个控制器,存在单点故障风险。另一种是两套独立的存储系统实现跨站点双活,该方案目前是业界公认的主流的双活架构,华为的HyperMetro方案则是这种方案。基于磁盘阵列同步技术的双活方案是通过建立主存储设备复制到从存储设备的同步复制关系,在从存储设备生成一个实时一致的数据副本来实现的。如果是NAS方案,则有数据镜像实时镜像和配置实时镜像两部分组成。由于业务到存储的路径上没有虚拟化存储设备,缺少一层硬件处理,相对而言,该方案IO路径更短,且能充分利用存储原有的性能优化特性。控制器的横向扩展能力很强,通常是存储控制器自身扩展能力的叠加,例如华为高端存储的HyperMetro方案支持横向扩展为32个控制器,中端存储的HyperMetro也支持16个控制器的扩展能力。另外,该方案支持与存储自身的增值特性叠加满足用户更高级的方案扩展和业务扩展需求,例如,直接对双活系统配置远程复制,可以扩展为两地三中心,而无需借助额外的其它设备和技术实现。
基于存储系统内卷镜像双写技术的双活方案。对于软件故障无法很好隔离,不可见的软件故障容易导致业务宕机,由于控制器无法长距离直接通过SAS接口写后端磁盘,所以要借助相对低速的FC交换设备来延长传输距离,导致组网变得复杂,将整个后端写盘通道暴露于存储设备外部,存在较大风险。由于该方案压力无法均衡,导致单中心的控制器业务压力较大,另一侧控制器则基本处于闲置状态,表表面上看IO处理路径可能更短,但是由于控制器与存储磁盘之间均为专业的高速SAS通道,但SAS传输距离仅数米至十数米远,所以为了实现跨中心的写入,又必须借助相对低速的FC交换设备,导致后端写盘过程暴露在不安全的阵列外部通道。本身也兼容存储自身的存储增值,但是均当成单套存储系统完成特性叠加,整个系统为紧耦合架构,两套存储对外表象相同,无法完成各自独立的特性扩展,但是基本的扩展也是支持的,例如和复制扩展为两地三中心。
最后修改:2021 年 04 月 06 日 05 : 21 PM
请俺喝杯咖啡呗