本文分享自天翼云开发者社区《私有云容灾方案设计浅谈》,作者:y****n
一、背景 在大型企业、金融机构建设私有云时,须考虑私有云各项服务的高可用和容灾/备份方案,防止因单机房故障引发的一系列故障导致业务不可用或整体停服,降低影响范围同时满足监管和等保等安全要求。 二、建设范围 私有云建设内容一般包含几个重点部分: 1.机房建设:通常情况下,容灾设计具备同城双机房,保证业务双活部署或者灾备部署;同时对于重要业务,需要规划异地灾备机房,用于远端冷数据备份。即具备同城双活/灾备和异地备份恢复能力。 2.硬件部署:网络/防火墙设备均采用双机方案,在可用区内部满足双活/主备部署要求;在可用区之间需要支持网络流量的故障切换能力,将用户访问无缝切换至另一可用区;服务器采用集群或双活方案,支持可用区内按照跨柜列、跨机柜的方式满足高可用。 3.数据库:作为核心应用的数据承载层,需要支持可用区之前的数据强同步、可用区内部的主从能力,切支持自动切换;如果采用服务器+SAN存储的部署模式,需要支持备机房的数据自动拉起。 4.云产品:云产品按照容灾属性进行跨可用区或者独立部署,常见容灾能力如下表:
容灾方案设计 私有云整体容灾架构如下:
1.从网络架构上来看 (1)idc通过专线连通,出口侧配置专线接入交换机和专线防火墙,采用主备方式; (2)互联网侧配置互联网接入设备和防火墙,可考虑多个运营商接入pop点。采用主备或者主主方案设置; (3)主备AZ同时接入IDC核心设备并配置大小路由,在主AZ故障后可实现秒级切换,流量引入备AZ; (4)AZ之间也通过专线互联,保证链路时延在1-3ms内,距离不大于几十公里。 2.从应用访问层面,外部用户接入通过全局DNS做选路,解析应用访问至云内;应用系统采用跨AZ双活架构,基于k8s能力进行容灾切换。 3.从数据层来看,数据库需采用可用区内一主多从、可用区之间进行强同步,保证数据一致性。 4.存储层提供同城集群部署方式,将数据打散分片至2个AZ,提供冗余访问;同时远端建设异地灾备机房,将冷数据和数据库备份数据定期异步复制。 5.管控服务在主AZ拉起,备AZ平时不启动,待主AZ故障发生,自动拉起备AZ服务进行切换,管控组件故障不影响云上已创建资源。