随着全面云化时代到来,越来越多政企单位将核心业务迁移上云。这些核心业务对运行环境的性能、可靠性等方面要求较为严苛,尤其是大型数据库、NoSQL数据库、AI训练、游戏渲染等业务场景,对数据读写性能(包括IOPS和时延)提出了较高要求。
作为云服务国家队,天翼云以用户需求为导向,积极推进科技创新与产业融合,基于自研高性能分布式存储引擎LAVA,推出了百万级IOPS云硬盘XSSD,在带宽、时延、IOPS等指标方面,相较极速型SSD、超高IO云硬盘,均提升了2~10倍。云硬盘各规格指标性能如下:
XSSD云硬盘能力再升级
近期,XSSD云硬盘能力再次升级,实现对云硬盘共享功能的支持。共享云硬盘功能通过允许多个云主机并发访问同一个云硬盘,促成多个实例之间的数据共享和协作。
共享云硬盘架构示例
共享云硬盘功能应用场景
高可用数据库 在基于SAN的数据库以及云原生高可用数据库等传统场景中,为保障故障情况下服务的业务连续性,通常采用主备模式配合共享存储来避免单点故障。使用共享云硬盘功能后,当主库故障时,可迅速切换到备库对外提供服务,实例切换后,通过NVMe PR命令释放旧实例对共享存储的写入权限,从而确保数据一致性。
分布式机器学习训练 在分布式机器学习训练中,训练数据通常需要被分发到集群所有节点上,造成带宽浪费并影响训练速度。共享云硬盘功能使得集群中的所有节点都能直接访问共享的存储资源,无需通过网络重复传输数据,为机器学习场景提供了一个高效、可靠的存储解决方案,尤其是针对需要高速且海量数据访问的大模型训练任务,能够显著提升整个集群训练的效率。
产品技术获业界权威认可
天翼云弹性存储创新实验室积极参与到了天翼云XSSD产品的预研工作中,基于XSSD共享盘功能的预研成果撰写了《RESD: High-Performance RDMA-enabled Control Plane for NVMe Shared-Disk Cluster》论文,近日被The 43rd International Performance Computing and Communications Conference (IPCCC 2024) 长文收录。
IPCCC是高性能系统领域较高水平的国际学术会议,也是中国计算机学会CCF推荐的国际会议之一,迄今为止已经成功举办42届,在国内外学术界享有较高声誉和广泛影响力。近两年,IPCCC的论文接收率分别为26%(2023年)、23.9%(2022年)。
此次被收录论文主要介绍了在XSSD共享盘场景下,团队对高性能控制平面的预研与探索,创新性地打造了RESD控制平面,通过实现分布式QoS能力和I/O围栏协议来保证产品的SLO(服务等级目标)和数据一致性。RESD借助One-Sided RDMA操作,实现将QoS令牌操作和NVMe PR指令卸载到RDMA网卡,在保证共享盘QoS准确性与数据一致性的前提下,有效地减少了共享盘控制平面对I/O延迟的影响,降低了服务器负载,增强了整体系统的可扩展性。RESD原型的成功有效地助推了XSSD共享盘功能的技术迭代,为技术选型提供了明确的数据支撑。
RESD QoS 操作流程
天翼云XSSD云硬盘及自研LAVA引擎自上线以来备受行业瞩目。XSSD云硬盘是业内首家通过“信通院百万IOPS”认证的全国产化云硬盘;“极致性能LAVA存储项目”还成功入选2024数博会“优秀科技成果”。
科技创新是发展新质生产力的核心要素,关键核心技术攻关是科技创新的主战场。面向未来,天翼云将秉承国云使命,推进云存储等云计算技术攻关,为千行百业向新提质注入不竭动力。