近日,由DOIT传媒主办,中国计算机学会信息存储专委会、武汉光电国家研究中心、百易存储研究院支持的2024中国数据与存储峰会在北京召开。此次峰会以“智数据 AI未来”为主题,天翼云科技有限公司国际业务事业部存储产品线专家肖夏敏代表参会,并发表“轻量级存储集群控制器HBlock在智算时代的实践分享”主题演讲,与行业伙伴及客户共同探索智算时代全新的存储解决方案,及其行业应用价值。
天翼云科技有限公司 国际业务事业部存储产品线专家 肖夏敏
国云筑基,智算建设新挑战
近年来,天翼云准确把握人工智能发展机遇,全力打造智算云能力体系,在智算资源方面,规划并建设全国“2+3+7+X”公共智算云池。不过,在智算基础设施建设过程中,天翼云也遇到了诸多挑战。
架构挑战 GPU算力的显著差异和分阶段建设需求,使得硬件组合变得复杂,资源调度管理面临困难。
计算挑战 为了满足巨大的算力需求,必须构建大规模的GPU服务器集群,这对计算存储底座性能提出了极高要求。
网络挑战 随着智算集群的扩展,对高带宽互联的需求日益增长,对通信质量、时延和稳定性的要求也更为严格。
存储挑战 在智算场景中,大模型训练需要高效的数据加载和存储能力,对存储系统的性能和容量提出了前所未有的挑战。 对此,天翼云以存储资源盘活系统HBlock,应对AI时代存储新挑战。
创新自研,智算存储新范式
HBlock是轻量级存储集群控制器,采用纯软件用户态设计,兼容异构非对称环境,实现与其他应用的混合部署,充分利用其绿色、轻量、灵活、共生的特性,打造高可用、高可靠、高性能、高利用的存储底座。
HBlock是业界唯一支持在线直接下载安装的分布式存储产品,一小时内即可完成集群搭建和客户端挂载,支持使用异构通用服务器灵活调整存储集群规模,充分发挥存量硬件的潜力。
HBlock的立体容灾机制,可确保数据副本存储在不同的故障域,即使单个故障域整体损坏,卷数据仍然可读写;支持通过其他故障域进行快速数据重建,确保故障后数据快速恢复;单个故障域可写入多个副本,进一步加强数据可靠性。
HBlock的多存储池机制,可将通用服务器性能提升到极限,卷读写时可将数据先写入SSD组成的高速缓存池中,最终无感存入普通硬盘组成的普通存储池中。在用户有少量SSD和大量HDD资源的场景下,可以为用户提供SSD的写入体验和HDD的存储规模。
HBlock的多存储池机制
HBlock可以与并行文件系统混合部署在同一台服务器上,以最少的节点提供高带宽存储服务,助力AI场景落地,主备秒级切换,任何情况都能确保业务不断。用户使用少量通用服务器即可构建高阶存储集群,平替高端磁盘阵列,降低智算池建设成本。
由此,HBlock建立了自主可控的新型智算存储底座,软件完全自研,硬件兼容各种国产服务器,以各种独创自研技术,为智算时代发展中的各类挑战提供了创新解题思路。
降本增效,智存共生新时代
经过多年的积累和实践,天翼云HBlock已为金融、政务、教育等多个行业提供高效稳定的存储支持。
以某公司的智算资源池项目为例,在原本作为计算节点的GPU服务器中部署HBlock,将其转为存储服务器,支持各种异构国产化通用服务器弹性扩容,同时和并行文件服务(HPFS)混合部署,快速完成智算资源池扩容。该方案精简了智算池整体节点数量,实现降本增效的同时,还助推“双碳”目标落地。
某公司智算资源池项目架构图
随着数字化转型的持续深入,各组织单位的数据量不断扩大,绿色存储技术的价值也将持续凸显。未来,天翼云HBlock将持续在更多领域中落地,进一步为智算基础设施建设、行业智能化升级筑牢存储底座,让企业轻装前行,扬帆远航。