弹性存储关键技术介绍

天翼云开发者社区
• 阅读 117

本文分享自天翼云开发者社区《弹性存储关键技术介绍》,作者:1****m

关键技术: (1)一致性HASH算法,保证数据分片尽量均衡在不同的故障域上,提升存储数据的安全可靠性。 以数据唯一标识符、当前存储集群的拓扑结构以及数据备份策略作为一致性HASH算法的输入,可以随时随地通过计算获取数据所在的底层存储设备并直接通信获取或者写入数据,从而避免查表操作,实现去中心化和高度并发,将数据均衡的存储到各个存储节点,实现数据存储的负载均衡

去中心化以及哈希的数据随机分布,使得弹性存储底座在理论上具备无限的可扩展性

一致性HASH 算法支持数据的多种备份策略,支持可配置副本数,支持存储节点故障域定义与划分,从而使整个系统具备了高可靠性和高可用性。

(2)增加盘级缓存,提升引擎读写性能。为每个存储节点配置两块SSD盘作为读写的cache,极大提升读写性能。 写IO操作时,会先写入SSD cache后即返回写操作,在后台将IO排序重整后,刷入硬盘。读IO时,采用分层机制,优先查找内存cache,其次为SSD cache,采用热点读机制,统计热点访问因子,当达到阈值时,系统会自动缓存数据到SSD中,同时长时间未被访问的数据移出SSD。同时大块Pass Throught机制,缓存更多小IO,提升小IO命中率,提升SSD卡使用寿命。另外,自动均衡读写cache比例,让SSD cache最大程度发挥作用。

(3)三副本/纠删码技术,保证数据多副本高可靠性。 三副本模式,默认将数据分为大小固定的数据块,每一个数据块被复制为三个副本,通过一致性HASH算法将这些副本保证在不同服务器的不同物理磁盘上,保证单个硬件设备的故障不会影响业务。 纠删码模式,将数据分割成片段(数据分片),并计算冗余分片,将数据分片和冗余分片,通过一致性HASH算法存储在不同的位置,比如磁盘、存储节点或者其他可用分区。

(4)数据一致性保证及自动重建技术,及时修复数据副本,进一步提升故障场景下的存储数据的安全可靠。 当应用写入数据时,存储系统会同步对3个副本执行写入数据的操作,并且只有当多个副本的数据都写入完成时,才会向应用返回数据写入成功的响应。

当应用读数据失败时,存储系统会判断错误类型。如果是物理磁盘扇区读取错误,则存储系统会自动从其他节点保存的副本中读取数据,然后在物理磁盘扇区错误的节点上重新写入数据,从而保证数据副本总数不减少以及副本数据一致性。

当存储系统检测到硬件(服务器或者物理磁盘)发生故障时,会自动启动数据修复。由于数据块的副本或分片分散存储在不同的节点上,数据修复时,将会在不同的节点上同时启动数据重建,每个节点上只需重建一小部分数据,多个节点并行工作,有效避免了单个节点重建大量数据所产生的性能瓶颈,将对上层业务的影响做到最小化。

点赞
收藏
评论区
推荐文章
数据存储-大数据的三种存储方式
互联网时代各种存储框架层出不穷,眼花缭乱,比如传统的关系型数据库:Oracle、MySQL;新兴的NoSQL:HBase、Cassandra、Redis;全文检索框架:ES、Solr等。如何为自己的业务选取合适的存储方案,相信大家都思考过这个问题,本文简单聊聊我对Mysql、HBase、ES的理解,希望能和大家一起探讨进步,有不对的地方还请指出。MySQL:
Stella981 Stella981
3年前
Raft 算法在分布式存储系统 Curve 中的实践
作为网易数帆开源的高性能、高可用、高可靠的新一代分布式存储系统,Curve对于多副本数据同步、负载均衡、容灾恢复方面都有较高的要求。网易数帆存储团队选用Raft算法作为Curve底层一致性协议,并基于Raft的特性,实现了异常情况下的数据迁移和自动恢复。本文首先简要介绍一下Raft算法的一些基本概念和术语,再详细介绍其在Curve中的实践。Raft一致性
Stella981 Stella981
3年前
Elasticsearch最佳实践之分片使用优化
本文由云社区发表作者:老生姜一、遇到的问题  与大多数分布式系统一样,Elasticsearch按照一定的Hash规则把用户数据切分成多个分片,然后打散到不同机器进行存储,从而实现大规模数据的分布式存储。!img(https://ask.qcloudimg.com/draft/1640318/ux96q0n0u5.png
Wesley13 Wesley13
3年前
Java之一致性hash算法原理及实现
一致性哈希算法是分布式系统中常用的算法。比如,一个分布式的存储系统,要将数据存储到具体的节点上,如果采用普通的hash方法,将数据映射到具体的节点上,如key%N,key是数据的key,N是机器节点数,如果有一个机器加入或退出这个集群,则所有的数据映射都无效了。一致性哈希算法,解决了普通余数Hash算法伸缩性差的问题,可以保证在上线、下线服务
云存储的实际应用
云存储是一种基于云计算的存储服务,它通过互联网提供数据的存储、备份和处理服务。云存储的发展源于传统存储方式的不足,传统存储方式需要用户自行选择硬件设备、建立存储系统,并进行日常维护和管理,这需要大量的资金和人力投入。而云存储则通过云计算技术,将存储资源进行集中管理和调度,使得用户可以随时随地访问和管理自己的数据,更加灵活和便捷。
Ceph的crush算法与一致性hash对比介绍
一致性hash的基本思想是,有一个hash函数,这个hash函数的值域形成了一个环(收尾相接:thelargesthashvaluewrapsaroundtothesmallesthashvalue),然后存储的节点也通过这个hash函数随机的分配到这个环上,然后某个key具体存储到哪个节点上,是由这个key取hash函数对应到环的一个位置,然后沿着这个位置顺时针找到的第一个节点负责这个key的存储。这样环上的每个节点负责和它前面节点之间的这个区间的数据的存储。
一招致胜!天翼云对象存储攻克数据存、管、用难题!
天翼云对象存储(CTZOS,ZettabyteObjectStorage)是一款海量、弹性、高可靠、高性价比的存储产品,也是专门针对云计算、大数据和非结构化数据的海量存储形态,通过S3协议和标准的服务接口,提供图片、音视频、文本等非结构化数据的云存储服务,助力企业高效应对数据存储挑战。
个推技术 | Hadoop3.0时代,怎么能不懂EC纠删码技术
根据云存储服务商Backblaze发布的2021年硬盘“质量报告”,现有存储硬件设备的可靠性无法完全保证,我们需要在软件层面通过一些机制来实现可靠存储。一个分布式软件的常用设计原则就是面向失效的设计。作为当前广泛流行的分布式文件系统,HDFS需要解决的一个重要问题就是数据的可靠性问题。3.0以前版本的Hadoop在HDFS上只能采用多副本冗余的方式做数据备份
天翼云对象存储ZOS高可用的关键技术揭秘
对象存储是一种将数据作为对象进行管理的网络存储架构,早期常被用于数据备份归档等场景。对象存储是一种将数据作为对象进行管理的网络存储架构,早期常被用于数据备份归档等场景。随着各行业数字化转型深入,非结构化数据呈现爆发式增长,对象存储作为能够提供可大规模扩展且经济高效的存储方案,其应用愈发广泛,逐渐深入政务、金融等客户的核心业务领域,这也对对象存储的可靠性、可用
VictoriaMetrics常见性能问题排查
VM集群由以下子模块组成vmstorage:存储原始数据,并根据指定时间范围和标签过滤条件等返回查询数据集vminsert:接收数据写入,并根据指标名和标签按一致性hash分发至集群中vmstorage节点vmselect:执行查询请求,从数据所在的vmstorage节点获取数据每个模块可以独立扩缩容。其中vmstorage各节点之间不互相通信,属于sharenothing架构。如此可以增加集群可用性,也简化了集群维护、扩容。
天翼云开发者社区
天翼云开发者社区
Lv1
天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。
文章
740
粉丝
16
获赞
40