HTAP 的前世今生

helloworld_75860873
• 阅读 453

OLTP和OLAP由于侧重点不同,对数据库和软硬件系统的要求也不同。

当投资有限,无法兼顾时,会有适当的取舍,比如OLTP系统。容量不是第一需求。如果条件允许,磁盘最快,容量小一点也没关系。绝大多数OLTP系统的数据都在100TP以下,甚至有些企业的核心系统为了高性能都控制在10TB以下。

但是OLAP系统会有巨大的体量,100TB只是个开始,PB级的系统随处可见。这个时候,追求盘速就有点太难了。

有了这样的需求,相应的产品自然就诞生了。OLTP领域,由于一般是企业的核心数据,数据库会进一步向高稳定、高并发、高可靠的方向推进,企业的投入会更大。Oracle和Mysql在这个领域基本占优。

相对来说,OLAP领域的空间更大,选择因素也会更多样。有些是通过海量数据预处理快速生成报表,有些是使用大量硬件进行并发处理的MPP数据库。当然,Hadoop也是一种OLAP应用,使用大量集群处理海量数据。

然而,没有什么是绝对的。

我们可能会发现一个100%的OLAP系统,它只处理OLAP的要求,但我们很难说OLTP系统是100%的OLTP。因为,任何一个业务系统,到了一定阶段,都会有一个简单的子系统来处理即时报表。

更有甚者,一些商家带来了大量的统计查询。比如为了索要手机号实名登记制度,甚至控制一人多个号的发生。

一个人新开一个手机号,首先需要统计身份证下全国的电话号码数量,还需要查看之前的号码是否欠费,等等。在我的印象中,曾经有一个用户认证过程,包括多达40+次的验证。

更不用说,还有大量新兴企业,还在快速积累和拓展市场,没有时间和精力去构建企业级的数据仓库系统。

就像我们每次去吃西餐,都会发现面前摆着几把叉子和勺子。大多数人分不清沙拉用哪把叉子。哪个叉子切牛排?西式礼仪固然重要,但很多时候,我们吃西式简餐,还是用刀叉吃全过程。

因为刚才提到的场景并不少见,这就在OLAP和OLTP之间产生了一个灰色区域,以及如何处理它。架构师一般倾向于寻找一个平衡点,将OLTP和OLAP拆分,这将有利于未来整个企业架构,使其更加清晰和可持续。

但是从业务的角度,我希望用最简单的方式直接解决这些即时的分析需求。因此,HTAP应运而生。

在这个过程中,有一个小插曲,因为我们一直说某个数据库适合OLTP,某个数据库适合OLAP。自然会有OLTP数据库和OLAP数据库。这个时候有些数据库也会说我的数据库可以同时支持OLTP和OLAP,所以我们的数据库是HTAP。

当然这个题目是可以理解的,在投入充足的前提下是完全可行的。这个我们后面还会描述,但是目前业界已经确立的HTAP概念仍然是在同一个应用中使用内存技术实现OLTP和OLAP并行的技术。

点赞
收藏
评论区
推荐文章
艾木酱 艾木酱
3年前
HTAP数据库调研
1.HTAP数据库背景及现状1.1起源大型实时分析应用的逐渐流行(实时库存/定价、欺诈检测,风险分析,物联网等);这些系统需要一个分布式的数据管理系统,要求能处理高并发的TP请求,同时支持对近期的数据进行分析;有些应用甚至会在TP请求中进行AP操作;Gartner:即有事务又支持分析的系统叫HTAP;实时分析:指的是实时交易过程中的分析需求,
徐小夕 徐小夕
3年前
如果进阿里前端,代码能力得达到什么程度?
笔者身边有很多在阿里不同部门的朋友,也曾经被面试过阿里,也面试过很多求职者,这里笔者通过自身经验,来谈谈如何面进大厂(比如阿里).为了保证回答的逻辑性和堵有所获,我将按照以下3点来谈前端如何才能进大厂(阿里):阿里不同部门的技术和要求大厂喜欢的求职者需求具备哪些能力和潜质如何打造程序员的职场核心竞争力首先像阿里,字
Stella981 Stella981
3年前
HBase生产环境优化不完全指南
HBase使用定位:大规模数据高并发毫秒级响应的OLTP实时系统(数据库)。集群部署架构HBase集群一旦部署使用,再想对其作出调整需要付出惨痛代价,所以如何部署HBase集群是使用的第一个关键步骤。以下是HBase集群使用以来的部署架构变化以及对应的分析。第一阶段硬件混合型软件混合型集群集群规模:20
Wesley13 Wesley13
3年前
(绝对有用)iOS获取UUID,并使用keychain存储
UDID被弃用,使用UUID来作为设备的唯一标识。获取到UUID后,如果用NSUserDefaults存储,当程序被卸载后重装时,再获得的UUID和之前就不同了。使用keychain存储可以保证程序卸载重装时,UUID不变。但当刷机或者升级系统后,UUID还是会改变的。但这仍是目前为止最佳的解决办法了,如果有更好的解决办法,欢迎留言。(我整理的解决办法的参
Wesley13 Wesley13
3年前
MongoDB分片介绍
本文简单介绍MongoDB的分片功能,对分片进行了概述,具体的功能详解,后续文章会陆续推出分片是把数据分配到多个服务器上的一种方式,MongoDB使用分片实现大数据部署以及高吞吐操作。大数据以及高吞吐量的应用会对单个服务器的容量造成很大的挑战。比如,高频率的查询操作会消耗服务器的CPU,如果数据集大于系统的RAM容量,也会对硬盘的性能造成影响。应
Stella981 Stella981
3年前
FastCFS核心组件及访问方式
  FastCFS是一款可以跑数据库的轻量级分布式存储系统,她为数据库和云平台提供后端存储,保证数据强一致性,解决大容量数据存储问题,做到了高可靠、高可用、高性能以及高扩展性。  FastCFS服务端两个核心组件是FastStore和FastDIR。FastStore是基于块存储的分布式数据存储服务,其文件block大小为4MB,
Wesley13 Wesley13
3年前
OLAP数仓入门:基础篇
文章作者:温正湖网易易数内容来源:数据库内核@知乎专栏导读:近七年在网易杭研一直从事数据库相关的开发工作,主要是MySQL和MongoDB这两种数据库,去年开始涉及图数据库Neo4J。上述几种,都可认为是OLTP类数据处理,由于工作需要,需要调研学习OLAP技术和相关系统,本文开始逐步进行第一轮总结,很多东西还只是片面理解,权当做个笔记。
Wesley13 Wesley13
3年前
DD镜像和E01镜像的主要区别
DD镜像是目前被最广泛使用的一种镜像格式,也称成原始格式(RAWImage)。DD镜像的优点是兼容性强,目前所有磁盘镜像和分析工具都支持DD格式。此外,由于没有压缩,镜像速度较快。DD镜像最主要的问题就是非压缩格式,镜像文件与原始证据磁盘容量完全一致。即便原始证据磁盘仅有很少的数据,也一样需要同样的磁盘容量。很显然,解决DD镜像容量大问题最好的方法就是采用
万字好文:大报文问题实战 | 京东物流技术团队
大报文问题,在京东物流内较少出现,但每次出现往往是大事故,甚至导致上下游多个系统故障。大报文的背后,是不同商家业务体量不同,特别是B端业务的采购及销售出库单,一些头部商家对京东系统支持业务复杂度及容量能力的要求越来越高。因此我们有必要把这个问题重视起来,从组织上根本上解决。
京东云开发者 京东云开发者
8个月前
营销权益平台春晚技术探究| 京东云技术团队
一、引言在当前快速发展的互联网环境中,许多企业和服务都面临着高并发场景的挑战。随着用户规模不断增长,对于同一时间内大量用户请求的处理能力、系统性能、稳定性和容错性的要求也日益提高。高并发场景对系统架构设计、数据库设计、缓存策略、自动化运维、安全防护、成本、