Stella981 Stella981
3年前
GaussDB(for MySQL)如何在存储架构设计上做到高可靠、高可用
摘要:GaussDB(forMySQL)通过ND算子下推解决存储节点和计算节点之间的传输速度,减少网络开销这个难题。数据库作为高效稳定处理海量数据交易/分析的坚强数据底座,底层架构设计的重要性不言而喻。以当前主流的存算分离架构为例,如何提高存储节点和计算节点之间的传输速度,减少网络开销非常关键,GaussDB(forMySQL)
风险洞察之事件总线的探索与演进
作者:京东科技刘红申一、事件总线介绍事件总线,或称其为数据管道,作为整个风险洞察数据流转的重要一环,它承担着风险实时数据统一标准化的重要职责。在面对复杂多样的上游数据,事件总线可以将复杂数据进行解析、转换,富化、分发等操作。底层核心算子抽象为source、
Stella981 Stella981
3年前
Flink SQL 核心解密 —— 提升吞吐的利器 MicroBatch
之前我们在FlinkSQL中支持了MiniBatch,在支持高吞吐场景发挥了重要作用。今年我们在FlinkSQL性能优化中一项重要的改进就是升级了微批模型,我们称之为MicroBatch,也叫MiniBatch2.0。在设计和实现Flink的流计算算子时,我们一般会把“面向状态编程”作为第一准则。因为在流计算中,为了保证状态(St
Stella981 Stella981
3年前
Flink 双流 Join 的3种操作示例
在数据库中的静态表上做OLAP分析时,两表join是非常常见的操作。同理,在流式处理作业中,有时也需要在两条流上做join以获得更丰富的信息。FlinkDataStreamAPI为用户提供了3个算子来实现双流join,分别是:join()coGroup()intervalJoin()本文举例说明它们的使
Easter79 Easter79
3年前
Tensorflow源码解析1
1主流深度学习框架对比当今的软件开发基本都是分层化和模块化的,应用层开发会基于框架层。比如开发LinuxDriver会基于Linuxkernel,开发Androidapp会基于AndroidFramework。深度学习也不例外,框架层为上层模型开发提供了强大的多语言接口、稳定的运行时、高效的算子,以及完
Easter79 Easter79
3年前
TiDB 2.0 RC1 Release
2018年3月9日,TiDB发布2.0RC1版。该版本在上一版的基础上,对MySQL兼容性、系统稳定性和优化器做了很多改进。TiDB支持限制单条SQL语句使用内存的大小,减少程序OOM风险支持下推流式聚合算子到TiKV支持配置文件的合法性检测
Stella981 Stella981
3年前
Flink 网络传输优化技术
作为工业级的流计算框架,Flink被设计为可以每天处理TB甚至PB级别的数据,所以如何高吞吐低延迟并且可靠地在算子间传输数据是一个非常重要的课题。此外,Flink的数据传输还需要支持框架本身的特性,例如反压和用于测量延迟的latencymarker。在社区不断的迭代中,Flink逐渐积累了一套值得研究的网络栈(NetworkStack),
Easter79 Easter79
3年前
TiDB 源码阅读系列文章(七)基于规则的优化
作者:毛康力在TiDB里面,SQL优化的过程可以分为逻辑优化和物理优化两个部分。逻辑优化主要是基于规则的优化,简称RBO(rulebasedoptimization)。物理优化会为逻辑查询计划中的算子选择某个具体的实现,需要用到一些统计信息,决定哪一种方式代价最低,所以是基于代价的优化CBO(costbasedoptimizatio
Stella981 Stella981
3年前
Python+OpenCV图像处理(十三)—— Canny边缘检测
简介:1.Canny边缘检测(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fbaike.baidu.com%2Fitem%2F%25E8%25BE%25B9%25E7%25BC%2598%25E6%25A3%2580%25E6%25B5%258B)算子是JohnF.Canny于
Easter79 Easter79
3年前
TensorFlow分布式实践
大数据时代,基于单机的建模很难满足企业不断增长的数据量级的需求,开发者需要使用分布式的开发方式,在集群上进行建模。而单机和分布式的开发代码有一定的区别,本文就将为开发者们介绍,基于TensorFlow进行分布式开发的两种方式,帮助开发者在实践的过程中,更好地选择模块的开发方向。基于TensorFlow原生的分布式开发分布式开发会涉及到更新梯度