Stella981 Stella981
3年前
Hive SQL使用过程中的奇怪现象
hive是基于Hadoop的一个数据仓库工具,用来进行数据的ETL,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。HiveSQL是一种类SQL语言,与关系型数据库所支持的SQL语法存在微小的差异。本文对比MySQL和Hive所支持的SQL语法,发现相同的SQL语句在
Stella981 Stella981
3年前
Apache Hudi:说出来你可能不信,你的ETL任务慢如狗
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源!(https://oscimg.oschina.net/oscnet/771be910f34647eba7e47c2baa02652c.jpg)!(https://oscimg.oschina.net/oscnet/957ddc56657b48c8
Wesley13 Wesley13
3年前
Golang处理大数据时使用高效的Pipeline(流水线)执行模型
Golang被证明非常适合并发编程,goroutine比异步编程更易读、优雅、高效。本文提出一个适合由Golang实现的Pipeline执行模型,适合批量处理大量数据(ETL)的情景。想象这样的应用情景:(1)从数据库A(Cassandra)加载用户评论(量巨大,例如10亿条);(2)根据每条评论的用户ID、从数据库B(MySQL)关联用户资
Stella981 Stella981
3年前
PostgreSQL的SQL语句中的双引号引发的问题
最近开发一个WEB的ETL工具需要用到不同的数据源。第一次用POSTGRESQL发现一个双引号引发的问题:标准的SQL是不区分大小写的。但是PostgreSQL对于数据库中对象的名字允许使用支持大小写区分的定义和引用方法。方式就是在DDL中用双引号把希望支持大小的对象名括起来。比如希望创建一个叫AAA的表。如果用CREATETABLEAAA(
Stella981 Stella981
3年前
Flink 中定时加载外部数据
社区中有好几个同学问过这样的场景:  flink任务中,source进来的数据,需要连接数据库里面的字段,再做后面的处理这里假设一个ETL的场景,输入数据包含两个字段“type,userid....”,需要根据type,连接一张mysql的配置表,关联type对应的具体内容。相对于输入数据的数量,type的值是很少的
Stella981 Stella981
3年前
Kafka实战解惑
一、Kafka简介Kafka是LinkedIn使用Scala开发的一个分布式消息中间件,它以水平扩展能力和高吞吐率著称,被广泛用于日志处理、ETL等应用场景。Kafka具有以下主要特点:\\消息的发布、订阅均具有高吞吐量:\\据统计数字表明,Kafka每秒可以生产约25万消息(50MB),每秒处理55万消息(110MB)。