Stella981 Stella981
3年前
Hadoop综合大作业
一、用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。1.启动hadoop!(https://oscimg.oschina.net/oscnet/e6b2225f65c582affaeaf71dd10f801fb98.bmp)2.Hdfs上创建文件夹并查看 !(https://oscimg.oschi
Stella981 Stella981
3年前
Atlas 2.1.0 实践(2)—— 安装Atlas
在完成Atlas编译以后,就可以进行Atlas的安装了。Atlas的安装主要是安装Atlas的Server端,也就Atlas的管理页面,并确保Atlas与KafkaHbaseSolr等组件的集成。Atlas的系统架构如下,在确保底层存储与UI界面正常后,之后就可以进行与Hive等组件的集成调试了。!(https://static.oschi
Stella981 Stella981
3年前
Flink1.10和Hive集成需要注意的点
前几天,Flink官方release了Flink1.10版本,这个版本有很多改动。比如:Flink1.10同时还标志着对Blink的整合宣告完成,随着对Hive的生产级别集成及对TPCDS的全面覆盖,Flink在增强流式SQL处理能力的同时也具备了成熟的批处理能力。本篇博客将对此次版本升级中的主要新特性及优化、值得注意的重要
Stella981 Stella981
3年前
Hadoop 中利用 mapreduce 读写 mysql 数据
有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些pv、uv数据,然后为了实时查询的需求,或者一些OLAP的需求,我们需要mapreduce与mysql进行数据的交互,而这些特性正是hbase或者hive目前亟待改进的地方。好了言归正传,简单的说说背景、原理以及需要注意的地方:1、为了方便MapReduce
Stella981 Stella981
3年前
Apache Hudi重磅RFC解读之记录级别全局索引
1\.摘要Hudi表允许多种类型操作,包括非常常用的upsert,当然为支持upsert,Hudi依赖索引机制来定位记录在哪些文件中。当前Hudi支持分区和非分区的数据集。分区数据集是将一组文件(数据)放在称为分区的桶中的数据集。一个Hudi数据集可能由N个分区和M个文件组成,这种组织结构也非常方便hive/presto/sp
Stella981 Stella981
3年前
Hadoop配置多个HDFS入口
为了验证存在不同的hdfs之间的hive的互操作(归根结底还是为了解决BUG)需要在两个不同的hadoop集群的HDFS 能够在Hiveserver2上进行路由转发绕过一些坑。就需要将某hdfs集群的配置文件改改。。例如hdfssite.xmlEG:<?xmlversion"1.0"encoding"UTF8"?<?
Stella981 Stella981
3年前
Flink1.10和Hive集成一些需要注意的点
前几天,Flink官方release了Flink1.10版本,这个版本有很多改动。比如:Flink1.10同时还标志着对Blink的整合宣告完成,随着对Hive的生产级别集成及对TPCDS的全面覆盖,Flink在增强流式SQL处理能力的同时也具备了成熟的批处理能力。本篇博客将对此次版本升级中的主要新特性及优化、值得注意的重要
Stella981 Stella981
3年前
Kylin使用Spark构建Cube
ApacheKylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBayInc.开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。下面是单机安装采坑记,直接上配置和问题解决。找一台干净的机器,把hadoophivehbase从原有节点分别拷贝一
Stella981 Stella981
3年前
LeetCode 1225. Report Contiguous Dates (MYSQL + hive UDTF版本)
一、原题描述Table: Failed|ColumnName|Type||fail_date|date|
京东云开发者 京东云开发者
2个月前
大数据从业者必知必会的Hive SQL调优技巧
大数据从业者必知必会的HiveSQL调优技巧摘要:在大数据领域中,HiveSQL被广泛应用于数据仓库的数据查询和分析。然而,由于数据量庞大和复杂的查询需求,HiveSQL查询的性能往往不尽人意。本文针对HiveSQL的性能优化进行深入研究,提出了一系列可行