Wesley13 Wesley13
3年前
Vagrant定制个性化CentOS7虚拟机模板
关于虚拟机模板想用vagrant搭建hadoop集群,要完成以下准备工作:1.三个虚拟机实例操作系统都是CentOS7的server版;2.每个实例都要安装同样的应用、关闭防火墙、关闭swap等;今天就来做个模板,用此模板创建好的虚拟机都已经完成了上述操作;关于vagrant的安装和基本操作,请参考《Mac下vagrant从
Stella981 Stella981
3年前
Kylin使用Spark构建Cube
ApacheKylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBayInc.开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。下面是单机安装采坑记,直接上配置和问题解决。找一台干净的机器,把hadoophivehbase从原有节点分别拷贝一
Stella981 Stella981
3年前
Hadoop(CDH)分布式环境搭建(简单易懂,绝对有效)
!(https://oscimg.oschina.net/oscnet/8dd4c5471d48dd364a4763cda6a48d7af12.jpg)(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU3MzgwNT
Stella981 Stella981
3年前
Flink简介
1. Flink的引入这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flin
Stella981 Stella981
3年前
Flink的分布式缓存
分布式缓存Flink提供了一个分布式缓存,类似于hadoop,可以使用户在并行函数中很方便的读取本地文件,并把它放在taskmanager节点中,防止task重复拉取。此缓存的工作机制如下:程序注册一个文件或者目录(本地或者远程文件系统,例如hdfs或者s3),通过ExecutionEnvironment注册缓存文件并为它起一个名称。
Stella981 Stella981
3年前
Hadoop框架:单服务下伪分布式集群搭建
本文源码:GitHub·点这里(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fgithub.com%2Fcicadasmile%2Fbigdataparent)||GitEE·点这里(https://gitee.com/cicadasmile/bigdataparent
Stella981 Stella981
3年前
Hadoop完整搭建过程(四):完全分布模式(服务器)
1概述上一篇文章介绍了如何使用虚拟机搭建集群,到了这篇文章就是实战了,使用真实的三台不同服务器进行Hadoop集群的搭建。具体步骤其实与虚拟机的差不多,但是由于安全组以及端口等等一些列的问题,会与虚拟机有所不同,废话不多说,下面正式开始。2约定Master节点的ip用MasterIP表示,主机名用
Stella981 Stella981
3年前
Hive性能优化(全面)
1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是mapreduce作业初始化的时间是比较长的。sum,
Stella981 Stella981
3年前
Hadoop大数据生态系统及常用组件简介
过多年信息化建设,我们已经进入一个神奇的“大数据”时代,无论是在通讯社交过程中使用的微信、QQ、电话、短信,还是吃喝玩乐时的用到的团购、电商、移动支付,都不断产生海量信息数据,数据和我们的工作生活密不可分、须臾难离。什么是大数据什么是大数据,多大算大,100G算大么?如果是用来存储1080P的高清电影,也就是几部影片的容量。但是如果100G都
大数据建模、分析、挖掘技术应用
时间2022年8月5日—2022年8月9日北京(同时转线上直播)(5日报到,6日9日上课)课程第一天一、大数据概述二、大数据处理架构Hadoop三、分布式文件系统HDFS四、分布式数据库HBase第二天五、MapReduce六、Spark七、IPythonNotebook运行PythonSpark程序八、PythonSpark集成开发环境第三