Stella981 Stella981
3年前
Hadoop压缩
一、Hadoop压缩简介1、hadoop的3个阶段(1)分布式文件系统HDFS(2)分布式编程框架MapReduce(3)yarn框架2、Hadoop数据压缩MR操作过程中进行大量数据传输。压缩技术能够有效的减少底层存储(HDFS)读写字
Wesley13 Wesley13
3年前
Hadoop使用学习笔记(3)
Hadoop使用学习笔记2\.基本MapReduce工作配置与原理(下)我们先用老版本的API编写,下一篇会用新的API,并解释区别:环境配置:提交Job,开发IDE所在机器环境:Windows7,4C8G,IntelliJIDEA15.
Stella981 Stella981
3年前
HBase跨集群表复制
概述A集群HBase中有个表testTableCopy,要将其复制到B集群的HBase中。使用HBase表复制工具./hbaseorg.apache.hadoop.hbase.mapreduce.CopyTableroot@host:/tstar/hbase/bin./hbaseorg.apache.hadoop.hba
Stella981 Stella981
3年前
MapReduce的逻辑切分split与合并combiner
        在之前的博客《MapReduce中shuffle阶段概述及计算任务流程》(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fblog.csdn.net%2Fweixin_44318830%2Farticle%2Fdetails%2F103044135),小菌为大家分享了Ma
Stella981 Stella981
3年前
Hadoop案例(十一)MapReduce的API使用
一学生成绩增强版数据信息!(https://oscimg.oschina.net/oscnet/dff6f4569f0ad0a3d4a5d427f9fb4b27c12.jpg)!(https://oscimg.oschina.net/oscnet/46cebb43ee0bf489f518b38f4d0c
Wesley13 Wesley13
3年前
JAVA并发工具类
一、分而治之fork/join   二叉树  二分查找  快速排序  归并排序  mapreduce  动态规划1、fork/join(工作密取)  RecursiveTask要有返回值  RecursiveAction没有返回值  invoke(同步)  submit(有返回结果异步)  execute(没有返
Stella981 Stella981
3年前
MapReduce之自定义分区器Partitioner
@目录问题引出默认Partitioner分区自定义Partitioner步骤Partition分区案例实操分区总结问题引出要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机归属地不同省份输出到不同文件中(分区)默认Partitioner分区
Stella981 Stella981
3年前
Hadoop大数据平台入门——HDFS和MapReduce
随着硬件水平的不断提高,需要处理数据的大小也越来越大。大家都知道,现在大数据有多火爆,都认为21世纪是大数据的世纪。当然我也想打上时代的便车。所以今天来学习一下大数据存储和处理。随着数据的不断变大,数据的处理就出现了瓶颈:存储容量,读写速率,计算效率等等。google不愧是走在世界前列的大公司,为了处理大数据,google提出了大数据技术,MapRe
Stella981 Stella981
3年前
Monogdb使用 MapReduce进行分组统计查询
/      @param businessNo    @param beginTime 开始时间   @param endTime 结束时间   @param pageNo  页码   @param pageSiz
Stella981 Stella981
3年前
Hadoop_25_MapReduce实现日志清洗程序
1、需求:对web访问日志中的各字段识别切分,去除日志中不合法的记录,根据KPI统计需求,生成各类访问请求过滤数据2、实现代码:a)定义一个bean,用来记录日志数据中的各数据字段!(https://oscimg.oschina.net/oscnet/a73b4b714f5756458cfc0ba674