Stella981 Stella981
3年前
Hadoop技术资料汇总(不断更新中)
这些资料都是我在工作中学习、解决问题的资料汇总,我不能保证这里罗列的所有资料对看到的人有用,但大部分都经过我的实际验证。在不断学习和实践过程中,我会不断更新和总结这些资料,同时欢迎大家留言交流。感谢这些资料的作者。一、HDFS1、集群安装:Hadoop2.6.0HA高可用集群配置详解(https://www.os
Wesley13 Wesley13
3年前
ELK学习
   大型网站遇到性能瓶颈或发生故障时,分析日志往往是发现问题根源最有效的手段。传统的日志分析手段不外乎以下几类:1\.运维人员用脚本grep,分析再汇总2\.通过流式计算引擎,storm/spark实时产生汇总数据,供监控分析3\.将数据堆放到HDFS,之后通过map/reduce定期做批量分析一个完整的集中式日志系统,需要包
Stella981 Stella981
3年前
EMC升级的ViPR进击在大数据
EMC发布了一个更新的ViPR,该公司的软件定义的存储管理平台,使企业可选用,从数据方面看,目前驻留在他们的存储系统,没有它转移到专门的系统上。在公开的的文章中,EMC公司的高级软件事业部副总裁ManuvirDas宣布,EMC“加强的ViPR的一个Hadoop分布式文件系统(HDFS)数据服务(https://www.osc
Stella981 Stella981
3年前
Spark2Streaming读Kerberos环境的Kafka并写数据到HDFS
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的在前面的文章Fayson介
Stella981 Stella981
3年前
Hadoop完整搭建过程(一):本地模式
1本地模式本地模式是最简单的模式,所有模块都运行在一个JVM进程中,使用本地文件系统而不是HDFS。本地模式主要是用于本地开发过程中的运行调试用,下载后的Hadoop不需要设置默认就是本地模式。2准备工作笔者喜欢把JDK放在/usr/local下,运行前请确保设置了JAVA_HOME,注
Stella981 Stella981
3年前
Hadoop机架感知
倘若世子殿下身死拒北城外会有一断手残脚青年自中原而来拾春秋剑入陆地神仙仰头望天而喊我温不胜在此恭请拓跋菩萨赴死!_订正:__在上篇文中NM类比为部门负责人一段中,段中的RM应为NM,感谢_DN_同学的指正。_1.数据分块HDFS作为Hadoop中的一个分布式文件系统,
Stella981 Stella981
3年前
MapReduce实现单词统计
开发工具:IDEAmapreduce实现思路:Map阶段:a) 从HDFS的源数据文件中逐行读取数据b) 将每一行数据切分出单词c) 为每一个单词构造一个键值对(单词,1)d) 将键值对发送给reduceReduce阶段:a) 接收map阶段输出的单词键值对b) 将相同单词的键值对汇聚成一组c) 对每
Stella981 Stella981
3年前
Flink的分布式缓存
分布式缓存Flink提供了一个分布式缓存,类似于hadoop,可以使用户在并行函数中很方便的读取本地文件,并把它放在taskmanager节点中,防止task重复拉取。此缓存的工作机制如下:程序注册一个文件或者目录(本地或者远程文件系统,例如hdfs或者s3),通过ExecutionEnvironment注册缓存文件并为它起一个名称。
Stella981 Stella981
3年前
HBase & MongoDB
1.Mongodbbson文档型数据库,整个数据都存在磁盘中,hbase是列式数据库,集群部署时每个familycolumn保存在单独的hdfs文件中。2.Mongodb主键是“\_id”,主键上面可以不建索引,记录插入的顺序和存放的顺序一样,hbase的主键就是rowkey,可以是任意字符串(最大长度是64KB,实际应用中长度一般为1010
大数据建模、分析、挖掘技术应用
时间2022年8月5日—2022年8月9日北京(同时转线上直播)(5日报到,6日9日上课)课程第一天一、大数据概述二、大数据处理架构Hadoop三、分布式文件系统HDFS四、分布式数据库HBase第二天五、MapReduce六、Spark七、IPythonNotebook运行PythonSpark程序八、PythonSpark集成开发环境第三