hdfs所有文章-最新hdfs相关文章汇总-第7页-HelloWorld开发者社区

•

4年前

这些资料都是我在工作中学习、解决问题的资料汇总，我不能保证这里罗列的所有资料对看到的人有用，但大部分都经过我的实际验证。在不断学习和实践过程中，我会不断更新和总结这些资料，同时欢迎大家留言交流。感谢这些资料的作者。一、HDFS1、集群安装：Hadoop2.6.0HA高可用集群配置详解(https://www.os

Wesley13

•

4年前

ELK学习

　　大型网站遇到性能瓶颈或发生故障时，分析日志往往是发现问题根源最有效的手段。传统的日志分析手段不外乎以下几类:1\.运维人员用脚本grep，分析再汇总2\.通过流式计算引擎,storm/spark实时产生汇总数据，供监控分析3\.将数据堆放到HDFS，之后通过map/reduce定期做批量分析一个完整的集中式日志系统，需要包

Stella981

•

4年前

EMC升级的ViPR进击在大数据

EMC发布了一个更新的ViPR，该公司的软件定义的存储管理平台，使企业可选用，从数据方面看，目前驻留在他们的存储系统，没有它转移到专门的系统上。在公开的的文章中，EMC公司的高级软件事业部副总裁ManuvirDas宣布，EMC“加强的ViPR的一个Hadoop分布式文件系统(HDFS)数据服务(https://www.osc

Stella981

•

4年前

Spark2Streaming读Kerberos环境的Kafka并写数据到HDFS

温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github：https://github.com/fayson/cdhproject提示：代码块部分可以左右滑动查看噢1.文档编写目的在前面的文章Fayson介

Stella981

•

4年前

Hadoop完整搭建过程（一）：本地模式

1本地模式本地模式是最简单的模式，所有模块都运行在一个JVM进程中，使用本地文件系统而不是HDFS。本地模式主要是用于本地开发过程中的运行调试用，下载后的Hadoop不需要设置默认就是本地模式。2准备工作笔者喜欢把JDK放在/usr/local下，运行前请确保设置了JAVA_HOME，注

Stella981

•

4年前

MapReduce实现单词统计

开发工具：IDEAmapreduce实现思路：Map阶段：a) 从HDFS的源数据文件中逐行读取数据b) 将每一行数据切分出单词c) 为每一个单词构造一个键值对(单词，1)d) 将键值对发送给reduceReduce阶段：a) 接收map阶段输出的单词键值对b) 将相同单词的键值对汇聚成一组c) 对每

Stella981

•

4年前

Flink的分布式缓存

分布式缓存Flink提供了一个分布式缓存，类似于hadoop，可以使用户在并行函数中很方便的读取本地文件，并把它放在taskmanager节点中，防止task重复拉取。此缓存的工作机制如下：程序注册一个文件或者目录(本地或者远程文件系统，例如hdfs或者s3)，通过ExecutionEnvironment注册缓存文件并为它起一个名称。

Stella981

•

4年前

HBase & MongoDB

1.Mongodbbson文档型数据库，整个数据都存在磁盘中，hbase是列式数据库，集群部署时每个familycolumn保存在单独的hdfs文件中。2.Mongodb主键是“\_id”,主键上面可以不建索引,记录插入的顺序和存放的顺序一样，hbase的主键就是rowkey，可以是任意字符串(最大长度是64KB，实际应用中长度一般为1010

Wesley13

•

4年前

MAPREDUCER学习笔记

MAPREDUCE基本原理一，概念理解　　1，Mapreduce是一个分布式运算程序的编程架构，相对于HDFS来说就是客户端。其核心功能就是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并运行在一个hadoop集群上。　　2，基本整体架构：MEAppMaster，MapTask，R

helloworld_54277843

•

3年前

大数据建模、分析、挖掘技术应用

时间2022年8月5日—2022年8月9日北京（同时转线上直播）（5日报到，6日9日上课）课程第一天一、大数据概述二、大数据处理架构Hadoop三、分布式文件系统HDFS四、分布式数据库HBase第二天五、MapReduce六、Spark七、IPythonNotebook运行PythonSpark程序八、PythonSpark集成开发环境第三