hadoop所有文章-最新hadoop相关文章汇总-第16页-HelloWorld开发者社区

Stella981

•

4年前

JindoFS缓存加速数据湖上的机器学习训练

作者：苏昆辉，花名抚月，阿里巴巴计算平台事业部EMR高级工程师,曾就职于华为、网易.ApacheHDFScommitter.对Hadoop、Hbase等有深入研究,对分布式存储、高性能优化有丰富经验.目前从事大数据云化相关工作

Stella981

•

4年前

Hadoop 2.6.0 HA高可用集群配置详解（二）

Zookeeper集群安装Zookeeper是一个开源分布式协调服务，其独特的LeaderFollower集群结构，很好的解决了分布式单点问题。目前主要用于诸如：统一命名服务、配置管理、锁服务、集群管理等场景。大数据应用中主要使用Zookeeper的集群管理功能。本集群使用zookeeper3.4.5cdh5.7.1版本。首先在Hado

Stella981

•

4年前

Shell 中常见的日志统计方法

前面我发布过"Hadoop兮，杀鸡别用牛刀，pythonshell实现一般日志文件的查询、统计(http://my.oschina.net/waterbear/blog/149881)",需要结合python,可能还是有一定的门槛,现将shell部分剥离出来.举例一些最基本的日志统计方法.(1)查看文件more craw

Stella981

•

4年前

Hadoop框架：HDFS简介与Shell管理命令

本文源码：GitHub·点这里(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fgithub.com%2Fcicadasmile%2Fbigdataparent)||GitEE·点这里(https://gitee.com/cicadasmile/bigdataparent

Stella981

•

4年前

Flink(一)集群配置

三台主机centos6已经完成的工作：防火墙已关闭主机名修改完毕，ssh免密登陆配置完成jdk已安装zookeeper已经部署并运行hadoop已经部署并运行版本：flink1.8.2binscala\_2.11上传或下载flink，解压缩

Wesley13

•

4年前

2020年要做的几件大事

“2020年将成体系化技术输出2019年全年“大数据技术与架构”累计发送文章304篇。原创127篇，原创率41.8%。技术方向包含了：实时计算技术方向：Flink、Spark、Kafka等离线计算技术方向：Hive、Hadoop、HDFS、Hbase等语言基础技术方向：

Stella981

•

4年前

Hadoop大数据平台入门——HDFS和MapReduce

随着硬件水平的不断提高，需要处理数据的大小也越来越大。大家都知道，现在大数据有多火爆，都认为21世纪是大数据的世纪。当然我也想打上时代的便车。所以今天来学习一下大数据存储和处理。随着数据的不断变大，数据的处理就出现了瓶颈：存储容量，读写速率，计算效率等等。google不愧是走在世界前列的大公司，为了处理大数据，google提出了大数据技术，MapRe

Stella981

•

4年前

Kettle构建Hadoop ETL实践（二）：安装与配置

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源!(https://oscimg.oschina.net/oscnet/bab3ab8729664e4292cd3d91cf2b98fb.jpg)!(https://oscimg.oschina.net/oscnet/1c9db90b4b05450e