hdfs所有文章-最新hdfs相关文章汇总-第5页-HelloWorld开发者社区

•

3年前

课程安排一、大数据概述二、大数据处理架构Hadoop 三、分布式文件系统HDFS 四、分布式数据库HBase 五、MapReduce 六、Spark 七、IPythonNotebook运行PythonSpark程序八、PythonSpark集成开发环境九、PythonSpark决策树二分类与多分类十、PythonSpark支持向量机十一

lix_uan

•

3年前

Hadoop调优

HDFS核心参数NameNode,DataNode内存配置查看NameNode,DataNode占用内存shelljpsjmapheap2611jmapheap2744经验shellNameNode最小值1G，每增加100w个block，增加1G内存DataNode最小值4G，副本总数超过400w时，每增加1

Stella981

•

4年前

DataX的过滤器可行性实践

1\.需求说明生产环境中有些数据需要在抽取的时候指定对某个字段进行过滤，判断等等。以将本地文件抽取到HDFS为例，当前我们需要导入的数据有2条，如下：!(https://imgblog.csdnimg.cn/2020101511253711.png?xossprocessimage/watermark,type_

Stella981

•

4年前

Hive内部表和外部表的区别详解

内部表&外部表未被external修饰的是内部表（managedtable），被external修饰的为外部表（externaltable）；区别：内部表数据由Hive自身管理，外部表数据由HDFS管理；内部表数据存储的位置是hive.metastore.warehouse.dir（默认：/user/hive/warehouse）

Stella981

•

4年前

Hadoop 2.7.4 HDFS+YRAN HA删除datanode和nodemanager

当前集群主机名称IP地址角色统一安装目录统一安装用户shtsgmhadoopnn01172.16.101.55namenode,resourcemanager/usr/local/hadoop(软连接)/usr/local/hadoop2.7.4/usr/lo

Stella981

•

4年前

RPC简介与hdfs读过程与写过程简介

1.RPC简介RemoteProcedureCall远程过程调用协议　　RPC——远程过程调用协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发包括网络

Stella981

•

4年前

Spark源码剖析

4. Hadoop相关配置及Executor环境变量的设置4.1 Hadoop相关配置信息默认情况下，Spark使用HDFS作为分布式文件系统，所以需要获取Hadoop相关配置信息的代码如下：!(https://oscimg.oschina.net/

Wesley13

•

4年前

2020年要做的几件大事

“2020年将成体系化技术输出2019年全年“大数据技术与架构”累计发送文章304篇。原创127篇，原创率41.8%。技术方向包含了：实时计算技术方向：Flink、Spark、Kafka等离线计算技术方向：Hive、Hadoop、HDFS、Hbase等语言基础技术方向：

Stella981

•

4年前

Spark中将对象序列化存储到hdfs

废话不多说,直接贴代码了.spark1.4hbase0.98import org.apache.spark.storage.StorageLevelimport scala.collection.JavaConverters._import java.io.Fileimport java.io.FileIn

天翼云开发者社区

•

5个月前

HDFS目录配额（quota）不足导致写文件失败

本文分享自天翼云开发者社区《》，作者：5m问题背景与现象给某目录设置quota后，往目录中写文件失败，出现如下问题“TheDiskSpacequotaof/tmp/tquota2isexceeded”。omm@18939150115client$hdf