lix_uan lix_uan
2年前
Hadoop调优
HDFS核心参数NameNode,DataNode内存配置查看NameNode,DataNode占用内存shelljpsjmapheap2611jmapheap2744经验shellNameNode最小值1G,每增加100w个block,增加1G内存DataNode最小值4G,副本总数超过400w时,每增加1
Stella981 Stella981
3年前
DataX的过滤器可行性实践
1\.需求说明​生产环境中有些数据需要在抽取的时候指定对某个字段进行过滤,判断等等。以将本地文件抽取到HDFS为例,当前我们需要导入的数据有2条,如下:!(https://imgblog.csdnimg.cn/2020101511253711.png?xossprocessimage/watermark,type_
Stella981 Stella981
3年前
Hive内部表和外部表的区别详解
内部表&外部表未被external修饰的是内部表(managedtable),被external修饰的为外部表(externaltable);区别:内部表数据由Hive自身管理,外部表数据由HDFS管理;内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse)
Wesley13 Wesley13
3年前
linux命令:find命令
http://blog.csdn.net/pipisorry/article/details/39831419(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fblog.csdn.net%2Fpipisorry%2Farticle%2Fdetails%2F39831419)linu
Stella981 Stella981
3年前
Hadoop 2.7.4 HDFS+YRAN HA删除datanode和nodemanager
当前集群主机名称IP地址角色统一安装目录统一安装用户shtsgmhadoopnn01172.16.101.55namenode,resourcemanager/usr/local/hadoop(软连接)/usr/local/hadoop2.7.4/usr/lo
Stella981 Stella981
3年前
RPC简介与hdfs读过程与写过程简介
1.RPC简介RemoteProcedureCall远程过程调用协议  RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络
Stella981 Stella981
3年前
Hive 2、Hive 的安装配置(本地MySql模式)
一、前提条件  安装了Zookeeper、Hadoop HDFS HA 安装方法: http://www.cnblogs.com/raphael5200/p/5154325.html(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fwww.cnblogs.com%2Fraph
Stella981 Stella981
3年前
Spark源码剖析
4. Hadoop相关配置及Executor环境变量的设置4.1 Hadoop相关配置信息默认情况下,Spark使用HDFS作为分布式文件系统,所以需要获取Hadoop相关配置信息的代码如下:!(https://oscimg.oschina.net/
Stella981 Stella981
3年前
Impala的Short
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.HDFS的ShortCircuitLocalReads我们知道读取HDF
Stella981 Stella981
3年前
Spark中将对象序列化存储到hdfs
废话不多说,直接贴代码了.spark1.4hbase0.98import org.apache.spark.storage.StorageLevelimport scala.collection.JavaConverters._import java.io.Fileimport java.io.FileIn