推荐
专栏
教程
课程
飞鹅
本次共找到77条
hdfs
相关的信息
helloworld_61111513
•
2年前
大数据
课程安排 一、大数据概述 二、大数据处理架构Hadoop 三、分布式文件系统HDFS 四、分布式数据库HBase 五、MapReduce 六、Spark 七、IPythonNotebook运行PythonSpark程序 八、PythonSpark集成开发环境 九、PythonSpark决策树二分类与多分类 十、PythonSpark支持向量机 十一
lix_uan
•
2年前
Hadoop调优
HDFS核心参数NameNode,DataNode内存配置查看NameNode,DataNode占用内存shelljpsjmapheap2611jmapheap2744经验shellNameNode最小值1G,每增加100w个block,增加1G内存DataNode最小值4G,副本总数超过400w时,每增加1
Stella981
•
3年前
DataX的过滤器可行性实践
1\.需求说明生产环境中有些数据需要在抽取的时候指定对某个字段进行过滤,判断等等。以将本地文件抽取到HDFS为例,当前我们需要导入的数据有2条,如下:!(https://imgblog.csdnimg.cn/2020101511253711.png?xossprocessimage/watermark,type_
Stella981
•
3年前
Hive内部表和外部表的区别详解
内部表&外部表未被external修饰的是内部表(managedtable),被external修饰的为外部表(externaltable);区别:内部表数据由Hive自身管理,外部表数据由HDFS管理;内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse)
Easter79
•
3年前
Sqoop的安装和配置以及Sqoop的基本操作
一、概述Sqoop是apache旗下一款“Hadoop和关系型数据库服务器之间传送数据”的工具。导入数据:把MySQL,Oracle数据导入到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库mysql等!(http
Stella981
•
3年前
Hadoop 2.7.4 HDFS+YRAN HA删除datanode和nodemanager
当前集群主机名称IP地址角色统一安装目录统一安装用户shtsgmhadoopnn01172.16.101.55namenode,resourcemanager/usr/local/hadoop(软连接)/usr/local/hadoop2.7.4/usr/lo
Stella981
•
3年前
RPC简介与hdfs读过程与写过程简介
1.RPC简介RemoteProcedureCall远程过程调用协议 RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络
Stella981
•
3年前
Spark源码剖析
4. Hadoop相关配置及Executor环境变量的设置4.1 Hadoop相关配置信息默认情况下,Spark使用HDFS作为分布式文件系统,所以需要获取Hadoop相关配置信息的代码如下:!(https://oscimg.oschina.net/
Wesley13
•
3年前
2020年要做的几件大事
“2020年将成体系化技术输出2019年全年“大数据技术与架构”累计发送文章304篇。原创127篇,原创率41.8%。技术方向包含了:实时计算技术方向:Flink、Spark、Kafka等离线计算技术方向:Hive、Hadoop、HDFS、Hbase等语言基础技术方向:
Stella981
•
3年前
Spark中将对象序列化存储到hdfs
废话不多说,直接贴代码了.spark1.4hbase0.98import org.apache.spark.storage.StorageLevelimport scala.collection.JavaConverters._import java.io.Fileimport java.io.FileIn
1
•••
4
5
6
•••
8