大数据
课程安排 一、大数据概述 二、大数据处理架构Hadoop 三、分布式文件系统HDFS 四、分布式数据库HBase 五、MapReduce 六、Spark 七、IPythonNotebook运行PythonSpark程序 八、PythonSpark集成开发环境 九、PythonSpark决策树二分类与多分类 十、PythonSpark支持向量机 十一
Stella981 Stella981
3年前
SQL on Hadoop性能对比-Hive、Spark SQL、Impala
1三种语言、三套工具、三个架构不了解SQLonHadoop三驾马车-Hive、SparkSQL、Impala吗?听小编慢慢道来1HiveApacheHive数据仓库软件提供对存储在分布式中的大型数据集的查询和管理,它本
Stella981 Stella981
3年前
Hadoop之搭建完全分布式运行模式
一、过程分析  1、准备3台客户机(关闭防火墙、修改静态ip、主机名称)  2、安装JDK  3、配置环境变量  4、安装Hadoop  5、配置集群  6、单点启动  7、配置ssh免密登录  8、群起并测试集群二、编写集群分发脚本xsync1、scp(securecopy)安全拷贝 
Easter79 Easter79
3年前
SQL on Hadoop性能对比-Hive、Spark SQL、Impala
1三种语言、三套工具、三个架构不了解SQLonHadoop三驾马车-Hive、SparkSQL、Impala吗?听小编慢慢道来1HiveApacheHive数据仓库软件提供对存储在分布式中的大型数据集的查询和管理,它本
Stella981 Stella981
3年前
Hadoop技术资料汇总(不断更新中)
这些资料都是我在工作中学习、解决问题的资料汇总,我不能保证这里罗列的所有资料对看到的人有用,但大部分都经过我的实际验证。在不断学习和实践过程中,我会不断更新和总结这些资料,同时欢迎大家留言交流。感谢这些资料的作者。一、HDFS1、集群安装:Hadoop2.6.0HA高可用集群配置详解(https://www.os
可莉 可莉
3年前
2019年,Hadoop到底是怎么了?
Hadoop太老了,很多人担心它会不会到了明天就已经过时了。目前云驱动数据处理和分析呈上升趋势,我们在本文中来分析下,ApacheHadoop在2019年是否还是一个可选方案。从我第一次使用ApacheHadoop生态系统开始,围绕着“大数据”和“机器学习”两个术语,很多事情已经变得很不一样。在本文中,我们来分析下从那之后发生了什
Stella981 Stella981
3年前
Hadoop、spark、SaaS、PaaS、IaaS、云计算概念区分?
背景一:世界需要更多的计算能力信息技术时代的基石是建立在“计算”之上的。以搜索引擎为例,早期的搜索引擎是人工分类索引的,类似黄页,但是随着网站数量的增多,人工索引的工作量变得巨大,而且更新时效低得难以忍受了。后来的一波搜索引擎都采用了由计算机算法自动索引,查找相关文档,并排序展示的方式。这种方式就导致了对计算能力的巨大需求,类似的趋势出现在多种技术领域,
Stella981 Stella981
3年前
Kettle构建Hadoop ETL实践(一):ETL与Kettle
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源!(https://oscimg.oschina.net/oscnet/c89e158d10cd4b32aa814d82441219a9.jpg)!(https://oscimg.oschina.net/oscnet/5e8f53277a9c4e51
Stella981 Stella981
3年前
2019年,Hadoop到底是怎么了?
Hadoop太老了,很多人担心它会不会到了明天就已经过时了。目前云驱动数据处理和分析呈上升趋势,我们在本文中来分析下,ApacheHadoop在2019年是否还是一个可选方案。从我第一次使用ApacheHadoop生态系统开始,围绕着“大数据”和“机器学习”两个术语,很多事情已经变得很不一样。在本文中,我们来分析下从那之后发生了什
Stella981 Stella981
3年前
Scala进阶:扩大内部类作用域的两种方式:伴生对象、类型投影
内部类初始用户,内部类的作用域属于:外部类对象,不同外部类对象中的内部类对象类型不同会报错typemismatch。实例代码:注意:    定义了一个外部类Person 和一个内部类Studentpackagecom.hadoop.ljs.spark.study主函数:这里person2对象里面的