推荐
专栏
教程
课程
飞鹅
本次共找到162条
spark
相关的信息
Easter79
•
3年前
stage的划分
stage的划分是以shuffle操作作为边界的,遇到一个宽依赖就分一个stage一个Job会被拆分为多组Task,每组任务被称为一个Stage就像MapStage,ReduceStage。Stage的划分在RDD的论文中有详细的介绍,简单的说是以shuffle和result这两种类型来划分。在Spark中有两类task,一类是shuffleMap
Stella981
•
3年前
2019年美团,滴滴,蘑菇街Java大数据面经分享!
!(https://oscimg.oschina.net/oscnet/58bb81b753d849d79b338e10909a65fe.jpg)作者:不清不慎!目前从事Java大数据开发相关的工作,对大数据spark等分布式计算领域有着浓厚的兴趣,欢迎一起交流,一起进步。大概在三月份开始面了几家互联网公司,主要方向是java
Stella981
•
3年前
Apache Flink漏洞复现
简介ApacheFlink是高效和分布式的通用数据处理平台,由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎(简单来说,就是跟spark类似)。Flink具有监控API,可用于查询"正在运行的jobs"和"最近完成的jobs"的状态和统计信息。该监控API被用于Flink自
可莉
•
3年前
2019年美团,滴滴,蘑菇街Java大数据面经分享!
!(https://oscimg.oschina.net/oscnet/58bb81b753d849d79b338e10909a65fe.jpg)作者:不清不慎!目前从事Java大数据开发相关的工作,对大数据spark等分布式计算领域有着浓厚的兴趣,欢迎一起交流,一起进步。大概在三月份开始面了几家互联网公司,主要方向是java
Stella981
•
3年前
Kafka源码系列之Broker的IO服务及业务处理
Kafka源码系列之Broker的IO服务及业务处理一,kafka角色Kafka源码系列主要是以kafka0.8.2.2源码为例。以看spark等源码的经验总结除了一个重要的看源码的思路:先了解部件角色和功能角色,然后逐个功能请求序列画图分析,最后再汇总。那么,下面再啰嗦一下,kafka的角色。kafka在生产中的使用,如下
Stella981
•
3年前
SparkSQL的3种Join实现
引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。对于Spark来说有3中Join的实现,每种Join对应着不同的应用场景:BroadcastHashJoin:适合一张较小的表和一张大表进行joinShuffleHash
Stella981
•
3年前
Spark Streaming的优化之路——从Receiver到Direct模式
!(https://images.xiaozhuanlan.com/photo/2019/cafc8f4ba89da9b75bc4fb3aac6ff80d.jpg) _作者:个推数据研发工程师学长_1业务背景随着大数据的快速发展,业务场景越来越复杂,离线式的批处理框架MapReduce已经不能满足业务,大量的
Easter79
•
3年前
Tachyon 0.7.1伪分布式集群安装与测试
Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,就像Spark和MapReduce那样。通过利用信息继承,内存侵入,Tachyon获得了高性能。Tachyon工作集文件缓存在内存中,并且让不同的Jobs/Queries以及框架都能内存的速度来访问缓存文件。因此,Tachyon可以减少那些需要经常使用的数据集通过
helloworld_54277843
•
2年前
大数据建模、分析、挖掘技术应用
时间2022年8月5日—2022年8月9日北京(同时转线上直播)(5日报到,6日9日上课)课程第一天一、大数据概述二、大数据处理架构Hadoop三、分布式文件系统HDFS四、分布式数据库HBase第二天五、MapReduce六、Spark七、IPythonNotebook运行PythonSpark程序八、PythonSpark集成开发环境第三
1
•••
12
13
14
•••
17