阿里P8面试官都说太详细了,你值得拥有
阿里P8级架构师第九篇:千亿流量高并发高可用分布式系统之数据治理篇阿里P8级架构师第十篇:千亿流量高并发高可用分布式系统之人工智能加成篇数据融合模块1.构建画像模块2.召回策略模块3.排序模型模块ctr预估4.微服务模块5.ABTest模块6.Spark调优模块7.推荐系统落地实践阿里P8级架构师第十一篇:千亿流量高并发高
Wesley13 Wesley13
3年前
Spark核心类:弹性分布式数据集RDD及其转换和操作pyspark.RDD
http://blog.csdn.net/pipisorry/article/details/53257188(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fblog.csdn.net%2Fpipisorry%2Farticle%2Fdetails%2F53257188)弹性分布
Stella981 Stella981
3年前
Spark SQL自定义函数UDF、UDAF聚合函数以及开窗函数的使用
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源!(https://oscimg.oschina.net/oscnet/f78bb7595ba6ab203a22cb8531551d99290.jpg)!(https://oscimg.oschina.net/oscnet/96d818e1932de5c71105
Stella981 Stella981
3年前
Spark Streaming StreamingContext详解+和Receiver详解+updateStateByKey+基于Direct的Kafka数据源
一.StreamingContext详解有两种创建StreamingContext的方式:valconfnewSparkConf().setAppName(appName).setMaster(master);valsscnewStreamingContext(conf,S
Stella981 Stella981
3年前
Spark Streaming 结合 Kafka 两种不同的数据接收方式比较
SparkStreaming结合Kafka两种不同的数据接收方式比较博客分类:sparkDirectKafkaInputDStream只在driver端接收数据,所以继承了InputDStream,是没有receivers的在结合SparkStreaming及Kafka的实时应用中,我们通常使用以下两个API来获
Stella981 Stella981
3年前
Spark2.0机器学习系列之8:多类分类问题(方法归总和分类结果评估)
一对多(OnevsRestclassifier)将只能用于二分问题的分类(如Logistic回归、SVM)方法扩展到多类。参考:http://www.cnblogs.com/CheeseZH/p/5265959.html(https://www.oschina.net/action/G
Wesley13 Wesley13
3年前
Ubuntu16.04 下 Spark2.0.2+Hadoop2.7.3+Zookeeper3.4.9+HBase1.1.7集群环境搭建
接着上篇:https://my.oschina.net/u/988386/blog/802045(https://my.oschina.net/u/988386/blog/802045)上篇安装完成了hadoop,接下来安装zookeeper。安装zookeeper    (2台机器配置基本相同)!/bin/bash
Stella981 Stella981
3年前
Spark2.3(三十七):Stream join Stream(res文件每天更新一份)
kafka测试数据生成:packagecom.dx.kafka;importjava.util.Properties;importjava.util.Random;importorg.apache.kafka.clients.producer.Producer;