Stella981 Stella981
3年前
Spark的分区机制的应用及PageRank算法的实现
佩奇排名(PageRank),又称网页排名、谷歌左侧排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(LarryPage)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。概念Sp
Stella981 Stella981
3年前
SparkML(1)环境构建
工欲善其事必先利其器,我们先搭建好我们的开发环境。安装配置好Docker首先,我们需要Docker。毕竟我们的重点并不是在安装配置spark上面,怎么简便,怎么做是最好的啦。不过为了适用尽量多的场景,我们会配置一个单机集群,同时配置Pycharm远程调试。安装Docker的步骤,网上已经有很多了,我们这里贴一个基于Cent
Stella981 Stella981
3年前
Spark1.6.0 on Hadoop2.6.0单机伪分布式安装
1、Scala安装(1)解压文件ubuntu@Ubuntu:~$ sudo tar zxvf scala2.10.4.gz C /opt !(https://oscimg.oschina.net/oscnet/5fc13090fea3cd9b3e6829d482a1b5f43d9.png)(2) 环境变量配置ubunt
Stella981 Stella981
3年前
Scala编程实战
项目概述需求目前大多数的分布式架构底层通信都是通过RPC实现的,RPC框架非常多,比如前我们学过的Hadoop项目的RPC通信框架,但是Hadoop在设计之初就是为了运行长达数小时的批量而设计的,在某些极端的情况下,任务提交的延迟很高,所以Hadoop的RPC显得有些笨重。Spark的RPC是通过Akka类库实现的,Akka用
Wesley13 Wesley13
3年前
ELK学习
   大型网站遇到性能瓶颈或发生故障时,分析日志往往是发现问题根源最有效的手段。传统的日志分析手段不外乎以下几类:1\.运维人员用脚本grep,分析再汇总2\.通过流式计算引擎,storm/spark实时产生汇总数据,供监控分析3\.将数据堆放到HDFS,之后通过map/reduce定期做批量分析一个完整的集中式日志系统,需要包
Stella981 Stella981
3年前
Apache 流框架 Flink,Spark Streaming,Storm对比分析(二)
本文由  网易云(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fwww.163yun.com%2F%3Ftag%3DM_cnblogs_9010969)发布。本文内容接上一篇Apache流框架Flink,SparkStreaming,Storm对比分析(一)(https
Stella981 Stella981
3年前
Spark框架:Win10系统下搭建Scala开发环境
一、Scala环境基础Scala对Java相关的类,接口进行了包装,所以依赖Jvm环境。Jdk1.8scala依赖scala2.11安装版本idea2017.3开发工具二、配置Scala解压版1)注意路径无空格和中文!(http
Stella981 Stella981
3年前
Ignite 与 Spark 都很强,那如果把它们整合起来会怎样?
在前面的文章(https://my.oschina.net/editorialstory/blog/2050881)中,我们分别介绍了Ignite和Spark这两种技术,从功能上对两者进行了全面深入的对比。经过分析,可以得出这样一个结论:两者都很强大,但是差别很大,定位不同,因此会有不同的适用领域。但是,这两种技术也是可以互补的,那么它们互
Stella981 Stella981
3年前
GPU上的随机森林:比Apache Spark快2000倍
作者|AaronRichter编译|VK来源|TowardsDataScience随机森林是一种机器学习算法,以其鲁棒性、准确性和可扩展性而受到许多数据科学家的信赖。该算法通过bootstrap聚合训练出多棵决策树,然后通过集成对输出进行预测。由于其集成特征的特点,随机森林是一种可以在分布式计算环境中实现的算法。树可以在集群中跨进程和机器并
Stella981 Stella981
3年前
Spark程序在IDEA本地运行时报错解决
报错信息:java.lang.IllegalArgumentException:Systemmemory259522560mustbeatleast4.718592E8.Pleaseuse解决方式一:设置应用程序的VMoptions。IDEA的设置路径在:RunEditConfigurationsApplica