Spark 是一个大规模的数据处理引擎,集成了SQL查询分析,该引擎是用Scala写的,所以一些高级的实现了的算法都是用它进行描述。已知支持的第三方语言有:C# 【https://github.com/Microsoft/Mobius,Java, Scala, Python, R【http://spark.apache.org】
一般性理解:
Spark是个发动机,存储是机油,语言是使用使用控制说明书,性能级别是跑车级别的发动机。
该引擎的建立在多门学科基础之上:概率论,统计学,逼近论,凸分析,计算复杂性理论等。
MLib的基础:RDD(弹性分布式计算)=》转换操作(map,flatMap…),行动操作(count,reduceByKey…)。集合操作,矩阵向量运算,数据格式等。
回归算法:确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
线性回归:探索方差最小的,最接近测试数据的一个函数方程式。
逻辑回归:一般是二分类的,其数学函数一般为 wx+b,其中w和b是待求参数,Singmoid函数(g(z)=1/(1+e^(-z))) )[很漂亮的S形函数,收敛于+-6],后面神经网络需要用上,其主要分主要用于预测天气,预防疾病等场景
保序回归:在一堆无序的数字序列中,找到保证误差最小的情况下,而得到的一组非递减(增)的序列。
分类算法:贝叶斯,器是利用概率论统计知识进行分类,典型的方程式 P(A|B)=P(AB)/P(B);SVM支持向量机:给定一堆样本数据,得到一个分类器,改算法属于有监督的学习模型;决策树,则是一个树状的分类器,也是基于样本数据,通过是否来断定结果的分类器。
聚类算法:KMeans聚类算法:求目标函数的过程(https://baike.baidu.com/item/K-means/4934806);LDA主题模型算法:典型的词性训练,研究主题,通过概率来匹配分析的算法。
关联规则挖掘算法:FPGrowth关联规则算法:不断地迭代FP-tree的构造和投影过程,主要应用于探索多项商品直接的关系以挖掘价值,例如用户购买清单中的啤酒和尿不湿等…
应用实践级别的算法:
推荐算法:ALS交替最小二乘法,协同过滤推荐算法
神经网络算法:多输入,权重控制,通过激活函数进行输出
学习路径:
理论==》分布式实现逻辑==》开发==》实例