Solo  当前访客:1 登录 注册
☆gater yu☆

~~ 一个java老鸟的博客 ~~

标签:
Spark之MLlib (20)

SparkMLlib核心基础:向量And矩阵

1、SparkMLlib核心基础:向量And矩阵1.1Vector1.1.1densevector源码定义:*Createsadensevectorfromitsvalues.*/@varargsdefdense(firstValue:Double,otherValues:Double*):Vector=newDenseVector((firstValue+:otherValues).toArra...

作者:sky | 创建日期: 2015-12-25 00:15 | 浏览次数: 354 | 评论总数: 0 | 标签:

SparkMlibBLAS线性代数运算库

1.4BLAS(BLASroutinesforMLlib'svectorsandmatrices.)BLAS(BasicLinearAlgebraSubprograms,基础线性代数程序集)是一个应用程序接口(API)标准,用以规范发布基础线性代数操作的数值库(如矢量或矩阵乘法)。BLAS按照功能被分为三个级别:Level1:矢量-矢量运算Level2:矩阵-矢量运算Level3:矩阵-矩...

作者:sky | 创建日期: 2015-12-23 05:59 | 浏览次数: 246 | 评论总数: 0 | 标签:

SparkMLlibStatistics统计

1、SparkMLlibStatistics统计SparkMllib统计模块代码结构如下:1.1列统计汇总计算每列最大值、最小值、平均值、方差值、L1范数、L2范数。//读取数据,转换成RDD[Vector]类型valdata_path="/home/jb-huangmeiling/sample_stat.txt"valdata=sc.textFile(data_path).map...

作者:sky | 创建日期: 2015-12-21 11:44 | 浏览次数: 383 | 评论总数: 0 | 标签:

SparkMLlibLinearRegression线性回归算法

1、SparkMLlibLinearRegression线性回归算法1.1线性回归算法1.1.1基础理论在统计学中,线性回归(LinearRegression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为...

作者:sky | 创建日期: 2015-12-19 17:28 | 浏览次数: 283 | 评论总数: 0 | 标签:

SparkMLlibLogisticRegression逻辑回归算法

1.1逻辑回归算法1.1.1基础理论logistic回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,即先把特征线性求和,然后使用函数g(z)将最为假设函数来预测。g(z)可以将连续值映射到0和1上。它与线性回归的不同点在于:为了将线性回归输出的很大范围的数,例如从负无穷到正无穷,压缩到0和1之间,这样的输出值表达为“可能性”才能说服广大民众。当然了,把大值压缩到这个范围还有个很好...

作者:sky | 创建日期: 2015-12-17 23:12 | 浏览次数: 217 | 评论总数: 0 | 标签:

SparkMLlibSVM算法

1.1SVM支持向量机算法支持向量机理论知识参照以下文档:支持向量机SVM(一)http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982639.html支持向量机SVM(二)http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982684.html支持向量机(三)核函数http://www...

作者:sky | 创建日期: 2015-12-16 04:56 | 浏览次数: 498 | 评论总数: 0 | 标签:

SparkMLlibNaiveBayes贝叶斯分类器

1.1朴素贝叶斯公式贝叶斯定理:其中A为事件,B为类别,P(B|A)为事件A条件下属于B类别的概率。朴素贝叶斯分类的正式定义如下:1、设为一个待分类项,而每个a为x的一个特征属性。2、有类别集合。3、计算。4、如果,则。那么现在的关键就是如何计算第3步中的各个条件概率:1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。2、统计得到在各类别下各个特征属性的条件概率估计。即。3、如果各个特征...

作者:sky | 创建日期: 2015-12-14 10:40 | 浏览次数: 215 | 评论总数: 0 | 标签:

SparkMLlibKMeans聚类算法

1.1KMeans聚类算法1.1.1基础理论KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。K-Means聚类算法主要分为三个步骤:(1)第一步是为待聚类的点寻找聚类中心;(2)第二步是计算每个点到聚类中心的距离,将每个点聚类到离该点最近的聚类中去;(3)第...

作者:sky | 创建日期: 2015-12-12 16:24 | 浏览次数: 405 | 评论总数: 0 | 标签:

SparkMLlibFPGrowth算法

1.1FPGrowth算法1.1.1基本概念关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响,分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。关联规则的相关术语如下:(1)项与项集这是一个集合的概念,在一篮子商品中的一件消费品即为一项(Item),则若干项的集合为项...

作者:sky | 创建日期: 2015-12-10 22:09 | 浏览次数: 209 | 评论总数: 0 | 标签:

SparkMLlibLDA主题模型

SparkMLlibLDA主题模型(1)SparkMLlibLDA主题模型是Spark1.3开始加入的,具体介绍看以下文档:官方编程指南:http://spark.apache.org/docs/latest/mllib-clustering.html#latent-dirichlet-allocation-ldaSparkMLlibLDA简介:http://blog.jobbole.com/86...

作者:sky | 创建日期: 2015-12-09 03:53 | 浏览次数: 218 | 评论总数: 0 | 标签:

SparkMLlibLDA源码解析

1、SparkMLlibLDA源码解析http://blog.csdn.net/sunbow0SparkMLlibLDA应该算是比较难理解的,其中涉及到大量的概率与统计的相关知识,而且还涉及到了SparkGraphX图计算方面的知识,要想明白其中的原理得要下一番功夫。LDA源码解析前的基础知识:1)LDA主题模型的理论知识参照:LDA数学八卦2)SparkGraphX基础知识http://blog...

作者:sky | 创建日期: 2015-12-07 09:37 | 浏览次数: 436 | 评论总数: 0 | 标签:

《SparkMLlib机器学习》第十五章代码

《SparkMLlib机器学习》第十五章代码1、神经网络类packageNNimportorg.apache.spark._importorg.apache.spark.SparkContext._importorg.apache.spark.rdd.RDDimportorg.apache.spark.Loggingimportorg.apache.spark.mllib.linalg._impo...

作者:sky | 创建日期: 2015-12-05 15:21 | 浏览次数: 235 | 评论总数: 0 | 标签:

《SparkMLlib机器学习》第十四章代码

《SparkMLlib机器学习》第十四章代码1、相似度计算packagerecommendimportscala.math._importorg.apache.spark.rdd.RDDimportorg.apache.spark.SparkContext._/***用户评分.*@paramuserid用户*@paramitemid评分物品*@parampref评分*/caseclassItemP...

作者:sky | 创建日期: 2015-12-03 21:05 | 浏览次数: 310 | 评论总数: 0 | 标签:

《SparkMLlib机器学习》第四章至十三章代码

《SparkMLlib机器学习》第四章至第十三章代码,已经上传至网盘代码和数据地址网盘:http://pan.baidu.com/s/1c1J8ZN6...

作者:sky | 创建日期: 2015-12-02 02:49 | 浏览次数: 164 | 评论总数: 0 | 标签:

《SparkMLlib机器学习》第三章代码

《SparkMLlib机器学习》第三章代码3.1Breeze介绍packagebook_codeimportorg.apache.log4j.{Level,Logger}importorg.apache.spark.{SparkConf,SparkContext}importbreeze.linalg._importbreeze.numerics._importorg.apache.spark.m...

作者:sky | 创建日期: 2015-11-30 08:34 | 浏览次数: 256 | 评论总数: 0 | 标签:

《SparkMLlib机器学习》第二章代码

《SparkMLlib机器学习》第二章代码2.1SparkRDD操作importorg.apache.log4j.{Level,Logger}importorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.SparkContext._objectrdd_test01{defmain(args:Array[String]){...

作者:sky | 创建日期: 2015-11-28 14:18 | 浏览次数: 412 | 评论总数: 0 | 标签:

《SparkMLlib机器学习》已正式上市发售

《SparkMLlib机器学习》已正式上市发售,请大家多多支持!!!!购书地址:http://product.dangdang.com/23934484.htmlhttp://item.jd.com/11902946.htmlhttps://www.amazon.cn/Spark-MLlib%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E7%AE%97%E6%B3%9...

作者:sky | 创建日期: 2015-11-26 20:02 | 浏览次数: 168 | 评论总数: 0 | 标签:

《SparkMLlib机器学习》勘误(持续更新)

《SparkMLlib机器学习》勘误(持续更新)1、P10原文:valz=sc.parallelize(List(1,2,3,4,5,6),2)z.aggreateByKey(0)(math.max(_,_),_+_)修改为:val z = sc.parallelize(List((1, 3), (1, 2), (1, 4), (2, 3)))z.aggregateByKey(0)(math.ma...

作者:sky | 创建日期: 2015-11-25 01:46 | 浏览次数: 163 | 评论总数: 0 | 标签:

《SparkMLlib机器学习》细节解释(持续更新)

1、P220对该段文字的解决:得到最大bin数量后,求最大split数量。对于无序特征,split=bin数目/2;对于有序特征,split=bin数目–1。其中有读者问到:对于无序特征,split=bin数目/2这个的由来,解释如下:1)首先计算numBins://当前的特征数量小于m值,则认为无序if(numCategories<=maxCategoriesForUnorderedFea...

作者:sky | 创建日期: 2015-11-23 07:30 | 浏览次数: 406 | 评论总数: 0 | 标签:

《SparkMLlib机器学习》细节解释(持续更新)

1、P220对该段文字的解决:得到最大bin数量后,求最大split数量。对于无序特征,split=bin数目/2;对于有序特征,split=bin数目–1。其中有读者问到:对于无序特征,split=bin数目/2这个的由来,解释如下:1)首先计算numBins://当前的特征数量小于m值,则认为无序if(numCategories<=maxCategoriesForUnorderedFea...

作者:sky | 创建日期: 2015-11-23 07:30 | 浏览次数: 372 | 评论总数: 0 | 标签:

1   共 1 页面