Solo  当前访客:1 登录 注册
☆gater yu☆

~~ 一个java老鸟的博客 ~~

Spark-K-Means算法

机器学习算法大体分为三类:监督学习(supervisedlearning)、无监督学习(unsupervisedlearning)和半监督学习(semi-supervisedlearning)。监督学习是指我们利用带有类别属性标注的数据去训练、学习,用于预测未知数据的类别属性。例如,根据用户之前的购物行为去预测用户是否会购买某一商品。常用的算法有决策树,支持向量机SVM,朴素贝叶斯分类器,K-近邻...

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 473 | 评论总数: 0 | 标签:

sparkcore源码分析1集群启动及任务提交过程

博客地址:http://blog.csdn.net/yueqian_zhu/spark版本号:1.4.1spark源码分析目的是在解读源码的过程中记录一些重要的步骤,加深自己的印象,或许也可以给别人提供一些帮助。Standalone集群启动及任务提交过程详解正常启动及job提交过程如下:1.启动master2.启动worker3.客户端提交application到master4.master发送L...

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 223 | 评论总数: 0 | 标签:

sparkcore源码分析2master启动流程

博客地址:http://blog.csdn.net/yueqian_zhu/源码位置:org.apache.spark.deploy.master.Master.scala一、main主方法:defmain(argStrings:Array[String]){SignalLogger.register(log)valconf=newSparkConfvalargs=newMasterArgumen...

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 237 | 评论总数: 0 | 标签:

sparkcore源码分析3MasterHA

博客地址:http://blog.csdn.net/yueqian_zhu/这一节讲解master选举以及之后的处理流程上一节说到在Master启动过程中,首先调用了Akkaactor的preStart方法。overridedefpreStart(){logInfo("StartingSparkmasterat"+masterUrl)logInfo(s"RunningSpa...

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 223 | 评论总数: 0 | 标签:

sparkcore源码分析4worker启动流程

博客地址:http://blog.csdn.net/yueqian_zhu/源码位置:org.apache.spark.deploy.worker.Worker.scala首先查看worker的main方法,与master类似,创建sparkConf,参数解析,以及构造worker对象并创建ActorRef用于对外或者本身的信息交互。这里masters参数可以设置多个defmain(argStri...

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 365 | 评论总数: 0 | 标签:

sparkcore源码分析5spark提交框架

博客地址:http://blog.csdn.net/yueqian_zhu/源码位置:org.apache.spark.deploy.SparkSubmit.SparkSubmit.scala这里解析参数,包括提交jar包的mainclass,Executor、Driver的相关配置等等等等。。defmain(args:Array[String]):Unit={valappArgs=newSpar...

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 215 | 评论总数: 0 | 标签:

sparkcore源码分析6Sparkjob的提交

博客地址:http://blog.csdn.net/yueqian_zhu/本节主要讲解SparkContext的逻辑首先看一个spark自带的最简单的例子:objectSparkPi{defmain(args:Array[String]){valconf=newSparkConf().setAppName("SparkPi")valspark=newSparkContext(co...

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 220 | 评论总数: 0 | 标签:

sparkcore源码分析7Executor的运行

博客地址:http://blog.csdn.net/yueqian_zhu/实际任务的运行,都是通过Executor类来执行的。这一节,我们只介绍Standalone模式。源码位置:org.apache.spark.executor.CoarseGrainedExecutorBackendprivatedefrun(driverUrl:String,executorId:String,hostna...

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 296 | 评论总数: 0 | 标签:

sparkcore源码分析8从简单例子看transformation

博客地址:http://blog.csdn.net/yueqian_zhu/前面提到过spark自带的一个最简单的例子,也介绍了SparkContext的部分,这节介绍剩余的内容中的transformation。objectSparkPi{defmain(args:Array[String]){valconf=newSparkConf().setAppName("SparkPi")...

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 430 | 评论总数: 0 | 标签:

sparkcore源码分析9从简单例子看action操作

博客地址:http://blog.csdn.net/yueqian_zhu/上一节举例讲解了transformation操作,这一节以reduce为例讲解action操作首先看submitJob方法,它将我们reduce中写的处理函数随JobSubmitted消息传递出去,因为每个分区都需要调用它进行计算;而resultHandler是指最后合并的方法,在每个task完成后,需要调用resultH...

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 225 | 评论总数: 0 | 标签:

sparkcore源码分析10Task的运行

博客地址:http://blog.csdn.net/yueqian_zhu/这一节介绍具体task的运行以及最终结果的处理看线程运行的run方法,见代码注释overridedefrun():Unit={valtaskMemoryManager=newTaskMemoryManager(env.executorMemoryManager)valdeserializeStartTime=System....

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 497 | 评论总数: 0 | 标签:

sparkcore源码分析11RDD缓存及checkpoint

博客地址:http://blog.csdn.net/yueqian_zhu/RDD有cache和persist方法,用于将RDD进行缓存。cache方法其实就是persist(MEMORY_ONLY)我们看一下这个方法干了什么事情defpersist(newLevel:StorageLevel):this.type={//TODO:HandlechangesofStorageLevelif(sto...

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 210 | 评论总数: 0 | 标签:

sparkcore源码分析12spark缓存清理

博客地址:http://blog.csdn.net/yueqian_zhu/spark缓存清理机制:MetadataCleaner对象中有一个定时器,用于清理下列的元数据信息:MAP_OUTPUT_TRACKER:Maptask的输出元信息SPARK_CONTEXT:persistentRdds中的rddHTTP_BROADCAST, http广播的元数据BLOCK_MANAGER:blockma...

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 253 | 评论总数: 0 | 标签:

sparkcore源码分析13异常情况下的容错保证

博客地址:http://blog.csdn.net/yueqian_zhu/standalone模式下的框架图如下:异常分析1:worker异常退出worker异常退出,比如说有意识的通过kill指令将worker杀死worker在退出之前,会将自己所管控的所有小弟executor全干掉worker需要定期向master改善心跳消息的,现在worker进程都已经玩完了,哪有心跳消息,所以Maste...

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 370 | 评论总数: 0 | 标签:

sparkcore源码分析14参数配置

博客地址:http://blog.csdn.net/yueqian_zhu/spark参数详解spark参数配置优先级:SparkConf>CLI>spark-defaults.conf>spak-env.sh查看Spark属性:在http://<driver>:4040上的应用程序WebUI在Environment标签中列出了所有的Spark属性。spark-def...

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 275 | 评论总数: 0 | 标签:

sparkcore源码分析15Shuffle详解-写流程

博客地址:http://blog.csdn.net/yueqian_zhu/Shuffle是一个比较复杂的过程,有必要详细剖析一下内部写的逻辑ShuffleManager分为SortShuffleManager和HashShuffleManager一、SortShuffleManager每个ShuffleMapTask不会为每个Reducer生成一个单独的文件;相反,它会将所有的结果写到一个本地文...

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 368 | 评论总数: 0 | 标签:

sparkcore源码分析16Shuffle详解-读流程

博客地址:http://blog.csdn.net/yueqian_zhu/shuffle的读流程也是从compute方法开始的overridedefcompute(split:Partition,context:TaskContext):Iterator[(K,C)]={valdep=dependencies.head.asInstanceOf[ShuffleDependency[K,V,C]]...

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 201 | 评论总数: 0 | 标签:

sparkcore源码分析17RDD相关API

博客地址:http://blog.csdn.net/yueqian_zhu/一、RDD创建的操作(SparkContext.scala)1、从内存集合中创建RDD,RDD中包含的是类型为T的集合defparallelize[T:ClassTag](seq:Seq[T],numSlices:Int=defaultParallelism):RDD[T]defmakeRDD[T:ClassTag](se...

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 454 | 评论总数: 0 | 标签:

sparkstreaming源码分析1StreamingContext

博客地址:http://blog.csdn.net/yueqian_zhu/首先看一个最简单的例子,了解大致的样子:objectNetworkWordCount{defmain(args:Array[String]){if(args.length<2){System.err.println("Usage:NetworkWordCount<hostname><port...

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 203 | 评论总数: 0 | 标签:

sparkstreaming源码分析2从简单例子看DStream上的operation

博客地址:http://blog.csdn.net/yueqian_zhu/先贴一下上一节的例子objectNetworkWordCount{defmain(args:Array[String]){if(args.length<2){System.err.println("Usage:NetworkWordCount<hostname><port>")...

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 205 | 评论总数: 0 | 标签:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 下一页 最后一页   共 59 页面