Solo  当前访客:2 登录 注册
☆gater yu☆

~~ 一个java老鸟的博客 ~~

sparkcore源码分析6Sparkjob的提交

博客地址:http://blog.csdn.net/yueqian_zhu/本节主要讲解SparkContext的逻辑首先看一个spark自带的最简单的例子:objectSparkPi{defmain(args:Array[String]){valconf=newSparkConf().setAppName("SparkPi")valspark=newSparkContext(co...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 230 | 评论总数: 0 | 标签:

sparkcore源码分析7Executor的运行

博客地址:http://blog.csdn.net/yueqian_zhu/实际任务的运行,都是通过Executor类来执行的。这一节,我们只介绍Standalone模式。源码位置:org.apache.spark.executor.CoarseGrainedExecutorBackendprivatedefrun(driverUrl:String,executorId:String,hostna...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 348 | 评论总数: 0 | 标签:

sparkcore源码分析8从简单例子看transformation

博客地址:http://blog.csdn.net/yueqian_zhu/前面提到过spark自带的一个最简单的例子,也介绍了SparkContext的部分,这节介绍剩余的内容中的transformation。objectSparkPi{defmain(args:Array[String]){valconf=newSparkConf().setAppName("SparkPi")...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 189 | 评论总数: 0 | 标签:

sparkcore源码分析9从简单例子看action操作

博客地址:http://blog.csdn.net/yueqian_zhu/上一节举例讲解了transformation操作,这一节以reduce为例讲解action操作首先看submitJob方法,它将我们reduce中写的处理函数随JobSubmitted消息传递出去,因为每个分区都需要调用它进行计算;而resultHandler是指最后合并的方法,在每个task完成后,需要调用resultH...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 213 | 评论总数: 0 | 标签:

sparkcore源码分析10Task的运行

博客地址:http://blog.csdn.net/yueqian_zhu/这一节介绍具体task的运行以及最终结果的处理看线程运行的run方法,见代码注释overridedefrun():Unit={valtaskMemoryManager=newTaskMemoryManager(env.executorMemoryManager)valdeserializeStartTime=System....

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 184 | 评论总数: 0 | 标签:

sparkcore源码分析11RDD缓存及checkpoint

博客地址:http://blog.csdn.net/yueqian_zhu/RDD有cache和persist方法,用于将RDD进行缓存。cache方法其实就是persist(MEMORY_ONLY)我们看一下这个方法干了什么事情defpersist(newLevel:StorageLevel):this.type={//TODO:HandlechangesofStorageLevelif(sto...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 290 | 评论总数: 0 | 标签:

sparkcore源码分析12spark缓存清理

博客地址:http://blog.csdn.net/yueqian_zhu/spark缓存清理机制:MetadataCleaner对象中有一个定时器,用于清理下列的元数据信息:MAP_OUTPUT_TRACKER:Maptask的输出元信息SPARK_CONTEXT:persistentRdds中的rddHTTP_BROADCAST, http广播的元数据BLOCK_MANAGER:blockma...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 370 | 评论总数: 0 | 标签:

sparkcore源码分析13异常情况下的容错保证

博客地址:http://blog.csdn.net/yueqian_zhu/standalone模式下的框架图如下:异常分析1:worker异常退出worker异常退出,比如说有意识的通过kill指令将worker杀死worker在退出之前,会将自己所管控的所有小弟executor全干掉worker需要定期向master改善心跳消息的,现在worker进程都已经玩完了,哪有心跳消息,所以Maste...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 190 | 评论总数: 0 | 标签:

sparkcore源码分析14参数配置

博客地址:http://blog.csdn.net/yueqian_zhu/spark参数详解spark参数配置优先级:SparkConf>CLI>spark-defaults.conf>spak-env.sh查看Spark属性:在http://<driver>:4040上的应用程序WebUI在Environment标签中列出了所有的Spark属性。spark-def...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 199 | 评论总数: 0 | 标签:

sparkcore源码分析15Shuffle详解-写流程

博客地址:http://blog.csdn.net/yueqian_zhu/Shuffle是一个比较复杂的过程,有必要详细剖析一下内部写的逻辑ShuffleManager分为SortShuffleManager和HashShuffleManager一、SortShuffleManager每个ShuffleMapTask不会为每个Reducer生成一个单独的文件;相反,它会将所有的结果写到一个本地文...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 391 | 评论总数: 0 | 标签:

sparkcore源码分析16Shuffle详解-读流程

博客地址:http://blog.csdn.net/yueqian_zhu/shuffle的读流程也是从compute方法开始的overridedefcompute(split:Partition,context:TaskContext):Iterator[(K,C)]={valdep=dependencies.head.asInstanceOf[ShuffleDependency[K,V,C]]...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 195 | 评论总数: 0 | 标签:

sparkcore源码分析17RDD相关API

博客地址:http://blog.csdn.net/yueqian_zhu/一、RDD创建的操作(SparkContext.scala)1、从内存集合中创建RDD,RDD中包含的是类型为T的集合defparallelize[T:ClassTag](seq:Seq[T],numSlices:Int=defaultParallelism):RDD[T]defmakeRDD[T:ClassTag](se...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 203 | 评论总数: 0 | 标签:

sparkstreaming源码分析1StreamingContext

博客地址:http://blog.csdn.net/yueqian_zhu/首先看一个最简单的例子,了解大致的样子:objectNetworkWordCount{defmain(args:Array[String]){if(args.length<2){System.err.println("Usage:NetworkWordCount<hostname><port...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 184 | 评论总数: 0 | 标签:

sparkstreaming源码分析2从简单例子看DStream上的operation

博客地址:http://blog.csdn.net/yueqian_zhu/先贴一下上一节的例子objectNetworkWordCount{defmain(args:Array[String]){if(args.length<2){System.err.println("Usage:NetworkWordCount<hostname><port>")...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 420 | 评论总数: 0 | 标签:

sparkstreaming源码分析3调度及运行

博客地址:http://blog.csdn.net/yueqian_zhu/前面的两节内容介绍了StreamingContext的构造以及在此上的一系列操作。通过调用start方法,真正开始调度执行。首先校验状态是否是INITIALIZED,然后调用JobScheduler的start方法,并将状态设置为ACTIVE。看一下JobScheduler的start方法内部defstart():Unit...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 185 | 评论总数: 0 | 标签:

sparkstreaming源码分析4DStream相关API

博客地址:http://blog.csdn.net/yueqian_zhu/一、InputDStream创建的操作(StreamingContext.scala)1、给定Receiver作为参数,创建ReceiverInputDStream,T为receiver接收到的数据类型defreceiverStream[T:ClassTag](receiver:Receiver[T]):ReceiverI...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 251 | 评论总数: 0 | 标签:

Spark:大数据的电花火石!

什么是Spark?可能你很多年前就使用过Spark,反正当年我四六级单词都是用的星火系列,没错,星火系列的洋名就是Spark。当然这里说的Spark指的是ApacheSpark,ApacheSpark™isafastandgeneralengineforlarge-scaledataprocessing:一种快速通用可扩展的数据分析引擎。如果想要搞清楚Spark是什么,那么我们需要知道它解决了什么...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 228 | 评论总数: 0 | 标签:

Spark技术内幕:Client,Master和Worker通信源码解析

Spark的ClusterManager可以有几种部署模式:StandloneMesosYARNEC2Local在向集群提交计算任务后,系统的运算模型就是DriverProgram定义的SparkContext向APPMaster提交,有APPMaster进行计算资源的调度并最终完成计算。具体阐述可以阅读《Spark:大数据的电花火石!》。那么Standalone模式下,Client,Master...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 165 | 评论总数: 0 | 标签:

Spark技术内幕:Master基于ZooKeeper的HighAvailability(HA)源码实现

如果Spark的部署方式选择Standalone,一个采用Master/Slaves的典型架构,那么Master是有SPOF(单点故障,SinglePointofFailure)。Spark可以选用ZooKeeper来实现HA。ZooKeeper提供了一个LeaderElection机制,利用这个机制可以保证虽然集群存在多个Master但是只有一个是Active的,其他的都是Standby,当Ac...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 365 | 评论总数: 0 | 标签:

从Storm和Spark学习流式实时分布式计算的设计

0.背景最近我在做流式实时分布式计算系统的架构设计,而正好又要参加CSDN博文大赛的决赛。本来想就写Spark源码分析的文章吧。但是又想毕竟是决赛,要拿出一些自己的干货出来,仅仅是源码分析貌似分量不够。因此,我将最近一直在做的系统架构的思路整理出来,形成此文。为什么要参考Storm和Spark,因为没有参照效果可能不会太好,尤其是对于Storm和Spark由了解的同学来说,可能通过对比,更能体会到...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 188 | 评论总数: 0 | 标签:

第一页 上一页 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 下一页 最后一页   共 59 页面