Solo  当前访客:1 登录 注册
☆gater yu☆

~~ 一个java老鸟的博客 ~~

sparkstreaming源码分析3调度及运行

博客地址:http://blog.csdn.net/yueqian_zhu/前面的两节内容介绍了StreamingContext的构造以及在此上的一系列操作。通过调用start方法,真正开始调度执行。首先校验状态是否是INITIALIZED,然后调用JobScheduler的start方法,并将状态设置为ACTIVE。看一下JobScheduler的start方法内部defstart():Unit...

作者:sky | 创建日期: 2016-11-16 12:03 | 浏览次数: 622 | 评论总数: 0 | 标签:

sparkstreaming源码分析4DStream相关API

博客地址:http://blog.csdn.net/yueqian_zhu/一、InputDStream创建的操作(StreamingContext.scala)1、给定Receiver作为参数,创建ReceiverInputDStream,T为receiver接收到的数据类型defreceiverStream[T:ClassTag](receiver:Receiver[T]):ReceiverI...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 296 | 评论总数: 0 | 标签:

Spark:大数据的电花火石!

什么是Spark?可能你很多年前就使用过Spark,反正当年我四六级单词都是用的星火系列,没错,星火系列的洋名就是Spark。当然这里说的Spark指的是ApacheSpark,ApacheSpark™isafastandgeneralengineforlarge-scaledataprocessing:一种快速通用可扩展的数据分析引擎。如果想要搞清楚Spark是什么,那么我们需要知道它解决了什么...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 275 | 评论总数: 0 | 标签:

Spark技术内幕:Client,Master和Worker通信源码解析

Spark的ClusterManager可以有几种部署模式:StandloneMesosYARNEC2Local在向集群提交计算任务后,系统的运算模型就是DriverProgram定义的SparkContext向APPMaster提交,有APPMaster进行计算资源的调度并最终完成计算。具体阐述可以阅读《Spark:大数据的电花火石!》。那么Standalone模式下,Client,Master...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 481 | 评论总数: 0 | 标签:

Spark技术内幕:Master基于ZooKeeper的HighAvailability(HA)源码实现

如果Spark的部署方式选择Standalone,一个采用Master/Slaves的典型架构,那么Master是有SPOF(单点故障,SinglePointofFailure)。Spark可以选用ZooKeeper来实现HA。ZooKeeper提供了一个LeaderElection机制,利用这个机制可以保证虽然集群存在多个Master但是只有一个是Active的,其他的都是Standby,当Ac...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 323 | 评论总数: 0 | 标签:

Spark技术内幕:一个图搞定Spark到底有多少行代码

Spark1.0.0发布一个多月了,那么它有多少行代码(LineofCode,LOC)?注:代码统计未包含测试,sample。...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 262 | 评论总数: 0 | 标签:

从Storm和Spark学习流式实时分布式计算的设计

0.背景最近我在做流式实时分布式计算系统的架构设计,而正好又要参加CSDN博文大赛的决赛。本来想就写Spark源码分析的文章吧。但是又想毕竟是决赛,要拿出一些自己的干货出来,仅仅是源码分析貌似分量不够。因此,我将最近一直在做的系统架构的思路整理出来,形成此文。为什么要参考Storm和Spark,因为没有参照效果可能不会太好,尤其是对于Storm和Spark由了解的同学来说,可能通过对比,更能体会到...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 262 | 评论总数: 0 | 标签:

Spark技术内幕:Worker源码与架构解析

首先通过一张Spark的架构图来了解Worker在Spark中的作用和地位:Worker所起的作用有以下几个:1.接受Master的指令,启动或者杀掉Executor2.接受Master的指令,启动或者杀掉Driver3.报告Executor/Driver的状态到Master4.心跳到Master,心跳超时则Master认为Worker已经挂了不能工作了5.向GUI报告Worker的状态说白了,W...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 451 | 评论总数: 0 | 标签:

Spark1.0开发环境构建:maven/sbt/idea

因为我原来对maven和sbt都不熟悉,因此使用两种方法都编译了一下。下面记录一下编译时候遇到的问题。然后介绍一下如果使用IntelliJIDEA13.1构建开发环境。首先准备java环境和scala环境:1.jdk1.72.scala2.11.11.maven首先安装maven,我安装的是3.2.3,可以直接下载binary。解压即可用。需要设置一下环境变量:exportMAVEN_HOME=/...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 267 | 评论总数: 0 | 标签:

Spark技术内幕之任务调度:从SparkContext开始

SparkContext是开发Spark应用的入口,它负责和整个集群的交互,包括创建RDD,accumulatorsandbroadcastvariables。理解Spark的架构,需要从这个入口开始。下图是官网的架构图。DriverProgram就是用户提交的程序,这里边定义了SparkContext的实例。SparkContext定义在core/src/main/scala/org/apach...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 418 | 评论总数: 0 | 标签:

Spark技术内幕:Executor分配详解

当用户应用newSparkContext后,集群就会为在Worker上分配executor,那么这个过程是什么呢?本文以Standalone的Cluster为例,详细的阐述这个过程。序列图如下:1.SparkContext创建TaskScheduler和DAGSchedulerSparkContext是用户应用和Spark集群的交换的主要接口,用户应用一般首先要创建它。如果你使用SparkShel...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 542 | 评论总数: 0 | 标签:

Spark技术内幕:Master的故障恢复

Spark技术内幕:Master基于ZooKeeper的HighAvailability(HA)源码实现详细阐述了使用ZK实现的Master的HA,那么Master是如何快速故障恢复的呢?处于Standby状态的Master在接收到org.apache.spark.deploy.master.ZooKeeperLeaderElectionAgent发送的ElectedLeader消息后,就开始通过...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 305 | 评论总数: 0 | 标签:

Spark技术内幕:究竟什么是RDD

RDD是Spark最基本,也是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf是关于RDD的论文。如果觉得英文阅读太费时间,可以看这篇译文:http://shiyanjun.cn/archives/744.html本文也是基于这篇论文和源码,分析RDD的实现。第一个问题,RDD是什么?ResilientDis...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 428 | 评论总数: 0 | 标签:

Spark技术内幕:Stage划分及提交源码分析

当触发一个RDD的action后,以count为例,调用关系如下:org.apache.spark.rdd.RDD#countorg.apache.spark.SparkContext#runJoborg.apache.spark.scheduler.DAGScheduler#runJoborg.apache.spark.scheduler.DAGScheduler#submitJoborg.ap...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 253 | 评论总数: 0 | 标签:

Spark技术内幕:Task向Executor提交的源码解析

在上文《Spark技术内幕:Stage划分及提交源码分析》中,我们分析了Stage的生成和提交。但是Stage的提交,只是DAGScheduler完成了对DAG的划分,生成了一个计算拓扑,即需要按照顺序计算的Stage,Stage中包含了可以以partition为单位并行计算的Task。我们并没有分析Stage中得Task是如何生成并且最终提交到Executor中去的。这就是本文的主题。从org....

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 403 | 评论总数: 0 | 标签:

Spark技术内幕:Shuffle详解(一)

通过上面一系列文章,我们知道在集群启动时,在Standalone模式下,Worker会向Master注册,使得Master可以感知进而管理整个集群;Master通过借助ZK,可以简单的实现HA;而应用方通过SparkContext这个与集群的交互接口,在创建SparkContext时就完成了Application的注册,Master为其分配Executor;在应用方创建了RDD并且在这个RDD上进...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 324 | 评论总数: 0 | 标签:

Spark技术内幕:Shuffle详解(二)

本文主要关注ShuffledRDD的ShuffleRead是如何从其他的node上读取数据的。上文讲到了获取如何获取的策略都在org.apache.spark.storage.BlockFetcherIterator.BasicBlockFetcherIterator#splitLocalRemoteBlocks中。可以见注释。protecteddefsplitLocalRemoteBlocks(...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 233 | 评论总数: 0 | 标签:

Spark技术内幕:Shuffle详解(三)

前两篇文章写了ShuffleRead的一些实现细节。但是要想彻底理清楚这里边的实现逻辑,还是需要更多篇幅的;本篇开始,将按照Job的执行顺序,来讲解Shuffle。即,结果数据(ShuffleMapTask的结果和ResultTask的结果)是如何产生的;结果是如何处理的;结果是如何读取的。在Worker上接收Task执行命令的是org.apache.spark.executor.CoarseGr...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 394 | 评论总数: 0 | 标签:

2014BDTC参会有感

中国大数据技术大会(BigDataTechnologyConference,BDTC)是目前国内最具影响、规模最大的大数据领域的技术盛会。大会的前身是Hadoop中国云计算大会(HadoopinChina,HiC)。从2008年仅60人参加的技术沙龙到当下的数千人技术盛宴,作为业内极具实战价值的专业交流平台,已经成功举办七届的中国大数据技术大会忠实地描绘了大数据领域内的技术热点,沉淀了行业实战经验...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 262 | 评论总数: 0 | 标签:

What’snewinSpark1.2.0

What’snewinSpark1.2.01.2.0wasreleasedon12/18,2014在2014年5月30日发布了Spark1.0和9月11日发布了Spark1.1.后,Spark1.2终于在12月18日发布。作为1.X时代的第三个release,它有什么重要更新呢?1.    SparkCore:性能和易用性的改进对于超大规模的Shuffle,SparkCore在性能和稳定性方面做了...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 285 | 评论总数: 0 | 标签:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 下一页 最后一页   共 59 页面