Solo  当前访客:1 登录 注册
☆gater yu☆

~~ 一个java老鸟的博客 ~~

Spark1.5.0远程调试

Spark1.5.0远程调试作者:摇摆少年梦微信号:zhouzhihubeyond先决条件已安装好Spark集群,本例子中使用的是spark-1.5.0.安装方法参见:http://blog.csdn.net/lovehuangjiaju/article/details/48494737已经安装好IntellijIDEA,本例中使用的是IntellijIDEA14.1.4,具体安装方法参见:htt...

作者:sky | 创建日期: 2016-11-16 12:00 | 浏览次数: 228 | 评论总数: 0 | 标签:

Spark修炼之道(高级篇)——Spark源码阅读:第一节Spark应用程序提交流程

作者:摇摆少年梦微信号:zhouzhihubeyondspark-submit脚本应用程序提交流程在运行Spar应用程序时,会将spark应用程序打包后使用spark-submit脚本提交到Spark中运行,执行提交命令如下:root@sparkmaster:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin#./spark-submit--mastersp...

作者:sky | 创建日期: 2016-11-16 12:00 | 浏览次数: 390 | 评论总数: 0 | 标签:

Spark修炼之道(高级篇)——Spark源码阅读:第四节Stage划分

Stage划分在上一节中我们讲了SparkJob的提交,在该讲中我们提到,当rdd触发action操作之后,会调用SparkContext的runJob方法,最后调用的DAGScheduler.handleJobSubmitted方法完成整个job的提交。然后DAGScheduler根据RDD的lineage进行Stage划分,再生成TaskSet,由TaskScheduler向集群申请资源,最终...

作者:sky | 创建日期: 2016-11-16 12:00 | 浏览次数: 219 | 评论总数: 0 | 标签:

Spark修炼之道(高级篇)——Spark源码阅读:第三节SparkJob的提交

前一我们分析了SparkContext的创建,这一节,我们介绍在RDD执行的时候,如何提交job进行分析,同样是下面的源码:importorg.apache.spark.{SparkConf,SparkContext}objectSparkWordCount{defmain(args:Array[String]){if(args.length==0){System.err.println("...

作者:sky | 创建日期: 2016-11-16 12:00 | 浏览次数: 212 | 评论总数: 0 | 标签:

Spark修炼之道(高级篇)——Spark源码阅读:第五节Stage提交

Stage提交调用流程:1.org.apache.spark.scheduler.DAGScheduler.handleJobSubmitted2.org.apache.spark.scheduler.DAGScheduler.handleJobSubmitted.submitStage3.org.apache.spark.scheduler.DAGScheduler.handleJobSubmi...

作者:sky | 创建日期: 2016-11-16 12:00 | 浏览次数: 426 | 评论总数: 0 | 标签:

Spark修炼之道(高级篇)——Spark源码阅读:第六节Task提交

Task提交在上一节中的Stage提交中我们提到,最终stage被封装成TaskSet,使用taskScheduler.submitTasks提交,具体代码如下:taskScheduler.submitTasks(newTaskSet(tasks.toArray,stage.id,stage.latestInfo.attemptId,stage.firstJobId,properties))Sta...

作者:sky | 创建日期: 2016-11-16 12:00 | 浏览次数: 205 | 评论总数: 0 | 标签:

Spark修炼之道(高级篇)——Spark源码阅读:第七节resourceOffers方法与launchTasks方法解析

在上一节中,我们提到Task提交通过makeOffers提交到Executor上//MakefakeresourceoffersonjustoneexecutorprivatedefmakeOffers(executorId:String){//Filteroutexecutorsunderkillingif(!executorsPendingToRemove.contains(executorI...

作者:sky | 创建日期: 2016-11-16 12:00 | 浏览次数: 178 | 评论总数: 0 | 标签:

Spark修炼之道(高级篇)——Spark源码阅读:第八节Task执行

Task执行在上一节中,我们提到在Driver端CoarseGrainedSchedulerBackend中的launchTasks方法向Worker节点中的Executor发送启动任务命令,该命令的接收者是CoarseGrainedExecutorBackend(Standalone模式),类定义源码如下:private[spark]classCoarseGrainedExecutorBacke...

作者:sky | 创建日期: 2016-11-16 12:00 | 浏览次数: 400 | 评论总数: 0 | 标签:

Spark修炼之道(高级篇)——Spark源码阅读:第九节Task执行成功时的结果处理

Task执行成功时的结果处理在上一节中,给出了Task在Executor上的运行代码演示,我们知道代码的最终运行通过的是TaskRunner方法classTaskRunner(execBackend:ExecutorBackend,valtaskId:Long,valattemptNumber:Int,taskName:String,serializedTask:ByteBuffer)extend...

作者:sky | 创建日期: 2016-11-16 12:00 | 浏览次数: 196 | 评论总数: 0 | 标签:

[置顶]Akka书箱推荐

话不多说,推荐下面几本书:1.AkkaEssentials,ByMunishK.Gupta,Publisher:PacktPublishing,ReleaseDate:October2012。非常适合入门级,图文并茂,看完能够明白AKKA的大部分精髓2.EffectiveAkka,ByJamieAllen,Publisher:O’ReillyMedia,ReleaseDate:August2013...

作者:sky | 创建日期: 2016-11-16 12:00 | 浏览次数: 209 | 评论总数: 0 | 标签:

Spark修炼之道(进阶篇)——Spark入门到精通:第十节SparkStreaming(一)

本节主要内容本节部分内容来自官方文档:http://spark.apache.org/docs/latest/streaming-programming-guide.html#mllib-operationsSpark流式计算简介SparkStreaming相关核心类入门案例1.Spark流式计算简介Hadoop的MapReduce及SparkSQL等只能进行离线计算,无法满足实时性要求较高的业务...

作者:sky | 创建日期: 2016-11-16 12:00 | 浏览次数: 200 | 评论总数: 0 | 标签:

Spark修炼之道(进阶篇)——Spark入门到精通:第十一节SparkStreaming——DStreamTransformation操作

本节主要内容本节部分内容来自官方文档:http://spark.apache.org/docs/latest/streaming-programming-guide.htmlDStreamTransformation操作1.Transformation操作TransformationMeaningmap(func)对DStream中的各个元素进行func函数操作,然后返回一个新的DStream.f...

作者:sky | 创建日期: 2016-11-16 12:00 | 浏览次数: 380 | 评论总数: 0 | 标签:

Spark修炼之道(进阶篇)——Spark入门到精通:第十二节SparkStreaming——DStreamWindow操作

作者:周志湖微信号:zhouzhihubeyond本节主要内容WindowOperation入门案例1.WindowOperationSparkStreaming提供窗口操作(WindowOperation),如下图所示:上图中,红色实线表示窗口当前的滑动位置,虚线表示前一次窗口位置,窗口每滑动一次,落在该窗口中的RDD被一起同时处理,生成一个窗口DStream(windowedDStream),...

作者:sky | 创建日期: 2016-11-16 12:00 | 浏览次数: 215 | 评论总数: 0 | 标签:

Spark修炼之道(进阶篇)——Spark入门到精通:第十三节SparkStreaming——SparkSQL、DataFrame与SparkStreaming

主要内容SparkSQL、DataFrame与SparkStreaming1.SparkSQL、DataFrame与SparkStreaming源码直接参照:https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/streaming/SqlNetworkWordCou...

作者:sky | 创建日期: 2016-11-16 12:00 | 浏览次数: 206 | 评论总数: 0 | 标签:

Spark修炼之道(进阶篇)——Spark入门到精通:第十四节SparkStreaming缓存、Checkpoint机制

作者:周志湖微信号:zhouzhihubeyond主要内容本节内容基于官方文档:http://spark.apache.org/docs/latest/streaming-programming-guide.htmlSparkStream缓存Checkpoint案例1.SparkStream缓存通过前面一系列的课程介绍,我们知道DStream是由一系列的RDD构成的,它同一般的RDD一样,也可以将...

作者:sky | 创建日期: 2016-11-16 12:00 | 浏览次数: 197 | 评论总数: 0 | 标签:

Spark修炼之道(进阶篇)——Spark入门到精通:第十五节Kafka0.8.2.1集群搭建

作者:周志湖微信号:zhouzhihubeyond本节为下一节Kafka与SparkStreaming做铺垫主要内容1.kafka集群搭建1.kafka集群搭建kafka安装与配置到下面的地址下载:Scala2.10-kafka_2.10-0.8.2.1.tgzhttp://kafka.apache.org/downloads.html下载完成后,使用命令tar-zxvfkafka_2.10-0....

作者:sky | 创建日期: 2016-11-16 12:00 | 浏览次数: 454 | 评论总数: 0 | 标签:

Spark修炼之道(进阶篇)——Spark入门到精通:第十六节SparkStreaming与Kafka

作者:周志湖主要内容SparkStreaming与Kafka版的WordCount示例(一)SparkStreaming与Kafka版的WordCount示例(二)1.SparkStreaming与Kafka版本的WordCount示例(一)启动kafka集群root@sparkslave02:/hadoopLearning/kafka_2.10-0.8.2.1#bin/kafka-server-...

作者:sky | 创建日期: 2016-11-16 12:00 | 浏览次数: 220 | 评论总数: 0 | 标签:

Spark修炼之道(高级篇)——Spark源码阅读:第十二节SparkSQL处理流程分析

作者:周志湖下面的代码演示了通过CaseClass进行表Schema定义的例子://scisanexistingSparkContext.valsqlContext=neworg.apache.spark.sql.SQLContext(sc)//thisisusedtoimplicitlyconvertanRDDtoaDataFrame.importsqlContext.implicits._//...

作者:sky | 创建日期: 2016-11-16 12:00 | 浏览次数: 209 | 评论总数: 0 | 标签:

Spark修炼之道(高级篇)——Spark源码阅读:第十三节SparkSQL之SQLContext(一)

作者:周志湖1.SQLContext的创建SQLContext是SparkSQL进行结构化数据处理的入口,可以通过它进行DataFrame的创建及SQL的执行,其创建方式如下://sc为SparkContextvalsqlContext=neworg.apache.spark.sql.SQLContext(sc)其对应的源码为:defthis(sparkContext:SparkContext)=...

作者:sky | 创建日期: 2016-11-16 12:00 | 浏览次数: 264 | 评论总数: 0 | 标签:

spark必须知道的几个观点

executor对应container内存executor对应的内存由两部分组成:–exuecutor-memory控制了堆的大小–spark.yarn.executor.memoryOverhead控制堆外内存,默认值(384MB,0.07*spark.executor.memory),该值一般偏小,需要调大日志凡是cluster模式启动的作业,日志都没有打印在本地。因为main()直接在dri...

作者:sky | 创建日期: 2016-11-15 12:04 | 浏览次数: 184 | 评论总数: 0 | 标签:

第一页 上一页 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 下一页 最后一页   共 59 页面