Solo  当前访客:2 登录 注册
☆gater yu☆

~~ 一个java老鸟的博客 ~~

Spark技术内幕:SortBasedShuffle实现解析

在Spark1.2.0中,SparkCore的一个重要的升级就是将默认的HashBasedShuffle换成了SortBasedShuffle,即spark.shuffle.manager从hash换成了sort,对应的实现类分别是org.apache.spark.shuffle.hash.HashShuffleManager和org.apache.spark.shuffle.sort.SortS...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 429 | 评论总数: 0 | 标签:

Spark技术内幕:如何解决ShuffleWrite一定要落盘的问题?

在Spark0.6和0.7时,Shuffle的结果都需要先存储到内存中(有可能要写入磁盘),因此对于大数据量的情况下,发生GC和OOM的概率非常大。因此在Spark0.8的时候,Shuffle的每个record都会直接写入磁盘,并且为下游的每个Task都生成一个单独的文件。这样解决了Shuffle解决都需要存入内存的问题,但是又引入了另外一个问题:生成的小文件过多,尤其在每个文件的数据量不大而文件...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 276 | 评论总数: 0 | 标签:

Spark技术内幕:ShuffleRead的整体流程

回忆一下,每个Stage的上边界,要么需要从外部存储读取数据,要么需要读取上一个Stage的输出;而下边界,要么是需要写入本地文件系统(需要Shuffle),以供childStage读取,要么是最后一个Stage,需要输出结果。这里的Stage,在运行时的时候就是可以以pipeline的方式运行的一组Task,除了最后一个Stage对应的是ResultTask,其余的Stage对应的都是Shuff...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 372 | 评论总数: 0 | 标签:

Spark技术内幕:ShuffleMapTask运算结果的处理

ShuffleMapTask运算结果的处理这个结果的处理,分为两部分,一个是在Executor端是如何直接处理Task的结果的;还有就是Driver端,如果在接到Task运行结束的消息时,如何对ShuffleWrite的结果进行处理,从而在调度下游的Task时,下游的Task可以得到其需要的数据。Executor端的处理在解析BasicShuffleWriter时,我们知道ShuffleMapTa...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 262 | 评论总数: 0 | 标签:

Spark技术内幕:Shuffle的性能调优

通过上面的架构和源码实现的分析,不难得出Shuffle是SparkCore比较复杂的模块的结论。它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项在前文已经解释过它的含义,由于这些参数的确是非常重要,这里算是做一个详细的总结。1.1.1  spark.shuffle.manager前文也多次提到过,Spark1.2.0官方支持两种方式的Shuff...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 237 | 评论总数: 0 | 标签:

Spark技术内幕:Storage模块整体架构

Storage模块负责了Spark计算过程中所有的存储,包括基于Disk的和基于Memory的。用户在实际编程中,面对的是RDD,可以将RDD的数据通过调用org.apache.spark.rdd.RDD#cache将数据持久化;持久化的动作都是由Storage模块完成的。包括Shuffle过程中的数据,也都是由Storage模块管理的。可以说,RDD实现了用户的逻辑,而Storage则管理了用户...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 409 | 评论总数: 0 | 标签:

我的第一本著作:Spark技术内幕上市!

现在各大网站销售中!京东:http://item.jd.com/11770787.html当当:http://product.dangdang.com/23776595.html亚马逊:http://www.amazon.cn/SparkInternals前言和目录附上,以便有需要了解的同学:诞生于2005年的Hadoop解决了大数据的存储和计算问题,已经成为大数据处理的事实标准。但是,随着数据规...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 265 | 评论总数: 0 | 标签:

SparkMLlibDeepLearningNeuralNet(深度学习-神经网络)1.1

SparkMLlibDeepLearningNeuralNet(深度学习-神经网络)1.1http://blog.csdn.net/sunbow0SparkMLlibDeepLearning工具箱,是根据现有深度学习教程《UFLDL教程》中的算法,在SparkMLlib中的实现。具体SparkMLlibDeepLearning(深度学习)目录结构:第一章NeuralNet(NN)1、源码2、源码解...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 250 | 评论总数: 0 | 标签:

SparkMLlibDeepLearningNeuralNet(深度学习-神经网络)1.2

SparkMLlibDeepLearningNeuralNet(深度学习-神经网络)1.2http://blog.csdn.net/sunbow0第一章NeuralNet(神经网络)2基础及源码解析2.1NeuralNet神经网络基础知识2.1.1神经网络基础知识参照:http://deeplearning.stanford.edu/wiki/index.php/%E7%A5%9E%E7%BB%8...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 462 | 评论总数: 0 | 标签:

SparkMLlibDeepLearningNeuralNet(深度学习-神经网络)1.3

SparkMLlibDeepLearningNeuralNet(深度学习-神经网络)1.3http://blog.csdn.net/sunbow0第一章NeuralNet(神经网络)3实例3.1测试数据3.1.1测试函数采用智能优化算法的经典测试函数,如下:(1)SphereModel函数表达式搜索范围全局最优值函数简介:此函数为非线性的对称单峰函数,不同维之间是不可分离的。此函数相对比较简单,大...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 305 | 评论总数: 0 | 标签:

SparkMLlibDeepLearningDeepBeliefNetwork(深度学习-深度信念网络)2.1

SparkMLlibDeepLearningDeepBeliefNetwork(深度学习-深度信念网络)2.1http://blog.csdn.net/sunbow0SparkMLlibDeepLearning工具箱,是根据现有深度学习教程《UFLDL教程》中的算法,在SparkMLlib中的实现。具体SparkMLlibDeepLearning(深度学习)目录结构:第一章NeuralNet(NN...

作者:sky | 创建日期: 2016-11-16 12:02 | 浏览次数: 496 | 评论总数: 0 | 标签:

SparkMLlibDeepLearningDeepBeliefNetwork(深度学习-深度信念网络)2.2

SparkMLlibDeepLearningDeepBeliefNetwork(深度学习-深度信念网络)2.2http://blog.csdn.net/sunbow0第二章DeepBeliefNetwork(深度信念网络)2基础及源码解析2.1DeepBeliefNetwork深度信念网络基础知识1)综合基础知识参照:http://tieba.baidu.com/p/2895759455http:...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 276 | 评论总数: 0 | 标签:

SparkMLlibDeepLearningDeepBeliefNetwork(深度学习-深度信念网络)2.3

SparkMLlibDeepLearningDeepBeliefNetwork(深度学习-深度信念网络)2.3http://blog.csdn.net/sunbow0第二章DeepBeliefNetwork(深度信念网络)3实例3.1测试数据按照上例数据,或者新建图片识别数据。3.2DBN实例//****************例2(读取固定样本:来源于经典优化算法测试函数SphereModel)...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 258 | 评论总数: 0 | 标签:

SparkMLlibDeepLearningConvolutionNeuralNetwork(深度学习-卷积神经网络)3.1

3、SparkMLlibDeepLearningConvolutionNeuralNetwork(深度学习-卷积神经网络)3.1http://blog.csdn.net/sunbow0SparkMLlibDeepLearning工具箱,是根据现有深度学习教程《UFLDL教程》中的算法,在SparkMLlib中的实现。具体SparkMLlibDeepLearning(深度学习)目录结构:第一章Neu...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 474 | 评论总数: 0 | 标签:

SparkMLlibDeepLearningConvolutionNeuralNetwork(深度学习-卷积神经网络)3.2

3、SparkMLlibDeepLearningConvolutionNeuralNetwork(深度学习-卷积神经网络)3.2http://blog.csdn.net/sunbow0第三章ConvolutionNeuralNetwork(卷积神经网络)2基础及源码解析2.1ConvolutionNeuralNetwork卷积神经网络基础知识1)基础知识:自行google,百度,基础方面的非常多,...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 251 | 评论总数: 0 | 标签:

SparkMLlibDeepLearningConvolutionNeuralNetwork(深度学习-卷积神经网络)3.3

3、SparkMLlibDeepLearningConvolutionNeuralNetwork(深度学习-卷积神经网络)3.3http://blog.csdn.net/sunbow0第三章ConvolutionNeuralNetwork(卷积神经网络)3实例3.1测试数据按照上例数据,或者新建图片识别数据。3.2CNN实例//2测试数据Logger.getRootLogger.setLevel(...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 273 | 评论总数: 0 | 标签:

[置顶]倾情大奉送--Spark入门实战系列

这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、SparkStreaming、SparkMLib和SparkGraphX等。文章内容的整理一般是先介绍原理,随后是实战例子,由于面向的是入门读者,在实...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 480 | 评论总数: 0 | 标签:

Spark入门实战系列--1.Spark及其生态圈简介

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1、简介1.1Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithms,Machines,andPeopleLab)开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 287 | 评论总数: 0 | 标签:

Spark入门实战系列--2.Spark编译与部署(上)--基础环境搭建

【注】1、该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取;2、Spark编译与部署将以CentOS64位操作系统为基础,主要是考虑到实际应用一般使用64位操作系统,内容分为三部分:基础环境搭建、Hadoop编译安装和Spark编译安装,该环境作为后续实验基础;3、文章演示了Hadoop、Spark的编译过程,同时附属资源提供了编译好的安装包,觉得编译费时间可以...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 310 | 评论总数: 0 | 标签:

Spark入门实战系列--2.Spark编译与部署(中)--Hadoop编译安装

【注】该系列文章以及使用到安装包/测试数据可以在《[倾情大奉送–Spark入门实战系列](http://blog.csdn.net/yirenboy/article/details/47291765)》获取1编译Hadooop1.1搭建环境1.1.1安装并设置maven1.下载maven安装包,建议安装3.0以上版本,本次安装选择的是maven3.0.5的二进制包,下载地址如下http://mir...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 510 | 评论总数: 0 | 标签:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 下一页 最后一页   共 59 页面