Solo  当前访客:2 登录 注册
☆gater yu☆

~~ 一个java老鸟的博客 ~~

标签:
spark (168)

spark必须知道的几个观点

executor对应container内存executor对应的内存由两部分组成:–exuecutor-memory控制了堆的大小–spark.yarn.executor.memoryOverhead控制堆外内存,默认值(384MB,0.07*spark.executor.memory),该值一般偏小,需要调大日志凡是cluster模式启动的作业,日志都没有打印在本地。因为main()直接在dri...

作者:sky | 创建日期: 2016-11-16 12:06 | 浏览次数: 438 | 评论总数: 0 | 标签:

spark运行方式及其常用参数

本文将介绍spark的几种运行方式,及常用的参数yarncluster模式例行任务一般会采用这种方式运行指定固定的executor数作业常用的参数都在其中指定了,后面的运行脚本会省略spark-submit\--masteryarn-cluster\--deploy-modecluster\#集群运行模式--namewordcount_${date}\#作业名--queueproduction.g...

作者:sky | 创建日期: 2016-11-16 12:05 | 浏览次数: 459 | 评论总数: 0 | 标签:

Spark编程技巧

Spark是一种强烈依赖内存的计算框架,结合其运行流程,可以有很多可以调优的地方用reduceByKey替代groupByKey这两个转换都有shuffle过程发生,且都类似mapreduce,但是reduceByKey会在map阶段会对相同的key进行聚合,极大的减少了map产生的数据量,进而减少了shuffle的数据量,提高了程序的执行效率避免shuffleshuffle类算子会将多个节点的k...

作者:sky | 创建日期: 2016-11-16 12:05 | 浏览次数: 453 | 评论总数: 0 | 标签:

Spark学习资料

官网http://spark.apache.org/docs/1.6.2/index.html视频DataBricks出品的Spark入门视频(强推):https://www.edx.org/course/introduction-spark-uc-berkeleyx-cs105xhttps://www.edx.org/course/big-data-analysis-spark-uc-berke...

作者:sky | 创建日期: 2016-11-16 12:05 | 浏览次数: 677 | 评论总数: 0 | 标签:

Ubuntu15.10安装JDK(jdk1.8.0_65)

1.下载JDK选择下载Linux版本-64位:jdk-8u65-linux-x64.tar.gz下载链接:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html2.解压文件解压到当前目录tar-xzvfjdk-8u65-linux-x64.tar.gz解压后的文件为:jdk1.8.0_6...

作者:sky | 创建日期: 2016-11-16 12:05 | 浏览次数: 487 | 评论总数: 0 | 标签:

Ubuntu15.10安装Vim编辑器

Ubuntu中的VIM安装命令apt-getinstallvim原则上到这里就安装结束了,可以使用啦。修改配置Vim编辑器修改之后的效果图(Github上的大神搞得,挺棒的!)Fork到了自己的Github,以便于学习和使用,感谢大神。一键安装地址:wget-qO-https://raw.github.com/ma6174/vim/master/setup.sh|sh-x我的Github地址:ht...

作者:sky | 创建日期: 2016-11-16 12:05 | 浏览次数: 379 | 评论总数: 0 | 标签:

Ubuntu15.10安装配置SSH服务

##下载安装SSH##Ubuntu下的命令:apt-getinstallssh启动SSH服务/etc/init.d/sshstart使用命令验证服务是否启动成功ps-e|grepssh设置免密码登录SSH生成公钥(id_rsa.pub)和私钥(id_rsa)将公钥(id_rsa.pub)追加到authorized_keys中(authorized_keys中保存所有用户允许以当前用户身份登录到ss...

作者:sky | 创建日期: 2016-11-16 12:05 | 浏览次数: 385 | 评论总数: 0 | 标签:

Hadoop2.6.3安装配置

下载解压Hadoop2.6.3tar文件下载链接:http://hadoop.apache.org/releases.html解压文件,至当前文件夹:tar-xzvfhadoop-2.6.3.tar.gz新建自己的Hadoop目录,移动文件至该目录中新建hadoop目录mkdir/usr/local/hadoop移动解压后的文件到自己新建的hadoop目录当中mvhadoop-2.6.3/usr/...

作者:sky | 创建日期: 2016-11-16 12:05 | 浏览次数: 521 | 评论总数: 0 | 标签:

Spark1.6.0onHadoop-2.6.3安装配置

安装配置Scala1下载scala下载解压scala包:略附:下载链接http://www.scala-lang.org/download/2.10.4.html移动scala到指定目录mkdir/usr/local/scalamvscala-2.10.4/usr/local/scala2配置scala环境变量exportSCALA_HOME=/usr/local/scala/scala-2.10...

作者:sky | 创建日期: 2016-11-16 12:05 | 浏览次数: 670 | 评论总数: 0 | 标签:

dockerpullsequenceiq/spark:1.5.1

dockerpullsequenceiq/spark:1.5.1http://baidu.ku6.com/watch/8788485592428494013.html?page=videoMultiNeeddockerbuild–rm-tsequenceiq/spark:1.5.1Runningtheimage1:dockerrun-it-p8088:8088-p8042:8042-hsandbo...

作者:sky | 创建日期: 2016-11-16 12:05 | 浏览次数: 655 | 评论总数: 0 | 标签:

SparkRDD编程(二)

转载请注明出处:http://blog.csdn.net/gamer_gyt@高阳团博主微博:http://weibo.com/234654758Github:https://github.com/thinkgamer============================================================SparkRDD编程(一)Spark的键值对(pairRDD)...

作者:sky | 创建日期: 2016-11-16 12:05 | 浏览次数: 567 | 评论总数: 0 | 标签:

使用Python jieba和java 庖丁分词在Spark集群上进行中文分词统计

写在前边的话:本篇博客也是在做豆瓣电影数据的分析过程中,需要对影评信息和剧情摘要信息进行分析而写的一篇博客以前学习hadoop时,感觉做中文分词也没那么麻烦,但是到了Spark,却碰到了诸多困难,但幸好最终都解决了这些问题,而得到了正确的结果,这里我们不解释具体的spark语法之类的,着重于解决中文分词统计这个问题同步github地址:点击查看1:Python+jieba使用python版本的sp...

作者:sky | 创建日期: 2016-11-16 12:05 | 浏览次数: 1,045 | 评论总数: 0 | 标签:

IDEA构建Spark编程环境和用Scala实现PageRank算法

写在前边的话以前在学习编写mapreduce时,由于没有shell,就是首先在eclipse里配置环境,利用eclipse的强大功能进行编写,调试,编译,最终打包到集群上运行,同样面对Spark的时候,虽然spark提供了强大的shell脚本能力,但对于定期或者处理时间很长的程序来说并不适合使用shell,所以这里我选用了强大IDEA作为spark的开发环境环境说明(点击下载):Java1.8.1...

作者:sky | 创建日期: 2016-11-16 12:05 | 浏览次数: 487 | 评论总数: 0 | 标签:

带你走进Spark编程之Scala入门

写在前边的话:1:什么是Scala?Scala是一门多范式的编程语言,类似于Java,并集成了面向对象编程和函数式编程的各种特性,具体可参考知乎上的一个帖子2:本篇博客包含哪些内容?Scala中变量的声明与函数定义Scala中的控制结构Scala中的数据类型Scala中的类详解1:变量声明与函数定义变量声明:val和var ,两者的区别是val声明的变量是不可变的,而var声明的变量可变eg:sc...

作者:sky | 创建日期: 2016-11-16 12:05 | 浏览次数: 433 | 评论总数: 0 | 标签:

Spark集群启动pythonshell错误:Couldnotresolvehostnamelocalhost:Temporaryfailure

Hadoop集群部署参考:点击查看Spark集群部署参考:点击查看最近在自己搭建的平台上测试spark-python脚本,发现一个错误如下:<spanstyle="font-size:14px;">[master@slave1spark]$bin/pysparkPython2.6.6(r266:84292,Jul232015,15:22:56)[GCC4.4.72012...

作者:sky | 创建日期: 2016-11-16 12:05 | 浏览次数: 415 | 评论总数: 0 | 标签:

Spark的运行架构分析(二)之运行模式详解

在上一篇博客spark的运行架构分析(一)中我们有谈到Spark的运行模式是多种多样的,那么在这篇博客中我们来具体谈谈Spark的运行模式一:SparkOnLocal此种模式下,我们只需要在安装Spark时不进行hadoop和Yarn的环境配置,只要将Spark包解压即可使用,运行时Spark目录下的bin目录执行bin/spark-shell即可具体可参考这篇博客:http://blog.csd...

作者:sky | 创建日期: 2016-11-16 12:05 | 浏览次数: 286 | 评论总数: 0 | 标签:

Spark的运行架构分析(一)之架构概述

1:Spark的运行模式2:Spark中的一些名词解释3:Spark的运行基本流程4:RDD的运行基本流程一:Spark的运行模式Spark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行,而当以分布式集群的方式部署时,也有众多的运行模式可供选择,这取决于集群的实际情况,底层的资源调度即可以依赖外部资源调度框架,也可以使用Spark内建的Standalon...

作者:sky | 创建日期: 2016-11-16 12:05 | 浏览次数: 462 | 评论总数: 0 | 标签:

Spark的键值对(pairRDD)操作,Scala实现

一:什么是PairRDD?Spark为包含键值对对类型的RDD提供了一些专有操作,这些操作就被称为PairRDD,PairRDD是很多程序的构成要素,因为它们提供了并行操作对各个键或跨节点重新进行数据分组的操作接口。二:PairRDD的操作实例1:创建PairRDD在saprk中有很多种创建pairRDD的方式,很多存储键值对的数据格式会在读取时直接返回由其键值对数据组成的pairRDD,此外需要...

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 456 | 评论总数: 0 | 标签:

SparkRDD编程(Python和Scala版本)

Spark中的RDD就是一个不可变的分布式对象集合,是一种具有兼容性的基于内存的集群计算抽象方法,Spark则是这个方法的抽象。Spark的RDD操作分为转化操作(transformation)和行动操作(action),两者的区别在于:a.转化操作返回一个新的RDD对象b.行动操作则会对RDD产生一个计算结果,并把结果返回到驱动器程序中或者把结果存储到外部存储系统(如HDFS)常见的转化操作有:...

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 702 | 评论总数: 0 | 标签:

Spark的Shell操作,核心概念,构建独立应用

1:Spark中的Python和Scala的shell2:Spark核心概念简介3:独立应用4:Spark数据集一:Spark中的Python和Scala 的shell1:shell设置显示日志进入Spark的安装目录,启动spark的集群,输入bin/pyspark,但此时会伴有大量的日志信息,在这里想要缩减启动信息的显示,可以调整日志的级别来控制输出的信息量,在conf目目录下创建log4j....

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 342 | 评论总数: 0 | 标签:

1 2 3 4 5 6 7 8 9   共 9 页面