Solo  当前访客:1 登录 注册
☆gater yu☆

~~ 一个java老鸟的博客 ~~

标签:
spark (168)

Ubuntu15.10安装JDK(jdk1.8.0_65)

1.下载JDK选择下载Linux版本-64位:jdk-8u65-linux-x64.tar.gz下载链接:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html2.解压文件解压到当前目录tar-xzvfjdk-8u65-linux-x64.tar.gz解压后的文件为:jdk1.8.0_6...

作者:sky | 创建日期: 2016-11-15 12:04 | 浏览次数: 301 | 评论总数: 0 | 标签:

Ubuntu15.10安装Vim编辑器

Ubuntu中的VIM安装命令apt-getinstallvim原则上到这里就安装结束了,可以使用啦。修改配置Vim编辑器修改之后的效果图(Github上的大神搞得,挺棒的!)Fork到了自己的Github,以便于学习和使用,感谢大神。一键安装地址:wget-qO-https://raw.github.com/ma6174/vim/master/setup.sh|sh-x我的Github地址:ht...

作者:sky | 创建日期: 2016-11-15 12:04 | 浏览次数: 252 | 评论总数: 0 | 标签:

Ubuntu15.10安装配置SSH服务

##下载安装SSH##Ubuntu下的命令:apt-getinstallssh启动SSH服务/etc/init.d/sshstart使用命令验证服务是否启动成功ps-e|grepssh设置免密码登录SSH生成公钥(id_rsa.pub)和私钥(id_rsa)将公钥(id_rsa.pub)追加到authorized_keys中(authorized_keys中保存所有用户允许以当前用户身份登录到ss...

作者:sky | 创建日期: 2016-11-15 12:04 | 浏览次数: 245 | 评论总数: 0 | 标签:

Hadoop2.6.3安装配置

下载解压Hadoop2.6.3tar文件下载链接:http://hadoop.apache.org/releases.html解压文件,至当前文件夹:tar-xzvfhadoop-2.6.3.tar.gz新建自己的Hadoop目录,移动文件至该目录中新建hadoop目录mkdir/usr/local/hadoop移动解压后的文件到自己新建的hadoop目录当中mvhadoop-2.6.3/usr/...

作者:sky | 创建日期: 2016-11-15 12:04 | 浏览次数: 264 | 评论总数: 0 | 标签:

Spark1.6.0onHadoop-2.6.3安装配置

安装配置Scala1下载scala下载解压scala包:略附:下载链接http://www.scala-lang.org/download/2.10.4.html移动scala到指定目录mkdir/usr/local/scalamvscala-2.10.4/usr/local/scala2配置scala环境变量exportSCALA_HOME=/usr/local/scala/scala-2.10...

作者:sky | 创建日期: 2016-11-15 12:04 | 浏览次数: 446 | 评论总数: 0 | 标签:

dockerpullsequenceiq/spark:1.5.1

dockerpullsequenceiq/spark:1.5.1http://baidu.ku6.com/watch/8788485592428494013.html?page=videoMultiNeeddockerbuild–rm-tsequenceiq/spark:1.5.1Runningtheimage1:dockerrun-it-p8088:8088-p8042:8042-hsandbo...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 456 | 评论总数: 0 | 标签:

SparkRDD编程(二)

转载请注明出处:http://blog.csdn.net/gamer_gyt@高阳团博主微博:http://weibo.com/234654758Github:https://github.com/thinkgamer============================================================SparkRDD编程(一)Spark的键值对(pairRDD)...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 246 | 评论总数: 0 | 标签:

使用Python jieba和java 庖丁分词在Spark集群上进行中文分词统计

写在前边的话:本篇博客也是在做豆瓣电影数据的分析过程中,需要对影评信息和剧情摘要信息进行分析而写的一篇博客以前学习hadoop时,感觉做中文分词也没那么麻烦,但是到了Spark,却碰到了诸多困难,但幸好最终都解决了这些问题,而得到了正确的结果,这里我们不解释具体的spark语法之类的,着重于解决中文分词统计这个问题同步github地址:点击查看1:Python+jieba使用python版本的sp...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 281 | 评论总数: 0 | 标签:

IDEA构建Spark编程环境和用Scala实现PageRank算法

写在前边的话以前在学习编写mapreduce时,由于没有shell,就是首先在eclipse里配置环境,利用eclipse的强大功能进行编写,调试,编译,最终打包到集群上运行,同样面对Spark的时候,虽然spark提供了强大的shell脚本能力,但对于定期或者处理时间很长的程序来说并不适合使用shell,所以这里我选用了强大IDEA作为spark的开发环境环境说明(点击下载):Java1.8.1...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 295 | 评论总数: 0 | 标签:

带你走进Spark编程之Scala入门

写在前边的话:1:什么是Scala?Scala是一门多范式的编程语言,类似于Java,并集成了面向对象编程和函数式编程的各种特性,具体可参考知乎上的一个帖子2:本篇博客包含哪些内容?Scala中变量的声明与函数定义Scala中的控制结构Scala中的数据类型Scala中的类详解1:变量声明与函数定义变量声明:val和var ,两者的区别是val声明的变量是不可变的,而var声明的变量可变eg:sc...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 243 | 评论总数: 0 | 标签:

Spark集群启动pythonshell错误:Couldnotresolvehostnamelocalhost:Temporaryfailure

Hadoop集群部署参考:点击查看Spark集群部署参考:点击查看最近在自己搭建的平台上测试spark-python脚本,发现一个错误如下:<spanstyle="font-size:14px;">[master@slave1spark]$bin/pysparkPython2.6.6(r266:84292,Jul232015,15:22:56)[GCC4.4.72012...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 464 | 评论总数: 0 | 标签:

Spark的运行架构分析(二)之运行模式详解

在上一篇博客spark的运行架构分析(一)中我们有谈到Spark的运行模式是多种多样的,那么在这篇博客中我们来具体谈谈Spark的运行模式一:SparkOnLocal此种模式下,我们只需要在安装Spark时不进行hadoop和Yarn的环境配置,只要将Spark包解压即可使用,运行时Spark目录下的bin目录执行bin/spark-shell即可具体可参考这篇博客:http://blog.csd...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 224 | 评论总数: 0 | 标签:

Spark的运行架构分析(一)之架构概述

1:Spark的运行模式2:Spark中的一些名词解释3:Spark的运行基本流程4:RDD的运行基本流程一:Spark的运行模式Spark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行,而当以分布式集群的方式部署时,也有众多的运行模式可供选择,这取决于集群的实际情况,底层的资源调度即可以依赖外部资源调度框架,也可以使用Spark内建的Standalon...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 235 | 评论总数: 0 | 标签:

Spark的键值对(pairRDD)操作,Scala实现

一:什么是PairRDD?Spark为包含键值对对类型的RDD提供了一些专有操作,这些操作就被称为PairRDD,PairRDD是很多程序的构成要素,因为它们提供了并行操作对各个键或跨节点重新进行数据分组的操作接口。二:PairRDD的操作实例1:创建PairRDD在saprk中有很多种创建pairRDD的方式,很多存储键值对的数据格式会在读取时直接返回由其键值对数据组成的pairRDD,此外需要...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 459 | 评论总数: 0 | 标签:

SparkRDD编程(Python和Scala版本)

Spark中的RDD就是一个不可变的分布式对象集合,是一种具有兼容性的基于内存的集群计算抽象方法,Spark则是这个方法的抽象。Spark的RDD操作分为转化操作(transformation)和行动操作(action),两者的区别在于:a.转化操作返回一个新的RDD对象b.行动操作则会对RDD产生一个计算结果,并把结果返回到驱动器程序中或者把结果存储到外部存储系统(如HDFS)常见的转化操作有:...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 472 | 评论总数: 0 | 标签:

Spark的Shell操作,核心概念,构建独立应用

1:Spark中的Python和Scala的shell2:Spark核心概念简介3:独立应用4:Spark数据集一:Spark中的Python和Scala 的shell1:shell设置显示日志进入Spark的安装目录,启动spark的集群,输入bin/pyspark,但此时会伴有大量的日志信息,在这里想要缩减启动信息的显示,可以调整日志的级别来控制输出的信息量,在conf目目录下创建log4j....

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 253 | 评论总数: 0 | 标签:

Spark的伪分布安装和wordcount测试

基于hadoop2.6伪分布的Spark安装和wordcount测试一:环境说明Ubuntu:15.10(不稳定版,建议安装在稳定版,Ubuntu下XX..4是稳定的)Hadoop:2.6Scala:2.11.8Java:1.7.0Spark:1.6.1二:hadoop伪分布安装参考之前我写的一篇博客:http://blog.csdn.net/gamer_gyt/article/details/4...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 241 | 评论总数: 0 | 标签:

Spark-理解RDD

问题spark的计算模型是如何做到并行的呢?如果你有一箱香蕉,让三个人拿回家吃完,如果不拆箱子就会很麻烦对吧,哈哈,一个箱子嘛,当然只有一个人才能抱走了。这时候智商正常的人都知道要把箱子打开,倒出来香蕉,分别拿三个小箱子重新装起来,然后,各自抱回家去啃吧。Spark和很多其他分布式计算系统都借用了这种思想来实现并行:把一个超大的数据集,切分成N个小堆,找M个执行器(M<N),各自拿一块或多块...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 277 | 评论总数: 0 | 标签:

Spark实践-日志查询

环境win7jdk1.7.0_79(OracleCorporation)scalaversion2.10.5spark1.6.1详细配置:SparkPropertiesspark.app.idlocal-1461891171126spark.app.nameJavaLogQueryspark.driver.host10.170.26.123spark.driver.port34998spark.e...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 469 | 评论总数: 0 | 标签:

Spark-神奇的共享变量

一般情况下,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量被复制到每台机器上,并且这些变量在远程机器上 的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的,但是,Spark还是为两种常见的使用模式提供了两种有限的共享变量:广播变量(broadcastvariable)和累加器(accu...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 246 | 评论总数: 0 | 标签:

1 2 3 4 5 6 7 8 9   共 9 页面