Solo  当前访客:1 登录 注册
☆gater yu☆

~~ 一个java老鸟的博客 ~~

标签:
spark (168)

Spark1.6.0onHadoop-2.6.3安装配置

安装配置Scala1下载scala下载解压scala包:略附:下载链接http://www.scala-lang.org/download/2.10.4.html移动scala到指定目录mkdir/usr/local/scalamvscala-2.10.4/usr/local/scala2配置scala环境变量exportSCALA_HOME=/usr/local/scala/scala-2.10...

作者:sky | 创建日期: 2016-09-23 22:06 | 浏览次数: 414 | 评论总数: 0 | 标签:

dockerpullsequenceiq/spark:1.5.1

dockerpullsequenceiq/spark:1.5.1http://baidu.ku6.com/watch/8788485592428494013.html?page=videoMultiNeeddockerbuild–rm-tsequenceiq/spark:1.5.1Runningtheimage1:dockerrun-it-p8088:8088-p8042:8042-hsandbo...

作者:sky | 创建日期: 2016-09-20 09:34 | 浏览次数: 437 | 评论总数: 0 | 标签:

SparkRDD编程(二)

转载请注明出处:http://blog.csdn.net/gamer_gyt@高阳团博主微博:http://weibo.com/234654758Github:https://github.com/thinkgamer============================================================SparkRDD编程(一)Spark的键值对(pairRDD)...

作者:sky | 创建日期: 2016-09-18 15:19 | 浏览次数: 184 | 评论总数: 0 | 标签:

使用Python jieba和java 庖丁分词在Spark集群上进行中文分词统计

写在前边的话:本篇博客也是在做豆瓣电影数据的分析过程中,需要对影评信息和剧情摘要信息进行分析而写的一篇博客以前学习hadoop时,感觉做中文分词也没那么麻烦,但是到了Spark,却碰到了诸多困难,但幸好最终都解决了这些问题,而得到了正确的结果,这里我们不解释具体的spark语法之类的,着重于解决中文分词统计这个问题同步github地址:点击查看1:Python+jieba使用python版本的sp...

作者:sky | 创建日期: 2016-09-16 21:03 | 浏览次数: 213 | 评论总数: 0 | 标签:

IDEA构建Spark编程环境和用Scala实现PageRank算法

写在前边的话以前在学习编写mapreduce时,由于没有shell,就是首先在eclipse里配置环境,利用eclipse的强大功能进行编写,调试,编译,最终打包到集群上运行,同样面对Spark的时候,虽然spark提供了强大的shell脚本能力,但对于定期或者处理时间很长的程序来说并不适合使用shell,所以这里我选用了强大IDEA作为spark的开发环境环境说明(点击下载):Java1.8.1...

作者:sky | 创建日期: 2016-09-15 02:47 | 浏览次数: 220 | 评论总数: 0 | 标签:

带你走进Spark编程之Scala入门

写在前边的话:1:什么是Scala?Scala是一门多范式的编程语言,类似于Java,并集成了面向对象编程和函数式编程的各种特性,具体可参考知乎上的一个帖子2:本篇博客包含哪些内容?Scala中变量的声明与函数定义Scala中的控制结构Scala中的数据类型Scala中的类详解1:变量声明与函数定义变量声明:val和var ,两者的区别是val声明的变量是不可变的,而var声明的变量可变eg:sc...

作者:sky | 创建日期: 2016-09-13 08:31 | 浏览次数: 385 | 评论总数: 0 | 标签:

Spark集群启动pythonshell错误:Couldnotresolvehostnamelocalhost:Temporaryfailure

Hadoop集群部署参考:点击查看Spark集群部署参考:点击查看最近在自己搭建的平台上测试spark-python脚本,发现一个错误如下:<spanstyle="font-size:14px;">[master@slave1spark]$bin/pysparkPython2.6.6(r266:84292,Jul232015,15:22:56)[GCC4.4.72012...

作者:sky | 创建日期: 2016-09-11 14:15 | 浏览次数: 203 | 评论总数: 0 | 标签:

Spark的运行架构分析(二)之运行模式详解

在上一篇博客spark的运行架构分析(一)中我们有谈到Spark的运行模式是多种多样的,那么在这篇博客中我们来具体谈谈Spark的运行模式一:SparkOnLocal此种模式下,我们只需要在安装Spark时不进行hadoop和Yarn的环境配置,只要将Spark包解压即可使用,运行时Spark目录下的bin目录执行bin/spark-shell即可具体可参考这篇博客:http://blog.csd...

作者:sky | 创建日期: 2016-09-09 19:59 | 浏览次数: 228 | 评论总数: 0 | 标签:

Spark的运行架构分析(一)之架构概述

1:Spark的运行模式2:Spark中的一些名词解释3:Spark的运行基本流程4:RDD的运行基本流程一:Spark的运行模式Spark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行,而当以分布式集群的方式部署时,也有众多的运行模式可供选择,这取决于集群的实际情况,底层的资源调度即可以依赖外部资源调度框架,也可以使用Spark内建的Standalon...

作者:sky | 创建日期: 2016-09-08 01:44 | 浏览次数: 500 | 评论总数: 0 | 标签:

Spark的键值对(pairRDD)操作,Scala实现

一:什么是PairRDD?Spark为包含键值对对类型的RDD提供了一些专有操作,这些操作就被称为PairRDD,PairRDD是很多程序的构成要素,因为它们提供了并行操作对各个键或跨节点重新进行数据分组的操作接口。二:PairRDD的操作实例1:创建PairRDD在saprk中有很多种创建pairRDD的方式,很多存储键值对的数据格式会在读取时直接返回由其键值对数据组成的pairRDD,此外需要...

作者:sky | 创建日期: 2016-09-06 07:28 | 浏览次数: 258 | 评论总数: 0 | 标签:

SparkRDD编程(Python和Scala版本)

Spark中的RDD就是一个不可变的分布式对象集合,是一种具有兼容性的基于内存的集群计算抽象方法,Spark则是这个方法的抽象。Spark的RDD操作分为转化操作(transformation)和行动操作(action),两者的区别在于:a.转化操作返回一个新的RDD对象b.行动操作则会对RDD产生一个计算结果,并把结果返回到驱动器程序中或者把结果存储到外部存储系统(如HDFS)常见的转化操作有:...

作者:sky | 创建日期: 2016-09-04 13:12 | 浏览次数: 387 | 评论总数: 0 | 标签:

Spark的Shell操作,核心概念,构建独立应用

1:Spark中的Python和Scala的shell2:Spark核心概念简介3:独立应用4:Spark数据集一:Spark中的Python和Scala 的shell1:shell设置显示日志进入Spark的安装目录,启动spark的集群,输入bin/pyspark,但此时会伴有大量的日志信息,在这里想要缩减启动信息的显示,可以调整日志的级别来控制输出的信息量,在conf目目录下创建log4j....

作者:sky | 创建日期: 2016-09-02 18:56 | 浏览次数: 230 | 评论总数: 0 | 标签:

Spark的伪分布安装和wordcount测试

基于hadoop2.6伪分布的Spark安装和wordcount测试一:环境说明Ubuntu:15.10(不稳定版,建议安装在稳定版,Ubuntu下XX..4是稳定的)Hadoop:2.6Scala:2.11.8Java:1.7.0Spark:1.6.1二:hadoop伪分布安装参考之前我写的一篇博客:http://blog.csdn.net/gamer_gyt/article/details/4...

作者:sky | 创建日期: 2016-09-01 00:40 | 浏览次数: 215 | 评论总数: 0 | 标签:

Spark-理解RDD

问题spark的计算模型是如何做到并行的呢?如果你有一箱香蕉,让三个人拿回家吃完,如果不拆箱子就会很麻烦对吧,哈哈,一个箱子嘛,当然只有一个人才能抱走了。这时候智商正常的人都知道要把箱子打开,倒出来香蕉,分别拿三个小箱子重新装起来,然后,各自抱回家去啃吧。Spark和很多其他分布式计算系统都借用了这种思想来实现并行:把一个超大的数据集,切分成N个小堆,找M个执行器(M<N),各自拿一块或多块...

作者:sky | 创建日期: 2016-08-30 06:24 | 浏览次数: 234 | 评论总数: 0 | 标签:

Spark实践-日志查询

环境win7jdk1.7.0_79(OracleCorporation)scalaversion2.10.5spark1.6.1详细配置:SparkPropertiesspark.app.idlocal-1461891171126spark.app.nameJavaLogQueryspark.driver.host10.170.26.123spark.driver.port34998spark.e...

作者:sky | 创建日期: 2016-08-28 12:09 | 浏览次数: 541 | 评论总数: 0 | 标签:

Spark-神奇的共享变量

一般情况下,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量被复制到每台机器上,并且这些变量在远程机器上 的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的,但是,Spark还是为两种常见的使用模式提供了两种有限的共享变量:广播变量(broadcastvariable)和累加器(accu...

作者:sky | 创建日期: 2016-08-26 17:53 | 浏览次数: 398 | 评论总数: 0 | 标签:

Spark-sparkstreaming

概念关联初始化streamingcontext离散流输入dstreamdstream的转化dstream的输出操作缓存或者持久化checkpointing部署应用程序监控应用程序性能调优减少批数据的执行事件设置正确的批容量内存调优容错语义$(function(){$('pre.prettyprintcode').each(function(){varlines=$(this).text().spl...

作者:sky | 创建日期: 2016-08-24 23:37 | 浏览次数: 207 | 评论总数: 0 | 标签:

Spark-rdd的持久化

Spark最重要的一个功能是它可以通过各种操作(operations)持久化(或者缓存)一个集合到内存中。当你持久化一个RDD的时候,每一个节点都将参与计算的所有分区数据存储到内存中,并且这些数据可以被这个集合(以及这个集合衍生的其他集合)的动作(action)重复利用。这个能力使后续的动作速度更快(通常快10倍以上)。对应迭代算法和快速的交互使用来说,缓存是一个关键的工具。你能通过persist...

作者:sky | 创建日期: 2016-08-23 05:21 | 浏览次数: 360 | 评论总数: 0 | 标签:

Spark-快速上手

快速上手Spark的交互式shell(用Python或Scala)介绍它的API。当演示如何在Java,Scala和Python写独立的程序时,看编程指南里完整的参考。依照这个指南,首先从Spark网站下载一个Spark发行包。因为我们不会使用HDFS,你可以下载任何Hadoop版本的包。使用SparkShell。Spark的shell作为一个强大的交互式数据分析工具,提供了一个简单的方式来学习A...

作者:sky | 创建日期: 2016-08-21 11:05 | 浏览次数: 396 | 评论总数: 0 | 标签:

Spark-继续RDD

接着上篇博客的rdd的transformation有这么多常用的API:另一个action也有很多API:$(function(){$('pre.prettyprintcode').each(function(){varlines=$(this).text().split('').length;var$numbering=$('
    ').addClass('pre-numbering').h...

作者:sky | 创建日期: 2016-08-19 16:49 | 浏览次数: 394 | 评论总数: 0 | 标签:

1 2 3 4 5 6 7 8 9   共 9 页面