Solo  当前访客:1 登录 注册
☆gater yu☆

~~ 一个java老鸟的博客 ~~

Spark的运行架构分析(二)之运行模式详解

在上一篇博客spark的运行架构分析(一)中我们有谈到Spark的运行模式是多种多样的,那么在这篇博客中我们来具体谈谈Spark的运行模式一:SparkOnLocal此种模式下,我们只需要在安装Spark时不进行hadoop和Yarn的环境配置,只要将Spark包解压即可使用,运行时Spark目录下的bin目录执行bin/spark-shell即可具体可参考这篇博客:http://blog.csd...

作者:sky | 创建日期: 2016-11-16 12:05 | 浏览次数: 286 | 评论总数: 0 | 标签:

Spark的运行架构分析(一)之架构概述

1:Spark的运行模式2:Spark中的一些名词解释3:Spark的运行基本流程4:RDD的运行基本流程一:Spark的运行模式Spark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行,而当以分布式集群的方式部署时,也有众多的运行模式可供选择,这取决于集群的实际情况,底层的资源调度即可以依赖外部资源调度框架,也可以使用Spark内建的Standalon...

作者:sky | 创建日期: 2016-11-16 12:05 | 浏览次数: 462 | 评论总数: 0 | 标签:

Spark的键值对(pairRDD)操作,Scala实现

一:什么是PairRDD?Spark为包含键值对对类型的RDD提供了一些专有操作,这些操作就被称为PairRDD,PairRDD是很多程序的构成要素,因为它们提供了并行操作对各个键或跨节点重新进行数据分组的操作接口。二:PairRDD的操作实例1:创建PairRDD在saprk中有很多种创建pairRDD的方式,很多存储键值对的数据格式会在读取时直接返回由其键值对数据组成的pairRDD,此外需要...

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 455 | 评论总数: 0 | 标签:

SparkRDD编程(Python和Scala版本)

Spark中的RDD就是一个不可变的分布式对象集合,是一种具有兼容性的基于内存的集群计算抽象方法,Spark则是这个方法的抽象。Spark的RDD操作分为转化操作(transformation)和行动操作(action),两者的区别在于:a.转化操作返回一个新的RDD对象b.行动操作则会对RDD产生一个计算结果,并把结果返回到驱动器程序中或者把结果存储到外部存储系统(如HDFS)常见的转化操作有:...

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 702 | 评论总数: 0 | 标签:

Spark的Shell操作,核心概念,构建独立应用

1:Spark中的Python和Scala的shell2:Spark核心概念简介3:独立应用4:Spark数据集一:Spark中的Python和Scala 的shell1:shell设置显示日志进入Spark的安装目录,启动spark的集群,输入bin/pyspark,但此时会伴有大量的日志信息,在这里想要缩减启动信息的显示,可以调整日志的级别来控制输出的信息量,在conf目目录下创建log4j....

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 342 | 评论总数: 0 | 标签:

Spark的伪分布安装和wordcount测试

基于hadoop2.6伪分布的Spark安装和wordcount测试一:环境说明Ubuntu:15.10(不稳定版,建议安装在稳定版,Ubuntu下XX..4是稳定的)Hadoop:2.6Scala:2.11.8Java:1.7.0Spark:1.6.1二:hadoop伪分布安装参考之前我写的一篇博客:http://blog.csdn.net/gamer_gyt/article/details/4...

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 425 | 评论总数: 0 | 标签:

Spark-理解RDD

问题spark的计算模型是如何做到并行的呢?如果你有一箱香蕉,让三个人拿回家吃完,如果不拆箱子就会很麻烦对吧,哈哈,一个箱子嘛,当然只有一个人才能抱走了。这时候智商正常的人都知道要把箱子打开,倒出来香蕉,分别拿三个小箱子重新装起来,然后,各自抱回家去啃吧。Spark和很多其他分布式计算系统都借用了这种思想来实现并行:把一个超大的数据集,切分成N个小堆,找M个执行器(M<N),各自拿一块或多块...

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 246 | 评论总数: 0 | 标签:

Spark实践-日志查询

环境win7jdk1.7.0_79(OracleCorporation)scalaversion2.10.5spark1.6.1详细配置:SparkPropertiesspark.app.idlocal-1461891171126spark.app.nameJavaLogQueryspark.driver.host10.170.26.123spark.driver.port34998spark.e...

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 291 | 评论总数: 0 | 标签:

Spark-神奇的共享变量

一般情况下,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量被复制到每台机器上,并且这些变量在远程机器上 的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的,但是,Spark还是为两种常见的使用模式提供了两种有限的共享变量:广播变量(broadcastvariable)和累加器(accu...

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 258 | 评论总数: 0 | 标签:

Spark-sparkstreaming

概念关联初始化streamingcontext离散流输入dstreamdstream的转化dstream的输出操作缓存或者持久化checkpointing部署应用程序监控应用程序性能调优减少批数据的执行事件设置正确的批容量内存调优容错语义$(function(){$('pre.prettyprintcode').each(function(){varlines=$(this).text().spl...

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 416 | 评论总数: 0 | 标签:

Spark-rdd的持久化

Spark最重要的一个功能是它可以通过各种操作(operations)持久化(或者缓存)一个集合到内存中。当你持久化一个RDD的时候,每一个节点都将参与计算的所有分区数据存储到内存中,并且这些数据可以被这个集合(以及这个集合衍生的其他集合)的动作(action)重复利用。这个能力使后续的动作速度更快(通常快10倍以上)。对应迭代算法和快速的交互使用来说,缓存是一个关键的工具。你能通过persist...

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 388 | 评论总数: 0 | 标签:

Spark-快速上手

快速上手Spark的交互式shell(用Python或Scala)介绍它的API。当演示如何在Java,Scala和Python写独立的程序时,看编程指南里完整的参考。依照这个指南,首先从Spark网站下载一个Spark发行包。因为我们不会使用HDFS,你可以下载任何Hadoop版本的包。使用SparkShell。Spark的shell作为一个强大的交互式数据分析工具,提供了一个简单的方式来学习A...

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 242 | 评论总数: 0 | 标签:

Spark-继续RDD

接着上篇博客的rdd的transformation有这么多常用的API:另一个action也有很多API:$(function(){$('pre.prettyprintcode').each(function(){varlines=$(this).text().split('').length;var$numbering=$('
    ').addClass('pre-numbering').h...

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 231 | 评论总数: 0 | 标签:

spark1.6分布式集群环境搭建

1.概述本文是对spark1.6.0分布式集群的安装的一个详细说明,旨在帮助相关人员按照本说明能够快速搭建并使用spark集群。2.安装环境本安装说明的示例环境部署如下:IP外网IPhostname备注10.47.110.38120.27.153.137iZ237654q6qZMaster、Slaver10.24.35.51114.55.56.190iZ23pd81xqaZSlaver10.45....

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 471 | 评论总数: 0 | 标签:

spark-TopK算法

Case:输入:文本文件输出:(158,)(28,the)(19,to)(18,Spark)(17,and)(11,Hadoop)(10,##)(8,you)(8,with)(8,for)算法:首先实现wordcount,topk实现是以wordcount为基础,在分词统计完成后交换key/value,然后调用sortByKey进行排序。javaimportorg.apache.spark.Spa...

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 271 | 评论总数: 0 | 标签:

Scala函数特性

通常情况下,函数的参数是传值参数;即参数的值在它被传递给函数之前被确定。但是,如果我们需要编写一个接收参数不希望马上计算,直到调用函数内的表达式才进行真正的计算的函数。对于这种情况,Scala提供按名称参数调用函数。示例代码如下:结果:在代码中,如果定义函数的时候,传入参数不是传入的值,而是传入的参数名称(如代码中使用t:=>Long而不是t:Long),在调用该函数时,不会立即执行和参数有...

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 280 | 评论总数: 0 | 标签:

使用Spark框架中文分词统计

技术Spark+中文分词算法对爬取的网站文章的关键词进行统计,是进行主题分类,判断相似性的一个基础步骤。例如,一篇文章大量出现“风景”和“酒店”之类的词语,那么这篇文章归类为“旅游”类的概率就比较大。而在关于“美食”的文章中,“餐厅”和“美味”等词语出现的频率一般也会比较大。分词使用语言云http://www.ltp-cloud.com实现对一段中文先进行分词,然后通过Sparkstreaming...

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 1,197 | 评论总数: 0 | 标签:

Spark-SparkSql

SparkSql允许spark执行sql语句,hivesql,scala的描述的基于关系的查询。其实是封装了新的RDD-SchemaRDD,由行对象组成,有一个模式描述每列的数据类型。SchemaRDD与关系型数据库的表很相似,可以通过存在的RDD/Parquet文件/Json文件/用Hive中的数据HiveSql创建。其中相关功能入口是SQLContext()及其子类。如HiveContext可...

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 283 | 评论总数: 0 | 标签:

Spark-ML-01-小试spark分析离线商品信息

任务一个在线商品购买记录数据集,约40M,格式如下:Jack,iphonecover,9,99Jack,iphonecover,9,99Jack,iphonecover,9,99Jack,iphonecover,9,99完成统计:1.购买总次数2.客户总个数3.总收入4.最畅销的商品代码importjava.util.Collections;importjava.util.Comparator;i...

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 453 | 评论总数: 0 | 标签:

Spark-ML-02-设计机器学习系统

机器学习在商业系统应该是用的最多了,和传统人工区分开,因为数据集量级太大和复杂度太高,机器可以发现人难以发现的模型,基于模型的方式处理可以避免人的情感偏见。人工也是不可以完全抛开的,比如监督式的学习,靠人工;来标记数据,训练模型。文本标记和文本的情感标识别,还有就是破解验证码时基于CNN大量的训练集要靠人来处理,也是醉了,那是很累啊。模型出来后,可以做成服务整合到其他系统中,机器学习应用在:个性化...

作者:sky | 创建日期: 2016-11-16 12:04 | 浏览次数: 245 | 评论总数: 0 | 标签:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 下一页 最后一页   共 59 页面