Solo  当前访客:1 登录 注册
☆gater yu☆

~~ 一个java老鸟的博客 ~~

标签:
spark (168)

Spark-sparkstreaming

概念关联初始化streamingcontext离散流输入dstreamdstream的转化dstream的输出操作缓存或者持久化checkpointing部署应用程序监控应用程序性能调优减少批数据的执行事件设置正确的批容量内存调优容错语义$(function(){$('pre.prettyprintcode').each(function(){varlines=$(this).text().spl...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 259 | 评论总数: 0 | 标签:

Spark-rdd的持久化

Spark最重要的一个功能是它可以通过各种操作(operations)持久化(或者缓存)一个集合到内存中。当你持久化一个RDD的时候,每一个节点都将参与计算的所有分区数据存储到内存中,并且这些数据可以被这个集合(以及这个集合衍生的其他集合)的动作(action)重复利用。这个能力使后续的动作速度更快(通常快10倍以上)。对应迭代算法和快速的交互使用来说,缓存是一个关键的工具。你能通过persist...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 232 | 评论总数: 0 | 标签:

Spark-快速上手

快速上手Spark的交互式shell(用Python或Scala)介绍它的API。当演示如何在Java,Scala和Python写独立的程序时,看编程指南里完整的参考。依照这个指南,首先从Spark网站下载一个Spark发行包。因为我们不会使用HDFS,你可以下载任何Hadoop版本的包。使用SparkShell。Spark的shell作为一个强大的交互式数据分析工具,提供了一个简单的方式来学习A...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 289 | 评论总数: 0 | 标签:

Spark-继续RDD

接着上篇博客的rdd的transformation有这么多常用的API:另一个action也有很多API:$(function(){$('pre.prettyprintcode').each(function(){varlines=$(this).text().split('').length;var$numbering=$('
    ').addClass('pre-numbering').h...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 438 | 评论总数: 0 | 标签:

spark1.6分布式集群环境搭建

1.概述本文是对spark1.6.0分布式集群的安装的一个详细说明,旨在帮助相关人员按照本说明能够快速搭建并使用spark集群。2.安装环境本安装说明的示例环境部署如下:IP外网IPhostname备注10.47.110.38120.27.153.137iZ237654q6qZMaster、Slaver10.24.35.51114.55.56.190iZ23pd81xqaZSlaver10.45....

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 288 | 评论总数: 0 | 标签:

spark-TopK算法

Case:输入:文本文件输出:(158,)(28,the)(19,to)(18,Spark)(17,and)(11,Hadoop)(10,##)(8,you)(8,with)(8,for)算法:首先实现wordcount,topk实现是以wordcount为基础,在分词统计完成后交换key/value,然后调用sortByKey进行排序。javaimportorg.apache.spark.Spa...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 316 | 评论总数: 0 | 标签:

Scala函数特性

通常情况下,函数的参数是传值参数;即参数的值在它被传递给函数之前被确定。但是,如果我们需要编写一个接收参数不希望马上计算,直到调用函数内的表达式才进行真正的计算的函数。对于这种情况,Scala提供按名称参数调用函数。示例代码如下:结果:在代码中,如果定义函数的时候,传入参数不是传入的值,而是传入的参数名称(如代码中使用t:=>Long而不是t:Long),在调用该函数时,不会立即执行和参数有...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 279 | 评论总数: 0 | 标签:

使用Spark框架中文分词统计

技术Spark+中文分词算法对爬取的网站文章的关键词进行统计,是进行主题分类,判断相似性的一个基础步骤。例如,一篇文章大量出现“风景”和“酒店”之类的词语,那么这篇文章归类为“旅游”类的概率就比较大。而在关于“美食”的文章中,“餐厅”和“美味”等词语出现的频率一般也会比较大。分词使用语言云http://www.ltp-cloud.com实现对一段中文先进行分词,然后通过Sparkstreaming...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 400 | 评论总数: 0 | 标签:

Spark-SparkSql

SparkSql允许spark执行sql语句,hivesql,scala的描述的基于关系的查询。其实是封装了新的RDD-SchemaRDD,由行对象组成,有一个模式描述每列的数据类型。SchemaRDD与关系型数据库的表很相似,可以通过存在的RDD/Parquet文件/Json文件/用Hive中的数据HiveSql创建。其中相关功能入口是SQLContext()及其子类。如HiveContext可...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 256 | 评论总数: 0 | 标签:

Spark-ML-01-小试spark分析离线商品信息

任务一个在线商品购买记录数据集,约40M,格式如下:Jack,iphonecover,9,99Jack,iphonecover,9,99Jack,iphonecover,9,99Jack,iphonecover,9,99完成统计:1.购买总次数2.客户总个数3.总收入4.最畅销的商品代码importjava.util.Collections;importjava.util.Comparator;i...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 429 | 评论总数: 0 | 标签:

Spark-ML-02-设计机器学习系统

机器学习在商业系统应该是用的最多了,和传统人工区分开,因为数据集量级太大和复杂度太高,机器可以发现人难以发现的模型,基于模型的方式处理可以避免人的情感偏见。人工也是不可以完全抛开的,比如监督式的学习,靠人工;来标记数据,训练模型。文本标记和文本的情感标识别,还有就是破解验证码时基于CNN大量的训练集要靠人来处理,也是醉了,那是很累啊。模型出来后,可以做成服务整合到其他系统中,机器学习应用在:个性化...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 275 | 评论总数: 0 | 标签:

大数据日志分析logstashlasticsearch\kibana

elk是指logstash,elasticsearch,kibana三件套,这三件套可以组成日志分析和监控工具注意:关于安装文档,网络上有很多,可以参考,不可以全信,而且三件套各自的版本很多,差别也不一样,需要版本匹配上才能使用。推荐直接使用官网的这一套:elkdownloads。比如我这里下载的一套是logstash1.4.2+elasticsearch1.4.2+kibana3.1.2安装el...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 267 | 评论总数: 0 | 标签:

Spark-数据分析可视化Zeppelin

官网介绍ApacheZeppelin提供了web版的类似ipython的notebook,用于做数据分析和可视化。背后可以接入不同的数据处理引擎,包括Spark,hive,tajo等,原生支持scala,Java,shell,markdown等。它的整体展现和使用形式和DatabricksCloud是一样的。安装其他组件都是好安装的,直接mvninstall是没问题的。而且zeppelin-web...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 363 | 评论总数: 0 | 标签:

Spark-Caching/Checkpointing

功能:cacheing和checkpointing这2种操作是都是用来防止rdd(弹性分布式数据集)每次被引用时被重复计算带来的时间和空间上不必要的损失。区别:Cachingcache机制保证了需要访问重复数据的应用(如迭代型算法和交互式应用)可以运行的更快。有多种级别的持久化策略让开发者选择,使开发者能够对空间和计算成本进行权衡,同时能指定outofmemory时对rdd的操作(缓存在内存或者磁...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 239 | 评论总数: 0 | 标签:

Spark-SparkStreaming-广告点击的在线黑名单过滤

任务广告点击的在线黑名单过滤使用nc-lk9999在数据发送端口输入若干数据,比如:1375864674543Tom1375864674553Spy1375864674571Andy1375864688436Cheater1375864784240Kelvin1375864853892Steven1375864979347John代码importorg.apache.spark.SparkConf...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 446 | 评论总数: 0 | 标签:

Spark-再次分析Apache访问日志

分析日志的包自己编译下:sbtcompilesbttestsbtpackageApacheLogParser.jar对于访问日志简单分析grep等利器比较好,但是更复杂的查询就需要Spark了。代码:importcom.alvinalexander.accesslogparser._valp=newAccessLogParservallog=sc.textFile("log.small&#...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 234 | 评论总数: 0 | 标签:

Spark-项目中分析日志的核心代码

代码LogRecord类:caseclassLogRecord(clientIpAddress:String,rfc1413ClientIdentity:String,remoteUser:String,`dateTime:String,//[day/month/year:hour:minute:secondzone]request:String,httpStatusCode:String,byt...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 233 | 评论总数: 0 | 标签:

Spark-再接着上次的Lamda架构

日志分析单机日志分析,适用于小数据量的。(最大10G),awk/grep/sort/join等都是日志分析的利器。例子:1、shell得到Nginx日志中访问量最高的前十个IPcataccess.log.10|awk'(a[$1]++)END(for(bina)printb" "a[b])'|sort-k2-r|head-n102、python统计每个IP的地址点击...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 330 | 评论总数: 0 | 标签:

Spark-ML-基于云平台和用户日志的推荐系统

架构:数据收集:sparkstareming从AzureQueue收集数据,通过自定义的sparkstaremingreceiver,源源不断的消费流式数据。数据处理:sparkstareming分析用户行为日志数据,通过实时的聚集,统计报表现有的应用的运营信息,,也可以通过离线的训练模型,对实现数据进行预测和标注。结果输出:hdfs数据收集用到了这个东西,miner是个js可以收集用户的行为日志...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 278 | 评论总数: 0 | 标签:

Spark-ML-数据获取/处理/准备

获取公开数据集UCL机器学习知识库:包括近300个不同大小和类型的数据集,可用于分类、回归、聚类和推荐系统任务。数据集列表位于:http://archive.ics.uci.edu/ml/。AmazonAWS公开数据集:包含的通常是大型数据集,可通过AmazonS3访问。这些数据集包括人类基因组项目、CommonCrawl网页语料库、维基百科数据和GoogleBooksNgrams。相关信息可参见...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 478 | 评论总数: 0 | 标签:

1 2 3 4 5 6 7 8 9   共 9 页面