Solo  当前访客:2 登录 注册
☆gater yu☆

~~ 一个java老鸟的博客 ~~

标签:
Spark入门实战系列 (57)

[置顶]倾情大奉送--Spark入门实战系列

这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、SparkStreaming、SparkMLib和SparkGraphX等。文章内容的整理一般是先介绍原理,随后是实战例子,由于面向的是入门读者,在实...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 433 | 评论总数: 0 | 标签:

Spark入门实战系列--1.Spark及其生态圈简介

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1、简介1.1Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithms,Machines,andPeopleLab)开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 249 | 评论总数: 0 | 标签:

Spark入门实战系列--2.Spark编译与部署(上)--基础环境搭建

【注】1、该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取;2、Spark编译与部署将以CentOS64位操作系统为基础,主要是考虑到实际应用一般使用64位操作系统,内容分为三部分:基础环境搭建、Hadoop编译安装和Spark编译安装,该环境作为后续实验基础;3、文章演示了Hadoop、Spark的编译过程,同时附属资源提供了编译好的安装包,觉得编译费时间可以...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 272 | 评论总数: 0 | 标签:

Spark入门实战系列--2.Spark编译与部署(中)--Hadoop编译安装

【注】该系列文章以及使用到安装包/测试数据可以在《[倾情大奉送–Spark入门实战系列](http://blog.csdn.net/yirenboy/article/details/47291765)》获取1编译Hadooop1.1搭建环境1.1.1安装并设置maven1.下载maven安装包,建议安装3.0以上版本,本次安装选择的是maven3.0.5的二进制包,下载地址如下http://mir...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 471 | 评论总数: 0 | 标签:

Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1编译SparkSpark可以通过SBT和Maven两种方式进行编译,再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具,而Maven安装则需要maven工具,两种方式均需要在联网下进行,通过比较发现SBT编译速度较慢(原因有可能是1、时间不一样,SBT是白天编译,Ma...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 348 | 评论总数: 0 | 标签:

Spark入门实战系列--3.Spark编程模型(上)--概念及SparkShell实战

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1Spark编程模型1.1术语定义应用程序(Application):基于Spark的用户程序,包含了一个DriverProgram和集群中多个的Executor;驱动程序(DriverProgram):运行Application的main()函数并且创建SparkContext,通常用SparkContex...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 213 | 评论总数: 0 | 标签:

Spark入门实战系列--3.Spark编程模型(下)--IDEA搭建及实战

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1安装IntelliJIDEAIDEA全称IntelliJIDEA,是java语言开发的集成环境,IntelliJ在业界被公认为最好的java开发工具之一,尤其在智能代码助手、代码自动提示、重构、J2EE支持、Ant、JUnit、CVS整合、代码审查、创新的GUI设计等方面的功能可以说是超常的。IDEA是Je...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 538 | 评论总数: 0 | 标签:

Spark入门实战系列--4.Spark运行架构

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1Spark运行架构1.1术语定义Application:SparkApplication的概念和HadoopMapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码;Driver:Spark中的Driver即运行上述A...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 264 | 评论总数: 0 | 标签:

Spark入门实战系列--5.Hive(上)--Hive介绍及部署

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1Hive介绍1.1Hive介绍Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口,Hive有如下优缺点:优点:1.Hive使用类SQL查询语法,最大限度的实现了和SQL标...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 270 | 评论总数: 0 | 标签:

Spark入门实战系列--5.Hive(下)--Hive实战

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1Hive操作演示1.1内部表1.1.1创建表并加载数据第一步启动HDFS、YARN和Hive,启动完毕后创建Hive数据库hive>createdatabasehive;hive>showdatabases;hive>usehive;第二步创建内部表由于Hive使用了类似SQL的语法,所以...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 216 | 评论总数: 0 | 标签:

Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1SparkSQL的发展历程1.1HiveandSharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 410 | 评论总数: 0 | 标签:

Spark入门实战系列--6.SparkSQL(中)--深入了解运行计划及调优

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1使用Hive-Console了解运行计划前面介绍了SparkSQL的运行过程,罗列了很多概念很抽象,比如UnresolvedLogicPlan、LogicPlan、PhysicalPlan,下面介绍一个工具hive/console,来加深对SparkSQL的运行计划的理解。【注】以下实验环境为第二课《Spa...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 231 | 评论总数: 0 | 标签:

Spark入门实战系列--6.SparkSQL(下)--Spark实战应用

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1运行环境说明1.1硬软件环境主机操作系统:Windows64位,双核4线程,主频2.2G,10G内存虚拟软件:VMware®Workstation9.0.0build-812388虚拟机操作系统:CentOS64位,单核虚拟机运行环境:JDK:1.7.0_5564位Hadoop:2.2.0(需要编译为64位...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 272 | 评论总数: 0 | 标签:

Spark入门实战系列--7.SparkStreaming(上)--实时流计算SparkStreaming介绍

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1SparkStreaming简介1.1概述SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis以及TCPsockets,从数据源获取数据之后,可以使用...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 461 | 评论总数: 0 | 标签:

Spark入门实战系列--7.SparkStreaming(下)--SparkStreaming实战

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1实例演示1.1流数据模拟器1.1.1流数据说明在实例演示中模拟实际情况,需要源源不断地接入流数据,为了在演示过程中更接近真实环境将定义流数据模拟器。该模拟器主要功能:通过Socket方式监听指定的端口号,当外部程序通过该端口连接并请求数据时,模拟器将定时将指定的文件数据随机获取发送给外部程序。1.1.2模拟...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 429 | 评论总数: 0 | 标签:

Spark入门实战系列--8.SparkMLlib(上)--机器学习及SparkMLlib简介

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1机器学习概念1.1机器学习的定义在维基百科上对机器学习提出以下几种定义:“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。“机器学习是对能通过经验自动改进的计算机算法的研究”。“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”一种经常引...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 237 | 评论总数: 0 | 标签:

Spark入门实战系列--8.SparkMLlib(下)--SparkMLlib实战

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1、MLlib实例1.1聚类实例1.1.1算法说明聚类(Clusteranalysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之间的object尽可能相异。聚类算法是机器学习(或者说是数据挖掘更合适)中重要的一部分,除了最为简单的K-...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 240 | 评论总数: 0 | 标签:

Spark入门实战系列--9.SparkGraphX介绍及实例

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1、GraphX介绍1.1GraphX应用背景SparkGraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。众所周知•,社交网络中人与人之间有很多关系链,例如Twitter、Facebook、微博和微信等,这些都是大数据产生的...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 284 | 评论总数: 0 | 标签:

Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署

1Tachyon介绍1.1Tachyon简介随着实时计算的需求日益增多,分布式内存计算也持续升温,怎样将海量数据近乎实时地处理,或者说怎样把离线批处理的速度再提升到一个新的高度是当前研究的重点。近年来,内存的吞吐量成指数倍增长,而磁盘的吞吐量增长缓慢,那么将原有计算框架中文件落地磁盘替换为文件落地内存,也是提高效率的优化点。目前已经使用基于内存计算的分布式计算框架有:Spark、Impala及SA...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 441 | 评论总数: 0 | 标签:

[置顶]倾情大奉送--Spark入门实战系列

这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、SparkStreaming、SparkMLib和SparkGraphX等。文章内容的整理一般是先介绍原理,随后是实战例子,由于面向的是入门读者,在实...

作者:sky | 创建日期: 2016-11-15 12:01 | 浏览次数: 223 | 评论总数: 0 | 标签:

1 2 3   共 3 页面