Solo  当前访客:1 登录 注册
☆gater yu☆

~~ 一个java老鸟的博客 ~~

Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1编译SparkSpark可以通过SBT和Maven两种方式进行编译,再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具,而Maven安装则需要maven工具,两种方式均需要在联网下进行,通过比较发现SBT编译速度较慢(原因有可能是1、时间不一样,SBT是白天编译,Ma...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 377 | 评论总数: 0 | 标签:

Spark入门实战系列--3.Spark编程模型(上)--概念及SparkShell实战

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1Spark编程模型1.1术语定义应用程序(Application):基于Spark的用户程序,包含了一个DriverProgram和集群中多个的Executor;驱动程序(DriverProgram):运行Application的main()函数并且创建SparkContext,通常用SparkContex...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 252 | 评论总数: 0 | 标签:

Spark入门实战系列--3.Spark编程模型(下)--IDEA搭建及实战

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1安装IntelliJIDEAIDEA全称IntelliJIDEA,是java语言开发的集成环境,IntelliJ在业界被公认为最好的java开发工具之一,尤其在智能代码助手、代码自动提示、重构、J2EE支持、Ant、JUnit、CVS整合、代码审查、创新的GUI设计等方面的功能可以说是超常的。IDEA是Je...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 568 | 评论总数: 0 | 标签:

Spark入门实战系列--4.Spark运行架构

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1Spark运行架构1.1术语定义Application:SparkApplication的概念和HadoopMapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码;Driver:Spark中的Driver即运行上述A...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 297 | 评论总数: 0 | 标签:

Spark入门实战系列--5.Hive(上)--Hive介绍及部署

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1Hive介绍1.1Hive介绍Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口,Hive有如下优缺点:优点:1.Hive使用类SQL查询语法,最大限度的实现了和SQL标...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 312 | 评论总数: 0 | 标签:

Spark入门实战系列--5.Hive(下)--Hive实战

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1Hive操作演示1.1内部表1.1.1创建表并加载数据第一步启动HDFS、YARN和Hive,启动完毕后创建Hive数据库hive>createdatabasehive;hive>showdatabases;hive>usehive;第二步创建内部表由于Hive使用了类似SQL的语法,所以...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 267 | 评论总数: 0 | 标签:

Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1SparkSQL的发展历程1.1HiveandSharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 452 | 评论总数: 0 | 标签:

Spark入门实战系列--6.SparkSQL(中)--深入了解运行计划及调优

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1使用Hive-Console了解运行计划前面介绍了SparkSQL的运行过程,罗列了很多概念很抽象,比如UnresolvedLogicPlan、LogicPlan、PhysicalPlan,下面介绍一个工具hive/console,来加深对SparkSQL的运行计划的理解。【注】以下实验环境为第二课《Spa...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 271 | 评论总数: 0 | 标签:

Spark入门实战系列--6.SparkSQL(下)--Spark实战应用

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1运行环境说明1.1硬软件环境主机操作系统:Windows64位,双核4线程,主频2.2G,10G内存虚拟软件:VMware®Workstation9.0.0build-812388虚拟机操作系统:CentOS64位,单核虚拟机运行环境:JDK:1.7.0_5564位Hadoop:2.2.0(需要编译为64位...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 300 | 评论总数: 0 | 标签:

Spark入门实战系列--7.SparkStreaming(上)--实时流计算SparkStreaming介绍

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1SparkStreaming简介1.1概述SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis以及TCPsockets,从数据源获取数据之后,可以使用...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 493 | 评论总数: 0 | 标签:

Spark入门实战系列--7.SparkStreaming(下)--SparkStreaming实战

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1实例演示1.1流数据模拟器1.1.1流数据说明在实例演示中模拟实际情况,需要源源不断地接入流数据,为了在演示过程中更接近真实环境将定义流数据模拟器。该模拟器主要功能:通过Socket方式监听指定的端口号,当外部程序通过该端口连接并请求数据时,模拟器将定时将指定的文件数据随机获取发送给外部程序。1.1.2模拟...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 465 | 评论总数: 0 | 标签:

Spark入门实战系列--8.SparkMLlib(上)--机器学习及SparkMLlib简介

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1机器学习概念1.1机器学习的定义在维基百科上对机器学习提出以下几种定义:“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。“机器学习是对能通过经验自动改进的计算机算法的研究”。“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”一种经常引...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 262 | 评论总数: 0 | 标签:

Spark入门实战系列--8.SparkMLlib(下)--SparkMLlib实战

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1、MLlib实例1.1聚类实例1.1.1算法说明聚类(Clusteranalysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之间的object尽可能相异。聚类算法是机器学习(或者说是数据挖掘更合适)中重要的一部分,除了最为简单的K-...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 268 | 评论总数: 0 | 标签:

Spark入门实战系列--9.SparkGraphX介绍及实例

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1、GraphX介绍1.1GraphX应用背景SparkGraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。众所周知•,社交网络中人与人之间有很多关系链,例如Twitter、Facebook、微博和微信等,这些都是大数据产生的...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 345 | 评论总数: 0 | 标签:

Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署

1Tachyon介绍1.1Tachyon简介随着实时计算的需求日益增多,分布式内存计算也持续升温,怎样将海量数据近乎实时地处理,或者说怎样把离线批处理的速度再提升到一个新的高度是当前研究的重点。近年来,内存的吞吐量成指数倍增长,而磁盘的吞吐量增长缓慢,那么将原有计算框架中文件落地磁盘替换为文件落地内存,也是提高效率的优化点。目前已经使用基于内存计算的分布式计算框架有:Spark、Impala及SA...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 475 | 评论总数: 0 | 标签:

Spark修炼之道系列教程预告

课程内容Spark修炼之道(基础篇)——Linux基础(15讲)、Akka分布式编程(8讲)Spark修炼之道(进阶篇)——Spark入门到精通(30讲)Spark修炼之道(实战篇)——Spark应用开发实战篇(20讲)Spark修炼之道(高级篇)——Spark源码解析(50讲)部分内容会在实际编写时动态调整,或补充、或删除。Spark修炼之道(基础篇)——Linux大数据开发基础(15讲)、Li...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 253 | 评论总数: 0 | 标签:

Spark修炼之道——Spark学习路线、课程大纲

课程内容Spark修炼之道(基础篇)——Linux基础(15讲)、Akka分布式编程(8讲)Spark修炼之道(进阶篇)——Spark入门到精通(30讲)Spark修炼之道(实战篇)——Spark应用开发实战篇(20讲)Spark修炼之道(高级篇)——Spark源码解析(50讲)部分内容会在实际编写时动态调整,或补充、或删除。Spark修炼之道(基础篇)——Linux大数据开发基础(15讲)、Li...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 286 | 评论总数: 0 | 标签:

Spark修炼之道(基础篇)——Linux大数据开发基础:第一节、Linux介绍、安装及使用初步

本节主要内容Linux简史Linux系统整体介绍UbuntuLinux安装Linux使用初步1.Linux简史要讲述大名鼎鼎的Linux,必然要先从UNIX系统谈起,下面这幅图给出了Unix系统的进化图:图片来源:http://baike.baidu.com/link?url=QfoqWtWGs-BjpnfEy_AUk7Bm3XHuf6JbN92HCOoUBfFfj8BuSDkbwmldtmUEm...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 338 | 评论总数: 0 | 标签:

Spark修炼之道(基础篇)——Linux大数据开发基础:第二节:Linux文件系统、目录(一)

本节主要内容如何获取帮助文档Linux文件系统简介目录操作访问权限1.如何获取帮助文档在实际工作过程当中,经常会忘记命令的使用方式,例如ls命令后面可以跟哪些参数,此时可以使用man命令来查看其使用方式,例如//man命令获取命令帮助手册xtwy@ubuntu:~$manls可以使用键盘上的来显示下一行或上一行命令,也可以使用进行上一页或下一页(屏)命令的查看,另外空格鍵也可以用来显示下一屏的命令...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 444 | 评论总数: 0 | 标签:

Spark修炼之道(基础篇)——Linux大数据开发基础:第三节:用户和组

本节主要内容理解用户和组的概念用户管理组管理权限分配1.理解用户和组的概念在第一讲中我们提到,linux是一种多任务、多用户的操作系统,在讲ls-l命令行我们看到如下文件详细信息:root@ubuntu:/home/xtwy#ls-ltotal48drwxr-xr-x2xtwyxtwy40962015-08-2023:31Desktopdrwxr-xr-x2xtwyxtwy40962015-08-...

作者:sky | 创建日期: 2016-11-16 12:01 | 浏览次数: 234 | 评论总数: 0 | 标签:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 下一页 最后一页   共 59 页面