Solo  当前访客:2 登录 注册
☆gater yu☆

~~ 一个java老鸟的博客 ~~

Spark-再接着上次的Lamda架构

日志分析单机日志分析,适用于小数据量的。(最大10G),awk/grep/sort/join等都是日志分析的利器。例子:1、shell得到Nginx日志中访问量最高的前十个IPcataccess.log.10|awk'(a[$1]++)END(for(bina)printb" "a[b])'|sort-k2-r|head-n102、python统计每个IP的地址点击...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 323 | 评论总数: 0 | 标签:

Spark-ML-基于云平台和用户日志的推荐系统

架构:数据收集:sparkstareming从AzureQueue收集数据,通过自定义的sparkstaremingreceiver,源源不断的消费流式数据。数据处理:sparkstareming分析用户行为日志数据,通过实时的聚集,统计报表现有的应用的运营信息,,也可以通过离线的训练模型,对实现数据进行预测和标注。结果输出:hdfs数据收集用到了这个东西,miner是个js可以收集用户的行为日志...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 267 | 评论总数: 0 | 标签:

Spark-ML-数据获取/处理/准备

获取公开数据集UCL机器学习知识库:包括近300个不同大小和类型的数据集,可用于分类、回归、聚类和推荐系统任务。数据集列表位于:http://archive.ics.uci.edu/ml/。AmazonAWS公开数据集:包含的通常是大型数据集,可通过AmazonS3访问。这些数据集包括人类基因组项目、CommonCrawl网页语料库、维基百科数据和GoogleBooksNgrams。相关信息可参见...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 475 | 评论总数: 0 | 标签:

Spark-构建基于Spark的推荐引擎

推荐引擎推荐引擎就是是预测人们可能喜好的物品并通过探寻物品之间的联系来辅助这个过程。从这点上来说,它同样也做预测的搜索引擎互补。但与搜索引擎不同,推荐引擎试图向人们呈现的相关内容并不一定就是人们所搜索的,其返回的某些结果甚至人们都没听说过。推荐引擎试图对用户与某类物品之间的联系建模。比如上一个博客案例中,我们使用推荐引擎来告诉用户有哪些电影他们可能会喜欢。如果这点做得很好,就能吸引用户持续使用我们...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 218 | 评论总数: 0 | 标签:

Kylin-基本知识

CUBETable-Thisisdefinitionofhivetablesassourceofcubes,whichmustbesyncedbeforebuildingcubes.DataModel-ThisdescribesaSTARSCHEMAdatamodel,whichdefinesfact/lookuptablesandfiltercondition.CubeDescriptor-Th...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 247 | 评论总数: 0 | 标签:

Kylin-实践OLAP

OLAP的历史与基本概念OLAP全称为在线联机分析应用,是一种对于多维数据分析查询的解决方案。典型的OLAP应用场景包括销售、市场、管理等商务报表,预算决算,经济报表等等。最早的OLAP查询工具是发布于1970年的Express,然而完整的OLAP概念是在1993年由关系数据库之父EdgarF.Codd提出,伴随而来的是著名的“twelvelawsofonlineanalyticalprocess...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 223 | 评论总数: 0 | 标签:

Kylin-百度地图的实践

百度地图开放平台业务部数据智能组主要负责百度地图内部相关业务的大数据计算分析,处理日常百亿级规模数据,为不同业务提供单条SQL毫秒级响应的OLAP多维分析查询服务。对于ApacheKylin在实际生产环境中的应用,在国内,百度地图数据智能组是最早的一批实践者之一。ApacheKylin在2014年11月开源,当时,我们团队正需要搭建一套完整的大数据OLAP分析计算平台,用来提供百亿行级数据单条SQ...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 391 | 评论总数: 0 | 标签:

Kylin-web上的数据分析

KylinWebInterfaceSupportedBrowsersWindows:GoogleChrome,FireFoxMac:GoogleChrome,FireFox,Safari1.Access&LoginHosttoaccess:http://hostname:7070Loginwithusername/password:ADMIN/KYLIN2.SyncHiveTableint...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 284 | 评论总数: 0 | 标签:

kylin-BI工具-tableau9

Tableau9Tableau9.xhasbeenreleasedawhile,therearemanyusersareaskingaboutsupportthisversionwithApacheKylin.WithupdatedKylinODBCDriver,nowusercouldinteractivewithKylinservicethroughTableau9.x.ApacheKylin...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 287 | 评论总数: 0 | 标签:

安装Kylin

EnvironmentKylinrequiresaproperlysetupHadoopenvironmenttorun.FollowingaretheminimalrequesttorunKylin,formoredetial,pleasecheckHadoopEnvironment.ItismostcommontoinstallKylinonaHadoopclientmachine,fromw...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 248 | 评论总数: 0 | 标签:

Kylin-分析数据

I.CreateaProjectGotoQuerypageintopmenubar,thenclickManageProjects.Clickthe+Projectbuttontoaddanewproject.Enteraprojectname,e.g,“Tutorial”,withadescription(optional),thenclicksubmitbuttontosendthereque...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 320 | 评论总数: 0 | 标签:

KylinCubeBuildandJobMonitoring

KylinCubeBuildandJobMonitoringCubeBuildFirstofall,makesurethatyouhaveauthorityofthecubeyouwanttobuild.InModelspage,clicktheActiondropdownbuttonintherightofacubecolumnandselectoperationBuild.Thereisapo...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 239 | 评论总数: 0 | 标签:

Kylin介绍

ApacheKylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBayInc.开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。Kylin是什么?-可扩展超快OLAP引擎:Kylin是为减少在Hadoop上百亿规模数据查询延迟而设计-HadoopANSISQL接口:Kylin为Hadoop提供标准SQL支持大部分查...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 416 | 评论总数: 0 | 标签:

Spark-zeppelin-大数据可视化分析

官网介绍Multi-purposeNotebookTheNotebookistheplaceforallyourneedsDataIngestionDataDiscoveryDataAnalyticsDataVisualization&CollaborationMultiplelanguagebackendZeppelininterpreterconceptallowsanylanguag...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 268 | 评论总数: 0 | 标签:

Spark-K-Means算法

机器学习算法大体分为三类:监督学习(supervisedlearning)、无监督学习(unsupervisedlearning)和半监督学习(semi-supervisedlearning)。监督学习是指我们利用带有类别属性标注的数据去训练、学习,用于预测未知数据的类别属性。例如,根据用户之前的购物行为去预测用户是否会购买某一商品。常用的算法有决策树,支持向量机SVM,朴素贝叶斯分类器,K-近邻...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 279 | 评论总数: 0 | 标签:

sparkcore源码分析1集群启动及任务提交过程

博客地址:http://blog.csdn.net/yueqian_zhu/spark版本号:1.4.1spark源码分析目的是在解读源码的过程中记录一些重要的步骤,加深自己的印象,或许也可以给别人提供一些帮助。Standalone集群启动及任务提交过程详解正常启动及job提交过程如下:1.启动master2.启动worker3.客户端提交application到master4.master发送L...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 240 | 评论总数: 0 | 标签:

sparkcore源码分析2master启动流程

博客地址:http://blog.csdn.net/yueqian_zhu/源码位置:org.apache.spark.deploy.master.Master.scala一、main主方法:defmain(argStrings:Array[String]){SignalLogger.register(log)valconf=newSparkConfvalargs=newMasterArgumen...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 425 | 评论总数: 0 | 标签:

sparkcore源码分析3MasterHA

博客地址:http://blog.csdn.net/yueqian_zhu/这一节讲解master选举以及之后的处理流程上一节说到在Master启动过程中,首先调用了Akkaactor的preStart方法。overridedefpreStart(){logInfo("StartingSparkmasterat"+masterUrl)logInfo(s"RunningSpa...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 332 | 评论总数: 0 | 标签:

sparkcore源码分析4worker启动流程

博客地址:http://blog.csdn.net/yueqian_zhu/源码位置:org.apache.spark.deploy.worker.Worker.scala首先查看worker的main方法,与master类似,创建sparkConf,参数解析,以及构造worker对象并创建ActorRef用于对外或者本身的信息交互。这里masters参数可以设置多个defmain(argStri...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 225 | 评论总数: 0 | 标签:

sparkcore源码分析5spark提交框架

博客地址:http://blog.csdn.net/yueqian_zhu/源码位置:org.apache.spark.deploy.SparkSubmit.SparkSubmit.scala这里解析参数,包括提交jar包的mainclass,Executor、Driver的相关配置等等等等。。defmain(args:Array[String]):Unit={valappArgs=newSpar...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 276 | 评论总数: 0 | 标签:

第一页 上一页 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 下一页 最后一页   共 59 页面