Solo  当前访客:1 登录 注册
☆gater yu☆

~~ 一个java老鸟的博客 ~~

标签:
spark (168)

Spark-构建基于Spark的推荐引擎

推荐引擎推荐引擎就是是预测人们可能喜好的物品并通过探寻物品之间的联系来辅助这个过程。从这点上来说,它同样也做预测的搜索引擎互补。但与搜索引擎不同,推荐引擎试图向人们呈现的相关内容并不一定就是人们所搜索的,其返回的某些结果甚至人们都没听说过。推荐引擎试图对用户与某类物品之间的联系建模。比如上一个博客案例中,我们使用推荐引擎来告诉用户有哪些电影他们可能会喜欢。如果这点做得很好,就能吸引用户持续使用我们...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 222 | 评论总数: 0 | 标签:

Kylin-基本知识

CUBETable-Thisisdefinitionofhivetablesassourceofcubes,whichmustbesyncedbeforebuildingcubes.DataModel-ThisdescribesaSTARSCHEMAdatamodel,whichdefinesfact/lookuptablesandfiltercondition.CubeDescriptor-Th...

作者:sky | 创建日期: 2016-11-15 12:03 | 浏览次数: 250 | 评论总数: 0 | 标签:

Kylin-实践OLAP

OLAP的历史与基本概念OLAP全称为在线联机分析应用,是一种对于多维数据分析查询的解决方案。典型的OLAP应用场景包括销售、市场、管理等商务报表,预算决算,经济报表等等。最早的OLAP查询工具是发布于1970年的Express,然而完整的OLAP概念是在1993年由关系数据库之父EdgarF.Codd提出,伴随而来的是著名的“twelvelawsofonlineanalyticalprocess...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 228 | 评论总数: 0 | 标签:

Kylin-百度地图的实践

百度地图开放平台业务部数据智能组主要负责百度地图内部相关业务的大数据计算分析,处理日常百亿级规模数据,为不同业务提供单条SQL毫秒级响应的OLAP多维分析查询服务。对于ApacheKylin在实际生产环境中的应用,在国内,百度地图数据智能组是最早的一批实践者之一。ApacheKylin在2014年11月开源,当时,我们团队正需要搭建一套完整的大数据OLAP分析计算平台,用来提供百亿行级数据单条SQ...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 394 | 评论总数: 0 | 标签:

Kylin-web上的数据分析

KylinWebInterfaceSupportedBrowsersWindows:GoogleChrome,FireFoxMac:GoogleChrome,FireFox,Safari1.Access&LoginHosttoaccess:http://hostname:7070Loginwithusername/password:ADMIN/KYLIN2.SyncHiveTableint...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 289 | 评论总数: 0 | 标签:

kylin-BI工具-tableau9

Tableau9Tableau9.xhasbeenreleasedawhile,therearemanyusersareaskingaboutsupportthisversionwithApacheKylin.WithupdatedKylinODBCDriver,nowusercouldinteractivewithKylinservicethroughTableau9.x.ApacheKylin...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 296 | 评论总数: 0 | 标签:

安装Kylin

EnvironmentKylinrequiresaproperlysetupHadoopenvironmenttorun.FollowingaretheminimalrequesttorunKylin,formoredetial,pleasecheckHadoopEnvironment.ItismostcommontoinstallKylinonaHadoopclientmachine,fromw...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 251 | 评论总数: 0 | 标签:

Kylin-分析数据

I.CreateaProjectGotoQuerypageintopmenubar,thenclickManageProjects.Clickthe+Projectbuttontoaddanewproject.Enteraprojectname,e.g,“Tutorial”,withadescription(optional),thenclicksubmitbuttontosendthereque...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 323 | 评论总数: 0 | 标签:

KylinCubeBuildandJobMonitoring

KylinCubeBuildandJobMonitoringCubeBuildFirstofall,makesurethatyouhaveauthorityofthecubeyouwanttobuild.InModelspage,clicktheActiondropdownbuttonintherightofacubecolumnandselectoperationBuild.Thereisapo...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 247 | 评论总数: 0 | 标签:

Kylin介绍

ApacheKylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBayInc.开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。Kylin是什么?-可扩展超快OLAP引擎:Kylin是为减少在Hadoop上百亿规模数据查询延迟而设计-HadoopANSISQL接口:Kylin为Hadoop提供标准SQL支持大部分查...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 421 | 评论总数: 0 | 标签:

Spark-zeppelin-大数据可视化分析

官网介绍Multi-purposeNotebookTheNotebookistheplaceforallyourneedsDataIngestionDataDiscoveryDataAnalyticsDataVisualization&CollaborationMultiplelanguagebackendZeppelininterpreterconceptallowsanylanguag...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 269 | 评论总数: 0 | 标签:

Spark-K-Means算法

机器学习算法大体分为三类:监督学习(supervisedlearning)、无监督学习(unsupervisedlearning)和半监督学习(semi-supervisedlearning)。监督学习是指我们利用带有类别属性标注的数据去训练、学习,用于预测未知数据的类别属性。例如,根据用户之前的购物行为去预测用户是否会购买某一商品。常用的算法有决策树,支持向量机SVM,朴素贝叶斯分类器,K-近邻...

作者:sky | 创建日期: 2016-11-15 12:02 | 浏览次数: 281 | 评论总数: 0 | 标签:

spark必须知道的几个观点

executor对应container内存executor对应的内存由两部分组成:–exuecutor-memory控制了堆的大小–spark.yarn.executor.memoryOverhead控制堆外内存,默认值(384MB,0.07*spark.executor.memory),该值一般偏小,需要调大日志凡是cluster模式启动的作业,日志都没有打印在本地。因为main()直接在dri...

作者:sky | 创建日期: 2016-10-08 00:13 | 浏览次数: 215 | 评论总数: 0 | 标签:

spark运行方式及其常用参数

本文将介绍spark的几种运行方式,及常用的参数yarncluster模式例行任务一般会采用这种方式运行指定固定的executor数作业常用的参数都在其中指定了,后面的运行脚本会省略spark-submit\--masteryarn-cluster\--deploy-modecluster\#集群运行模式--namewordcount_${date}\#作业名--queueproduction.g...

作者:sky | 创建日期: 2016-10-06 05:57 | 浏览次数: 309 | 评论总数: 0 | 标签:

Spark编程技巧

Spark是一种强烈依赖内存的计算框架,结合其运行流程,可以有很多可以调优的地方用reduceByKey替代groupByKey这两个转换都有shuffle过程发生,且都类似mapreduce,但是reduceByKey会在map阶段会对相同的key进行聚合,极大的减少了map产生的数据量,进而减少了shuffle的数据量,提高了程序的执行效率避免shuffleshuffle类算子会将多个节点的k...

作者:sky | 创建日期: 2016-10-04 11:41 | 浏览次数: 240 | 评论总数: 0 | 标签:

Spark学习资料

官网http://spark.apache.org/docs/1.6.2/index.html视频DataBricks出品的Spark入门视频(强推):https://www.edx.org/course/introduction-spark-uc-berkeleyx-cs105xhttps://www.edx.org/course/big-data-analysis-spark-uc-berke...

作者:sky | 创建日期: 2016-10-02 17:25 | 浏览次数: 447 | 评论总数: 0 | 标签:

Ubuntu15.10安装JDK(jdk1.8.0_65)

1.下载JDK选择下载Linux版本-64位:jdk-8u65-linux-x64.tar.gz下载链接:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html2.解压文件解压到当前目录tar-xzvfjdk-8u65-linux-x64.tar.gz解压后的文件为:jdk1.8.0_6...

作者:sky | 创建日期: 2016-09-30 23:09 | 浏览次数: 250 | 评论总数: 0 | 标签:

Ubuntu15.10安装Vim编辑器

Ubuntu中的VIM安装命令apt-getinstallvim原则上到这里就安装结束了,可以使用啦。修改配置Vim编辑器修改之后的效果图(Github上的大神搞得,挺棒的!)Fork到了自己的Github,以便于学习和使用,感谢大神。一键安装地址:wget-qO-https://raw.github.com/ma6174/vim/master/setup.sh|sh-x我的Github地址:ht...

作者:sky | 创建日期: 2016-09-29 04:54 | 浏览次数: 224 | 评论总数: 0 | 标签:

Ubuntu15.10安装配置SSH服务

##下载安装SSH##Ubuntu下的命令:apt-getinstallssh启动SSH服务/etc/init.d/sshstart使用命令验证服务是否启动成功ps-e|grepssh设置免密码登录SSH生成公钥(id_rsa.pub)和私钥(id_rsa)将公钥(id_rsa.pub)追加到authorized_keys中(authorized_keys中保存所有用户允许以当前用户身份登录到ss...

作者:sky | 创建日期: 2016-09-27 10:38 | 浏览次数: 228 | 评论总数: 0 | 标签:

Hadoop2.6.3安装配置

下载解压Hadoop2.6.3tar文件下载链接:http://hadoop.apache.org/releases.html解压文件,至当前文件夹:tar-xzvfhadoop-2.6.3.tar.gz新建自己的Hadoop目录,移动文件至该目录中新建hadoop目录mkdir/usr/local/hadoop移动解压后的文件到自己新建的hadoop目录当中mvhadoop-2.6.3/usr/...

作者:sky | 创建日期: 2016-09-25 16:22 | 浏览次数: 237 | 评论总数: 0 | 标签:

1 2 3 4 5 6 7 8 9   共 9 页面