需要金币:2000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:12822 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:随着云计算的大力发展与广泛的应用,大数据这个词汇在生活、工作中的出现也越来越频繁,如何利用好大数据平台也逐渐成为很多公司的工作重点之一。 众多大型公司以Hadoop生态圈为核心的大数据分析技术不断完善,这为公司繁多的大数据处理需求提供了很大的帮助。 本文是在Hadoop的集群介绍基础上,对数据收集、分析以及展示模块分别进行需求的分析,并进行文件的配置和代码得实现。根据对数据的收集分析,完成整个离线电商分析平台的设计工作。 在设计实现过程当中,主要是将用户日志数据存储在Hadoop的HDFS存储系统当中,并利用MapReduce系统框架对用户数据进行计算。在对系统设计进行需求分析之后,研究整个平台设计的具体实现方法,主要包括三大模块系统的代码实现:用户数据收集、用户信息数据的分析以及数据分析结果展示。当中又将对七个小模块的数据进行具体分析,分别为:用户基本信息分析模块、操作系统分析模块、地域信息分析模块、用户浏览深度分析模块、外链数据分析模块、订单分析模块和事件分析模块。最后提供API对数据结果进行展示,并且将整个设计进行整合,完成整个平台的实现。
关键词 Hadoop;大数据;离线电商数据;数据挖掘分析;HDFS
目录 摘要 Abstract 1 绪论-1 1.1 研究背景及意义-1 1.2 国内外研究现状-1 1.3 主要研究内容-2 1.4 论文组织结构-2 2 相关技术分析-3 2.1 Hadoop-3 2.1.1 HDFS分布式文件系统-3 2.1.2 MapReduce-5 2.2 HBase技术介绍-7 2.3 Hive技术介绍-8 2.4 Sqoop技术介绍-8 2.5 本章小结-9 3 离线电商分析平台的需求与设计-10 3.1 日志收集系统-10 3.1.1 JavaSDK需求分析-10 3.1.2 JsSDK需求分析-10 3.2 数据分析系统-11 3.3 数据展示系统-11 3.4 本章小结-11 4 离线电商分析平台的搭建与实现-12 4.1 系统开发环境及运行环境-12 4.1.1 创建用户-12 4.1.2 修改主机名及SSH免密码登录-12 4.1.3 JDK安装-13 4.1.3 Hadoop安装-13 4.2 离线电商的分析平台的功能模块的实现-14 4.2.1 日志收集系统模块-14 4.2.2 数据分析系统模块-16 4.2.3 数据展示系统模块-17 结论-19 致谢-20 参考文献-21 附录-22 |