基于Hadoop的电子商务网站日志分析的研究.doc

资料分类:理工论文 上传会员:月光影子 更新时间:2018-04-14
需要金币2000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:16747
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:近年来,网络信息发展进入了一个全新的阶段,云计算的快速发展,使人们在信息服务方面的获得方式发生转变,网络上的数据也随着呈现爆炸性的增长。尤其在电子商务迅速发展的今天,电商网站每天都会产生大量的日志文件,这些日志文件对于企业来讲,可以从中获取很多有价值的信息用于后期的分析评估,有利于它们在商业竞争中抢占先机。但是,如何高效地分析和处理这些海量的数据是一项艰巨的任务,传统的数据挖掘算法已不能满足现在的需求,新兴的云计算技术的出现,很好地解决了这个问题,尤其是Hadoop的出现起着重要性的作用。

本文首先介绍了研究背景和Hadoop的相关技术,然后详细介绍了Hadoop的两大核心技术:HDFS分布式文件系统和MapReduce分布式并行计算框架,对其运行机制进行了重点分析研究。接着使用Hadoop的数据处理技术实现了对1号店网站日志的分析工作,使用Hive数据仓库框架对数据进行处理,得到所需的重要指标的统计结果,并将统计结果通过Sqoop导出到MySQL中进行保存,对结果做一些进一步的分析。最后,对本文进行了一个简单的总结,指出文中出现的一些问题和不足之处。

 

关键词- 云计算;电商网站;Hadoop;HDFS;MapReduce;数据仓库

 

目录

摘要

Abstract

1 绪论-1

1.1 研究背景及意义-1

1.2 国内外研究现状-1

1.2.1 国外研究现状-1

1.2.2 国内研究现状-2

1.3 本文主要研究内容-2

2 Hadoop相关技术-4

2.1 Hadoop简介-4

2.2 Hadoop的核心设计-5

2.2.1 HDFS-5

2.2.2 MapReduce-5

2.3 Hadoop应用-6

2.3.1 Hive-6

2.3.2 Sqoop-7

3 Hadoop核心技术深入分析-9

3.1 HDFS深入分析-9

3.1.1 Block-9

3.1.2 NameNode和DataNode-10

3.2 MapReduce深入分析-11

3.2.1 经典的MapReduce作业运行机制-12

3.2.2 YARN平台上的MapReduce作业运行-13

3.2.3 Shuffle过程-15

4 日志分析实例研究-17

4.1 数据采集-17

4.2 关键技术指标-17

4.2.1 浏览量PV-17

4.2.2 访客数UV-17

4.2.3 登录人数和游客人数-17

4.2.4 IP数-18

4.2.5 平均访问时长-18

4.2.6 二跳率-18

4.3 操作环境-18

4.4 日志文件处理步骤-19

4.4.1 上传日志文件至HDFS-19

4.4.2 创建Hive表进行统计-19

4.4.3 使用Sqoop导入到MySQL-23

4.5 结果分析-25

结论-26

致谢-27

参考文献-28

附录-29

相关论文资料:
最新评论
上传会员 月光影子 对本文的描述:Hadoop作为最近几年以来使用最多的项目之一,可以实现对超大数据的存储和处理,它被大量地应用在搜索网页、广告计算、日志分析、数据挖掘等方面。特别是MapReduce和HDFS的使用,它可......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: