基于Hadoop生态圈的离线数仓网站流量日志分析.docx

资料分类:计算机信息 上传会员:菲菲小宝贝 更新时间:2022-03-09
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:9969
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:随着信息技术的日益发展,我国互联网行业已经进入了一个全球领先的地位。针对每一个电商行业的企业网站都有本身存在的目的和意义。除了政府和公益类网站之外,大多数网站的目的都是为了提高经济收入。要建立用户必要的网站就必须进行网站开发,经由过程开发,找出用户现实需求,构建出适合用户需求的网站。

网站流量日志分析可以帮助网站管理员、运营职员、推行职员等获得网站流量信息,并从流量来历、网站内容、网站访客特征等多方面供给网站开发的数据根据。从而帮助提高网站流量,提升网站用户体验,让访客更多的沉淀下来变成会员或客户,通过更少的投入获取最大化的收入。获得更高投资回报率(ROI),赚取更多的利润。。

本论文主要采用埋点采集技术来实现对网站日志的收集,在处理数据时使用MapReduce方式对数据进行预处理。通过Hive数据仓库讲预处理的数据进行入库操作。然后结合HSQL对数据进行分析包括基础指标PV、UV、VV等结合业务逻辑分析。最后使用SSM框架技术结合Echart展示数据分析结果。

 

关键词:网站分析;流量;埋点采集;MapReduce;ROI

 

目录

摘要

Abstract

引    言-1

1.  绪论-12

1.1  课题背景及意义-12

1.2  发展趋势-12

1.3  论文主要研究内容-12

2.  网站流量日志分析介绍-14

2.1  设计实现目的-14

2.2  网站流量的意义-14

2.3  日志分析介绍-14

3.  开发流程与工具介绍-16

3.1  数据采集-16

3.1.1  数据采集的介绍-16

3.1.2  工具的介绍-16

3.1.3  埋点数据采集及其原理-17

3.2  数据预处理-17

3.2.1  数据预处理简述-17

3.2.2  MapReduce预处理技术-18

3.3  数据入库(ETL)-19

3.4  数据分析-19

3.4.1  基础指标定义-19

3.4.2  表结构介绍-10

3.4.3  数据分析流程-11

3.5  数据展示-11

3.5.1  使用工具-11

4.  网站流量日志分析设计与实现-12

4.1  Flume+Nginx实现埋点采集-12

4.1.1  配置Flume-12

4.1.2  配置Nginx-12

4.1.3  埋点采集代码-13

4.2  MapReduce数据预处理-15

4.2.1  点击流模型之Page View-15

4.2.2  点击流之Visit模型-16

4.3  HIVE数据仓库数据入库(ETL)-17

4.4  数据分析实现-18

4.4.1  PV(总浏览次数)-18

4.4.2  UV(独立访客)-18

4.4.3  VV(访问次数)-19

4.4.4  多维度分析PV总量-19

4.5  数据展示-20

4.5.1  SSM整合-20

4.5.2  Echart的使用-21

5.  测试与运行-22

5.1  用户请求网站-22

5.2  查看日志文件收集到数据-22

5.3  模拟用户点击事件触发收集数据-23

5.4  启动Flume-24

5.5  预处理数据-25

5.5.1  原数据处理-25

5.5.2  Page View模型数据-25

5.5.3  Visit模型数据-25

5.6  Page View和Visit数据入库-26

5.7  ODS数据分析得到DW层数据-26

5.8  数据可视化-27

5.8.1  表格展示整体流量信息概况-27

5.8.2  柱状展示最近7天平均的PV量-27

5.8.3  饼状图展示访问来源方式百分比-28

5.8.4  热力图展示用户地域分区-29

5.8.5  折线图展示近一周访客数量变化趋势-29

结    论-30

参 考 文 献-31

相关论文资料:
最新评论
上传会员 菲菲小宝贝 对本文的描述:通过对网站的深度分析,我们可以看出一个成功的网站必须要对流量进行分析。那么想要分析数据,首先就要收集到数据。当数据收集成功以后便要想如何才能提取出想要的指标,例如......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: