基于Hadoop和Spark的网站用户行为分析系统.docx

资料分类:计算机信息 上传会员:紫色烟火 更新时间:2022-06-11
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:11385
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:随着商业网站的用户量的不断增长,用户的信息数据量和网站访问的数据量也在增加。同时,商业网站等盈利性站点需要分析用户的行为及爱好,以提高网站服务的效率和个性化程度,从而为用户提供更满意的服务,使利润得到最大化。

如今使用传统方法已经无法解决日趋庞大的数据量,所以本论文将阐述如何采用目前主流的大数据技术:以Hadoop和Spark来实现用户的行为分析,同时涵盖了Spark Core、 Spark SQL 和 Spark Streaming 这三个技术框架中的技能点和性能优化点。系统主要针对电商网站的用户,基于分布式快速处理用户产生的庞大数据。系统主要分为用户访问Session分析模块、热门产品离线统计分析模块和广告流量实时统计分析模块。

用户访问Session分析模块主要是对用户访问 session 进行统计分析,使用者可以通过本模块得到针对特定用户群体的分析结果数据,从而可以针对性的对特定的用户制定相关的服务,主要使用Spark Core实现。热门产品离线统计模块主要实现每天统计出各个区域的top3热门商品,然后进行离线统计任务的定时调度,使用者可以通过本模块得到最受用户欢迎的商品信息,从而可以制定相关的商品活动,主要使用Spark SQL实现。广告流量实时统计模块负责实时统计网站的广告流量,包括广告展现流量和广告点击流量,通过本模块可以及时让公司的管理者可以实时地掌握到公司各种广告的投放效果,同时减少恶意刷广告的行为,以便于后期持续地对公司的广告投放相关的战略和策略,进行调整和优化,从而获得最好的广告收益,主要采用Spark Streaming实现。

关键词:大数据;Hadoop;Spark;用户行为分析

 

目录

摘要

Abstract

1绪论-1

1.1 系统开发背景-1

1.2 系统开发目标-1

1.3相关技术简介-1

1.3.1 Hadoop 简介-1

1.3.2 Spark 简介-3

1.3.3开发环境介绍-3

1.3 论文组织结构-4

2系统分析-5

2.1系统可行性分析-5

2.1.1技术可行性分析-5

2.1.2操作可行性分析-5

2.1.3经济可行性分析-5

2.2系统需求分析-5

2.2.1 系统功能需求分析-5

2.2.2 系统性能需求分析-8

3系统设计与实现-9

3.1 系统总体设计-9

3.2 数据收集模块设计与实现-9

3.3 数据分析计算模块设计与实现-10

3.3.1用户访问seesion设计与实现-10

3.3.2 热门商品离线统计设计与实现-12

3.3.3 广告流量实时点击统计设计与实现-12

3.4 系统数据库设计-13

4系统测试-20

4.1测试目标与测试内容-20

4.1.1 测试的目标-20

4.1.2 测试的内容-20

4.2 改进方案-22

结    语-24

参 考 文 献-25

致    谢-26

相关论文资料:
最新评论
上传会员 紫色烟火 对本文的描述:针对电子商务网站的用户进行用户行为分析,其中包括用户的访问行为,用户的购物行为以及用户的广告点击的行为等进行分析。使用统计分析出来的结果数据,来作为公司中的管理人......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: