需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:9511 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:现如今电子商务发展与大数据紧密相连,通过大数据的分析处理技术可以有效地提高电子商务交易效率,大数据根据用户行为产生的数据,描述出消费者的心理需求和特定的消费习惯,分析消费者的购物倾向,进而对产品的销售模式进行及时的调整,以促进消费增加,因此对用户行为进行分析是非常有必要的。由于Hive、Spark的搭建都是基于Hadoop的基础上,本文首先搭建Hadoop环境,上传数据到Hive中,在Hive中通过类SQL语句进行用户行为分析,如男女卖家的比例、排除刷单的用户等等。本文采取Spark机器学习库中的支持向量机实现回头客预测,相对MapReduce来说Spark的处理速度更快,并且与其他分布式存储系统(例如HDFS和Hive)兼容,已经完美集成到Hadoop生态系统中。最后通过ECharts可视化具体分析用户行为,可以更直观的对用户行为进行了解。本文实现了用户行为分析,通过这些分析可以更有效地发挥数据的价值,节省商家一些不必要的投入,但是有些应用场景过于理想化,应继续研发使系统更适用于实际开发中。
关键词:大数据;Spark;用户行为分析;Hive
目 录 摘 要 Abstract 1 绪论-1 1.1 研究背景及意义-1 1.2 研究现状-1 2 相关技术和理论-3 2.1 Hadoop-3 2.1.1 Hadoop简介-3 2.1.2 HDFS分布式文件系统-3 2.1.3 MapReduce分布式计算框架-4 2.2 Hive数据仓库-5 2.3 Spark分布式并行计算框架-5 2.3.1 Spark简介-5 2.3.2 Spark运行架构-6 2.4 本章小结-7 3 用户行为分析与预测方法的实现-8 3.1 项目架构-8 3.2 项目环境-8 3.3 数据分析方法的实现-9 3.3.1 数据上传Hive仓库-9 3.3.2 数据可视化分析-11 3.4 回头客预测方法的实现-12 3.5 本章小结-13 4 系统测试-14 4.1 数据分析测试-14 4.1.1 Hive数据分析-14 4.1 2 可视化分析-15 4.2 Spark回头客预测测试-18 4.3 本章小结-19 结 论-20 参考文献-21 致 谢-22 |