京东图书数据分析系统设计与实现.docx

资料分类:计算机信息 上传会员:紫色烟火 更新时间:2022-06-07
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:8311
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:本论文详细论述了京东图书数据分析系统的设计与实现过程,对数据收集程序的防封禁策略、Spider类、Middleware、PipeLines做了详细说明,对Spark数据计算以及Echarts实现数据可视化的过程做了详细阐述并对系统的实现过程做了描述。

系统将Scrapy用作爬虫程序的支撑引擎,将收集到的数据持久化到MongoDB中,利用Spark大数据分析技术对数据做快速分析,使用Echarts完成数据的可视化。搭建了一个集数据收集、存储、分析于一体的数据分析系统,优化在获取京东图书信息时所消耗的时间,准确提取出其中重要的信息并将之进行持久化存储,方便之后对其今昔整理与分析。对京东图书数据进行分析,能够发现京东对于图书的销售价格的优惠区间,分析不同图书出版厂商的定位、出版社实力、受众人群等等。可以以之了解到目前图书市场份额分布、销售优惠力度、市场走向等信息。

 

关键词:京东图书;数据分析;数据爬虫;可视化;防封禁策略

 

目录

摘要

Abstract

1 绪论-1

1.1 研究背景-1

1.2 需求分析-1

1.3 可行性分析-1

1.4 本章小结-2

2 相关技术介绍-3

2.1 网络爬虫介绍-3

2.1.1 网络爬虫-3

2.1.2 网页去重-3

2.1.3 防封禁策略-4

2.2 Selenium与PhantomJS-5

2.3 Scrapy-6

2.4 MongoDB-7

2.5 Spark-7

2.6 Echarts-7

2.7 本章小结-8

3 京东图书数据分析系统设计-9

3.1 总体框架设计-9

3.2 数据库设计-10

3.3 爬虫详细设计-12

3.3.1 Scrapy爬虫过程中需要获取的字段-12

3.3.2 Scrapy爬取京东数据采用的防Ban策略-12

3.4 本章小结-13

4京东图书数据分析系统实现-14

4.1 Scrapy程序实现-14

4.1.1 启动程序脚本命令-14

4.1.2 JdListSpider类-14

4.1.3 爬虫过程函数名及用途-14

4.1.4 爬虫中间件设置-16

4.1.5 爬虫数据处理-17

4.2 Spark数据处理-18

4.3 可视化模块-19

4.4 本章小结-20

结    论-21

参 考 文 献-22

致    谢-23

相关论文资料:
最新评论
上传会员 紫色烟火 对本文的描述:本章对实现分析系统中,数据收集所用到的爬虫技术和基础架构进行了介绍。本系统的实现是在这些技术的支持下从而完成的,介绍了网络爬虫的工作原理、封禁策略、Selenium与PhantomJ......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: