京东图书数据分析系统设计与实现.docx[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：8311
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：健身俱乐部综合管理系统的设计与实现.doc

下一篇：景程公司网络方案设计.doc

摘要：本论文详细论述了京东图书数据分析系统的设计与实现过程，对数据收集程序的防封禁策略、Spider类、Middleware、PipeLines做了详细说明，对Spark数据计算以及Echarts实现数据可视化的过程做了详细阐述并对系统的实现过程做了描述。

系统将Scrapy用作爬虫程序的支撑引擎，将收集到的数据持久化到MongoDB中，利用Spark大数据分析技术对数据做快速分析，使用Echarts完成数据的可视化。搭建了一个集数据收集、存储、分析于一体的数据分析系统，优化在获取京东图书信息时所消耗的时间，准确提取出其中重要的信息并将之进行持久化存储，方便之后对其今昔整理与分析。对京东图书数据进行分析，能够发现京东对于图书的销售价格的优惠区间，分析不同图书出版厂商的定位、出版社实力、受众人群等等。可以以之了解到目前图书市场份额分布、销售优惠力度、市场走向等信息。

关键词：京东图书;数据分析;数据爬虫;可视化;防封禁策略

摘要

Abstract

1 绪论-1

1.1 研究背景-1

1.2 需求分析-1

1.3 可行性分析-1

1.4 本章小结-2

2 相关技术介绍-3

2.1 网络爬虫介绍-3

2.1.1 网络爬虫-3

2.1.2 网页去重-3

2.1.3 防封禁策略-4

2.2 Selenium与PhantomJS-5

2.3 Scrapy-6

2.4 MongoDB-7

2.5 Spark-7

2.6 Echarts-7

2.7 本章小结-8

3 京东图书数据分析系统设计-9

3.1 总体框架设计-9

3.2 数据库设计-10

3.3 爬虫详细设计-12

3.3.1 Scrapy爬虫过程中需要获取的字段-12

3.3.2 Scrapy爬取京东数据采用的防Ban策略-12

3.4 本章小结-13

4京东图书数据分析系统实现-14

4.1 Scrapy程序实现-14

4.1.1 启动程序脚本命令-14

4.1.2 JdListSpider类-14

4.1.3 爬虫过程函数名及用途-14

4.1.4 爬虫中间件设置-16

4.1.5 爬虫数据处理-17

4.2 Spark数据处理-18

4.3 可视化模块-19

4.4 本章小结-20

结论-21

参考文献-22

致谢-23

基于java的测评考试系统的设计与实现.d	基于用户性格特征和地理位置的交友推荐	大学生经验管理、交流与求职推荐系统
媒体播放器外观与界面的设计.rar	基于Unity3D飞机射击游戏的设计与实现.d	小型微内核操作系统内核模型设计与实现
企业人事管理系统的设计与实现.doc	基于Jsp的电影订票系统的设计与实现.do	“XXX”桌游网站平台设计与实现.doc
安全记事本文本编辑器的研究.rar	安卓日程管理工具的设计.doc	基于Java美妆购物平台的设计与实现.doc