需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:8311 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:本论文详细论述了京东图书数据分析系统的设计与实现过程,对数据收集程序的防封禁策略、Spider类、Middleware、PipeLines做了详细说明,对Spark数据计算以及Echarts实现数据可视化的过程做了详细阐述并对系统的实现过程做了描述。 系统将Scrapy用作爬虫程序的支撑引擎,将收集到的数据持久化到MongoDB中,利用Spark大数据分析技术对数据做快速分析,使用Echarts完成数据的可视化。搭建了一个集数据收集、存储、分析于一体的数据分析系统,优化在获取京东图书信息时所消耗的时间,准确提取出其中重要的信息并将之进行持久化存储,方便之后对其今昔整理与分析。对京东图书数据进行分析,能够发现京东对于图书的销售价格的优惠区间,分析不同图书出版厂商的定位、出版社实力、受众人群等等。可以以之了解到目前图书市场份额分布、销售优惠力度、市场走向等信息。
关键词:京东图书;数据分析;数据爬虫;可视化;防封禁策略
目录 摘要 Abstract 1 绪论-1 1.1 研究背景-1 1.2 需求分析-1 1.3 可行性分析-1 1.4 本章小结-2 2 相关技术介绍-3 2.1 网络爬虫介绍-3 2.1.1 网络爬虫-3 2.1.2 网页去重-3 2.1.3 防封禁策略-4 2.2 Selenium与PhantomJS-5 2.3 Scrapy-6 2.4 MongoDB-7 2.5 Spark-7 2.6 Echarts-7 2.7 本章小结-8 3 京东图书数据分析系统设计-9 3.1 总体框架设计-9 3.2 数据库设计-10 3.3 爬虫详细设计-12 3.3.1 Scrapy爬虫过程中需要获取的字段-12 3.3.2 Scrapy爬取京东数据采用的防Ban策略-12 3.4 本章小结-13 4京东图书数据分析系统实现-14 4.1 Scrapy程序实现-14 4.1.1 启动程序脚本命令-14 4.1.2 JdListSpider类-14 4.1.3 爬虫过程函数名及用途-14 4.1.4 爬虫中间件设置-16 4.1.5 爬虫数据处理-17 4.2 Spark数据处理-18 4.3 可视化模块-19 4.4 本章小结-20 结 论-21 参 考 文 献-22 致 谢-23 |