基于Python的网络爬虫设计与实现.doc[原创毕业论文]

需要金币：500 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：10120
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：户籍歧视对大学生就业的影响分析.docx

下一篇：金融发展对地区经济增长质量的影响分析.doc

摘要：网络的迅速发展壮大，网络成为了大量信息的载体，那么问题来了，如何有效地提取并利用这些信息呢？搜索引擎(Search Engine)，它作为一个帮助人们检索信息辅助工具，是用户访问万维网的窗口，如传统的通用搜索引擎baidu，Yahoo!和Google等。但是，通用搜索引擎既爬虫只具有通用性，无法满足一些特殊检索要求。通用搜索引擎难以支持语义检索，大多是基于关键字查询。为了定向获取各种人们所需的网络信息，聚焦爬虫应运而生，它能定向抓取相关网页资源。聚焦爬虫将目标定为抓取某一特定主题内容的网页并分析出相关数据，为用户查询数据减少了数据查询空间，节约了成本。本文就是利用python语言的Scrapy框架实现了一个广度优先遍历的聚焦爬虫爬取美团网的商家店铺信息，通过对获取的HTML源码使用Xpath进行解析。并将获取到的数据以列表的形式保存的json格式文件和MySQL数据库中。聚焦爬虫不仅可以爬取一个网站上的信息，聚焦爬虫还可作为定向信息采集器，定向的爬取网站的特定信息，如新浪的新闻信息，58同城的招聘和租房信息等。

关键词：爬虫；Python Scrapy；json；Xpath；广度优先遍历

摘要

Abstract

一、引言-1

（一）研究课题背景及意义-1

（二）网络爬虫的发展史-1

二、环境及开发工具简介-2

（一）开发环境-2

（二）爬虫的概述-3

（三）Python简介-3

（四）Scrapy简介-4

（五）Xpath简介-4

三、基于Python爬虫分析-4

（一）需求分析-4

（二）功能概述-5

（三）系统可行性分析-5

1．技术可行性-5

2．经济和操作可行性-6

（四）开发环境搭建-6

1．安装Python-6

2．搭建Scrapy框架-7

四、系统总体设计-9

（一）爬虫运行原理-9

1．聚焦爬虫和通用爬虫原理-9

2．scrapy框架的架构-10

3．scrapy爬虫的数据流-11

（二）功能结构设计与模块功能-12

1。SPIDER构造.12

2。SPIDER工作过程 .13

五、系统详细设计-14

（一）爬虫构造分析-14

（二）爬行策略分析-17

（三） URL抽取，解析和保存-19

六、爬虫运行结果-19

(一) 爬虫运行-19

(二) 爬取结果-21

(三) 运行结果总结-24

七、结束语-24

致谢-25

参考文献-25

A市清洁水产品出口的研究.doc	人民币实际汇率变动对我国外商投资影响	管理会计工具成本控制的应用研究--XX通信
航空物流与国际贸易的关系：基于中国的	地方债的国际比较及其对我国的启示.do	论我国商业银行个人理财业务的创新策略
企业的偿债能力分析--以南通宏海针织有	信贷资产证券化对商业银行的流动性影响	论我国民间借贷存在问题与对策研究.do
云南省花卉出口现状与对策研究.doc	我国农村养老保险问题的现状,问题及发展	构建我国遗产税制度研究.doc