基于网络爬虫的垂直搜索引擎的设计与实现.docx[原创毕业论文]

需要金币：2000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：12965
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：基于水面漂浮物的图像进行分割方法研究.docx

下一篇：2-4译码器的设计.docx

摘要：随着大数据时代来临，互联网上的数据越来越开放丰富，基于数据来做的事情也越来越多,为了方便网络用户能够在丰富的网络中获得对自己有用的信息。基于网络爬虫的各类搜索平台和搜索引擎应运而生并迅速发展，搜索引擎的出现给互联网与用户之间提供了一个接口,使得用户可以快速的定位和搜索海量的互联网数据，搜索平台和搜索引擎在许多领域得到广泛使用。

截至2018年12月，我国搜索引擎用户规校达7.40亿，使用约为82.8%，用户规模较2017年成增加3718万，增长率为7.2%；手机搜索用户数达7.24亿，使用率为82.9%，户规模较2017年底增加4887万，增长率为8.5%。目前人们上网搜索信息主要是通过谷歌，百度等通用搜索引擎。这类通用搜索引擎虽然功能十分强大,在很多情况下也是能够满足人们的需求的。但是如果用户只想查询具体某个具体领域，或某种主题的相关信息时，我们很容易发现目前的通用搜索引擎有时候满足不了我们的需求，也很难以实现对某领域精准并且高效的搜索，为了向用户提供有效可靠的信息，垂直搜索引擎的出现,就是专们为了解决这个问题的，垂直搜索引擎搜索更有效率，因为它只搜索特定主题的信息。我们可以通过网络爬虫技术，只对特定网站的内容进行爬取，从而避免垃圾网站信息和广告的推送。本文首先阐述了垂直搜索的研究意义,然后对爬虫以及搜索引擎网站搭建的一些技术进行介绍，包括python爬虫框架Scrapy，全文搜索技术等。然后介绍了分布式爬虫的爬虫体现，采用了Scrapy架构，通过Redis作为URL缓存队列进行分布式扩展，使爬虫的效率大大的提升，并采用Elasticsearch的搜索服务结合Django框架搭建搜索平台。

关键词：垂直搜索引擎；网络爬虫；Scrapy；Elasticsearch；

摘要

Abstract

1 绪论-1

1.1选题背景与意义-1

1.2国内外研究现状-1

1.4论文研究的主要内容-2

1.5论文章节安排-2

2 论文核心技术介绍-3

2.1爬虫介绍-3

2.2 Scrapy框架介绍-3

2.2.1 Scrapy框架简介-3

2.2.2 Scrapy框架的组件-3

2.2.3 Scrapy的工作原理-4

2.3 MySQL数据库-5

2.4 Scrapy-redis 分布式爬虫-5

2.5 全文搜索技术-6

2.6 Elasticsearch-7

2.6.1 Elasticsearch的工作原理-7

2.6.2 Elasticsearch核心概念-7

2.6.3 Elasticsearch架构-8

2.6.4 倒排索引-9

2.6.5 Elasticsearch分词组件-9

2.7 本章总结-10

3 垂直搜索引擎设计概要-11

3.1搜索平台技术路线-11

3.2 分布式爬虫系统架构-11

3.3数据库的存储及使用-12

3.4 本章小结-13

4 垂直搜索引擎详细设计及实现-14

4.1 特定网站内容的爬取及存储-14

4.1.1 Xpath的使用-14

4.1.2 Scrapy的items整合字段-15

4.1.3 数据表的设计及存储-16

4.2 反爬虫技术应对策略-17

4.3 Elasticsearch搜索服务的部署及使用-18

4.3.1 Elasticsearch插件的安装及使用-18

4.3.2 Scrapy写入数据到Elasticsearch-19

4.4 Elasticsearch搜索建议-20

4.5 Django搭建搜索平台-21

4.6 本章小节-22

5结论-23

参考文献-24

致谢-25

手动摘花椒机的设计与制作.rar	专用汽轮机叶片叶根数控铣床设计--进给	城市管道巡检机器人的研究与设计.doc
基于单片机的自行车里程表的设计.rar	车牌识别算法研究.docx	自动龙井茶炒制机.rar
基于单片机的模拟路灯控制系统设计.do	基于W7100A的教室门禁系统设计.doc	数字音频水印的研究与实现.doc
“苦尽甘来”中草药包装设计.docx	无线数据采集系统设计_电子信息工程.r	遗传算法在背包问题上的应用_信息与计算