基于大数据技术的网络爬虫技术及应用研究.doc[原创毕业论文]

需要金币：2000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：11392
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：基于STM32的温室远程数据采集系统设计.zip

下一篇：基于多元线性回归的XX省城乡居民收入差距分析.doc

摘要:本文将系统介绍网络爬虫的分类，对网络爬虫进行了逻辑分析和结构分析。在linux平台进行爬虫编写，利用python语言编写一个主题式爬虫，对招聘网站进行职位爬取并简要分析爬虫在大数据发展的作用。

为了爬取51job网站的招聘信息，编写一段主题式爬虫。先根据网页URL将网页信息进行分类解析，再对可能用到的关键词进行定义，然后再编写爬虫运用到了IF语句、TRY语句实现逻辑循环。同时也运用到了导入数据库语句，为爬取到的招聘信息及时导入数据库做保障。利用数据转存语句将爬取的职位信息及时、准确、安全的存入已建成的数据库中。用户用select语句对数据进行调用，再对数据进行接下来的数据清洗和数据分析。

关键词：大数据；网络爬虫；Python

摘要

Abstract

1 绪论

1.1 研究背景-1

1.2 研究意义-1

1.3 国内外研究现状-2

1.3.1 网络爬虫相关技术的国内外研究现状-2

1.3.2 大数据技术应用研究现状-2

2 网络爬虫以及技术支持-3

2.1 大数据技术-3

2.2 网络爬虫-5

2.2.1 网络爬虫简介-5

2.2.2 通用爬虫的工作原理与用途-6

2.2.4 主题爬虫的用途和原理-8

2.3 Hadoop技术-10

2.3.1 Hadoop系统的基本架构-10

2.3.2 Hadoop分布式文件系统-11

2.3.3 Hadoop分布式计算系统-12

3 Scrapy爬虫实现与应用-13

3.1 使用Scrapy框架建立简单爬虫-13

3.1.1 Scrapy框架-13

3.1.2 选择网站-13

3.1.3 定义数据-13

3.1.4 撰写爬虫-13

3.1.5 运行爬虫-14

3.1.6 Review数据-14

3.2 实现Scrapy框架下的爬虫-15

3.3 基于Hadoop的主题式爬虫设计-17

4 主题式爬虫应用—51job网站爬取-18

4.1 爬虫构思-18

4.2 编写爬虫-18

4.2.1 设置关键字-18

4.2.2 编写爬虫主体-19

4.2.3 爬虫支持-22

4.3 运行结果-22

结论-25

致谢-26

参考文献-27

附录-28

不同基质和激素对通关藤枝条扦插生根的	基于PLC控制的搬运系统设计.docx	我国中小企业物资采购的税收筹划研究
基于超声波植物生长助长器的设计.doc	无锡市旅游收入与经济增长的关系研究	基于粒子群算法的聚类方法及其应用.do
“一带一路”背景下宁夏城镇化发展滞后	灾后老年社会工作的研究综述.doc	杭州师范大学民体散打专业学生损伤现状
基于互联网+的医疗旅游发展条件探究--以	大连利用外商直接投资情况分析.doc	三门峡市烟草公司卷烟物流配送中心选址