分布式网络爬虫研究.doc[原创毕业论文]

需要金币：2000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：10119
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：多功能智能窗帘控制系统的设计.doc

下一篇：基于ACO的WSN能耗均衡路由算法的研究.doc

摘要：本文提出了一种基于Apache Hadoop计算平台的分布式WEB网络爬虫，采用python语言开发的mrjob框架进行程序编写。爬虫功能包括模拟分布式系统进行网页下载以及url提取，它同时解决了DNS缓存、url重定向、连接超时问题，在下载网页之前会对网站robots.txt协议文件进行分析。它也可以伪装成主流浏览器代理进行爬取。程序中使用了BloomFilter算法对提取的url进行过滤并使用OPIC策略分析url。

关键词 Hadoop；mrjob；python；BloomFilter；OPIC；分布式网络爬虫

摘要

Abstract

1绪论-1

1.1 课题研究的背景和意义-1

1.2 研究现状-1

1.3 研究主要内容-2

2系统基本原理与相关技术-4

2.1 Hadoop平台知识-4

2.1.1 MapReduce分布式数据处理技术-4

2.1.2 HDFS分布式文件系统-5

2.2 网络爬虫原理-6

2.3 分布式网络爬虫基本原理-7

2.4 爬取策略-7

2.5 url去重算法-8

2.6 MRJOB框架-8

3功能模块结构设计-10

3.1功能模块设计-10

3.1.1循环控制模块-10

3.1.2网络爬取和解析模块-10

3.1.3 url去重模块模块-10

3.1.4 url重要度分析模块-10

3.2系统结构设计-10

4程序设计与实现-12

4.1循环控制模块-12

4.1.1循环次数控制以及爬取阶段耗时-12

4.1.2爬虫循环-12

4.1.3 URL去重、生成待爬取文件-12

4.2网络爬取和解析模块-13

4.3 URL去重模块-15

4.4 URL重要度分析模块-17

5系统测试运行及调试-19

结论-24

致谢-25

参考文献-26

基于RSSI的无线传感器网络节点定位算法研	基于单片机的智能公交刷卡系统设计.do	LED照明驱动芯片的特性分析及应用电路研
基于SOC的图像采集系统研究与设计.doc	直流无刷电机的控制算法研究.doc	基于PLC和MCGS组态软件的水塔水位监控系统
新能源汽车动力电池的Pack与调试.doc	电子水平仪的设计.doc	基于光子晶体的发光二极管提取效率的研
直线二级倒立摆系统的模糊控制器设计与	我国上市公司信息披露问题研究.doc	农村小学五年级数学课堂教学形式探究