需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:6716 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要 当下时代,信息技术高速发展,网络已经是人们不可缺少的生活元素,越来越多的行业都已经和网络接轨。我们每天都需要在网上寻找所需的信息,通过百度、谷歌等搜索引擎,输入关键字,找到所需的信息。但这些通用的搜索引擎,往往不能根据自己的需要找到合适的数据,因而网络爬虫技术成为研究的热点。 本文采用Python语言,研究了网络爬虫的实现。第一章介绍了研究的背景、意义;第二章讲述了网络爬虫的基本工作原理,常见的网络爬虫的策略,Cookie的基本用法及其在网络爬虫中的使用,Robot协议的用法;第三章论文论述了系统的总体设计,系统实现的各个模块:前置设置模块、网页抓取模块、后置数据处理模块等;第四章对系统进行了测试,采用本文的网络爬虫系统,抓取了相关网页。测试结果表明,本文所实现的系统能够实现抓取功能。 本文所实现的网络爬虫还比较简单,对于数据的抓取及存储还有很多需要改进的地方,希望下一步能够将这些问题改正。 关键字:网络爬虫;Cookie;Robot;Python
目录 摘要 Abstract 1-绪论-1 1.1-研究背景-1 1.2-国内外爬虫研究概述-1 1.3-研究意义-2 1.4-本文研究目标-2 1.5-论文组织结构-2 2-网络爬虫的工作原理及技术-4 2.1-工作原理-4 2.2-常见的策略-6 2.3-Cookie的作用及介绍-8 2.4-Robot协议-8 3-基于Python网络爬虫设计于实现-10 3.1-系统总体设计-10 3.2-系统实现-10 3.2.1-前置规则预设设置模块-10 3.2.2-网页抓取模块-10 3.2.3-后置数据处理模块-13 4-系统测试-15 4.1-运行环境-15 4.2-数据抓取结果与分析-15 5-总结与展望-16 参考文献-17 |