基于Python的网络爬虫程序设计与实现.docx

资料分类:理工论文 上传会员:翩翩起舞 更新时间:2022-05-12
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:6716
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要 当下时代,信息技术高速发展,网络已经是人们不可缺少的生活元素,越来越多的行业都已经和网络接轨。我们每天都需要在网上寻找所需的信息,通过百度、谷歌等搜索引擎,输入关键字,找到所需的信息。但这些通用的搜索引擎,往往不能根据自己的需要找到合适的数据,因而网络爬虫技术成为研究的热点。

本文采用Python语言,研究了网络爬虫的实现。第一章介绍了研究的背景、意义;第二章讲述了网络爬虫的基本工作原理,常见的网络爬虫的策略,Cookie的基本用法及其在网络爬虫中的使用,Robot协议的用法;第三章论文论述了系统的总体设计,系统实现的各个模块:前置设置模块、网页抓取模块、后置数据处理模块等;第四章对系统进行了测试,采用本文的网络爬虫系统,抓取了相关网页。测试结果表明,本文所实现的系统能够实现抓取功能。

本文所实现的网络爬虫还比较简单,对于数据的抓取及存储还有很多需要改进的地方,希望下一步能够将这些问题改正。

关键字:网络爬虫;Cookie;Robot;Python

 

目录

摘要

Abstract

1-绪论-1

1.1-研究背景-1

1.2-国内外爬虫研究概述-1

1.3-研究意义-2

1.4-本文研究目标-2

1.5-论文组织结构-2

2-网络爬虫的工作原理及技术-4

2.1-工作原理-4

2.2-常见的策略-6

2.3-Cookie的作用及介绍-8

2.4-Robot协议-8

3-基于Python网络爬虫设计于实现-10

3.1-系统总体设计-10

3.2-系统实现-10

3.2.1-前置规则预设设置模块-10

3.2.2-网页抓取模块-10

3.2.3-后置数据处理模块-13

4-系统测试-15

4.1-运行环境-15

4.2-数据抓取结果与分析-15

5-总结与展望-16

参考文献-17

相关论文资料:
最新评论
上传会员 翩翩起舞 对本文的描述:使用网络爬虫可以根据自己想要的规则获取数据,使其剔除掉无用的部分而保留有效信息。它还可以爬取整个网页并保存成自己需要的格式。目前网络爬虫在整个金融、教育方面起着非......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: