基于Python的豆瓣电影爬虫软件的设计与实现.doc

资料分类:计算机信息 上传会员:紫色烟火 更新时间:2022-06-11
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:8456
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:在如今信息大爆炸的年代,互联网已成为绝大多数信息的载体,如何有效的对这些信息加以提取并利用成为了一种挑战,现在绝大多数的搜索引擎是通过网络爬虫技术实现的,通过用户查取的部分关键字来返回用户所需要的信息,随着互联网的不断发展,人们对于获取信息的需求也逐渐增大,不再只是简单的一个两个数字,由此针对互联网的爬虫的作用意义重大。

本文采用Python和Scrapy为基础,针对豆瓣电影爬取电影信息,在学习的同时逐步探索出一个基于Python,Scrapy的互联网爬虫,实现对豆瓣电影的信息的爬取。论文介绍了互联网爬虫的技术现状以及运用的主要技术,以及如何提取关键信息以及数据的清洗和数据的存储,在对数据存储之后,进行简单的统计,运用开源框架Echarts实现对数据的可视化显示。从不同的方面分析当前电影信息所反映的内容。

 

关键词:爬虫;数据;互联网

 

目录

摘要

Abstract

1 绪论-1

1.1 系统开发背景-1

1.2 国内外技术现状-1

1.3 论文主要内容-2

1.4 文章整体结构-2

2-爬虫工作的原理及其相关技术的介绍-3

2.1 爬虫工作原理-3

2.1.1 基本结构及工作流程-3

2.1.2 常见的爬虫策略-3

2.2 其他技术介绍-4

2.2.1 Scrapy框架-4

2.2.2 Scrapy数据流介绍-5

2.2.3 xpath介绍-5

2.2.4数据存储-5

2.2.5 可视化显示-6

2.2.6 Robot协议-6

3 系统实现-7

3.1 总体设计-7

3.1.1爬取内容简介-7

3.1.2模块设计-7

3.2 系统实现-7

3.2.1预设规则模块-7

3.2.2数据抓取模块-8

3.3.3数据处理模块-10

4 成果演示与数据分析可视化-12

4.1 运行爬虫文件-12

4.2 保存数据-12

4.3 数据分析可视化-14

结    论-16

参 考 文 献-18

致    谢-19

相关论文资料:
最新评论
上传会员 紫色烟火 对本文的描述: 第二章讲述爬虫工作原理及其相关技术。介绍开源的框架Scrapy在Python爬虫开发中的应用,对Scrapy框架进行详细介绍,针对网页xpath抓取进行介绍,以及对数据存储的方式进行介绍,分析......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: