需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:8456 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:在如今信息大爆炸的年代,互联网已成为绝大多数信息的载体,如何有效的对这些信息加以提取并利用成为了一种挑战,现在绝大多数的搜索引擎是通过网络爬虫技术实现的,通过用户查取的部分关键字来返回用户所需要的信息,随着互联网的不断发展,人们对于获取信息的需求也逐渐增大,不再只是简单的一个两个数字,由此针对互联网的爬虫的作用意义重大。 本文采用Python和Scrapy为基础,针对豆瓣电影爬取电影信息,在学习的同时逐步探索出一个基于Python,Scrapy的互联网爬虫,实现对豆瓣电影的信息的爬取。论文介绍了互联网爬虫的技术现状以及运用的主要技术,以及如何提取关键信息以及数据的清洗和数据的存储,在对数据存储之后,进行简单的统计,运用开源框架Echarts实现对数据的可视化显示。从不同的方面分析当前电影信息所反映的内容。
关键词:爬虫;数据;互联网
目录 摘要 Abstract 1 绪论-1 1.1 系统开发背景-1 1.2 国内外技术现状-1 1.3 论文主要内容-2 1.4 文章整体结构-2 2-爬虫工作的原理及其相关技术的介绍-3 2.1 爬虫工作原理-3 2.1.1 基本结构及工作流程-3 2.1.2 常见的爬虫策略-3 2.2 其他技术介绍-4 2.2.1 Scrapy框架-4 2.2.2 Scrapy数据流介绍-5 2.2.3 xpath介绍-5 2.2.4数据存储-5 2.2.5 可视化显示-6 2.2.6 Robot协议-6 3 系统实现-7 3.1 总体设计-7 3.1.1爬取内容简介-7 3.1.2模块设计-7 3.2 系统实现-7 3.2.1预设规则模块-7 3.2.2数据抓取模块-8 3.3.3数据处理模块-10 4 成果演示与数据分析可视化-12 4.1 运行爬虫文件-12 4.2 保存数据-12 4.3 数据分析可视化-14 结 论-16 参 考 文 献-18 致 谢-19 |