需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:8272 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:进入21世纪,我们迎来一个信息急速膨胀的时代,随着互联网的迅速发展,互联网上的信息过载,这使得想要通过一些人工的方法准确地搜索信息变得很有难度,在粮食价格方面,很多最新的信息都通过互联网来发布,因此,为了有效,准确地从大量的数据中提取出我们需要的信息,本论文确定了通过使用基于Python的scrapy爬虫框架来有效地提取信息。从而第一时间有效、准确地获得我们想要的爬虫信息。 -本论文详细分析了粮食价格的在网络上的信息特点,并根据这些特点设计了相关的爬虫核心算法,在scrapy的框架基础下进行了深度定制,从而实现粮食价格的爬取系统,在此过程中,我们多次使用了xpath和正则表达式来实现数据的识别和过滤。 网络爬虫是一段用来自动提取网页的代码,而Python是当下流行的程序设计语言。使用基于Python编写的网络爬虫,则可以有效地根据设计抓取指定网页的信息。本论文选择跟人们生活息息相关的粮食信息为主题,通过使用网络爬虫进行有效的抓取,再使用数据库加以记录和分析并建立索引,从而实现之后的查询和检索,继而实现对粮食价格趋势的分析以及粮食的溯源。在此过程中,我将综合应用到所学的知识,加深对程序开发的理解。 【关键字】网络爬虫;Python;scrapy;粮食价格
目录 摘要 Abstract 第一章 引言-1 第二章 相关技术介绍-1 2.1 Python-1 2.2 Scrapy-2 2.3数据消重-2 2.3.1消重的意义-2 2.3.2消重的实现方法-2 2.4 爬行策略浅析-3 2.4.1搜索策略-3 2.4.1.1 深度优先-3 2.4.1.2 广度优先-4 2.4.2 搜索策略的选择-4 第三章 系统需求分析及模块设计-5 3.1 系统需求分析-5 3.2 各主要功能模块(类)设计-5 3.3 scrapy爬虫工作过程-5 第四章 系统分析与设计-7 4.1 爬行策略分析-7 4.2 URL抽取,解析和保存-7 4.2.1 URL抽取-7 4.2.3 URL及数据的保存-9 第五章 系统实现-9 5.1 实现工具-9 5.2 爬虫实现及工作-10 5.3 URL解析-12 5.4 数据保存-13 第六章 系统测试-15 第七章 总结-17 参考文献-18 致谢-19 |