需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:10288 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:传统搜索引擎在爆炸式增长的互联网数据中具有搜索结果不精确的局限性,专用型网络爬虫通过制定的规则和特征来筛选所需信息的特点就可以解决这一局限性。专用型爬虫虽然能获取精确的数据,但是获取的数据十分庞杂,短时间内无法从中了解有效信息,通过数据分析和可视化就能让用户从庞杂的数据中快速而清晰了获取所需信息。本课题致力于打造一个基于Scrapy框架爬虫的学生饮食消费信息采集与可视化系统,本系统可以对饮食数据进行专项采集并进一步分析应用。本系统采用Python开发的Scrapy框架来开发,使用Xpath技术和BeautifulSoup库对下载的网页数据进行提取解析,使用Mysql数据库进行数据存储,利用Pandas库对数据进行数据清洗,使用Matplotlib库对数据进行可视化设计。设计并实现了针对大众点评平台的饮食消费信息采集与可视化系统。
关键词:Python爬虫;Scrapy框架;数据分析;可视化
目录 摘要 Abstract 1 绪论-1 1.1 课题背景-1 1.2 网络爬虫概述-1 1.2.1 网络爬虫的历史-1 1.2.2 网络爬虫的原理-2 1.2.3 网络爬虫的分类-2 1.2.4 网络爬虫的发展趋势-3 1.3 数据预处理概述-3 1.4 数据可视化概述-3 2 相关技术介绍-4 2.1 Python-4 2.2 Scrapy框架-4 2.3 数据提取-4 2.3.1 Xpath-4 2.3.2 BeautifulSoup-5 2.4 数据分析与可视化-5 2.4.1 Pandas-5 2.4.2 Matplotlib-5 3 系统分析-6 3.1 可行性分析-6 3.1.1 技术可行性分析-6 3.1.2 经济可行性分析-6 3.1.3 市场可行性分析-6 3.2 需求分析-7 3.2.1 开发目的-7 3.2.2 功能需求-7 4 系统设计-9 4.1 开发环境与总体结构设计-9 4.1.1 开发环境-9 4.1.2 总体结构设计-9 4.2 爬虫流程设计-10 4.3 数据库设计-11 4.3.1 数据库概念设计-11 4.3.2 数据库表设计-11 4.4 数据清洗设计-12 4.5 数据可视化设计-12 5 系统实现-13 5.1 爬虫系统实现-13 5.1.1 爬虫-13 5.1.2 中间件-14 5.1.3 数据存储-15 5.2 数据可视化实现-15 5.2.1 数据清洗-15 5.3.2 绘制图表-16 6 系统测试-17 6.1 页面抓取测试-17 6.2 数据存储测试-18 6.3 数据可视化测试-20 结 论-23 参 考 文 献-24 致 谢-25 |