需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:8674 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:目前,很多社会热点话题都是以微博为信息源开始传播的,如何从微博中找到当前热门话题并对热门话题相关数据实现可视化,是一项非常有现实意义的工作。本文针对微博话题的特点研究了微博数据可视化的实现。介绍了Scrapy框架获取数据的优势和原理,完成了数据采集功能,实现了数据清洗和数据可视化。本文的主要工作和研究内容如下: 第一,本文在数据采集模块采用Scrapy爬虫技术实现微博数据采集。部署在云服务器上的爬虫可以实现基于微博热搜词检索实现相关微博的定位,能够在短时间内获取大量实时热门的微博数据,同时更为稳定安全。 第二,在数据处理上,使用了Redis数据库和MySQL数据库同时完成数据存储,提高了数据存取速度,也减少了数据库中冗余数据带来的资源浪费。SpringMVC在完成了展示页面搭建的同时,也为读取数据实现可视化提供了方法上的支持。 第三,使用Echarts提供的图表库配合SpringMVC展现数据可视化。完成了社会热点,参与用户的特征以及整体的关系结构的形象化展示,为进一步分析信息学问题提供了直观明了的数据展现。 本文基于实际的新浪微博数据实现热点话题发现、话题用户发现、以及用户特征信息进行测试、分析。最后阐述了系统仍存在的缺陷,并对未来学习的开展做出了展望。
关键词:数据处理;微博;爬虫;可视化
目录 摘要 Abstract 1 绪论-1 1.1研究背景-1 1.2研究意义-1 1.3研究现状-2 2 分析与研究方法-3 2.1研究方法-3 2.2分析原理-3 3 微博数据获取-5 3.1 数据库设计-5 3.1.1 数据获取流程-5 3.1.2 数据库设计-6 3.2 Scrapy爬虫框架-8 3.2.1 Scrapy框架数据获取-8 3.2.2 Scrapy工程对象的创建与使用-9 3.3 selector选择器-11 3.3.1 解析库的选择与使用-11 3.3.2 JSON数据交换格式-11 3.3.3 微博标签分析与特征-11 3.4 Redis数据库-12 3.4.1 存储模式-12 3.4.2 Redis使用-12 4 数据可视化的研究与实现-13 4.1 SpringMVC-13 4.1.1 SpringMVC原理-13 4.1.2 SpringMVC建站-13 4.2 可视化实现-14 4.2.1 基于Echarts实现数据可视化-14 5 结论-17 5.1 总结-17 5.2 展望-17 参考文献-18 致谢-19 |