基于大数据环境下微博热点话题挖掘方法的研究和分析.doc[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文，开题报告
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：17865
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：基于“互联网+”的手机用户信息安全研究.doc

下一篇：基于物联网的物流配送模式研究.doc

摘要：随着互联网的发展,信息技术的普及和 Web2.0 时代的到来，互联网已经成为人们生活中不可或缺的一部分。人们可以通过互联网进行一系列的网络活动，比如即时通讯，上网冲浪，获取信息，传播消息以及表达情感。微博作为最有影响力的社交平台，已经成为互联网热点信息传播以及获取的最重要的平台。用户们可以通过微博这个平台获得自己感兴趣的话题信息。通过对微博平台上海量信息的搜集、分析和整理挖掘，可以获得在某个时间段空间范围内微博用户们最感兴趣的热门话题以及这个热门话题的发展趋势。发现热点话题不仅可以及时的明了微博用户最为感兴趣的热点话题，而且能够更好的应付一部分紧急事情，这对掌控舆情的方向都很重要。

本篇论文首先介绍了互联网热点话题挖掘的现状，然后研究了微博信息的特点以及微博用户的组成结构和话题传播的模型特点。在数据挖掘相关的概念以及微博平台信息的特点基础上，先介绍了海量信息的获取和处理方法，网络爬虫和微博开放 API 方法，通过这两个信息获取方法获取到数据信息后，接着对数据进行预处理：分词、过滤以及去除停用词等。着重介绍了一个词频计算方法和三个热点话题发现方法，即 TF-IDF 方法，Single-Pass 聚类算法，LDA 模型算法以及 Single-Pass 聚类算法与 LDA 模型算法相结合的算法。通过研究前三个方法，每个方法都有各自的优缺点，要么是文本信息的变化会导致结果不准确，要么是阈值的选取还没有明确的规定，要么是运算过程复杂，最后将 Single-Pass 聚类算法与 LDA 模型算法相结合，取长补短，先用 Single-Pass 聚类算法对所获取的数据进行聚类分析，接着使用 LDA 模型算法来运算经过聚类分析后获得的簇，最终获得想要的热点话题。这种算法比 Single-Pass 聚类算法得出的结果更为准确，比 LDA 模型算法得出的结果更简便。

关键词：微博；热点话题；TF-IDF 方法；Single-Pass 聚类算法；LDA 模型

摘要

Abstract

第一章绪论1

1.1论文研究背景及意义1

1.2 研究现状和分析.3

1.2.1国外研究现状分析.3

1.2.2国内研究现状分析.4

1.3本文的研究内容5

1.4本文的组织架构5

第二章相关理论知识.6

2.1数据挖掘6

2.1.1数据挖掘概述.6

2.1.2聚类方法分析.7

2.2微博简介9

2.2.1微博的发展历史9

2.2.2微博的基本功能和特性10

2.2.3微博的用户关系结构以及传播模型.10

2.2.4微博热点话题与话题热度概述.13

2.3本章小结13

第三章微博热点话题数据获取技术.14

3.1数据获取的方法14

3.1.1网络爬虫方法.14

3.1.2微博开放 API 方法.16

3.2数据预处理17

3.2.1分词.17

3.2.2信息过滤处理.18

3.3本章小结19

第四章微博热点话题的发现技术.20

4.1TF-IDF 方法.20

4.2Single-Pass 算法21

4.3 LDA 模型算法22

4.4Single-Pass 与 LDA 模型结合算法24

4.5 本章小结.25

结束语26

总结26

展望27

致谢28

参考文献29

精益角度下的企业物料控制研究—以德尔	财务杠杆在企业中的实际运用.doc	我国建立存款保险制度相关问题研究.do
华晨国际房地产项目市场定位策略研究	古镇旅游特色研究--以乌镇、大研古镇为	领导方式对员工工作积极性的影响研究
抚顺中通快递公司人力资源管理问题研究	吉利汽车定制化营销策略探讨.doc	百事可乐（中国）分销渠道冲突管理研究
内部控制缺陷的识别与认定研究.docx	幸福住宅项目施工组织设计_工程管理.d	基于感知价值的直播教育平台顾客选择影