需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:13667 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:大数据是指不能在一定时间内用常规技术处理的数据集合,具有数据量大、数据产生和更新的频率快、数据类型多、数据价值密度低、数据真实等特点。民大小偲是学生管理在校学习信息和生活信息的工具,有校园网管理、课表管理、成绩管理、图书借阅管理和校园短信等功能。学生及其它用户在民大小偲上的活动会产生大量行为数据。民大网络行为大数据分析及可视化是对学生在民大小偲上活动所产生的校园短信数据进行分析。 (1) 首先获取民大小偲服务器的数据; (2) 再用Python对原始数据进行数据清洗和预处理工作,并将处理后的数据打印成表格; (3) 然后将处理好的数据导入Gephi; (4) 最后在Gephi端对导入的数据集进行分析,并将分析结果可视化。 学生作为点集、校园短信的通信方向作为边集就形成了一个复杂的社交网络。对此网络的分析任务包括平均聚集系数分析、连通分量分析、度分析、特征向量中心度分析、介中心度分析等等。
关键词:大数据分析;可视化;网络分析
目录 摘要 Abstract 1 绪论-1 1.1 课题背景与意义-1 1.2 国内外研究现状及发展趋势-1 1.2.1 国内外大数据研究现状-1 1.2.2 大数据发展趋势-2 1.3 研究内容-2 2 大数据与网络分析-3 2.1 大数据介绍-3 2.1.1 大数据定义及特点-3 2.1.2 大数据处理手段-4 2.1.3 数据可视化-6 2.2 网络分析方法-6 2.2.1 聚类系数(Clustering Coefficient)-6 2.2.2 联通分量(Connected Components)-8 2.2.3度(Degree)-9 2.2.4 特征向量中心性(Eigenvector Centrality)-9 2.2.5 中介中心性(Betweenness Centrality)-10 2.2.6 接近中心性(Harmonic Closeness Centrality)-10 2.2.7 偏心率(Eccentricity)-11 2.2.8 模块度(Modularity)-11 3 需求分析与设计-13 3.1 需求分析-13 3.2 系统设计-14 4 项目实现-15 4.1 环境搭建-15 4.1.1 运行环境-15 4.1.2 Gephi使用方法-15 4.2 数据清洗和导入-16 4.2.1 数据清洗的实现-16 4.2.2 导入数据到Gephi-16 4.3 网络分析和可视化-19 4.3.1 图形预处理-19 4.3.2 度(Degree)分析-21 4.3.3 聚类系数(Clustering Coefficient)分析-22 4.3.4 联通分量(Connected Components)分析-22 4.3.5 特征向量中心性(Eigenvector Centrality)分析-23 4.3.6 中介中心性(Betweenness Centrality)分析-24 4.3.7 模块度(Modularity)分析-24 4.3.8 接近中心性(Harmonic Closeness Centrality)分析-25 4.3.9 偏心率(Eccentricity)分析-26 4.3.10 导出分析结果-26 结 论-28 参 考 文 献-29 致 谢-30 |