需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:10230 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要: 随着计算机和通信技术的发展,数据量急剧增加,人类进入大数据时代,并且数据以爆炸性增长的趋势渗透在社会的各行各业中。对数据进行预处理是大数据分析中不可或缺的重要部分,如何从海量的数据中提取有价值的信息是目前世界最关注的焦点,本文主要学习了三种大数据处理方法—主成分分析法、聚类方法、OD矩阵方法,并运用SPSS软件对全国31个城市的综合竞争力情况进行了主成分分析和聚类分析,以验证主成分分析法和聚类分析法的有效性。通过此次学习,学会对个别大数据进行数据挖掘处理。
关键词:大数据;大数据预处理方法;SPSS
目录 摘要 Abstract 第一章 绪论-1 1.1 大数据的背景介绍-1 1.2 数据挖掘中算法的背景介绍-2 1.2.1 降维技术及主成分分析法的背景介绍-2 1.2.2 聚类分析背景介绍-3 1.2.3 OD矩阵背景介绍-3 1.3 章节介绍-3 第二章:大数据处理的几种方法-4 2.1主成分分析法-4 2.1.1 基本原理-4 2.1.2 主成分的计算步骤及分析过程-4 2.1.3主成分的分析过程-5 2.1.4 图像论证-5 2.2聚类分析-6 2.2.1系统聚类分析-7 2.2.2 KMEANS聚类法-8 2.3 OD矩阵-8 第三章、主成分聚类法的实例分析-9 3.1 考察全国31个城市的综合竞争力排名-10 3.2 为什么要进行主成分聚类分析?-10 3.3 模型建立-10 (1)数据标准化处理-11 (2)对原始数据进行主成分分析,求相关系数矩阵R-11 (3)计算R的特征值-12 (4)计算相关系数矩阵R的特征向量-13 (5)计算各主成分得分-14 (6)根据主成分函数表达式,计算综合得分-15 (7)聚类分析-16 (8)各方法的排序结果-18 (9)结论-19 结 论-20 参 考 文 献-21 附录1 全国31个城市的综合竞争力指标数据-21 致 谢-23 |