大数据预处理方法的学习研究.doc

资料分类:理工论文 上传会员:天使的翅膀 更新时间:2019-04-08
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:10230
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要: 随着计算机和通信技术的发展,数据量急剧增加,人类进入大数据时代,并且数据以爆炸性增长的趋势渗透在社会的各行各业中。对数据进行预处理是大数据分析中不可或缺的重要部分,如何从海量的数据中提取有价值的信息是目前世界最关注的焦点,本文主要学习了三种大数据处理方法—主成分分析法、聚类方法、OD矩阵方法,并运用SPSS软件对全国31个城市的综合竞争力情况进行了主成分分析和聚类分析,以验证主成分分析法和聚类分析法的有效性。通过此次学习,学会对个别大数据进行数据挖掘处理。

 

关键词:大数据;大数据预处理方法;SPSS

 

目录

摘要

Abstract

第一章 绪论-1

1.1 大数据的背景介绍-1

1.2 数据挖掘中算法的背景介绍-2

1.2.1 降维技术及主成分分析法的背景介绍-2

1.2.2 聚类分析背景介绍-3

1.2.3 OD矩阵背景介绍-3

1.3 章节介绍-3

第二章:大数据处理的几种方法-4

2.1主成分分析法-4

2.1.1 基本原理-4

2.1.2 主成分的计算步骤及分析过程-4

2.1.3主成分的分析过程-5

2.1.4 图像论证-5

2.2聚类分析-6

2.2.1系统聚类分析-7

2.2.2 KMEANS聚类法-8

2.3 OD矩阵-8

第三章、主成分聚类法的实例分析-9

3.1 考察全国31个城市的综合竞争力排名-10

3.2 为什么要进行主成分聚类分析?-10

3.3 模型建立-10

(1)数据标准化处理-11

(2)对原始数据进行主成分分析,求相关系数矩阵R-11

(3)计算R的特征值-12

(4)计算相关系数矩阵R的特征向量-13

(5)计算各主成分得分-14

(6)根据主成分函数表达式,计算综合得分-15

(7)聚类分析-16

(8)各方法的排序结果-18

(9)结论-19

结    论-20

参 考 文 献-21

附录1 全国31个城市的综合竞争力指标数据-21

致    谢-23

相关论文资料:
最新评论
上传会员 天使的翅膀 对本文的描述:数据挖掘是大数据分析中必不可少的环节,如何从大量、冗杂的数据中提取最有价值的数据对其进行分析研究,是数据挖掘的基本思想。除了Hadoop,目前业内最关心的要数大规模数据挖......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: