面向大规模数据的密度峰聚类算法研究与实现.doc[原创毕业论文]

需要金币：2000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：12531
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：连续语音自动分割系统设计.doc

下一篇：民族特色农产品展示平台开发.doc

摘要:随着大数据时代的到来，数据信息化发展成为核心方向，取得更大的竞争优势都是围绕着数据进行展开。聚类分析通常作为数据挖掘的关键算法之一，常见的聚类分析算法易受噪声数据影响，以及类的边缘数据分类是误差较大。针对此问题，本课题面向大规模数据采用密度峰聚类算法(DPCA)进行研究分析。

本文首先概述了大规模数据的信息挖掘的基本理论，阐述了DM的基本定义，以及其操作。并介绍了DM的主要算法，以及DM的相关应用。其次，在对数据相似性的研究之上，推导了数据聚类的基本理论，并详细地阐述了DPCA算法的原理。最后，采用DPCA对数据进行了类的划分，利用局部密度和高密度点之间的距离对目标数据的密度特性进行了分析，确定了数据可划分为四类，同时也确定了四个类的中心数据点。DPCA对数据分类的结果表明，DPCA算法能对边界不明确的数据集进行划分，且仅需计算一遍，能有效地克服类边缘的噪声数据。

关键词：大规模数据；密度峰聚类；聚类分析；DPCA

摘要

Abstract

1 绪论-1

1.1 课题的研究背景及意义-1

1.2 国内外相关研究现状-2

1.3 本文主要研究内容和论文框架-3

2 大规模数据的信息挖掘概述-4

2.1 数据挖掘的定义-4

2.2 数据挖掘流程-4

2.3 数据挖掘算法-6

2.4 数据挖掘的应用-6

2.5 本章小结-7

3 聚类分析-8

3.1 相似性度量-8

3.2 聚类分析(CA)-9

3.3 基于密度峰的CA-9

3.3.1 数据密度的概念-10

3.3.2 基于密度峰聚类算法-11

3.4 本章小结-11

4 密度峰聚类在大规模数据挖掘中的应用-13

4.1 仿真软件简介-13

4.2 大规模数据的特征分析-13

4.3 面向大规模数据的DPCA-14

4.4 本章小结-16

结论-17

参考文献-18

附录A DPCA算法MATLAB代码-19

致谢-28

年产200万吨合格不锈钢的电弧炉炼钢车间	定量称重带式输送机及其控制系统设计	路面铣刨机液压系统设计.doc
我国的有机食品营销策略研究.doc	灭火器筒座注塑成型模拟及模具设计.do	破产重整中的债转股.docx
水泥制造企业职业病危害现状评价_安全工	无线温度检测系统设计.doc	节能赛车发动机减重设计.doc
建筑钢结构焊接接头设计及工艺特点研究	有线温度信息采集节点的设计_电子信息工	前吹式空调室外机轴流风机系统内部流动