需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:9283 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:聚类是数据挖掘中一个非常重要的分支,用于发现数据中包含的未知信息。聚类算法分析的研究有着悠久的历史,近几十年来,聚类的重要性以及它与其他科学研究领域的交叉特性得到了人们的普遍肯定。随着聚类分析技术的迅速发展以及应用的不断扩展,聚类分析越来越成为数据挖掘中一个引人关注的研究课题。 -本文第一部分将简单介绍聚类的定义及其主要研究的问题。聚类是将数据分成许多类簇,其中一个类簇内的实体是相似的,而不同类簇间的实体是互不相似的。目前,聚类主要运用在图象处理、模式识别、客户信息分析、金融分析、医学等诸多领域中。 -第二部分简单介绍了五种典型的聚类方法:基于划分的聚类方法、基于层次的聚类方法、基于密度的聚类方法、基于网格的聚类方法和基于模型的聚类方法。每一种典型聚类方法都有优点及缺点,面对不同的数据对象时,要根据具体的要求选择合适的聚类方法。 -第三部分重点介绍了K-means聚类算法,这是一种典型的基于划分的聚类算法,它通过不断的迭代来进行聚类,当收敛到约束条件时就终止迭代,输出聚类结果。由于该方法思想简单又易于操作,因此已成为最常用的聚类算法之一。本文还列举了K-means算法在二维数据聚类以及文档聚类上的应用。但K-means算法的也存在不足:该算法对于初始聚类中心的选择非常的敏感,容易取得局部的最优解;聚类数目的值通常需要用户事先给定;对噪声数据和孤立数据较为敏感;K-means聚类算法不适用于大量数据的聚类问题。因此在解决实践问题时往往需要将K-means算法与其他聚类算法综合运用才行。 -在文章的最后,我们对前面的叙述提出了总结与展望。 关键字:数据挖掘; 聚类算法; K-means; 划分
目录 摘要 Abstract 1.绪论-5 1.1研究背景和意义-5 1.2国内外研究现状-5 1.3研究内容和研究方法-6 2聚类算法-6 2.1聚类的定义和主要研究的问题-6 2.1.1聚类的定义-6 2.1.2聚类主要研究的问题-7 2.2典型的聚类方法-7 2.2.1基于划分的聚类方法-7 2.2.2基于层次的聚类方法-8 2.2.3基于密度的聚类方法-8 2.2.4基于网格的聚类方法-9 2.2.5基于模型的聚类方法-9 3.K-means算法-9 3.1K-means聚类算法描述-9 3.1.1K-means聚类算法基本思想-10 3.1.2 K-means聚类算法主要流程-10 3.2 K-means 聚类算法研究现状-11 3.3 K-means聚类算法应用举例-12 3.3.1 K-means聚类算法二维数据的聚类应用-12 3.3.2 K-means文档聚类算法的应用-14 3.4 K-means聚类算法的主要缺陷分析-17 4.总结与展望-18 参考文献-19 致谢-20 |