需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:9349 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:聚类算法是无监督机器学习中主要研究课题之一。经典的聚类算法主要是基于欧氏距离来衡量样本间的相似性,然后根据相似性来识别同类样本。在大数据时代中,分类算法处理的对象通常是大规模的高维数据,这使传统分类算法无法发挥很好的效果。从几何上分析,数据的高维特征表示携带了过多信息,且数据分布的几何结构复杂,局部曲率较高,这时的空间距离作为相似性度量的分类算法(如K均值)容易造成误匹配问题。从代数上分析,高位数据向量之间通常具有低秩性,数据集矩阵是奇异的,部分需要对数据集矩阵求逆的算法(如线性判别分析)无法适用。本文主要通过学习高维数据的语义子空间结构得到数据的子空间表示。在语义子空间中,数据的表征形式比较简洁,几何结构比较清晰,每个样本只携带了原始表征中最有用的信息。 本文提出了基于密度子空间的聚类算法(Classification by Learning the Density Semantic Subspace,LDSC)。LDSC算法经过同胚变换,将高维空间中的数据嵌入本征维数的语义空间当中,此时其语义空间结构在局部上是紧致的,全局上是可区分的。Moser定理保证了该同胚变换的存在性,其推论证明了可以通过密度保持的形式实现该同胚,从而得到原始外围空间到密度子空间的映射。 通过在图像数据、文本数据、以及抽象特征数据上的聚类实验,相比对比算法,LDSC有明显的的优势,同时可以看出LDSC的语义空间结构同理论中指出的一样,具有很很清晰的结构。
关键词:聚类;欧式距离;分类;识别;算法
目录 摘要 Abstract 1 绪论-1 1.1选题背景及研究意义-1 1.2 研究目的与研究内容-1 2 基于数据流形结构的聚类算法-3 2.1核密度估计-3 2.2 同胚变化及流形-4 3 LDSC算法研究-5 3.1 LDSC基本思想-5 3.2 语义空间映射的存在性-6 3.3 LDSC算法-8 3.4 LDSC的泛化能力-9 4 实验结果及分析-10 4.1 度量标准-10 4.2 实验对象-10 4.3 聚类实验结果及分析-12 4.4 LDSC泛化实验-14 参考文献 致谢 |