基于数据流形结构的图像聚类算法研究.docx

资料分类:计算机信息 上传会员:紫色烟火 更新时间:2022-06-11
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:9349
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:聚类算法是无监督机器学习中主要研究课题之一。经典的聚类算法主要是基于欧氏距离来衡量样本间的相似性,然后根据相似性来识别同类样本。在大数据时代中,分类算法处理的对象通常是大规模的高维数据,这使传统分类算法无法发挥很好的效果。从几何上分析,数据的高维特征表示携带了过多信息,且数据分布的几何结构复杂,局部曲率较高,这时的空间距离作为相似性度量的分类算法(如K均值)容易造成误匹配问题。从代数上分析,高位数据向量之间通常具有低秩性,数据集矩阵是奇异的,部分需要对数据集矩阵求逆的算法(如线性判别分析)无法适用。本文主要通过学习高维数据的语义子空间结构得到数据的子空间表示。在语义子空间中,数据的表征形式比较简洁,几何结构比较清晰,每个样本只携带了原始表征中最有用的信息。

本文提出了基于密度子空间的聚类算法(Classification by Learning the Density Semantic Subspace,LDSC)。LDSC算法经过同胚变换,将高维空间中的数据嵌入本征维数的语义空间当中,此时其语义空间结构在局部上是紧致的,全局上是可区分的。Moser定理保证了该同胚变换的存在性,其推论证明了可以通过密度保持的形式实现该同胚,从而得到原始外围空间到密度子空间的映射。

通过在图像数据、文本数据、以及抽象特征数据上的聚类实验,相比对比算法,LDSC有明显的的优势,同时可以看出LDSC的语义空间结构同理论中指出的一样,具有很很清晰的结构。

 

关键词:聚类;欧式距离;分类;识别;算法

 

目录

摘要

Abstract

1 绪论-1

1.1选题背景及研究意义-1

1.2 研究目的与研究内容-1

2 基于数据流形结构的聚类算法-3

2.1核密度估计-3

2.2 同胚变化及流形-4

3 LDSC算法研究-5

3.1 LDSC基本思想-5

3.2 语义空间映射的存在性-6

3.3 LDSC算法-8

3.4 LDSC的泛化能力-9

4 实验结果及分析-10

4.1 度量标准-10

4.2 实验对象-10

4.3 聚类实验结果及分析-12

4.4 LDSC泛化实验-14

参考文献

致谢

相关论文资料:
最新评论
上传会员 紫色烟火 对本文的描述:本节我们将基于上文提出的理论框架进行泛化实验。通过对部分数据集使用LDSC方法得出本征维流形结构,在已有的流形结构基础上可以有效的进行图像数据的分类泛化。由于分类实验需......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: