需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:15816 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘 要:系统进化分析是生物信息学中的重要研究领域,主要是从一组同源的DNA或蛋白质序列出发,分析有机体之间的亲缘关系,进而构建反映物种进化关系的进化树.寻找同源关系一直是生物信息领域的重要组成部分,针对小数据量的有机体,距离法、似然法和简约法是构建进化树的主要方法;但是随着分子数据的不断累积,传统的算法越来越不适应分子进化关系的挖掘和分析.伴随着人类基因组计划的逐步深入,大量未标志的序列涌现,急需找到有效的方法来计算序列之间的“进化距离”,判别蛋白质序列间的远近关系,从而找到同源蛋白质,分析和预测蛋白质的结构功能,最终为人类了解生命现象提供理论支持. 本文应用粒计算理论来约简不断增长的分子数据,并且保留有机体的主要属性.粒计算利用粒子,即类或者集群,对模糊、不确定、部分真和大数据的信息处理有着不可替代的作用,其在数据分析、数据挖掘和智能数据处理等方面的有着广泛的应用. 在第二章中,介绍了粒计算的发展和应用和其主要研究方向:粒度、粒和层和分析粒子之间的关系.深入研究了商空间理论方法,并且提出了基于模糊邻近关系的系统进化树构建方法. 在第三章中,针对病毒蛋白的同源分析,利用统计方法,给出了一种新的方法来表示蛋白质序列.将长序列转换到40D向量,保留了氨基酸及其特性,并且结合了二肽的信息,同时给出了两蛋白间模糊邻近关系的度量计算,提出了用完全图聚类的方法对数据对象的处理方法,挑选出蛋白代表,进行进化树的构建.本章对2万多条H1N1病毒的HA蛋白序列,进行粗粒化的信息提取得到了33种病毒,基于模糊邻近关系对这些病毒进行聚类生成系统进化树.通过对进化树的分析得出H1N1病毒的变异与爆发时间、地域等因素有一定关系. 在第四章中,针对不同的病毒蛋白,基于距离度量的标准进行模糊粒度聚类.根据商空间理论,将不同粒度合成聚类结果.本章提出了基于Gaussian型函数定义了商空间的距离函数的模糊聚类算法,针对(16个H亚型和10个N亚型)近6万条病毒蛋白序列,进行基于距离度量的模糊聚类,挑选出39条代表蛋白,构建主干进化树.为未标志的蛋白序列提供比对标本,分析发现,基于商空间的距离度量聚类法适用于处理大数据量的样本. 关键词:进化树;同源;大数据;粒计算
目 录 摘 要 ABSTRACT 第1章 绪论-1 1.1 研究背景及意义-1 1.2 系统发生树-2 1.3 粒计算-3 1.4 本文研究内容与组织结构-4 第2章 粒计算的发展和应用-5 2.1 粒计算理论的研究-5 2.2 商空间理论基础-5 2.3基于归一化距离的系统进化树构建-7 第3 章 病毒蛋白进化树的构建和分析-9 3.1 数据来源与方法-10 3.1.1 数据来源-10 3.1.2 序列提取特征向量-10 3.1.3 基于内积的模糊邻近关系计算-11 3.1.4 基于距离的完全图聚类方法-11 3.1.5 挑选病毒序列代表-12 3.2 数据处理步骤-12 3.3 结果与分析-12 3.4 讨论与结论-15 第4章 模糊商空间聚类分析-17 4.1 Gaussian型距离函数-17 4.2 数据处理步骤-18 4.3 结果与分析-18 4.4 讨论和结论-21 第5章 结论与展望-23 5.1结论-23 5.2不足之处及未来展望-23 参考文献-25 致 谢-27 |