需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:8390 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:经历生物数据爆炸时期的我们,如何对这样大量的信息进行研究学习,是一个很大的难题,所以我们就应该要去找出能解决这个问题的办法。对于这样复杂而且数量巨大的生物数据,以前的传统方法已经不能够满足统计分析这些数据的需求了。生物信息学就产生在这样的环境里了。 本文中,我们提出了k字间隔序列的概念来反映k字在DNA序列中的分布情况,并将k字间隔序列的Lempel-Ziv(LZ)复杂度作为k字特征,构建了一个4k维的特征向量,通过欧式距离构建距离矩阵,并通过邻接法构建了三组数据的进化树。当k的取值从2到7时,我们分别构建了进化树,通过比较发现k的值取7时,构建的进化树比较可靠。通过与经典结果进行比较,说明了我们方法的有效性。
关键词:k字;LZ复杂度;进化树
目录 摘要 Abstract 1.1 生物信息学产生的背景-3 1.1.2 生物信息学的定义-3 1.2 生物信息学的研究对象和发展-3 1.2.1 生物信息学的研究任务与发展前景-3 1.2.1 核酸-4 1.2.2 DNA-4 1.2.3 RNA-4 2 进化树构建方法-5 2.1比对方法-5 2.2非比对方法-6 2.2.1 图形表示模型-6 2.2.2信息复杂度模型-8 2.3 进化树构建方法-9 2.3.1 基于距离构建法-10 3 基于LZ复杂度的进化树构建-11 3.1 数据集介绍-11 3.1.1 30种哺乳动物线粒体基因-11 3.1.2 24种脊椎动物的转铁蛋白-14 3.1.3 48种戊型肝炎病毒-16 3.2 信息提取方法介绍-19 3.3 构建的进化树-19 结 论-23 参 考 文 献-23 致 谢-24 |