需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:9381 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:在生物信息学的众多研究方向中,生物序列的进化分析是热门的研究之一。一条生物序列是由很多个字母组成的无规律的序列,但其中的无规律的序列中蕴含着很多生物信息,如何对这些信息进行提取,是我们研究的主要内容。 本文中,我们提出了k字间隔序列的概念来反映k字在DNA序列中的分布情况,提取k字的平均间隔和k字间隔序列的Lempel-Ziv(LZ)复杂度作为k字特征,构建了特征向量,这里的k取值从1到6。我们通过主成分分析方法去除了特征向量中的冗余,降低了维数。最后,通过欧式距离计算距离矩阵,通过邻接法构建了48种戊型肝炎病毒和30种哺乳动物线粒体两组数据的进化树。通过与经典结果进行比较,说明了我们方法的有效性。 关键词: DNA序列;进化树;LZ复杂度
目录 摘要 Abstract 1 绪论-1 1.1生物信息学的研究背景及意义-1 1.2研究现状-2 1.3分子生物学知识摘要-3 1.3.1 蛋白质-3 1.3.2 基因-3 1.4 研究内容-4 2 进化树构建方法的研究-5 2.1生物序列分析中的比对方法-5 2.1.1 两两序列比对模型-5 2.1.2多序列比对模型-5 2.2生物序列分析中的非比对方法-6 2.2.1生物序列的图形表示方法-6 2.2.2 生物序列的特征表示方法-6 2.2.3 LZ复杂度方法-7 3 进化树的构建-8 3.1进化树的构建方法-8 3.2进化树的评价方法-8 3.2.1 30种哺乳动物的线粒体基因数据-8 3.2.2 48种戊型肝炎病毒基因数据-11 3.3信息提取与选择-14 3.4结果分析-14 3.4.1 30种线粒体结果分析与对比-14 3.4.2 48种戊型肝炎病毒结果分析与对比-15 总结-17 参考文献-18 致谢-19 |