LZ复杂度在生物进化分析中的应用研究.doc[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：8390
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：Logistic回归模型的统计诊断.doc

下一篇：NBA球员位置分布的模糊聚类分析.doc

摘要:经历生物数据爆炸时期的我们，如何对这样大量的信息进行研究学习，是一个很大的难题，所以我们就应该要去找出能解决这个问题的办法。对于这样复杂而且数量巨大的生物数据，以前的传统方法已经不能够满足统计分析这些数据的需求了。生物信息学就产生在这样的环境里了。

本文中，我们提出了k字间隔序列的概念来反映k字在DNA序列中的分布情况，并将k字间隔序列的Lempel-Ziv（LZ）复杂度作为k字特征，构建了一个4k维的特征向量，通过欧式距离构建距离矩阵，并通过邻接法构建了三组数据的进化树。当k的取值从2到7时，我们分别构建了进化树，通过比较发现k的值取7时，构建的进化树比较可靠。通过与经典结果进行比较，说明了我们方法的有效性。

关键词：k字；LZ复杂度；进化树

摘要

Abstract

1.1 生物信息学产生的背景-3

1.1.2 生物信息学的定义-3

1.2 生物信息学的研究对象和发展-3

1.2.1 生物信息学的研究任务与发展前景-3

1.2.1 核酸-4

1.2.2 DNA-4

1.2.3 RNA-4

2 进化树构建方法-5

2.1比对方法-5

2.2非比对方法-6

2.2.1 图形表示模型-6

2.2.2信息复杂度模型-8

2.3 进化树构建方法-9

2.3.1 基于距离构建法-10

3 基于LZ复杂度的进化树构建-11

3.1 数据集介绍-11

3.1.1 30种哺乳动物线粒体基因-11

3.1.2 24种脊椎动物的转铁蛋白-14

3.1.3 48种戊型肝炎病毒-16

3.2 信息提取方法介绍-19

3.3 构建的进化树-19

结论-23

参考文献-23

致谢-24

数字液位计设计.rar	数学建模在高校毕业生就业问题中的应用	辽宁省绿色投入产出模型的建立与分析
基于因子和聚类分析的长三角各地区经济	我国城镇居民消费的影响因素分析.doc	徐州人口发展现状与趋势统计分析.doc
基于递推自适应算法的信号滤波的研究	基于单片机的智能交通系统的设计.doc	硅基太阳能电池仿真与优化.doc
20千瓦发电量光伏电站物理参数监测系统	基于Java的医院信息管理系统设计与开发	万达广场对徐州商业圈的影响力研究.do