统计方法在分泌蛋白分类中的应用研究.doc

资料分类:理工论文 上传会员:Yangbaobao 更新时间:2018-12-19
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:8142
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:在这个信息化发展的大时代里,我们会发现无论在哪个领域都会用到或多或少的数学知识去解决一些必要的问题。比如在生物学研究中数学占了很大的比重。统计学,包括多元统计学,是生物信息学的数学基础之一。

    本课题主要研究6种革兰氏阴性细菌分泌蛋白的分类问题。基于序列数据的分泌型蛋白质类型的预测仍然是一个具有挑战性的问题。在本文中,我们从特异性打分矩阵(PSSM)中提取了长程相关性信息。在17个不同间隔下,共提取了6800个特征,通过CFS特征选择方法去除冗余信息,选择了309个特征进行预测。为了验证我们方法的性能,采用了杰克刀检验和独立数据集测试方法通过支持向量机进行分类预测,其总精度分别是93.60 %和100.0 %。我们的研究结果与现有方法的比较表明,我们的方法对分泌蛋白类型预测是有效的。

 

关键词:特征选择;相关系数;支持向量机算法

 

目录

摘要

Abstract

1 生物信息学-1

1.1 生物信息学的基本概念及目标-1

1.2 生物信息学的研究方向和发展前景-1

1.2.1生物信息学的研究方向-1

1.2.2 生物信息学的发展前景-2

2 机器学习方法介绍-3

2.1机器学习方法的意义及分类-3

2.1.1机器学习方法的意义-3

2.1.2机器学习方法的分类-3

2.2  特征选择-4

2.3 支持向量机(SVM)的原理-5

3 分泌蛋白的统计方法与研究-9

3.1 分泌蛋白的介绍及其研究价值-9

3.2数据集和方法-10

3.2.1 数据集-10

3.2.2 特征提取-10

3.2.3  特征选择与值的选择-12

3.2.4   分类算法的构建-13

3.3 预测评价-13

3.4   结果-13

结   论-16

参 考 文 献-17

致    谢-19

相关论文资料:
最新评论
上传会员 Yangbaobao 对本文的描述:生物信息学的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗传语言。生命科学的发展中生物信息学是其很重要的一部分。自然科学的核心之一将是生物......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: