文本相似度计算方法_信息与计算科学.docx

资料分类:精选论文 上传会员:樊老师 更新时间:2019-07-30
需要金币2000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:7496
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:随着网络数字资源的日益丰富和网络环境对人们存取信息方式的改变,数字文档唾手可得,学术剽窃现象十分严重,同时网页数量增长极快,搜索效率有所下降。文本相似度监测方法研究可以防止以上现象的发生、扩散,在知识产权保护和信息检索中有着重要的应用。本文通过一些经典的算法,提出新算法,并通过实验与经典算法进行比较来验证算法。

 

关键词:相似度;空间向量模型;计算方法

 

目录

摘要

Abstract

1  引 言-1

1.1  研究背景及意义-1

1.1.1研究背景-1

1.1.2研究意义-1

1.2  研究现状-2

1.2.1国外研究现状-2

1.2.2国内研究现状-2

1.2.3存在的问题-3

1.3  研究内容及方法-3

1.3.1研究内容-3

1.3.2研究方法-3

2  文本相似度-4

2.1  文本相似度的基本概念-4

2.1.1文本相似度的定义-4

2.1.2文本相似度算法的特点-4

3  学术界经典算法及其特点介绍-5

3.1  向量空间模型-5

3.2  基于布尔特征的相似度计算方法-6

3.3  改进的文本相似度计算方法-6

3.2.1文本块的选择规则-7

3.2.2最长公共子串的相似度算法-7

3.2.3文本块映射成散列值-8

4  实验结果-9

5  结论-10

参考文献-12

致谢-13

相关论文资料:
最新评论
上传会员 樊老师 对本文的描述:文本相似度检测应用范围比较广泛,既可以为信息检索提供底层算法,又可以直接用来对学生文本型作业进行考核,考核的目的就是检测程序代码中是否含有相似问题,还可以进行大规模......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: