文本相似度计算方法_信息与计算科学.docx[原创毕业论文]

需要金币：2000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：7496
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：使用模糊数学的若干方法对网页进行分类.doc

下一篇：我国房地产上市公司企业价值驱动因素研究--基于EVA价值评估体系.doc

摘要：随着网络数字资源的日益丰富和网络环境对人们存取信息方式的改变，数字文档唾手可得，学术剽窃现象十分严重，同时网页数量增长极快，搜索效率有所下降。文本相似度监测方法研究可以防止以上现象的发生、扩散，在知识产权保护和信息检索中有着重要的应用。本文通过一些经典的算法，提出新算法，并通过实验与经典算法进行比较来验证算法。

关键词：相似度；空间向量模型；计算方法

摘要

Abstract

1 引言-1

1.1 研究背景及意义-1

1.1.1研究背景-1

1.1.2研究意义-1

1.2 研究现状-2

1.2.1国外研究现状-2

1.2.2国内研究现状-2

1.2.3存在的问题-3

1.3 研究内容及方法-3

1.3.1研究内容-3

1.3.2研究方法-3

2 文本相似度-4

2.1 文本相似度的基本概念-4

2.1.1文本相似度的定义-4

2.1.2文本相似度算法的特点-4

3 学术界经典算法及其特点介绍-5

3.1 向量空间模型-5

3.2 基于布尔特征的相似度计算方法-6

3.3 改进的文本相似度计算方法-6

3.2.1文本块的选择规则-7

3.2.2最长公共子串的相似度算法-7

3.2.3文本块映射成散列值-8

4 实验结果-9

5 结论-10

参考文献-12

致谢-13

人民币汇率形成机制及其对外贸的影响	商业银行应对利率市场化对策的研究.do	传统媒体广播与新媒体融合研究（新浪“
我国中小企业人员流失问题及对策分析	我国中小企业融资问题与对策研究.doc	浅析XX度假酒店人才流失的现状与对策.
西塘古镇旅游发展路径探析.doc	连锁企业家乐福在华生存之道探析.doc	XX老街开发利用现状和对策建议.doc
八十年代小说中的乡村女性符码分析.do	上市公司会计信息失真形成的原因及应对	论法学流派在民法典编纂中的作用.docx