中文文本中机构名自动标注的研究.doc

资料分类:计算机信息 上传会员:abc鞠凌青 更新时间:2019-03-28
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:8725
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)
下一篇:没有了

摘要:随着互联网不断发展,信息网络化更加的明显。 越来越多的文本信息的出现,让很多的机关单位、公司在处理这些文本信息更加的困难。一方面, 在网络上每天都有很多有价值的文本信息不断的出现; 而另一方面, 我们想要获取这些有价值的文本信息,但是由于技术的落后,获取信息的速度和量不能够达到我们理想的标准。

 对于文本信息的获取,现在出现了很多识别方法,而主要是别的对象包括了人名、地名和机构名。其中机构名称泛指机关、团体或其他企事业单位,包括学校、公司、医院、研究所和政府机关等的名称。机构名称是专有名词的一个子集,数目也特别庞大。机构名称无论是出现还是更新淘汰都特别的快,所以相比较于人名地名,机构名的识别工作量大,识别率低,达不到人们的期望。

本文中使用的CRF建模进行机构名的识别,开始时利用了大量时间搜寻大量关于机构名的中文文本句子,并且将其中的机构名进行标注。然后我们利用分词软件将已搜集的语料进行分词,再利用做的软件将已分好词的语料进行格式预处理,将词、词性和机构名的判断标识分为段落格式分列表示以便CRF模型可以合理读取。再利用CRF进行建模、训练,建立一个训练模型。最后使用CRF模型对我们准备时找到的测试语料进行测试。该方法取得了接近96%的召回率和准确率,即使在开放测试中,准确率也高达83%。

 

关键词:条件随机场;分词;格式预处理;机构名

 

目录

摘要

Abstract

1 绪论-1

1.1研究目的与意义-1

1.2国内外中文文本中机构名识别的现状-1

1.3论文组织结构-2

2 CRF的介绍和工作原理-3

2.1 CRF简介-3

2.2 CRF与其他方法对比-3

2.3 CRF的基本原理-4

2.4 CRF的使用方法-5

3 CRF的中文文本中机构名的自动标注研究-6

3.1使用CRF识别中文机构名的基本步骤-6

3.2语料收集和数据预处理-6

3.3 CRF建模-7

3.4 CRF测试-8

3.5本章小结-9

4实验结果与分析-11

4.1测试准确率、召回率以及F值-11

4.2实验结果-11

4.3实验分析-11

5 实验结果及分析-13

结    论-14

参 考 文 献-15

致    谢-16

相关论文资料:
最新评论
上传会员 abc鞠凌青 对本文的描述:中文文本中信息处理任务的前提和基础便是中文文本中的命名体是识别过程,其中机构名的识别在中文文本识别中占有很大的比重,同时也是中文文本识别中比较困难的部分。机构名的......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: