基于种子词的词义消歧_计算机科学与技术.doc[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：13128
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：基于空间包含关系的面对象聚类方法研究.doc

下一篇：结对编程有效性研究_计算机科学与技术.doc

摘要：词义是词汇在一定的语言环境下反应的特定语言现象，它能明确地表达该词汇在此语言环境下的语义属性如感知、行为和情绪等；表达该词汇与相关词汇之间的关系，并且表达该词汇所特有的知识和常识性的知识。在汉语言中，一个词汇往往存在多个词义，被称为词的多义性。但是，当词汇处于一定的语言环境时，它又只能具有唯一的意思。词义消歧就是让计算机自动为词汇选择正确的意思，是自然语言处理领域中词汇级别上最大的难题。

　　　词义消歧是计算语言学领域的基础性关键研究课题,作为一个“中间任务”,直接关系到信息检索、文本分类、语音识别、机器翻译、等语言处理应用系统的效率和成败。Weaver论及机器翻译系统中必须进行词义消歧,这一点在Chan等人的研究中得到了证明,其研究表明词义消歧可以显著提升机器翻译系统的准确率。Stokoe等人证明高效的词义消歧技术可以显著提升信息检索的准确率。然而,正如Ide和Veronis所指出的那样,虽然历经半个多世纪的努力,词义消歧研究并没有取得突破性进展。现在10个春秋又逝去了,词义消歧依然是学人们孜孜以求攻克的难关。

　　　无论是指导人们学习的词典还是指导机器消歧的词典都将遇到的一个难题是:如何对词语进行义项划分? Kilgarriff批评书本型词典由于受到“传统、印张、易接受性”等多种因素的制约在义项分合上存在许多不足,这种词典并不能很好地用于词义分析。Veronis曾做过一个有趣的实验: 600个词语分配给6名语言学专业的学生,由他们依据辞书中的释义对真实语料进行词义标注。结果,不同标注者之间的一致性非常低,对于有些词语,标注的不一致性甚至和随机标注一样糟糕。总体上讲,传统辞书上的义项划分对于语言信息处理过于细微了一些。WordNet常被人反对之处就在于义项划分太过细致。现在很多研究者倾向于粗粒度的义项划分,一方面粗粒度义项可以保证更高的标注一致性,另一方面基于粗粒度的义项划分计算机自动词义消歧可以达到一个相对高的准确度,从而可以应用于实际系统。

　　　基于统计的词义消歧模型的一个关键问题是怎样自动从语料库中获取指示词，虽然通过学习搭配实例能够在语料库中获取更多的搭配知识，但人工获取质量较好的初始搭配是比较困难的，并且无法保证有效的扩大搭配知识。针对该问题，提出了通过机器学习搭配实例获取最优种子，再用最优种子扩增更多指示词，最后利用这些指示词实现具有多个义项的多义词消歧。

关键词：多义词消歧基于指示词 RFR_SUM模型最大熵语境计算模型

企业人事管理系统.doc	“好客来”餐饮订餐系统的设计与实现	基于HDFS的中间件开发.rar
基于Proteus单片机知识点学习系统的设计与	网上商城购物系统ASP+SQL.doc	基于JSP酒店菜单定制网上平台的设计与实
《操作系统》精品课程网站功能设计与实	基于WEB的学生宿舍管理系统.zip	婚纱影楼管理系统的设计与实现.zip
中小服装企业电子商务网站构建与开发	多目标优化在工程项目质量工期成本管理	XX学院田径运动会信息管理系统ASP.NET+SQ