基于中文维基页面的链接分析与可视化.docx

资料分类:计算机信息 上传会员:陈燕 更新时间:2019-03-05
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:14592
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:作为大数据时代的典型代表,维基百科这个巨大的知识库蕴藏着丰富的价值,逐渐成为知识挖掘领域的重点研究对象。整个维基百科的实体-链接形成了一个规模庞大、非常稠密的图结构,是一个优良的可供语义挖掘的语料库。

本课题从中文维基百科的内容和链接角度出发,构建了中文维基百科的实体-链接图谱,利用现代信息检索的技术,首先对数据进行了数据清洗、停用词过滤、中文分词等预处理工作。接着将实体的页面信息内容作为文本特征,利用TF-IDF的权重计算方法求得各实体页面内容的关键词。然后利用向量空间模型VSM,计算实体对应的文本向量之间的相关度,并通过余弦相似度计算该实体与每个与它有链接的实体间相似度的大小。最后实现了基于中文维基百科实体语义关联网络的可视化平台,该可视化平台能够展示维基词条间复杂的语义关系,便于进行链接的分析。

关键词:维基百科  语义相关度  实体-链接图谱

 

目录

摘要

Abstract

1绪论-1

1.1研究背景-1

1.2问题的提出-2

1.3相关工作-3

1.4本文主要工作-4

1.5论文组织-5

2中文维基百科链接图的构建-5

2.1中文维基简介-5

2.2链接抽取和链接图构建-8

3中文链接分析-9

3.1算法思路-9

3.2数据预处理-10

3.2.1数据清洗-11

3.2.2停用词过滤-11

3.2.3中文分词-12

3.3统计加权方法TF-IDF-13

3.4向量空间模型VSM-14

4可视化平台实现-16

4.1可视化平台的功能-16

4.2可视化平台的设计-17

4.3可视化平台的测试-18

5总结与展望-22

6致谢-23

参考文献-23

相关论文资料:
最新评论
上传会员 陈燕 对本文的描述:正是由于在数量和质量上的双重优势,维基百科被认为是一个非常有效的知识抽取的语义数据源,为智能信息处理提供了可靠、丰富、低成本的内容资源。利用信息检索的方法和数据挖......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: