基于中文维基页面的链接分析与可视化.docx[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：14592
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：基于J2EE框架的物品拍卖系统的后台的设计与实现.docx

下一篇：考勤管理系统（JSP+sql）.doc

摘要：作为大数据时代的典型代表，维基百科这个巨大的知识库蕴藏着丰富的价值，逐渐成为知识挖掘领域的重点研究对象。整个维基百科的实体-链接形成了一个规模庞大、非常稠密的图结构，是一个优良的可供语义挖掘的语料库。

本课题从中文维基百科的内容和链接角度出发，构建了中文维基百科的实体-链接图谱，利用现代信息检索的技术，首先对数据进行了数据清洗、停用词过滤、中文分词等预处理工作。接着将实体的页面信息内容作为文本特征，利用TF-IDF的权重计算方法求得各实体页面内容的关键词。然后利用向量空间模型VSM，计算实体对应的文本向量之间的相关度，并通过余弦相似度计算该实体与每个与它有链接的实体间相似度的大小。最后实现了基于中文维基百科实体语义关联网络的可视化平台，该可视化平台能够展示维基词条间复杂的语义关系，便于进行链接的分析。

关键词：维基百科语义相关度实体-链接图谱

摘要

Abstract

1绪论-1

1.1研究背景-1

1.2问题的提出-2

1.3相关工作-3

1.4本文主要工作-4

1.5论文组织-5

2中文维基百科链接图的构建-5

2.1中文维基简介-5

2.2链接抽取和链接图构建-8

3中文链接分析-9

3.1算法思路-9

3.2数据预处理-10

3.2.1数据清洗-11

3.2.2停用词过滤-11

3.2.3中文分词-12

3.3统计加权方法TF-IDF-13

3.4向量空间模型VSM-14

4可视化平台实现-16

4.1可视化平台的功能-16

4.2可视化平台的设计-17

4.3可视化平台的测试-18

5总结与展望-22

6致谢-23

参考文献-23

北京市各区县经济实力统计分析_信息与计	web安全渗透测试研究.docx	XX康复医院在线咨询网ASP.NET_计算机科学与
招聘信息发布系统.doc	XX假日酒店管理系统开发.rar	基于ASP.NET的学生成绩管理系统的设计与实
基于虚拟化的自动化部署和管理.doc	基于iOS的房屋信息综合查询平台.doc	基于WEB的客户关系管理系统的设计与实现
教材管理系统.zip	大学生就业信息系统的设计与开发.doc	基于多标记分类算法的空间关系自动识别