基于大数据处理的分布式搜索引擎的研究与实现.docx

资料分类:计算机信息 上传会员:紫色烟火 更新时间:2022-06-02
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:7018
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:本课题结合Hadoop的系统结构,提出一种将Hadoop系统结构中的Map/Reduce并行计算模型和HDFS分布式文件系统两大核心组件与Lucene全文检索引擎相结合的方案,设计一种基于大数据处理技术的分布式搜索引擎。

基于大数据处理技术的分布式搜索引擎由爬取数据、建立索引、存储数据三个功能模块组成。通过爬虫技术和Map/Reduce并行计算模型爬取数据, Lucene全文检索引擎建立索引,HDFS分布式文件系统存储数据。

实验证明,使用Hadoop大数据处理引擎能够设计出资源利用率高、可扩展性强、数据吞吐量高的分布式搜索引擎。

 

关键词:Search Engine; Hadoop; Map/Reduce; HDFS; Lucene; Spider

 

目录

摘要

Abstract

1 绪论-1

1.1背景现状及意义-1

1.2 系统开发目标-1

1.3 论文组织结构-1

2 开发所用技术简介-2

2.1 Hadoop-2

2.2 HBase-2

2.3 Lucene-3

2.4 Reverse Index-3

3 系统分析与设计-4

3.1系统可行性分析-4

3.1.1 社会可行性-4

3.1.2 技术可行性-4

3.1.3 经济可行性-4

3.2系统需求分析-4

3.2.1搜索功能-4

3.2.2数据爬取功能-4

3.2.3数据存储功能-4

3.2.4建立索引功能-5

3.3系统设计-5

3.3.1系统架构设计-5

3.3.2系统模块设计-5

4 系统实现-6

4.1分布式平台模块设计与实现-6

4.1.1搭建Linux集群-6

4.1.2搭建Hadoop平台-6

4.1.3部署HBase数据库-6

4.2数据爬取模块设计与实现-6

4.2.1 URL选择与分割-7

4.2.2网页获取-7

4.2.3网页解析-7

4.2.4链接过滤-7

4.2.5数据存储-7

4.3索引模块设计与实现-7

4.3.1多格式文档统一处理-7

4.3.2中文分词-7

4.3.3网页评分-7

4.3.4生成分布式索引-8

4.4查询模块设计与实现-8

4.4.1 搭建用户搜索页面-8

4.4.2 提交搜索请求-8

4.4.3 搜索结果集分页显示-8

5 系统测试-9

5.1 查询模块测试-9

5.1.1 用户查询页面测试-9

5.1.2 用户查询测试-9

5.2 分布式平台模块测试-10

5.2.1 Hadoop平台shell命令测试-10

5.2.2 HDFS平台Web端查询测试-10

5.2.3 MapReduce框架Web端查询测试-11

5.2.4 HBase集群Web端查询测试-11

5.3 数据爬取模块测试-12

5.4 索引模块测试-12

6 主要技术问题及解决方案-13

6.1 Hadoop集群重启后集群之间无法进行数据同步-13

6.1.1定位问题-13

6.1.2 提出解决方案-13

6.1.3 处理结果-13

6.1.4 分析原因-13

6.2 Hadoop集群运行MapReduce任务时单点报堆内存溢出-14

6.2.1定位问题过程-14

6.2.2提出解决方案-14

6.2.3 处理结果-14

6.2.4 分析原因-14

结    论-15

参 考 文 献-16

致    谢-17

相关论文资料:
最新评论
上传会员 紫色烟火 对本文的描述:本课题从海量数据处理、存储、检索三个方面入手,利用Hadoop大数据处理技术和Lucene全文搜索引擎相结合的方案设计一个基于大数据处理的分布式文本搜索引擎,解决传统搜索引擎系统......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: