需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:7018 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:本课题结合Hadoop的系统结构,提出一种将Hadoop系统结构中的Map/Reduce并行计算模型和HDFS分布式文件系统两大核心组件与Lucene全文检索引擎相结合的方案,设计一种基于大数据处理技术的分布式搜索引擎。 基于大数据处理技术的分布式搜索引擎由爬取数据、建立索引、存储数据三个功能模块组成。通过爬虫技术和Map/Reduce并行计算模型爬取数据, Lucene全文检索引擎建立索引,HDFS分布式文件系统存储数据。 实验证明,使用Hadoop大数据处理引擎能够设计出资源利用率高、可扩展性强、数据吞吐量高的分布式搜索引擎。
关键词:Search Engine; Hadoop; Map/Reduce; HDFS; Lucene; Spider
目录 摘要 Abstract 1 绪论-1 1.1背景现状及意义-1 1.2 系统开发目标-1 1.3 论文组织结构-1 2 开发所用技术简介-2 2.1 Hadoop-2 2.2 HBase-2 2.3 Lucene-3 2.4 Reverse Index-3 3 系统分析与设计-4 3.1系统可行性分析-4 3.1.1 社会可行性-4 3.1.2 技术可行性-4 3.1.3 经济可行性-4 3.2系统需求分析-4 3.2.1搜索功能-4 3.2.2数据爬取功能-4 3.2.3数据存储功能-4 3.2.4建立索引功能-5 3.3系统设计-5 3.3.1系统架构设计-5 3.3.2系统模块设计-5 4 系统实现-6 4.1分布式平台模块设计与实现-6 4.1.1搭建Linux集群-6 4.1.2搭建Hadoop平台-6 4.1.3部署HBase数据库-6 4.2数据爬取模块设计与实现-6 4.2.1 URL选择与分割-7 4.2.2网页获取-7 4.2.3网页解析-7 4.2.4链接过滤-7 4.2.5数据存储-7 4.3索引模块设计与实现-7 4.3.1多格式文档统一处理-7 4.3.2中文分词-7 4.3.3网页评分-7 4.3.4生成分布式索引-8 4.4查询模块设计与实现-8 4.4.1 搭建用户搜索页面-8 4.4.2 提交搜索请求-8 4.4.3 搜索结果集分页显示-8 5 系统测试-9 5.1 查询模块测试-9 5.1.1 用户查询页面测试-9 5.1.2 用户查询测试-9 5.2 分布式平台模块测试-10 5.2.1 Hadoop平台shell命令测试-10 5.2.2 HDFS平台Web端查询测试-10 5.2.3 MapReduce框架Web端查询测试-11 5.2.4 HBase集群Web端查询测试-11 5.3 数据爬取模块测试-12 5.4 索引模块测试-12 6 主要技术问题及解决方案-13 6.1 Hadoop集群重启后集群之间无法进行数据同步-13 6.1.1定位问题-13 6.1.2 提出解决方案-13 6.1.3 处理结果-13 6.1.4 分析原因-13 6.2 Hadoop集群运行MapReduce任务时单点报堆内存溢出-14 6.2.1定位问题过程-14 6.2.2提出解决方案-14 6.2.3 处理结果-14 6.2.4 分析原因-14 结 论-15 参 考 文 献-16 致 谢-17 |