需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:17665 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要: 随着我国全面进入工业4.0时代,信息技术的迅速发展,对社会的发展和国民生活产生了重要影响。许多行业都向着互联网方向进行转型。各行业数据的不断增长,促使了海量数据的不断产生,相对传统数据处理技术来说,处理的数据量远超其范畴。传统数据处理架构搭建昂贵扩展性差,海量数据如何处理变得迫在眉睫。 本次设计使用云计算模型Hadoop进行平台的搭建,基于分布式计算模块MapReduce对海量数据进行业务分析处理。本平台分为存储客户端,Hadoop集群,查询客户端三部分。首先存储客户端进行数据的自动采集,将采集数据存储至云平台中,之后采集数据在云平台进行处理,最后将处理完的数据传输至外部数据库进行持久化存储。 海量数据采用MapReduce模型进行分布式处理,本平台可根据数据特性进行业务分析处理,从而提升平台可移植性,提升数据采集效率,提高数据存储容量,做到扩展性好,成本低,高可靠性。 本文围绕Hadoop详细设计并搭建数据采集存储云平台。旨在使用Hadoop模型搭建成本较低,可扩展性强的自动化采集存储海量数据的云平台,并测试云平台的可用性。
关键词:海量数据;云计算;MapReduce;分布式计算模型
目录 摘要 Abstract 1 绪论-1 1.1课题背景-1 1.2选题意义与目的-1 1.3与本课题有关的国内外研究现状-2 1.3.1大数据处理发展现状-2 1.3.2云计算平台发展现状-2 1.4平台设计思想-2 1.5系统开发环境-3 2 MapReduce模块原理-4 2.1分布式计算-4 2.2 Hadoop框架-4 2.2.1Hadoop特点-4 2.2.2HDFS概述-4 2.2.3MapReduce原理-5 2.2.4虚拟化技术-6 2.2.5Hadoop相关技术-6 3 基于MapReduce的数据采集云平台架构-7 4 数据采集存储平台需求分析与架构设计-9 4.1平台功能概述-9 4.2 平台集群规划-9 4.3 平台存储架构设计-10 5 云平台的模块设计与实现-11 5.1存储客户端-11 5.1.1功能需求-11 5.1.2技术选型-11 5.1.3模块设计-12 5.2Hadoop集群-12 5.2.1集群概要-12 5.2.2平台数据选型-12 5.2.3平台自动化-13 5.3查询客户端-14 5.3.1功能需求-14 5.3.2技术选型-14 5.3.3模块设计-14 6 基于MapReduce云平台虚拟集群的实现-15 6.1平台业务模块设计-15 6.1.1蔬菜大棚模块-15 6.1.2网站访问模块-17 6.2平台业务模块实现-20 6.2.1蔬菜大棚模块实现-20 6.2.2网站访问模块实现-22 6.3云平台的功能测试-23 6.3.1蔬菜大棚模块测试-23 6.3.2网站访问模块测试-25 6.4云平台自动化构建-30 6.4.1云平台采集端自动化实现-30 6.4.2云平台存储处理端自动化实现-33 6.5云平台可以改进的地方-34 6.5.1云平台性能改善-34 6.5.2云平台数据改善-34 结 论-36 参 考 文 献-37 附录A Hadoop集群搭建-38 附录B Hadoop集群测试-46 附录C 云平台MapReduce部分代码-52 致 谢-61 |