需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:17292 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:随着互联网,物联网,嵌入式技术的飞速发展,人与人,人与物,物与物之间通过网络连接起来,使我们的行为语言变得数字化,产生大量的数据,这些数据有结构多样,数量巨大,价值密度低,价值大的特点,被称为大数据。这些数据都蕴藏着巨大的价值,但是现有的数据处理方式已经不能满足大数据的处理要求了。 Hadoop的诞生,使批量大数据存储与分析变得容易且高效,因为Hadoop在处理数据时采用HDFS来分布式管理数据的存储,提供一套机制实现数据的分布存储,使磁盘的利用率最大化;采用MapReduce并行计算框架使计算的代码在不同的机器上并行运行,并将结果统一,使CPU的利用率最大化。 本文主要介绍批量大数据的产生,大数据处理系统的发展与应用,并以一种流行的批量大数据处理系统Hadoop进行分析与应用。分析Hadoop的关键组件HDFS与MapReduce。通过对Hadoop系统的学习,设计一种基于Hadoop框架的网站日志文件处理模型,将生成的网络日志文件上传到HDFS,利用MapReduce进行分析得到网页的访问量,将得到的结果通过sqoop导出到Mysql关系型数据库中。通过搭建Hadoop的集群实验环境来验证此系统的可用性并分析实验结果。 关键词:批量大数据 Hadoop 网络日志分析
目录 摘要 Abstract 1绪论-1 1.1研究目的和意义-1 1.2研究背景-1 1.2.1国外现状-1 1.2.2国内现状-2 1.3研究内容-2 1.4文章结构-3 2批量大数据处理系统及其核心技术-3 2.1大数据-3 2.2批量大数据-4 2.3批量大数据处理系统-4 2.4批量大数据处理系统的应用场景-4 2.5 HDFS详解-5 2.5.1 HDFS设计思想-5 2.5.2 HDFS块-6 2.5.3 HDFS 组件-6 2.5.4 HDFS存取流程-8 2.5.5 HDFS编程-8 2.6 MapReduce详解-9 2.6.1 MapReduce 设计思想-9 2.6.2 MapReduce 组件-10 2.6.3 MapReduce 作业流程-10 2.6.4 MapReduce的实现-12 2.7 本章小结-13 3 Hadoop批量大数据处理系统应用设计-13 3.1 设计背景-13 3.2 功能分析-14 3.3 日志格式分析-14 3.4 流程图-15 3.5 功能模块实现分析-15 3.5.1文件上传模块-15 3.5.2 数据统计分析模块-16 3.5.3 数据导出模块-19 3.6 本章小结-19 4搭建Hadoop批量大数据处理系统并分析实验结果-20 4.1 实验环境搭建-20 4.1.1硬件环境-20 4.1.2软件环境-20 4.1.3 Hadoop集群伪分布式搭建方法-21 4.1.4 Hadoop集群分布式搭建方法-24 4.2实验结果及分析-26 4.2.1测试Hadoop集群的可用性: wordcount-26 4.2.2测试网站日志处理系统可用性-28 4.2.3测试网站日志处理系统性能-31 4.3 本章小结-32 5总结与展望-33 5.1 论文总结-33 5.2 对未来的展望-33 致谢-34 参考文献-35 |