批量大数据处理系统的分析与应用.docx[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：17292
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：离散数学网站设计.doc

下一篇：软件工程实训平台.docx

摘要：随着互联网，物联网，嵌入式技术的飞速发展，人与人，人与物，物与物之间通过网络连接起来，使我们的行为语言变得数字化，产生大量的数据，这些数据有结构多样，数量巨大，价值密度低，价值大的特点，被称为大数据。这些数据都蕴藏着巨大的价值，但是现有的数据处理方式已经不能满足大数据的处理要求了。

Hadoop的诞生，使批量大数据存储与分析变得容易且高效，因为Hadoop在处理数据时采用HDFS来分布式管理数据的存储，提供一套机制实现数据的分布存储，使磁盘的利用率最大化；采用MapReduce并行计算框架使计算的代码在不同的机器上并行运行，并将结果统一，使CPU的利用率最大化。

本文主要介绍批量大数据的产生，大数据处理系统的发展与应用，并以一种流行的批量大数据处理系统Hadoop进行分析与应用。分析Hadoop的关键组件HDFS与MapReduce。通过对Hadoop系统的学习，设计一种基于Hadoop框架的网站日志文件处理模型，将生成的网络日志文件上传到HDFS，利用MapReduce进行分析得到网页的访问量，将得到的结果通过sqoop导出到Mysql关系型数据库中。通过搭建Hadoop的集群实验环境来验证此系统的可用性并分析实验结果。

关键词：批量大数据 Hadoop 网络日志分析

摘要

Abstract

1绪论-1

1.1研究目的和意义-1

1.2研究背景-1

1.2.1国外现状-1

1.2.2国内现状-2

1.3研究内容-2

1.4文章结构-3

2批量大数据处理系统及其核心技术-3

2.1大数据-3

2.2批量大数据-4

2.3批量大数据处理系统-4

2.4批量大数据处理系统的应用场景-4

2.5 HDFS详解-5

2.5.1 HDFS设计思想-5

2.5.2 HDFS块-6

2.5.3 HDFS 组件-6

2.5.4 HDFS存取流程-8

2.5.5 HDFS编程-8

2.6 MapReduce详解-9

2.6.1 MapReduce 设计思想-9

2.6.2 MapReduce 组件-10

2.6.3 MapReduce 作业流程-10

2.6.4 MapReduce的实现-12

2.7 本章小结-13

3 Hadoop批量大数据处理系统应用设计-13

3.1 设计背景-13

3.2 功能分析-14

3.3 日志格式分析-14

3.4 流程图-15

3.5 功能模块实现分析-15

3.5.1文件上传模块-15

3.5.2 数据统计分析模块-16

3.5.3 数据导出模块-19

3.6 本章小结-19

4搭建Hadoop批量大数据处理系统并分析实验结果-20

4.1 实验环境搭建-20

4.1.1硬件环境-20

4.1.2软件环境-20

4.1.3 Hadoop集群伪分布式搭建方法-21

4.1.4 Hadoop集群分布式搭建方法-24

4.2实验结果及分析-26

4.2.1测试Hadoop集群的可用性： wordcount-26

4.2.2测试网站日志处理系统可用性-28

4.2.3测试网站日志处理系统性能-31

4.3 本章小结-32

5总结与展望-33

5.1 论文总结-33

5.2 对未来的展望-33

致谢-34

参考文献-35

馥香之约咖啡网站.zip	基于PHP和HTML5的车辆租赁系统.doc	基于聚类法手写体数字识别系统的设计与
RFID安全协议的设计与实现.rar	基于JSP的电信客户服务网站设计.rar	基于BS的XX集团仓储管理系统的设计与实现
C语言程序设计习题库设计.rar	基于JSP的高校学生勤工俭学管理系统.zi	基于RightEdge的交易策略的实现.doc
中小企业办公自动化系统的设计与实现	驾照在线考试系统的设计与实现.rar	中国主流在线视频网站竞争力比较研究