基于Hadoop的数据分析.docx[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：6938
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：基于Flash的动画设计.doc

下一篇：基于Java的户外拓展训练营网上服务平台的设计与实现.doc

摘要：本文介绍了分布式计算平台Hadoop生态圈的内容。首先介绍的是Hadoop的由来与发展；然后，通过对Hadoop核心架构HDFS，MapReduce和Yarn的介绍，详细剖析了Hadoop的分布式架构与MapReduce的执行原理。其中，还对MapReduce编程进行了描述并且用MapReduce实现了pagerank算法的并行化。其次本文还对Hadoop的生态圈的各种技术与框架进行了介绍。最后，本文利用Hadoop完成了一个项目，即通过对网站日志数据的统计分析，获得网站的pv浏览量，注册用户数，跳出率等指标，最后将上述过程进行了自动化部署。

关键词：分布式计算；数据分析；Hadoop

摘要

Abstract

一、引言-1

（一）Hadoop的产生与发展-1

（一）项目研究的原因与意义-1

二、 Hadoop的介绍与核心架构-2

（一）Hadoop的版本和变迁-2

（二）Hadoop的分布式存储：HDFS-2

（三）Hadoop的并行计算模型：MapReduce-3

（四）Hadoop的资源调度平台：Yarn-3

三、HDFS的使用-4

（一）利用shell命令远程调用HDFS操作-4

（二）利用java代码调用HDFS操作- 4

四、MapReduce原理与编程-5

（一）MapReduce的原理与过程-5

（二）MapReduce的简单案例：WordCount-6

（三）MapReduce的序列化与自定义数据类型-6

（四）利用MapReduce实现pagerank算法的并行化-8

五、Hadoop的生态圈-10

（一）分布式集群的协调工具：Zookeeper-10

（二）基于Hadoop的数据仓库：Hive-10

（三）传统数据库与Hadoop的桥梁：Sqoop-10

六、项目的介绍与过程-10

（一）项目环境的搭建与安装-10

（二）项目使用的各种工具版本-15

（三）网站日志分析的数据来源与需求-15

（四）利用Hadoop分析解决的过程-16

（五）项目过程自动化部署的实现 19

七、总结-21

（一）项目的总结-21

（二）对新技术的渴望-21

致谢-22

参考文献-23

基于WEB的XX学院教学管理系统的设计与实	华东科技公司应收账款管理研究.doc	乡村旅游发展对盐城经济增长的影响分析
“互联网+”背景下苏宁易购的转型之路	家政服务公司管理设计与实现.doc	辽宁省产业结构与经济增长关系的实证研
青年残疾人需求导向的休闲产品开发研究	关于金融风险的蒙特卡洛模拟研究.doc	篮板球反弹规律分析与篮板球意识培养
杭州市利用外资情况分析.doc	苏州评弹在常州的传播与发展.doc	作业在线批改与答疑系统的设计与实现