需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:6938 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:本文介绍了分布式计算平台Hadoop生态圈的内容。首先介绍的是Hadoop的由来与发展;然后,通过对Hadoop核心架构HDFS,MapReduce和Yarn的介绍,详细剖析了Hadoop的分布式架构与MapReduce的执行原理。其中,还对MapReduce编程进行了描述并且用MapReduce实现了pagerank算法的并行化。其次本文还对Hadoop的生态圈的各种技术与框架进行了介绍。最后,本文利用Hadoop完成了一个项目,即通过对网站日志数据的统计分析,获得网站的pv浏览量,注册用户数,跳出率等指标,最后将上述过程进行了自动化部署。 关键词:分布式计算;数据分析;Hadoop
目录 摘要 Abstract 一、引言-1 (一)Hadoop的产生与发展-1 (一)项目研究的原因与意义-1 二、 Hadoop的介绍与核心架构-2 (一)Hadoop的版本和变迁-2 (二)Hadoop的分布式存储:HDFS-2 (三)Hadoop的并行计算模型:MapReduce-3 (四)Hadoop的资源调度平台:Yarn-3 三、HDFS的使用-4 (一)利用shell命令远程调用HDFS操作-4 (二) 利用java代码调用HDFS操作- 4 四、MapReduce原理与编程-5 (一)MapReduce的原理与过程-5 (二)MapReduce的简单案例:WordCount-6 (三)MapReduce的序列化与自定义数据类型-6 (四)利用MapReduce实现pagerank算法的并行化-8 五、Hadoop的生态圈-10 (一)分布式集群的协调工具:Zookeeper-10 (二)基于Hadoop的数据仓库:Hive-10 (三)传统数据库与Hadoop的桥梁:Sqoop-10 六、项目的介绍与过程-10 (一)项目环境的搭建与安装-10 (二)项目使用的各种工具版本-15 (三)网站日志分析的数据来源与需求-15 (四)利用Hadoop分析解决的过程-16 (五)项目过程自动化部署的实现 19 七、 总结-21 (一)项目的总结-21 (二)对新技术的渴望-21 致 谢-22 参 考 文 献-23 |