基于Hadoop的大数据平台搭建及其在互联网行业的应用.doc

资料分类:理工论文 上传会员:月光影子 更新时间:2018-04-14
需要金币2000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:15949
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:随着互联网的环境推动和海量数据的增加,尤其当公司做大到要上市的时候,会面临一个很大的问题:由于数据量的庞大,从开始整理数据,到做数据报表,往往会花费大量的时间。慢慢的大数据概念进入人们的视野中。随着数据量的快速增加,公司需要根据自身的需求搭建合适的大数据平台。

大数据平台主要的功能就是对数据的处理和分析,是处理大数据的一种基础设施。现在全球都在发展和完善大数据平台的功能。从目前的发展现状来看,大数据平台主要应用于传统信息技术企业、新兴互联网企业、高效研究院这三大阵营。

本文利用Hadoop集群搭建了平台,介绍了搭建完成的大数据分析平台各个模块的功能。互联网行业中常见的数据处理方式有数据预处理、数据分析和数据预测,选用了数据拼接、各省份访问次数统计和业绩预测三个案例。经过平台的处理后,得到想要的结果,且都能实现平台的各个方面功能。

 

关键词 大数据平台;分布式;Hadoop;数据处理

 

目录

摘要

Abstract

1 绪论-1

1.1 大数据的相关概念-1

1.2 国内外发展状况-2

1.3 本文的研究内容-3

2 大数据平台及其搭建-4

2.1 Hadoop简介-4

2.2 大数据平台的搭建-4

2.2.1 Common-4

2.2.2 HDFS-9

2.2.3 MapReduce-12

2.2.4 YARN-13

3 大数据平台对互联网行业的影响-16

3.1 谷歌-16

3.2 FaceBook-16

3.3 百度、腾讯、阿里巴巴-17

4 大数据平台在互联网行业的实际应用-18

4.1 数据的预处理-18

4.1.1 数据拼接-18

4.1.2 运行结果-19

4.2 数据的分析-20

4.2.1 省份统计-20

4.2.2 运行结果-21

4.3 预测未来业绩-22

4.3.1 数据清洗与访问次数统计-22

4.3.2 最小二乘曲线拟合-23

4.3.3 求解过程及结果分析-25

结论-27

致谢-28

参考文献-29

附录-30

相关论文资料:
最新评论
上传会员 月光影子 对本文的描述:本文的前半部分主要是完成对大数据平台的搭建,大数据的处理需要一个指定的平台,本文通过Apache下的技术搭建了Hadoop大数据平台。在这个大数据平台中选用了三台服务器,读者可根......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: