需要金币:2000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:15949 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:随着互联网的环境推动和海量数据的增加,尤其当公司做大到要上市的时候,会面临一个很大的问题:由于数据量的庞大,从开始整理数据,到做数据报表,往往会花费大量的时间。慢慢的大数据概念进入人们的视野中。随着数据量的快速增加,公司需要根据自身的需求搭建合适的大数据平台。 大数据平台主要的功能就是对数据的处理和分析,是处理大数据的一种基础设施。现在全球都在发展和完善大数据平台的功能。从目前的发展现状来看,大数据平台主要应用于传统信息技术企业、新兴互联网企业、高效研究院这三大阵营。 本文利用Hadoop集群搭建了平台,介绍了搭建完成的大数据分析平台各个模块的功能。互联网行业中常见的数据处理方式有数据预处理、数据分析和数据预测,选用了数据拼接、各省份访问次数统计和业绩预测三个案例。经过平台的处理后,得到想要的结果,且都能实现平台的各个方面功能。
关键词 大数据平台;分布式;Hadoop;数据处理
目录 摘要 Abstract 1 绪论-1 1.1 大数据的相关概念-1 1.2 国内外发展状况-2 1.3 本文的研究内容-3 2 大数据平台及其搭建-4 2.1 Hadoop简介-4 2.2 大数据平台的搭建-4 2.2.1 Common-4 2.2.2 HDFS-9 2.2.3 MapReduce-12 2.2.4 YARN-13 3 大数据平台对互联网行业的影响-16 3.1 谷歌-16 3.2 FaceBook-16 3.3 百度、腾讯、阿里巴巴-17 4 大数据平台在互联网行业的实际应用-18 4.1 数据的预处理-18 4.1.1 数据拼接-18 4.1.2 运行结果-19 4.2 数据的分析-20 4.2.1 省份统计-20 4.2.2 运行结果-21 4.3 预测未来业绩-22 4.3.1 数据清洗与访问次数统计-22 4.3.2 最小二乘曲线拟合-23 4.3.3 求解过程及结果分析-25 结论-27 致谢-28 参考文献-29 附录-30 |