需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:8310 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:在实际的生产环境中,越来越多的数据被存储下来却得不到有效的利用,本系统主要是针对这一现象,选取了一个离我们生活很贴近的案例,电信话单业务使用大数据存储分析后,对我们生产和生活带来的影响。通过对业务数据的分析,我们可以从中提取有效的信息,包括用户产生话单的时间、地点、分布等情况,更加准确的找出潜在的用户和对用户更加有利的套餐,让用户的体验效果得到进一步提升。 本系统中主要使用了Hadoop的分布式集群和Map/Reduce计算框架,底层采用分布式文件系统HDFS,通过YARN资源调度框架,保证系统资源在Master和Slave之间的可靠保证,利用HDFS将大文件数据分布式存储到各个集群中,采用三副本保证数据的可靠性。系统适用于对各种日志文件做数据分析,从中统计出我们所需要的信息,是一种分布式离线计算处理的框架。系统主要用到三台Ubuntu Linux虚拟机,组成完全分布式集群,语言使用JAVA开发等。 【关键词】:大数据; 大数据分析; 分布式系统; Hadoop
目录 摘要 Abstract 1绪论-1 1.1 大数据开发的背景及必要性-1 1.2 大数据开发的目的和意义-1 2技术简介-2 2.1 Linux系统简介-2 2.2 HDFS分布式文件系统简介-2 2.3 Yarn资源管理器的简介-3 2.4 MapReduce框架介绍-4 2.5 Ecplise分布式开发简介-5 2.6 本章小结-5 3电信话单业务大数据行为分析系统的设计-6 3.1 Hadoop完全分布式文件系统集群的设计-6 3.2 电信话单业务行为分析与总体设计-6 3.3 电信话单业务数据的模型分析与设计-7 3.3.1 数据的处理框架原理模型-7 3.3.2 电信话单业务数据处理流程-8 3.4 电信话单业务数据日志含义分析介绍-8 3.5 本章小结-8 4电信话单业务大数据行为分析系统的实现-9 4.1 Linux系统安装与配置实现-9 4.2 Hadoop完全分布式文件系统安装与配置实现-10 4.3 Yarn资源管理器安装与配置实现-14 4.4 Ecplise分布式程序开发环境安装与配置实现-15 4.5 电信话单业务大数据行为分析模块实现-18 4.6 本章小结-20 5电信话单业务大数据行为分析系统的测试运行-21 6结论与拓展-24 参考文献-25 致谢 -26 |