基于Hadoop架构的电信离线数据综合处理的设计与实现.doc

资料分类:计算机信息 上传会员:狂奔的小猪 更新时间:2021-11-15
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:11004
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:本系统搭建在Hadoop平台上,通过Flume-Kafka技术实现对每日数百亿的数据进行清洗、分析、挖掘等,在完成数据消费后,对分析后的数据进行入库操作,通过Webserver技术实现建立仿真的BI前端系统,按照手机号、时间、通话时长等维度进行数据展示。为电信运营商从多个角度定义用户,形成用户肖像,为决策系统的建立提供数据支持。本文首先对Hadoop技术进行了简单介绍。然后对搭建在Hadoop平台上的Flume-Kafka高可用离线数据采集方案进行设计,重点介绍了本系统的关键算法“MapReduce“算法,他是本系统的核心。

系统使用MapReduce技术并行处理数据并通过Sqoop组件读取HDFS中计算过的数据,并将其读入MySQL数据库中保存,最后使用Webserver技术实现数据可视化技术。经测试,系统运行正常有效,表明基于Hadoop的数据实时离线处理平台能够满足电信运营商的要求,可以为企业获取有价值的数据。

 

关键词:大数据;Hadoop;HBase;MapReduce;Webserver

 

目录

摘要

Abstract

1  绪论-1

1.1  课题的目的和意义-1

1.1.1  课题的目的-1

1.1.2  课题的意义-1

1.2  本领域存在的问题-1

1.2.1  行业发展良莠不齐-1

1.2.2  数据开放程度较低-1

1.2.3  安全风险日益突出-2

1.2.4  技术应用创新滞后-2

1.3-本系统主要研究内容-2

2  开发环境-4

2.1  系统环境-4

2.1.1  系统环境-4

2.1.2  开发工具-4

2.1.3  集群环境-4

2.1.4  硬件环境-4

3  大数据技术分析-6

3.1  构建了海量数据处理架构-6

3.2  高度可靠的数据采集框架-6

3.3  云计算环境下的动态存储分配算法-6

3.4  Map Reduce算法-6

4  电信大数据分析平台的实现-7

4.1  电信大数据分析平台的架构-7

4.2  数据采集层-8

4.2.1  数据生产-8

4.2.2  Flume数据收集模块-9

4.2.3  Kafka缓存模块-9

4.2.4  高可用数据采集方案的设计-10

4.3  数据存储计算层-11

4.3.1  数据存储-11

4.3.2  数据计算-12

4.3.3  运行测试-16

4.4  数据分析展示层-16

4.5  定时任务-19

5 平台测试与调优-20

5.1  最终预览-20

5.2  系统调优-20

5.2.1-底层Linux 优化-20

5.2.2  针对数据倾斜的优化-21

结    论-22

致    谢-23

参考文献-24

附  录

相关论文资料:
最新评论
上传会员 狂奔的小猪 对本文的描述:本系统搭建在Hadoop架构上,通过Webserver技术建立前段BI系统。利用MapReduce算法进行并行计算。基于访问,通话时间,通话次数,搜索记录等数据创建用于分析用户行为的系统,并定义用户......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: