需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:11004 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:本系统搭建在Hadoop平台上,通过Flume-Kafka技术实现对每日数百亿的数据进行清洗、分析、挖掘等,在完成数据消费后,对分析后的数据进行入库操作,通过Webserver技术实现建立仿真的BI前端系统,按照手机号、时间、通话时长等维度进行数据展示。为电信运营商从多个角度定义用户,形成用户肖像,为决策系统的建立提供数据支持。本文首先对Hadoop技术进行了简单介绍。然后对搭建在Hadoop平台上的Flume-Kafka高可用离线数据采集方案进行设计,重点介绍了本系统的关键算法“MapReduce“算法,他是本系统的核心。 系统使用MapReduce技术并行处理数据并通过Sqoop组件读取HDFS中计算过的数据,并将其读入MySQL数据库中保存,最后使用Webserver技术实现数据可视化技术。经测试,系统运行正常有效,表明基于Hadoop的数据实时离线处理平台能够满足电信运营商的要求,可以为企业获取有价值的数据。
关键词:大数据;Hadoop;HBase;MapReduce;Webserver
目录 摘要 Abstract 1 绪论-1 1.1 课题的目的和意义-1 1.1.1 课题的目的-1 1.1.2 课题的意义-1 1.2 本领域存在的问题-1 1.2.1 行业发展良莠不齐-1 1.2.2 数据开放程度较低-1 1.2.3 安全风险日益突出-2 1.2.4 技术应用创新滞后-2 1.3-本系统主要研究内容-2 2 开发环境-4 2.1 系统环境-4 2.1.1 系统环境-4 2.1.2 开发工具-4 2.1.3 集群环境-4 2.1.4 硬件环境-4 3 大数据技术分析-6 3.1 构建了海量数据处理架构-6 3.2 高度可靠的数据采集框架-6 3.3 云计算环境下的动态存储分配算法-6 3.4 Map Reduce算法-6 4 电信大数据分析平台的实现-7 4.1 电信大数据分析平台的架构-7 4.2 数据采集层-8 4.2.1 数据生产-8 4.2.2 Flume数据收集模块-9 4.2.3 Kafka缓存模块-9 4.2.4 高可用数据采集方案的设计-10 4.3 数据存储计算层-11 4.3.1 数据存储-11 4.3.2 数据计算-12 4.3.3 运行测试-16 4.4 数据分析展示层-16 4.5 定时任务-19 5 平台测试与调优-20 5.1 最终预览-20 5.2 系统调优-20 5.2.1-底层Linux 优化-20 5.2.2 针对数据倾斜的优化-21 结 论-22 致 谢-23 参考文献-24 附 录 |