海量数据的分布式日志采集系统设计和实现.doc[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：6993
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：徐州市物流配送最优路径规划--以申通快递为例.doc

下一篇：杭州市社会保障现状统计分析.doc

摘要:互联网的迅猛发展以及大数据相关技术的兴起，使得日志数据的规模呈爆炸式增长，给已有的日志采集及分析系统带来了挑战。如何有效地收集并分析这些日志已经成为了这一领域的热点，所以设计一款可扩展、高容错的分布式日志收集系统是时下一个非常重要的研究课题。

本文基于开源的分布式日志Apache Flume，主要介绍了日志收集系统的设计与实现过程。此系统主要包括了服务器上的日志生成、使用Flume进行日志收集、将日志数据存储至数据库中。首先，本文介绍了此系统主要的基本理论基础以及运行此系统所需要的环境配置。然后，文章分析了设计这一系统的需求和流程定义，并设计和分析主要的Flume配置。最后，本文介绍了系统的主要实现过程，并设计出一个生成日志数据的小程序对系统进行了测试与调试，提出改进方向。

关键词 apache flume；日志收集；分布式；java

摘要

Abstract

1 绪论-1

1.1 课题的研究背景及意义-1

1.2 国内外的研究现状-1

1.3 文章主要的设计内容及思路-1

1.4 论文的主要结构安排-2

2 相关的理论及主要技术-3

2.1 Flume-3

2.2 虚拟机VMware Workstation 12 Pro-4

2.3 Linux-5

3 系统的需求分析及系统设计-7

3.1 需求分析-7

3.2 可行性分析-7

3.3 Java环境设置-7

3.4 系统设计-8

3.4.1 日志收集数据流程定义-8

3.4.2 服务器中Flume的配置-9

4 系统实现-10

4.1日志收集系统flume的实现-11

4.2 系统实现流程-12

5 系统的调试与测试-12

5.1 测试方案-13

5.2 系统结果测试-14

5.3 问题与改进-15

结论-15

致谢-16

参考文献-17

附录-18

附录1 flume的配置-19

附录2 测试数据生成程序-20

附录3 配置程序-21

浙江省能源消费需求预测-基于主成分分析	笔记本电脑最优营销策略_数学与应用数学	寿险产品的设计与方法介绍_数学专业.d
铁电材料配合物综述.doc	近年来江苏省农村居民消费结构研究.do	一种改进的模糊边缘检测算法.doc
基于MATLAB的大学物理虚拟实验系统的研究	带常数分红边界及扰动的双复合Poisson风险	365天倒计时器电路设计.doc
一种求解椭圆方程的V型代数三重网格法	中国房价与居民消费关系的实证分析.do	我国商业银行不良资产现状和成因分析