基于Spark的海量数据处理的研究与应用.doc[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：19822
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：化妆品销售网站的设计与开发JSP.doc

下一篇：基于社会层面的江苏省信息化与工业化融合水平的测度与评价.doc

摘要:作为新一代的大数据处理技术，Spark是继Hadoop之后大数据处理中心的首选平台，未来将会在大数据领域发挥非常重要的作用。

本篇论文通过对以往文献的研究，详细介绍了Spark的相关概念，执行过程以及生态系统。通过对海量数据的研究分析，说明了海量数据所带来的挑战以及海量数据在人们生活中的应用。此外，通过介绍一个基于Spark的推荐系统的建立过程，具体展示了Spark的功能和应用。最后，通过实证分析并结合爱奇艺网站的实际情况来论证这个推荐系统的可行性，结果表明新系统比原有系统更具优势，完全能够满足视频网站的实际需求。同时，也证明了Spark平台在处理海量数据方面具有非常大的优势。

希望本篇论文能够为更多想要在实际中部署和使用Spark的企业提供参考和借鉴。

关键词: Spark；海量数据；推荐系统

摘要

Abstract

1 绪论-1

1.1 研究意义-1

1.2 国内外研究现状-1

1.2.1 关于海量数据的研究现状-1

1.2.2 关于Spark平台的研究现状-2

2 Spark相关介绍-3

2.1 Spark相关概念-3

2.1.1 弹性分布式数据集（RDD）-3

2.1.2 血统（Lineage）-4

2.2 Spark执行过程分析-4

2.3 Spark生态系统-5

2.3.1 Spark子框架-5

2.3.2 Spark底层文件存储系统-7

2.3.3 Spark的资源管理器-8

3 海量数据的研究-10

3.1 海量数据简介-10

3.1.1 海量数据的定义-10

3.1.2 海量数据的特点-10

3.2 处理海量数据所面临的挑战-11

3.2.1 成本与技术挑战-11

3.2.2 安全与隐私保护-12

3.2.3 海量数据专业人才的培养-13

3.3 海量数据在实际中的应用-13

3.3.1 基于用户信息实现精准营销-13

3.3.2 智慧城市的建设-13

3.3.3 医疗信息化-14

4 Spark在视频推荐中的应用研究-15

4.1 需求分析-15

4.2 数据的收集和存储-16

4.2.1 用户数据的收集-16

4.2.2 用户数据的存储-17

4.3 实时数据的处理-18

4.3.1 实时数据处理过程-18

4.3.2 实时数据的处理结果-18

4.4推荐系统的构建-18

4.4.1协同过滤算法分析-18

4.4.2 系统流程展示-20

4.5 实证分析-20

4.5.1 数据来源-21

4.5.2 系统评价指标的确定-22

4.5.3 评价指标的检验-23

4.5.4 实证分析的结果-24

结论-25

致谢-26

参考文献-27

基于4C模型的主题公园微信营销研究.doc	新媒体背景下奢侈品牌的广告投放分析	基于智能交通系统的城市配送车辆路径优
地方特色产品品牌营销策略探析-以龙游德	企业营运资本管理问题研究.doc	大成印花有限公司配送线路优化.doc
我国星级酒店人才流失问题及对策探析	企业竞争战略研究--以海澜集团为例.doc	互联网传播对原生态旅游品牌的影响研究
中国邮政速递物流发展中存在的问题及对	我国酒店管理信息化的研究与对策(C酒店	徐工机械财务管理创新研究.doc