基于Spark的海量数据处理的研究与应用.doc

资料分类:管理论文 上传会员:天才(吴) 更新时间:2018-03-11
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:19822
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:作为新一代的大数据处理技术,Spark是继Hadoop之后大数据处理中心的首选平台,未来将会在大数据领域发挥非常重要的作用。

本篇论文通过对以往文献的研究,详细介绍了Spark的相关概念,执行过程以及生态系统。通过对海量数据的研究分析,说明了海量数据所带来的挑战以及海量数据在人们生活中的应用。此外,通过介绍一个基于Spark的推荐系统的建立过程,具体展示了Spark的功能和应用。最后,通过实证分析并结合爱奇艺网站的实际情况来论证这个推荐系统的可行性,结果表明新系统比原有系统更具优势,完全能够满足视频网站的实际需求。同时,也证明了Spark平台在处理海量数据方面具有非常大的优势。

希望本篇论文能够为更多想要在实际中部署和使用Spark的企业提供参考和借鉴。

 

关键词: Spark; 海量数据; 推荐系统

 

目录

摘要

Abstract

1 绪论-1

1.1 研究意义-1

1.2 国内外研究现状-1

1.2.1 关于海量数据的研究现状-1

1.2.2 关于Spark平台的研究现状-2

2 Spark相关介绍-3

2.1 Spark相关概念-3

2.1.1 弹性分布式数据集(RDD)-3

2.1.2 血统(Lineage)-4

2.2 Spark执行过程分析-4

2.3 Spark生态系统-5

2.3.1 Spark子框架-5

2.3.2 Spark底层文件存储系统-7

2.3.3 Spark的资源管理器-8

3 海量数据的研究-10

3.1 海量数据简介-10

3.1.1 海量数据的定义-10

3.1.2 海量数据的特点-10

3.2 处理海量数据所面临的挑战-11

3.2.1 成本与技术挑战-11

3.2.2 安全与隐私保护-12

3.2.3 海量数据专业人才的培养-13

3.3 海量数据在实际中的应用-13

3.3.1 基于用户信息实现精准营销-13

3.3.2 智慧城市的建设-13

3.3.3 医疗信息化-14

4 Spark在视频推荐中的应用研究-15

4.1 需求分析-15

4.2 数据的收集和存储-16

4.2.1 用户数据的收集-16

4.2.2 用户数据的存储-17

4.3 实时数据的处理-18

4.3.1 实时数据处理过程-18

4.3.2 实时数据的处理结果-18

4.4推荐系统的构建-18

4.4.1协同过滤算法分析-18

4.4.2 系统流程展示-20

4.5 实证分析-20

4.5.1 数据来源-21

4.5.2 系统评价指标的确定-22

4.5.3 评价指标的检验-23

4.5.4 实证分析的结果-24

结论-25

致谢-26

参考文献-27

相关论文资料:
最新评论
上传会员 天才(吴) 对本文的描述:在非关系型数据库研究方面,由于传统的关系型数据库无法胜任大量非结构化数据的存储工作,因而需要一种特别的存储系统来解决这一难题。为了解决这一难题,很多研究人员做出了......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: