基于强化学习的倒立摆控制系统设计.doc[原创毕业论文]

需要金币：2000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：12148
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：基于机器学习的人脸识别系统设计.docx

下一篇：基于无人机的违章建筑识别研究.docx

摘要：强化学习可以算作是这几年来在人工智能和机器学习研究领域内非常热门的项目，而在强化学习与监督学习中有着许多不同之处。强化学习不需要教师信号，但是它也不等同于只能够完成有限功能的无监督学习，而这种无监督学习在学习过程中无法得到提示。强化学习强调能够获得评价性反馈信号，并且使用评价信息来达到行为决策上的优化。显而易见，强化学习具有广阔的前景。

复杂系统控制中有许多经典的问题，倒立摆就是其中之一。倒立摆系统是一种绝对不稳定的，具有非线性、多变量等多种性质的系统。而在控制过程中，倒立摆系统也是一个验证各种控制理论的很理想的模型之一。它可以反映例如可镇定性、鲁棒性和随动性等等问题。近代以来，倒立摆系统广泛应用于我们的生活当中。卫星的运行、机器人的行走等都是运用了类似倒立摆系统稳定控制的例子。显而易见倒立摆的研究具有其深刻的理论意义和重要的工程意义。

在本次的课题中，我们会以大学四年相关的学习内容作为基础，把强化学习作为研究对象，将倒立摆系统作为实验模型，进行系统科学的实验研究。我们会通过对一级单臂倒立摆的平衡控制进行研究，使系统具备学习能力，并且可以在运行的过程中获得新的内容和信息，具有类似生物的运动控制技能。本课题在强化学习和Python语言的基础上，提出了基于Q学习的的强化学习系统。我们用Pycharm进行实验仿真，证明提出的强化学习系统具有认知倒立摆系统的平衡控制技能的能力。

关键词强化学习，Q学习算法，倒立摆系统

摘要

Abstract

第一章绪论-1

1.1 引言-1

1.2 关于强化学习-1

1.2.1 强化学习的介绍-2

1.2.2 强化学习的发展历史及研究现状-2

1.3 关于倒立摆系统-3

1.3.1 我国研究倒立摆的发展历史和现状-3

1.4 本论文主要工作及论文安排-3

第二章强化学习理论及其算法-4

2.1 强化学习原理与模型-4

2.2 强化学习系统的组成要素-5

2.3 强化学习的主要算法-5

2.4 强化学习的主要算法-6

2.4.1 SARSA算法-6

2.4.2 Q-学习-6

2.5 强化学习的应用-7

2.6 小结-8

第三章倒立摆系统-9

3.1 引言-9

3.2 环形倒立摆-9

3.3 直线一级倒立摆-9

3.3.1 直线一级倒立摆系统建模-10

3.4 小结-13

第四章基于强化学习的倒立摆控制-14

4.1 引言-14

4.2 表格型强化学习算法-14

4.2.1 SARSA算法-14

4.2.2 Q学习算法-15

4.3 程序运行结果-16

4.4 仿真结果分析与结论-17

4.4.1 不同初始角度的控制效果-19

4.4.2 不同初始位置的控制效果-20

4.4.3 有外界扰动的控制效果-21

4.4.4 变换参数的控制效果-22

4.5 小结-24

第五章总结与展望-25

参考文献-26

致谢-28

基于PLC的大型火电厂锅炉吹灰控制系统设	大宁火电厂及地区电网规划设计.doc	年产80万吨的转炉炼钢车间设计.rar
中国服务贸易的国际竞争力分析--基于服	对政府内部控制建设若干问题的思考.do	某轿车万向节传动装置的设计.docx
中国民营银行发展问题研究.doc	基于有限元方法的轮胎包覆刚度仿真分析	慈善公益组织的志愿者管理研究.docx
路面铣刨机液压系统设计.doc	变参数自适应滤波器设计.docx	经济型龙门四轴数控雕铣机机械设计.do