基于深度强化学习的Flappy Bird游戏控制文献综述

 2022-11-17 10:11

文 献 综 述

摘要

强化学习已经逐渐成为机器学习,人工智能和神经网络研究中最活跃的研究领域之一。在机器学习中,卷积神经网络是一种深度前馈人工神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。现在可以从一个连贯的角度来考虑整体问题,将临时性学习,动态规划和函数逼近等构件思想放在一起,用大量数据训练网络,然后抽取网络最后一层的输出作为强有力的特征,提出一种理解和自动化目标导向学习和决策的计算方法。它强调的是代理人与其环境直接互动的学习,而不依赖于典型的监督或完整的环境模型。基于此,本课题拟探索基于深度强化学习的flappy bird游戏控制,依靠游戏中小鸟的自行飞行摸索,实现端到端的flappy bird游戏最优飞行控制策略。

关键词:深度学习;强化学习;卷积神经网络

深度学习,简单说来就是在多层神经网络的结构下,辅以结构设计和各种梯度技术,能够对比如图像分类之类的问题有很好的效果。它的优点在于不仅能够提供端到端的解决方案,而且能够提取出远比人工特征有效得特征向量。深度学习使得从原始感官数据中提取高级特征成为可能,从而导致计算机视觉和语音识别[3]的突破。这些方法利用一系列神经网络结构,包括卷积网络[2],多层感知器,受限玻尔兹曼机器和递归神经网络,并且已经利用了监督学习和无监督学习。

卷积神经网络是神经网络模型中的一种,它是一种特殊的对图像识别[8]的方式,属于非常有效的带有前向反馈的网络。通常的神经网络结构都是先获得一个输入(一个向量),并将其通过一系列的隐藏层转换。每个隐藏层由一组神经元组成,其中每个神经元和前一层的神经元完全连接,在单层的神经元的功能完全独立并且不共享任何连接。最后全连接层叫做“输出层”,它实现了分类功能并输出分类的分值。

一般地,CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。

CNN核心思想是将完整输入信息切分成一个个子采样层进行采样,然后将提取的特征和权重值作为输入参数,传导到下一层。对一张图像,让它历经一系列卷积层、非线性层、池化(下采样)层和完全连接层,最终得到输出。这其中充分利用了权值共享、特征分区提取、时间或空间采样规则等方法。

随着神经网络的发展,我们在解决最基本的分类问题时的效果越来越好,然而在机器学习领域,对于一些序列决策或者控制问题,当很难得到规则样本时,就需要强化学习的引入。

强化学习正在学习如何做,如何将情境映射到行动,把学习看作试探评价过程,从而最大化数字奖励信号。学习者没有被告知要采取什么行动,而是必须通过尝试来发现哪些行为产生最大的回报[4]。Agent选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给Agent,Agent根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。在最有趣和最具挑战性的情况下,行动不仅可以立即获得奖励,还可以影响下一个情况,并且通过这些获得所有后续奖励。试错法搜索和延迟奖励是强化学习的两个最重要的特征。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。