基于非参函数逼近的强化学习算法研究 06月30日
【摘要】强化学习主要通过与环境交互的方式获得输入信息,继而对策略进行改进。近年来,强化学习受到了学术界的广泛关注,已经成为机器学习领域的一个重要分支。传统的强化学习在大规模状态空间下通常采用带参的函数逼近器来表示值函数,但是无法解决算法收敛速度过慢与策略精度较低的问题。而非参函数逼近作为一种灵活的、完全基于样本的函数逼近方法,具有精度高、收敛速度快等特点,且与强化学习基于反馈进行学习的根本原理相一 […]
连续空间非参函数逼近方法研究 06月30日
【摘要】强化学习是一种试错学习,可解决无模型问题,在没有任何先验知识的情况下,Agent通过与环境不断交互实现基于自身经验的学习。本文研究的是连续状态动作空间的问题,传统的解决方法是离散化状态或动作空间,为了保证一定的精度,离散化方法会导致状态动作空间非常大,从而引起“维数灾”。本文提出三种基于行动者-评论家(Actor-Critic,AC)架构的算法,其中Critic部分使用非参函数逼近来解决连 […]