基于性能势的智能体学习与规划方法研究 06月25日
【摘要】强化学习和智能规划是当前人工智能领域的研究热点。生活中的众多顺序决策问题都可以用马尔科夫决策过程(MDP)进行描述,基于MDP的性能势理论为上述问题的求解优化提供了一种新的理论框架,它可以利用样本轨道的估算对参数未知的系统进行在线优化和求解。当系统状态转移矩阵、奖励函数等参数未知时,强化学习通常被用来对系统的最优策略进行学习,该特点使其能够很好地与性能势理论相结合,从而得出更有效率的在线优 […]
【摘要】强化学习和智能规划是当前人工智能领域的研究热点。生活中的众多顺序决策问题都可以用马尔科夫决策过程(MDP)进行描述,基于MDP的性能势理论为上述问题的求解优化提供了一种新的理论框架,它可以利用样本轨道的估算对参数未知的系统进行在线优化和求解。当系统状态转移矩阵、奖励函数等参数未知时,强化学习通常被用来对系统的最优策略进行学习,该特点使其能够很好地与性能势理论相结合,从而得出更有效率的在线优 […]