首页

基于多Agent协作强化学习的研究 10月13日

【摘要】多智能体Agent系统中,环境是动态的、变化的,其他智能体的行为是不可预知的,所以多Agent系统及系统中的每个Agent应当具备学习或自适应能力。强化学习现已成为多Agent系统不需要环境模型的机器学习方法,现已成为研究热点。与此同时,由于单个Agent的资源和能力的有限性,需要多个Agent之间的协作来共同完成任务。为此,本文的主要工作包括以下几个方面:论文在第一章中首先介绍了Agen […]

【论文下载 - 中国知网/万方数据/维普/读秀/超星/国研/龙源/博看等资源库】

连续时间线性随机Markovian跳变系统的在线自适应优化控制算法研究 05月01日

【摘要】本文研究了一类连续时间线性随机Markovian跳变系统的在线自适应优化控制器设计算法。并提出了一种新的在线解耦技术,即“子系统转换”,用于分离Markovian跳变系统中子系统之间的耦合关系,进而将这种耦合关系表示为一个显性的迭代数学表达式。基于积分强化学习的方法(即,近似动态规划的手段),本文提出了两种新的策略迭代算法用于求解连续时间线性随机Markovian跳变系统的H2/H∞优化控 […]

面向环境的城市交叉口交通信号优化控制研究 09月19日

【摘要】随着城市机动车数量的增加,因为车辆排放所导致的环境问题受到重视。作为城市交通的瓶颈,交叉口车辆的延误以及加减速过程会导致更多的车辆排放。低排放的信号控制方案的设计已成为智能交通领域的研究热点之一。传统的减排信号控制方案以综合车辆停车次数和延误,通过Webster公式得到配时与交叉口车辆排放量之间的关系再进行优化。但是这种方法未能考虑交叉口的初始排队长度,且Webster公式不适用于饱和度较 […]

IEEE 802.15.4区分服务机制研究 10月30日

【摘要】低速率无线个域网(LR-WPAN)是一种新的短距离无线通信技术,能提供低速率、低成本、低复杂度和低功耗的无线数据传输服务,在包括家居自动化、医疗监测和军事应用等领域得到了广泛应用。而为了满足工程应用的需要及保持不同设备间的兼容性,IEEE标准委员会成立了TG4工作组针对LR-WPAN网络制定了IEEE802.15.4标准,该标准制定了相应的物理层(PHY)和媒体介质访问层(MAC)标准,该 […]

基于模糊近似的强化学习方法研究 06月30日

【摘要】强化学习是一种用于求解可以建模为马尔科夫决策过程问题的机器学习方法,其通过Agent与环境交互以获得最大累计奖赏的方式进行学习。当前强化学习面临的主要挑战和机遇是如何求解大规模状态或动作空间的问题。本文将模糊推理作为近似方法用于强化学习算法中,针对当前已有的基于模糊推理的强化学习算法的不足,提出几种改进的基于模糊推理和基函数优化的值函数近似算法:(1)针对传统的基于查询表或函数近似的Q值迭 […]

基于非参函数逼近的强化学习算法研究 06月30日

【摘要】强化学习主要通过与环境交互的方式获得输入信息,继而对策略进行改进。近年来,强化学习受到了学术界的广泛关注,已经成为机器学习领域的一个重要分支。传统的强化学习在大规模状态空间下通常采用带参的函数逼近器来表示值函数,但是无法解决算法收敛速度过慢与策略精度较低的问题。而非参函数逼近作为一种灵活的、完全基于样本的函数逼近方法,具有精度高、收敛速度快等特点,且与强化学习基于反馈进行学习的根本原理相一 […]

最小二乘策略迭代算法研究 06月30日

【摘要】强化学习是一种通过与环境的交互,将状态映射到动作,以获取最大累积奖赏的机器学习方法。在大规模和连续状态或动作空间强化学习问题中,通过使用函数逼近方法拟合策略形成了近似强化学习方法。最小二乘策略迭代是一类前沿的近似强化学习方法,其最小二乘逼近可以从样本中获取更多有效信息,并可以应用到在线算法中。本文着眼于在线最小二乘策略迭代算法,对其进行了以下几方面的扩展,提出了相应的算法:(1)针对在线最 […]

基于高斯过程回归的强化学习算法研究 06月30日

【摘要】强化学习(ReinforcementLearning)是机器学习方法中重要的一类,在人工智能领域中有着举足轻重的地位,在博弈、电梯调度和智能机器人等领域得到广泛的应用。在强化学习框架下,Agent不断和周围环境进行交互,学习从环境状态到行为的映射,以期望获得最大累积奖赏。本文针对强化学习方法在大规模离散状态空间和连续空间所面临的“维数灾”问题,以值函数逼近技术为基础,提出相应的改进算法,对 […]

强化学习中值函数逼近方法的研究 06月30日

【摘要】强化学习是一类无需先验知识的机器学习方法,以Agent与环境不断的交互为主要特征,以寻找能带来最大期望累积折扣奖赏的策略为目标。强化学习中环境可能具有大状态空间甚至连续状态空间,Agent所能执行的动作可能为离散的或连续的,这必然带来一定的复杂性。本文着眼于大规模空间或连续空间可能带来的问题,以值函数逼近为出发点,针对对当前值函数逼近方法中存在的若干问题提出若干值函数逼近模型及其相应的强化 […]

模型无关的贝叶斯强化学习方法研究 06月30日

【摘要】强化学习是一类重要的机器学习方法,强化学习具有两个重要的特征:算法可以在不知道环境的全部模型时,求解模型未知的最优化问题;强化学习强调Agent与环境的在线交互,在交互过程中对数据进行累积学习,以达到在线求解最优策略的目的。因此,强化学习方法被越来越多地用于作业优化调度、在线学习控制、游戏等领域。针对于强化学习方法存在的“维数灾难”、收敛速度慢、收敛精度低等问题,本文以模型无关的贝叶斯强化 […]