基于高斯过程回归的强化学习算法研究
【摘要】强化学习(ReinforcementLearning)是机器学习方法中重要的一类,在人工智能领域中有着举足轻重的地位,在博弈、电梯调度和智能机器人等领域得到广泛的应用。在强化学习框架下,Agent不断和周围环境进行交互,学习从环境状态到行为的映射,以期望获得最大累积奖赏。本文针对强化学习方法在大规模离散状态空间和连续空间所面临的“维数灾”问题,以值函数逼近技术为基础,提出相应的改进算法,对比不同算法的收敛性能,具体研究内容包括以下三方面:(1)利用监督学习中的高斯过程回归(Gaussianprocessforregression)模型,在一般的函数逼近方法中,通常需要假设具体的函数形式,而该方法不需要事先假设具体的函数模型,而是倾向于让样本数据本身来表示值函数,同时该方法具有易实现,参数自适应的优点,并且有很好的理论基础。(2)针对Dyna-Q算法随着离散状态规模的增加,算法收敛速度降低的问题,提出一种基于高斯过程回归的Dyna框架聚类优化算法,对大规模的离散状态空间做状态聚类处理,利用聚类后的较低规模空间进行学习,并利用学习到的状态值去评估高规模的状态空间的状态值。通过实验验证了该算法在提升算法收敛速率方面的有效性。(3)提出一种连续状态空间下值迭代算法—GPRV。该算法是以高斯过程回归模型为基础的。在连续状态空间下无法像离散空间那样进行值函数表格式存储。为解决大状态连续空间的强化学习中的值函数逼近问题,结合值迭代与高斯过程回归。该算法通过高斯过程回归框架,可以有效的对所有状态的价值进行评估,并通过实验验证了GPRV算法的收敛性,并作出相关分析。
【作者】庄超;
【导师】刘全;
【作者基本信息】苏州大学,软件工程(专业学位),2014,硕士
【关键词】强化学习;值函数逼近;高斯过程回归;Dyna结构;GPRV;
【参考文献】
[1]赵明明.触屏手机游戏界面及交互设计研究[D].长春工业大学,设计艺术学,2013,硕士.
[2]丁洁,谢莉,丁锋.非均匀采样系统多新息随机梯度辨识性能分析[J].控制与决策,2011,09:1338-1342.
[3]王威.通气参数对水下航行体流体动力影响实验研究[D].哈尔滨工业大学,一般力学与力学基础,2013,硕士.
[4]张庆国,刘海超,张鑫源,李美超,金振兴.石墨烯/碳点复合物的制备及其电化学性能研究[J].电子元件与材料,2014,05:29-32.
[5]吴文传,张伯明,孙宏斌,吴素农,蔡斌.在线安全预警和决策支持系统的软件构架与实现[J].电力系统自动化,2007,12:23-29.
[6]孙旭光.一类扩散传染病模型的合并整体解[D].兰州大学,应用数学,2013,硕士.
[7]秦诗懿.日本环境伦理思想及其对我国环境伦理建设的启示[D].沈阳师范大学,伦理学,2014,硕士.
[8]王聪颖.1932年中国教育考察团赴欧洲考察述评[J].郑州师范教育,2014,01:15-18+41.
[9]黄颖.太平洋保险公司CRM实施分析[D].电子科技大学,2005.
[10]刘广.呼和浩特市旅游竞争力研究[D].内蒙古师范大学,人文地理学,2013,硕士.
[11]车正萍.试论汉代铜镜的纹饰[D].中央民族大学,民族学,2004,硕士.
[12]陈杏.乡村旅游目的地游客感知因素研究[D].长安大学,旅游管理,2014,硕士.
[13]董晓光.论思想政治课的互动式教学[D].渤海大学,学科教学(专业学位),2014,硕士.
[14]牛禹.动态能力对中小企业绩效影响的实证研究[D].首都经济贸易大学,技术经济及管理,2014,硕士.
[15]赵德明,王臣栋,宋嘉彬,金宁人.2,6-二羟基对苯二甲酸的合成及酯化反应研究[J].浙江工业大学学报,2014,06:627-631.
[16]汪杰.艺术人类学视野下当代都市婚俗文化审美特性及成因研究[D].西南大学,美学,2013,硕士.
[17]宋华磊.基于全矢频段的旋转机械模糊综合评价技术研究[D].郑州大学,机械电子工程,2013,硕士.
[18]李春雪.新媒体艺术的交互性[D].大连工业大学,设计艺术学,2010,硕士.
[19]王君.城市水文效应的规划对策研究[D].湖南大学,建筑学,2012,硕士.
[20]杨婧,冯其波,高瞻,崔建英,王连俊.铁路路基关键参数长期监测方法与系统的研究[J].测绘通报,2014,06:24-28.
[21]程华.基于PSS/E的电力系统电压稳定研究[D].浙江大学,电力系统及其自动化,2004,硕士.
[22]彭小俊,远洋,郜源,张凤宝.负载金属银纳米颗粒的石墨烯吡咯烷衍生物的制备、表征及应用[J].化学工业与工程,2014,01:28-32.
[23]费丽华.中韩合作企业人力资源网的设计与实现[D].电子科技大学,软件工程(专业学位),2012,硕士.
[24]霍朝晖.飞行试验振动参数遥测实时处理系统设计与实现[D].西安电子科技大学,电子与通信工程,2012,硕士.
[25]梅海波.氟代亚胺的亲核加成反应研究[D].南京大学,有机化学,2014,博士.
[26]盛旭.高师音乐专业学生学科理论知识调查与培养研究[D].东北师范大学,学科教学,2012,硕士.
[27]张健康,索南加乐,杨黎明,粟小华,焦在滨.交直流混联电网过电压保护应用分析[J].电力系统自动化,2011,12:95-100.
[28]常杰,葛滢,陈增鸿,潘晓东,刘珂,陈启瑺.青冈常绿阔叶林主要植物种叶片的光合特性及其群落学意义[J].植物生态学报,1999,05:393-400.
[29]楼群英.第三方物流企业客户关系管理及其应用研究[D].浙江工业大学,2007.
[30]张文杰.灯盏花素联合三七总皂苷对急性脑梗死大鼠模型TNOS、iNOS的影响[D].山西医科大学,中西医结合临床,2013,硕士.
[31]韩有志,王政权.天然次生林中水曲柳种子库的空间格局与过程[J].植物生态学报,2002,02:170-176.
[32]孙卫平.包头地区奶牛球虫病和隐孢子虫病的流行病学调查[D].内蒙古农业大学,预防兽医学,2004,硕士.
[33]荣源.欧洲联盟整合下的欧洲认同[D].河北师范大学,马克思主义基本原理,2014,硕士.
[34]刘海瑞.清代重檐古建筑太和殿风荷载体型系数研究[D].长安大学,结构工程,2014,硕士.
[35]王贤保,吕美娇,张长安,林晶晶.石墨烯的功能化修饰及其电化学性能的应用研究[A].中国化学会.中国化学会第29届学术年会摘要集——第16分会:π-共轭材料[C].中国化学会:,2014:2.
[36]付丽.高中生化学知识建构能力分析及培养策略研究[D].扬州大学,学科教学,2012,硕士.
[37]李婷.基于广域测量技术的时滞电力系统稳定性分析与控制设计[D].中南大学,控制科学与工程,2013,博士.
[38]刘昭.PAPP-A与ADAM12联合检测在子痫前期中的研究及临床意义[D].吉林大学,妇产科学,2014,硕士.
[39]苏冬梅.对于中美时空穿梭电视中文化维度的比较性研究[D].上海外国语大学,英语语言文学,2012,硕士.
[40]纪璐.美国专利侵权损害赔偿制度及其借鉴[D].南开大学,民商法学,2012,硕士.
[41]张雷.中韩两国大众体育发展的比较研究[D].鲁东大学,体育教育训练学,2014,硕士.
[42]张思远.中国特色新型工业化道路下工业经济效率统计评价研究[D].北京交通大学,2015.
[43]周宁,刘玮,严亚兰.虚拟数据库技术的发展和应用[J].情报科学,2002,02:171-174.
[44]张丽.北京维亿阳光公司(SUNWINS)员工绩效考核管理体系的再设计[D].首都经济贸易大学,工商管理(专业学位),2013,硕士.
[45]裴丽荣.活动教学法在初级汉语词汇教学中的具体运用[D].河北师范大学,汉语国际教育,2013,硕士.
[46]梁桂荣.白浆土生态平衡施肥参数的研究[D].东北农业大学,种植,2003,硕士.
[47]吕世为.人口老龄化背景下吉林省养老服务体系研究[D].吉林大学,人口学,2013,硕士.
[48]杨宇.经皮冠状动脉介入治疗术对稳定性心绞痛患者冠状动脉微循环影响的研究[D].南方医科大学,内科学(专业学位),2014,博士.
[49]万跃鹏.基于Cortex-A8的安全工业以太网设计与实现[D].华中科技大学,控制理论与控制工程,2013,硕士.
[50]赵歌.杜鹃(Rhododendron ripense M.)花色素的研究与应用[D].苏州大学,园林植物与观赏园艺,2012,硕士.
相关推荐
- 线粒体途径介导热打击诱导人脐静脉内皮细胞凋亡的研究
- 12月19日
- 极低出生体重儿宫外生长发育迟缓相关影响因素的临床分析
- 11月09日
- 中国特色社会主义制度创新研究
- 11月30日
- 民通唱法初探
- 05月30日