收藏本站

基于一致性与事件驱动的强化学习研究

【摘要】:强化学习是一种重要的机器学习方法,通过试错的方式来求解问题,具有学习结构简单,自适应性强等特点,在机器博弈、机器人自主导航和市场决策等领域显示出很大的发展潜力,为解决智能系统知识获取的瓶颈问题提供了一个可行之法。论文围绕如何提高强化学习的效率这一科学问题,从强化学习过程中智能体间的通信方式、强化学习的算法结构和强化学习的策略搜索方式三个方面着手进行研究,建立了分布式局部可观测马尔科夫过程、多智能体强化学习和局部通信之间的理论纽带,为发展基于事件驱动思想的强化学习理论打下了基础。针对大规模多智能体应用中的观测局部性和不确定性问题,围绕分布式局部可观测马尔科夫模型,提出一种基于一致性协议的多智能体强化学习算法。对于一个分布式学习环境,强化学习的要素在局部观测情况下往往难以进行有效描述,且每一个独立智能体的学习行为都受其队友的影响。所提算法利用一致性协议使所有智能体对观测环境达成共识,剔除了重复观测生成的部分策略;针对智能体感知能力有限并随空间变化的特性,引入观测可信度来评估智能体对当前观测的可靠程度。仿真实验表明,观测可信度可以提高团队对观测目标的共识程度,基于一致性协议的学习算法减小了多智能体的策略空间,加快了学习速度。针对多智能体强化学习过程中通信与计算资源消耗大的问题,提出一种基于事件驱动的多智能体强化学习算法。传统的强化学习算法需要周期性的通信和策略搜索,造成了部分不必要的通信和计算资源消耗。所提算法根据智能体观测信息的变化率定义触发函数,使通信和策略搜索间歇性地进行,整体学习过程由周期性转变为非周期性。仿真实验表明,事件驱动的方式可以减少通信和策略遍历次数,降低了通信和计算资源消耗。对一些收敛速度要求不高的学习问题,以收敛速度为代价来减少通信和计算资源的消耗是可取的思路。针对如何平衡启发式强化学习中策略搜索范围与学习速度的关系问题,提出一类基于事件驱动的启发式强化学习算法。首先,针对启发式学习中先验知识获取程度不明确问题,设计了基于事件驱动的先验知识获取判断机制。对于启发式学习过程,从自身的经历获取先验知识是启发式函数的一种设计方法,先验知识的优劣往往决定了搜索的速度与解的好坏。所提算法利用智能体学习步数和Q值表F范数的变化率两种方式设计触发函数,使先验知识的获取过程由固定方式转变为灵活方式;其次,针对启发式学习以约束策略搜索范围为代价提高学习速度的问题,提出了一种基于事件驱动的启发式强化学习算法。根据智能体观测信息的变化情况设计触发函数,使智能体选择性地对学习过程进行启发,在保证一定学习速度的情况下扩大了策略搜索范围。仿真实验表明,智能体可以更有效地从自身经历中获取先验知识,且更好地平衡启发式学习中最优策略与收敛速度的关系。

下载App查看全文

(如何获取全文? 欢迎:、、)

支持CAJ、PDF文件格式


【相似文献】
中国期刊全文数据库 前20条
1 大泽博隆;鲁翠;;人与智能体交互:与人相关的人工智能系统设计[J];装饰;2016年11期
2 李德伟;;创新智能体系统的软件工程方法研究[J];西部素质教育;2015年02期
3 马家妮;武雅丽;;智能体技术在城市交通信号控制系统中应用综述[J];科技风;2015年13期
4 洪梦丹;;论人类与人工智能体的道德矛盾[J];长江丛刊;2017年27期
5 王东浩;;人工智能体引发的道德冲突和困境初探[J];伦理学研究;2014年02期
6 刘筱;;一种自治智能体的实现方案[J];信息系统工程;2013年02期
7 万路军;姚佩阳;孙鹏;;有人/无人作战智能体分布式任务分配方法[J];系统工程与电子技术;2013年02期
8 蔡贵峰;;基于智能体系统的软件工程开发途径探究[J];硅谷;2013年03期
9 黎明;;复杂性管理策略之一:培育自组织[J];领导科学;2013年14期
10 潘晓英;焦李成;刘芳;;粒度智能体进化分类算法[J];电子学报;2009年03期
11 伍文平;魏明;王东;王刚;;基于可信买方智能体辅助选择高质量卖方模型研究[J];科学技术与工程;2008年17期
12 李伟;;智能体技术在现代导弹制导中的应用研究[J];战术导弹技术;2007年03期
13 辛润勤;罗荣桂;;智能体理论研究述评[J];科技进步与对策;2007年08期
14 潘志庚;杨宏伟;刘箴;;虚拟智能体情感研究综述[J];计算机辅助设计与图形学学报;2007年12期
15 周剑岚,金斌,吴超;基于移动智能体的分布式入侵检测系统研究[J];电子技术应用;2005年05期
16 李锋,冯珊;一种保障移动智能体系统的安全模型[J];系统工程与电子技术;2004年02期
17 贺建民,王元元,闵锐;作战智能体模型研究[J];系统仿真学报;2004年10期
18 魏军;曾斌;胡涛;;基于事例推理的审慎式智能体实现研究[J];科技进步与对策;2003年18期
19 闵君,冯珊,唐超,梅纲;移动智能体在网络安全中的研究与应用[J];计算机工程与应用;2003年14期
20 张仕山,庄镇泉,狄晓龙;基于移动智能体的入侵检测系统[J];计算机应用研究;2003年03期
中国重要会议论文全文数据库 前10条
1 陆启韶;;智能体系统的动力学与控制问题[A];第一届全国神经动力学学术会议程序手册 & 论文摘要集[C];2012年
2 陆启韶;;智能体系统的动力学与控制问题[A];第一届全国神经动力学学术会议程序手册 & 论文摘要集[C];2012年
3 仵博;宁志宇;吴敏;;一种基于行为的双层动态智能体结构[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
4 孙铁利;杨永明;赵晶晶;;营救智能体的研究与开发[A];2005年全国理论计算机科学学术年会论文集[C];2005年
5 高晶英;徐旭;;具有动态网络的多智能体动态牵制蜂拥控制算法[A];第十届动力学与控制学术会议摘要集[C];2016年
6 李锋;冯珊;魏莹;周凯波;;基于移动智能体技术的漏洞扫描系统模型[A];西部开发与系统工程——中国系统工程学会第12届年会论文集[C];2002年
7 杨文;汪小帆;;异质影响网络中的一致性问题[A];第三届全国复杂动态网络学术论坛论文集[C];2006年
8 曹江丽;;运行在非结构化环境下自主智能体的智能学习与控制[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(下册)[C];2006年
9 罗小元;刘丹;;基于势函数的多智能体群集与避障[A];第二十九届中国控制会议论文集[C];2010年
10 李思明;叶华文;;基于多虚拟领导者的多智能体群集编队[A];第26届中国控制与决策会议论文集[C];2014年
中国博士学位论文全文数据库 前10条
1 张文旭;基于一致性与事件驱动的强化学习研究[D];西南交通大学;2018年
2 吴刚;面向网络计算的移动智能体研究与实现[D];中国人民解放军国防科学技术大学;2000年
3 李章维;基于多Agent的数据广播信息平台研究及在远程教育中的应用[D];浙江大学;2004年
4 刘兴华;证券市场动力机制及智能体建模分析[D];东华大学;2005年
5 程华农;面向智能体的化工过程运行系统分析、模型化和集成策略的研究[D];华南理工大学;2002年
6 李荷华;面向智能体的化工过程运行系统信息集成模型研究[D];华南理工大学;2003年
7 宋一兵;计算机生成兵力中智能体技术与应用研究[D];哈尔滨工程大学;2006年
8 苏厚胜;多智能体蜂拥控制问题研究[D];上海交通大学;2008年
9 徐啟蕾;未知环境下移动智能体自主导航研究[D];中国海洋大学;2013年
10 吴正平;复杂网络建模与一致性及在多移动智能体中的应用[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 张戈;基于智能体的城市土地利用规划决策支持模型研究[D];南京大学;2018年
2 李凯江;基于Q-learning机制的网络安全动态防御研究[D];中原工学院;2018年
3 姜鹏;事故逃生中的智能体研究与实现[D];中南大学;2012年
4 杜娟娟;分布式自治智能体优化算法研究[D];中国石油大学;2009年
5 王涛;基于移动智能体的网络信息检索机制研究[D];吉林大学;2007年
6 聂森;移动智能体网络的同步蜂拥及牵制控制研究[D];华东交通大学;2012年
7 郭雷;模拟航天器控制基础研究[D];西北工业大学;2007年
8 常宏;基于约束的智能体教室分配系统设计与实现[D];电子科技大学;2015年
9 姚建玲;基于动态拓扑的多移动智能体系统的一致性分析[D];上海交通大学;2013年
10 罗健锋;移动智能体系统在网络与信息安全中的应用研究[D];华中科技大学;2005年
中国重要报纸全文数据库 前7条
1 国家新闻出版广电总局数字出版司副司长 冯宏声;[N];中国新闻出版广电报;2018年
2 本报记者 高超;[N];通信产业报;2017年
3 记者兴科、通讯员杨树兵、杨娜;[N];新疆日报(汉);2009年
4 记者 倪红梅;[N];新华每日电讯;2006年
5 佛山日报记者 文倩;[N];佛山日报;2015年
6 特约撰稿 罗超;[N];通信信息报;2015年
7 李磊;[N];计算机世界;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978


{bck}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bck体育}| {bckbet}| {bcksports}| {bck官网}| {bck}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bck体育}| {bck}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bck体育}| {bckbet}| {bcksports}| {bck官网}| {bck}| {bck体育下载}| {bck体育}| {bckbet}| {bcksports}| {bck官网}| {bck}| {bck体育下载}| {bck体育app}| {bck体育}| {bckbet}| {bck体育下载}| {bck体育app}| {bck体育}| {bckbet}| {bcksports}| {bck体育下载}| {bckbet}| {bcksports}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bck体育}| {bck官网}| {bck体育下载}| {bckbet}| {bcksports}| {bck官网}| {bck体育app}| {bck体育}| {bcksports}| {bck官网}| {bck体育下载}| {bck体育}| {bckbet}| {bcksports}| {bck官网}| {bck体育}| {bcksports}| {bck官网}| {bck体育官网}| {bck体育下载}| {bck体育}| {bckbet}| {bcksports}| {bck}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bck体育}| {bckbet}| {bck官网}| {bck}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bcksports}| {bck官网}| {bck}| {bck体育官网}| {bcksports}| {bck体育下载}| {bck体育app}| {bckbet}|
{uc8}| {uc8体育}| {uc8官网}| {uc8老虎机}| {UC8娱乐城}| {uc8彩票}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8官网}| {uc8老虎机}| {uc8体育}| {UC体育}| {uc8老虎机}| {uc8老虎机}| {UC8娱乐}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8老虎机}| {uc8彩票}| {uc8}| {uc8体育}| {UC体育}| {uc8官网}| {UC8娱乐}| {UC8娱乐城}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8官网}| {uc8老虎机}| {UC8娱乐}| {UC8娱乐城}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8官网}| {uc8老虎机}| {UC8娱乐}| {UC8娱乐城}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8官网}| {uc8老虎机}| {UC8娱乐}| {uc8彩票}| {uc8}| {uc体育}| {UC体育}| {UC8娱乐城}| {uc8}| {UC体育}| {uc8官网}| {uc8老虎机}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8官网}| {uc8老虎机}| {UC8娱乐}| {UC8娱乐城}|