收藏本站

基于决策理论的多智能体系统规划问题研究

【摘要】:不确定性环境下的决策和规划是人工智能的基本问题之一。决策论为这类问题的最优化求解提供了标准的理论框架。近年来,单智能体的决策理论取得了长足的发展,经典的MDP和POMDP算法已经能求解较大规模的问题。但多智能体的分布式决策却依然处在研究的初级阶段,通常只能求解极小规模的问题。作为马尔科夫决策理论在多智能体系统上的扩展,DEC-POMDP模型涵盖了大多数的多智能体合作问题,但同时也具有极高的问题复杂度(NEXP难)。因为在多智能体系统中,每个智能体不仅要考虑环境的变化还需要关注其他智能体的可能行为。DEC-POMDP的复杂度具体表现在求解上就是问题具有极大的策略空间。如何对巨大的策略空间进行表示和推理并从中找出最优的策略是DEC-POMDP司题求解的关键。受限于问题复杂度,精确算法当前只能求解很小规模的问题。因此,本文研究的重点是为一般性的DEC-POMDP问题设计高效的近似算法。从求解方式上看,大体可分为在线和离线算法两类。本文在这两类算法上均有相应的工作,同时还求解了一类更具挑战的无模型规划问题。 在线规划算法在智能体与环境交互的过程中进行规划,因此只需要考虑智能体当前遇到的情况。由于每次执行过程中,智能体实际遇到的情况只是各种可能中很小的一部分,因此在大规模问题求解上,在线算法更具有优势。但在线算法本身也有需要解决的难题。因为智能体需要实时的对环境做出反应,因此每次可用于规划的时间非常的有限。在DEC-POMDP问题中,每个智能体获得的是各自不同的局部观察,所以需要一个分布式的计算框架来保证智能体行为之间的协调。为了与其他智能体进行合作,每个智能体必须考虑其他智能体所有可能拥有的信息,而这些信息会随时间的增加指数式的暴涨。同时由于带宽、环境和计算资源的限制,智能体之间的通讯往往是受限的。本文提出的通汛受限的多智能体在线规划算法MAOP-COMM较为系统的解决了这些问题。 离线规划算法在智能体与环境进行交互前,通过给定的模型计算出完整的策略。其主要优势在于有充足的时间来进行规划,而且不需要考虑在线的分布式协调,只要求计算出的策略能被每个智能体根据各自的观察分布式的执行。当前,最好的离线规划算法采用的是将动态规划和启发式搜索相结合的办法来构建一套完整的策略。对于大规模问题,其主要瓶颈在于每一步迭代都会产生极其多的子策略。这些子策略会快速的耗尽所有的存储空间和导致运算严重超时。为了解决这一问题,本文在前人工作的基础上提出了PBPG和TBDP这两个算法。PBPG算法的主要创新点是彻底的改变了之前先枚举再选择的策略生成模式,通过构建最优化的模型为每个信念点直接生成所需的策略。TBDP算法主要针对的是大状态DEC-POMDP问题。其主要的创新点是使用基于测试的方法只为可达的状态和需要使用到的策略计算值函数。无论是离线算法还是在线算法,在问题求解的时候都需要用到完整的DEC-POMDP模型。但在大规模的现实问题中,完整的DEC-POMDP模型并不容易获得。因此本文还提出了基于展开式采样的蒙特卡罗规划算法DecRSPI。该算法仪需要能用于采样的环境或者仿真器就能直接计算策略,而无需事先建立完整的DEC-POMDP模型。 本文对多智能体系统规划研究的贡献主要有四点:(1)较为系统的研究了多智能体在线规划问题,提出了能够保证智能体之间协调决策的MAOP-COMM在线规划算法。该算法使用了快速策略搜索用于满足在线规划的时间限制,同时对指数式增长的历史信息进行压缩,在使用有限内存的情况下尽可能的保留了最有价值的决策信息,最后算法还对压缩后信念与环境的一致性进行检测,并在此基础上提出了新的通讯策略,在通讯受限的情况下有效的使用了通讯。实验结果印证了MAOP-COMM算法在多智能体在线规划上的诸多优势。(2)较为系统的研究了多智能体离线规划的策略生成问题,提出了具有线性复杂度的信念点策略生成算法PBPG。该算法彻底的改变了以往算法在策略生成上采用的先枚举再选择的模式,将策略生成问题建模为选择最优子映射的数值优化问题,并在此基础上提出了求解该优化问题的快速近似算法。在实验结果中,PBPG算法在运行时间上比之前的算法提高了一个数量级,并能够保留更多的子策略,随着子策略数的增加能够对大部分的测试问题进行近似最优的求解。(3)较为系统的研究了多智能体离线规划的策略评价问题,提出了基于测试反馈的TBDP算法。该算法能充分的利用问题本身具有的局部状态可达的特点,使用测试反馈的方法只针对可达状态进行策略评价,从而提高策略评价的效率。同时算法还引入了一种新的策略表示方法,在加速策略生产的同时,进一步界定需要评价的策略。从实现的角度,算法具有策略值缓存功能同时支持分布式并行策略评价,从而能够利用多处理系统的计算资源。从实验结果上,TBDP算法可以有效的求解上万个状态的多智能体规划问题。(4)引入并研究了多智能体系统的无模型规划问题,提出了基于蒙特卡罗方法的展开式采样策略迭代算法DecRSPI。该算法能够只通过与环境的交换信息计算出分布式的策略,而无需事先建立问题的完整模型。同时该算法具有相对于智能体个数的线性时间和空间的算法复杂度,这使得算法能够求解智能体个数比以往算法所能求解的个数多得多的多智能体规划问题。在实验结果中,DecRSPI算法有效的求解了超过二十个智能体的多智能体系统规划问题,比以往的算法提高了一个数量级。

下载App查看全文

(如何获取全文? 欢迎:、、)

支持CAJ、PDF文件格式


【相似文献】
中国期刊全文数据库 前17条
1 秦补枝;;一种新型多智能体固定目标控制算法[J];化工自动化及仪表;2017年03期
2 朱建伟,陈健;多智能体系统技术概论[J];机电设备;2004年03期
3 吴尚烨;田宝国;;基于多领导者的群体控制避障算法[J];兵工自动化;2020年07期
4 潘晓英;刘芳;焦李成;;基于智能体的多目标社会进化算法[J];软件学报;2009年07期
5 胡志刚,龙海涛,钟掘;多智能体系统中信使功能的设计和实现[J];计算机工程;2003年02期
6 迟妍;邓宏钟;;作战智能体的机动行为模型研究[J];计算机仿真;2009年05期
7 刘洪;未来的经济组织形态:多智能体组织[J];自然杂志;2004年04期
8 樊友平,黄席樾,柴毅,周欣;基于细胞免疫应答理论重建故障诊断智能体[J];系统仿真学报;2003年01期
9 王建彬;李震;庞军;;基于多智能体的虚拟企业框架的构建与实现[J];安徽工程科技学院学报(自然科学版);2010年01期
10 张忠艺;徐冬梅;;基于周期事件触发的多智能体系统平均一致性[J];智能计算机与应用;2021年08期
11 万路军;姚佩阳;孙鹏;;有人/无人作战智能体分布式任务分配方法[J];系统工程与电子技术;2013年02期
12 大泽博隆;鲁翠;;人与智能体交互:与人相关的人工智能系统设计[J];装饰;2016年11期
13 辛润勤;罗荣桂;;智能体理论研究述评[J];科技进步与对策;2007年08期
14 李猛;梁加红;;障碍环境下具有多领导者的组行为生成方法[J];国防科技大学学报;2013年06期
15 伍文平;魏明;王东;王刚;;基于可信买方智能体辅助选择高质量卖方模型研究[J];科学技术与工程;2008年17期
16 贺建民,王元元,闵锐;作战智能体模型研究[J];系统仿真学报;2004年10期
17 魏军;曾斌;胡涛;;基于事例推理的审慎式智能体实现研究[J];科技进步与对策;2003年18期
中国重要会议论文全文数据库 前20条
1 高晶英;徐旭;;具有动态网络的多智能体动态牵制蜂拥控制算法[A];第十届动力学与控制学术会议摘要集[C];2016年
2 孙铁利;杨永明;赵晶晶;;营救智能体的研究与开发[A];2005年全国理论计算机科学学术年会论文集[C];2005年
3 刘伟;武钰;;人-智能体协作系统的信任校准[A];2021年无人系统高峰论坛(USS 2021)论文集[C];2021年
4 陆启韶;;智能体系统的动力学与控制问题[A];第一届全国神经动力学学术会议程序手册 & 论文摘要集[C];2012年
5 陆启韶;;智能体系统的动力学与控制问题[A];第一届全国神经动力学学术会议程序手册 & 论文摘要集[C];2012年
6 仵博;宁志宇;吴敏;;一种基于行为的双层动态智能体结构[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
7 罗小元;刘丹;;基于势函数的多智能体群集与避障[A];第二十九届中国控制会议论文集[C];2010年
8 王壮;李辉;李晓辉;沈凤;;基于深度强化学习的作战智能体研究[A];第六届中国指挥控制大会论文集(上册)[C];2018年
9 李思明;叶华文;;基于多虚拟领导者的多智能体群集编队[A];第26届中国控制与决策会议论文集[C];2014年
10 杨文;汪小帆;;异质影响网络中的一致性问题[A];第三届全国复杂动态网络学术论坛论文集[C];2006年
11 李锋;冯珊;魏莹;周凯波;;基于移动智能体技术的漏洞扫描系统模型[A];西部开发与系统工程——中国系统工程学会第12届年会论文集[C];2002年
12 刘杰;王月海;王鸿雁;;基于反思——模仿的多智能体协作策略[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
13 任锐;王晓丽;周浔;;基于势函数的多智能体编队控制[A];中国仪器仪表学会第十二届青年学术会议论文集[C];2010年
14 曹江丽;;运行在非结构化环境下自主智能体的智能学习与控制[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(下册)[C];2006年
15 陈宁;谈英姿;许映秋;;多种评价指标下RoboCupRescue救援智能体算法[A];2009年中国智能自动化会议论文集(第五分册)[东南大学学报(增刊)][C];2009年
16 王建平;田世佑;叶伟;;智能体建模方法研究[A];第13届中国系统仿真技术及其应用学术年会论文集[C];2011年
17 沈杰;梁志伟;刘娟;朱松豪;;RCRSS中的多警察智能体协作[A];第25届中国控制与决策会议论文集[C];2013年
18 贺晨龙;黄丽湘;张继业;;多车辆编队协作控制[A];第十一届全国非线性振动学术会议暨第八届全国非线性动力学和运动稳定性学术会议论文集[C];2007年
19 屈志坚;刘明光;刘靖;王健;杨罡;王林;;基于BDI智能体的配电网监控信息批处理方法[A];2012年江西省电机工程学会年会论文集[C];2012年
20 杨一岱;牟婧;;有人/无人智能体协同决策技术研究现状及发展趋势研究[A];第五届航天电子战略研究论坛论文集(微电子专刊)[C];2018年
中国博士学位论文全文数据库 前20条
1 吴锋;基于决策理论的多智能体系统规划问题研究[D];中国科学技术大学;2011年
2 曾凡玉;基于深度强化学习的智能体导航研究[D];电子科技大学;2021年
3 黄利伟;智能协同算法研究及应用[D];电子科技大学;2019年
4 李哲;面向工业应用的智能体控制系统研究[D];西北工业大学;2017年
5 宿云;基于本体的智能体情感识别与情感诱发研究[D];兰州大学;2019年
6 张文旭;基于一致性与事件驱动的强化学习研究[D];西南交通大学;2018年
7 吴刚;面向网络计算的移动智能体研究与实现[D];中国人民解放军国防科学技术大学;2000年
8 刘兴华;证券市场动力机制及智能体建模分析[D];东华大学;2005年
9 吴元清;多智能体系统的鲁棒同步控制[D];浙江大学;2016年
10 苏厚胜;多智能体蜂拥控制问题研究[D];上海交通大学;2008年
11 张灵敏;智能体系统的稳定性分析及在多智能体一致性控制中的应用研究[D];燕山大学;2020年
12 宁红云;协作智能体环境下虚拟企业自由联盟构建技术研究[D];天津大学;2009年
13 徐啟蕾;未知环境下移动智能体自主导航研究[D];中国海洋大学;2013年
14 吴正平;复杂网络建模与一致性及在多移动智能体中的应用[D];华中科技大学;2007年
15 杜库;切换网络结构下多智能体系统的同步问题研究[D];中国科学技术大学;2021年
16 胡志刚;基于协同的并行设计环境理论与方法研究[D];中南大学;2002年
17 彭军;多智能体系统协作模型及其在足球机器人仿真系统中的应用[D];中南大学;2005年
18 李皎洁;具有部分感知能力的多智能体协同避障控制[D];上海交通大学;2015年
19 董娜;面向核环境管道维修的多智能体遥控焊接系统研究[D];哈尔滨工业大学;2010年
20 张连新;基于多智能体技术的机器人遥控焊接系统研究[D];哈尔滨工业大学;2006年
中国硕士学位论文全文数据库 前20条
1 刘强;基于深度强化学习的群体对抗策略研究[D];哈尔滨工业大学;2020年
2 王海;多智能体分层牵制蜂拥研究[D];南京信息工程大学;2015年
3 唐骥宇;多智能体系统一致性问题研究[D];长安大学;2014年
4 郭婷;基于强化学习的多智能体围捕策略研究[D];沈阳理工大学;2021年
5 杜娟娟;分布式自治智能体优化算法研究[D];中国石油大学;2009年
6 高东万;基于协同强化学习的群体决策方法研究[D];大连理工大学;2021年
7 马原野;基于强化学习的智能体自主导航技术研究[D];大连理工大学;2020年
8 陈烨;大规模微型智能体在线任务分配建模及决策算法研究[D];西安电子科技大学;2020年
9 王艺深;多智能体深度强化学习的经验回放方法研究[D];苏州大学;2020年
10 黄宁馨;基于元学习和深度强化学习的智能体快速适应方法[D];扬州大学;2021年
11 耿建鲁;基于黑板系统的多智能体系实现方法的研究[D];哈尔滨工程大学;2003年
12 鞠祎;基于智能体模型的高密度人员疏散仿真研究[D];中国矿业大学;2020年
13 史文平;人工智能体刑法行为主体论[D];中南财经政法大学;2019年
14 贾倩雯;基于智能体的海上遇险目标搜索算法研究[D];海南大学;2019年
15 邓悟;基于深度强化学习的智能体避障与路径规划研究与应用[D];电子科技大学;2019年
16 董诗音;基于增强学习的智能体博弈问题研究[D];哈尔滨工业大学;2019年
17 袁野;基于近似投影的异步时间分布式优化算法的设计与研究[D];南京邮电大学;2019年
18 毛建博;基于虚拟自我对局的多人非完备信息机器博弈策略研究[D];哈尔滨工业大学;2018年
19 李明豪;基于深度强化学习的非完备信息3D视频游戏博弈算法研究[D];哈尔滨工业大学;2018年
20 胡丽娟;基于强化学习的2D仿真足球机器人协作机制[D];南京邮电大学;2019年
中国重要报纸全文数据库 前20条
1 记者 孙鹏飞;[N];平顶山日报;2020年
2 深圳商报记者 陈姝 实习生 刘子霖;[N];深圳商报;2021年
3 ;[N];21世纪经济报道;2021年
4 余飞 涪陵区大数据发展局数据信息科科长;[N];重庆政协报;2021年
5 遥歌;[N];人民邮电;2020年
6 周启鸣 张新长 眭海刚 孙博;[N];中国自然资源报;2021年
7 记者 张梦然;[N];科技日报;2021年
8 记者 孟宪峰;[N];河北日报;2021年
9 记者 孟宪峰;[N];河北日报;2021年
10 复旦大学教授 杨庆峰;[N];社会科学报;2019年
11 记者 陈姝;[N];深圳商报;2020年
12 记者 周雨萌;[N];深圳特区报;2020年
13 徐丽 陈虹妃;[N];深圳商报;2019年
14 国家新闻出版广电总局数字出版司副司长 冯宏声;[N];中国新闻出版广电报;2018年
15 本报记者 高超;[N];通信产业报;2017年
16 记者 栾吟之;[N];解放日报;2020年
17 本报记者 邬春阳 实习生 陈思彤;[N];人民公安报;2020年
18 记者 郑佳洵 郑白;[N];河北经济日报;2021年
19 ;[N];中国建设报;2020年
20 谷林;[N];中国应急管理报;2021年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978


{bck}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bck体育}| {bckbet}| {bcksports}| {bck官网}| {bck}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bck体育}| {bck}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bck体育}| {bckbet}| {bcksports}| {bck官网}| {bck}| {bck体育下载}| {bck体育}| {bckbet}| {bcksports}| {bck官网}| {bck}| {bck体育下载}| {bck体育app}| {bck体育}| {bckbet}| {bck体育下载}| {bck体育app}| {bck体育}| {bckbet}| {bcksports}| {bck体育下载}| {bckbet}| {bcksports}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bck体育}| {bck官网}| {bck体育下载}| {bckbet}| {bcksports}| {bck官网}| {bck体育app}| {bck体育}| {bcksports}| {bck官网}| {bck体育下载}| {bck体育}| {bckbet}| {bcksports}| {bck官网}| {bck体育}| {bcksports}| {bck官网}| {bck体育官网}| {bck体育下载}| {bck体育}| {bckbet}| {bcksports}| {bck}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bck体育}| {bckbet}| {bck官网}| {bck}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bcksports}| {bck官网}| {bck}| {bck体育官网}| {bcksports}| {bck体育下载}| {bck体育app}| {bckbet}|
{uc8}| {uc8体育}| {uc8官网}| {uc8老虎机}| {UC8娱乐城}| {uc8彩票}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8官网}| {uc8老虎机}| {uc8体育}| {UC体育}| {uc8老虎机}| {uc8老虎机}| {UC8娱乐}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8老虎机}| {uc8彩票}| {uc8}| {uc8体育}| {UC体育}| {uc8官网}| {UC8娱乐}| {UC8娱乐城}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8官网}| {uc8老虎机}| {UC8娱乐}| {UC8娱乐城}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8官网}| {uc8老虎机}| {UC8娱乐}| {UC8娱乐城}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8官网}| {uc8老虎机}| {UC8娱乐}| {uc8彩票}| {uc8}| {uc体育}| {UC体育}| {UC8娱乐城}| {uc8}| {UC体育}| {uc8官网}| {uc8老虎机}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8官网}| {uc8老虎机}| {UC8娱乐}| {UC8娱乐城}|