多智能体博弈系统
智能体决策时往往需要兼顾实时性、协同性和鲁棒性,为了解决智能体在高维状态空间中长期决策困难的问题,本项目提出一种多智能体协作对抗方法。该模型可以:
1.构建拟真的城市对抗环境模型,支持多类智能体的交互与博弈;
2.通过强化学习提升多智能体协作与对抗能力,兼顾同构与异构智能体;
3.提高收敛速度和奖励回报率。
该模型构建了真实对抗环境,采用近端策略优化的AC结构,结合嵌入方法解决异构智能体的空间差异;还设计了自适应经验采样模块,融合 on-policy 与 off-policy 数据,提高经验利用率并加快收敛速度;最后采用了权重继承机制,在智能体消失时将其策略传递给队友,保证任务执行的连续性和快速适应性。
系统运行流程包括四个阶段:首先进行初始化与建模,设置城市环境和智能体组别;其次是交互与训练,由AC网络输出动作并进行价值评估,将状态与奖励存入经验池;接着在策略优化阶段,通过近端策略优化结合自适应采样不断改进策略,同时利用嵌入方法保证异构智能体的训练一致性;最后进入分布式执行,各智能体基于局部观测独立决策,并通过权重继承保持协作,从而实现最终目标。
人工智能