【CICC原创】陆战对抗中的智能体博弈策略生成方法_智能_对抗_策略

(《指挥与控制学报》刊文精选)

引用格式王玉宾, 孙怡峰, 吴疆, 等. 陆战对抗中的智能体博弈策略生成方法[J]. 指挥与控制学报, 2022, 8(4): 441-450.

WANG Y B, SUN Y F, WU J, et al. An agent game strategy generation method for land warfare[J]. Journal of Command and Control,2022, 8(4): 441-450

摘要

针对陆战对抗中智能体状态动作空间复杂和行为模式固定的问题,提出任务分层架构下的博弈策略生成方法。使用策略式博弈模型对陆战对抗问题进行分析建模,给出智能体任务执行中的收益矩阵构建方法,并通过求解混合策略,使智能体行为同时具有合理性和多样性。以陆军战术对抗兵棋推演为平台进行测试,实验证明智能体策略可解释性强,行为模式多样,在与AI和人类选手对抗时都具有较高的胜率。

智能体是人工智能的一个基本术语,广义的智能体包括人类、机器人、软件程序等[1]。狭义的智能体是能感知环境,根据环境变化作出合理判断和行动,从而实现某些目标的计算机程序。从感知序列集合到执行动作集合的映射也称为智能体的策略[2]。智能体策略的研究对实现无人系统自主能力[3]和人机混合智能[4]具有重要意义。

决策指根据一定目标选择备选方案或动作的过程。传统使用脚本规则[5]、有限状态机[6]、行为树[7]等方法进行智能体决策行为建模,决策模型对应了智能体的策略。这类智能体的策略具有较强的可解释性,但是其需要大量的领域专家知识。另一方面上述智能体通常使用基于专家知识的纯策略,其行为模式是固定的,在复杂对抗场景中存在适应性不强和灵活度不够的问题。近年,深度强化学习成为智能体策略生成的重要方法,在Atari游戏[8]、围棋[9-11]、德州扑克[12]、无人驾驶[13]等领域取得了突破进展,部分场景中已经达到或超越了人类专家水平。然而基于强化学习的智能体在更为复杂的场景中面临着感知状态空间极其巨大、奖励十分稀疏、长程决策动作组合空间爆炸等难题[14]。

战争对抗作为一种复杂对抗场景,一直是智能体策略生成研究的重点,并越来越受到关注[15-17],但当前研究还缺少实质性的进展,特别是在人机对抗中[18],人类对手策略变化造成的环境非静态性会使智能体显得呆板、缺少应变能力。

针对陆军战术级对抗场景中智能体状态动作空间复杂和行为模式固定的问题,以中科院“庙算·智胜 即时策略人机对抗平台”陆军战术对抗兵棋(以下简称“庙算”陆战对抗兵棋)为实验平台,提出了基于博弈混合策略的智能体对抗策略生成方法。本文工作主要有3个方面:

1)对陆战对抗中实体动作进行抽象、分层,建立智能体任务分层框架,降低问题求解的复杂度。

2)对陆战对抗实体任务中关键要素进行分析,构建对抗问题博弈模型,并给出收益矩阵的计算方法。

3)给出陆战对抗兵棋推演场景中智能体混合策略均衡的求解方法,对本文所提方法的可行性进行了验证。

展开全文

References

1 贺建立. 多智能体系统的开发[D]. 合肥: 安徽大学, 2004.

HE J L. The development of multi-agent system[D]. Hefei: Anhui University, 2004.

2 RUSSELL S J, NORVIG P. Artificial intelligence, a modern approach-4nd edition[M]. US: Pearson Education, 2020: 36-37.

3 张婷婷, 蓝羽石, 宋爱国. 无人集群系统自主协同技术综述[J]. 指挥与控制学报, 2021, 7(2): 127-136.

ZHANG T T, LAN Y S, SONG A G. An overview of autonomous collaboration technologies for unmanned swarm systems[J]. Journal of Command and Control, 2021, 7(2): 127-136.

4 金欣, 毛少杰, 李青山. 基于混合智能的作战指挥智能培育方法[J]. 指挥与控制学报, 2020, 6(3): 294-298.

JIN X, MAO S J, LI Q S. Operational command intelligence cultivation: a hybrid intelligence based method[J]. Journal of Command and Control, 2020, 6(3): 294-298.

5 谭鑫. 基于规则的计算机兵棋系统技术研究[D]. 长沙: 国防科学技术大学, 2010.

TAN X. Research on rule -based computer wargame system technology[D]. Changsha: National University of Defense Technology, 2010.

6 刘秀罗, 黄柯棣, 朱小俊. 有限状态机在CGF行为建模中的应用[J]. 系统仿真学报, 2001, 13(5): 663-665.

LIU X L, HUANG K D, ZHU X J. The application of finite state machine in the cgf’s behavior modeling[J]. Journal of System Simulation, 2001, 13(5): 663-665.

7 COLLEDANCHISE M, GREN P. Behavior trees in robotics and AI: an introduction[M]. US: Taylor & Francis Group, 2018.

8RISI S, PREUSS M. From chess and atari to starcraft and beyond: how game AI is driving the world of AI [J]. Heidelberg:Springer Nature B.V, 2020(34): 7-17.

9 SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489.

10 SILVER D, HUBERT T, SCHRITTWIESER J, et al. Mastering chess and shogi by self-play with a general reinforcement learning algorithm[J/OL].(2019-12-25)[2022-06-05].

11 SCHRITTWIESER J, ANTONOGLOU I, HUBERT T, et al.Mastering Atari, Go, chess and shogi by planning with a learned model[J]. Nature, 2020, 588(7839): 604-609.

12 BROWN N, SANDHOLM T. Superhuman AI for multiplayer poker[J]. Science(American Association for the Advancement of Science), 2019, 365(6456): 885-890.

13 WANG Y D, He H B, SUN C Y. Learning to navigate through complex dynamic environment with modular deep reinforcement learning[J]. IEEE Transactions on Games, 2018,10(4): 400-412.

14 YANG T P, TANG H Y, BAI C J, et al. Exploration in deep reinforcement learning: a comprehensive survey[J/OL].(2019-06-23)[2022-06-05].

15 胡晓峰, 荣明. 作战决策辅助向何处去———“深绿”计划的启示与思考[J]. 指挥与控制学报, 2016, 2(1): 22-25.

HU X F, RONG M. Where do operation decision supportsystems go: inspiration and thought on deep green plan[J].Journal of Command and Control, 2016, 2(1): 22-25.

16 胡晓峰, 贺筱媛, 陶九阳. AlphaGo 的突破与兵棋推演的挑战[J]. 科技导报, 2017, 35(21): 49-60.

HU X F, HE X Y, TAO J Y. AlphaGo's break-through and challenges of wargaming[J]. Science & Technology Review,2017, 35(21): 49-60.

17聂凯, 曾科军, 孟庆海, 等. 人机对抗智能技术最新进展及军事应用[J]. 兵器装备工程学报, 2021, 42(6): 6-11.

NIE K, ZENG K J, MENG Q H, et al. Recent advances in intelligent technologies of human-computer gaming and its military applications[J]. Journal of Ordnance Equipment Engineering, 2021, 42(6): 6-11.

18黄凯奇, 兴军亮, 张俊格, 等. 人机对抗智能技术[J]. 中国科学: 信息科学, 2020, 50(4): 540-550.

HUANG K Q, XING J L, ZHANG J G, et al. Intelligent technologies of human-computer gaming [J]. Scientia Sinica Informationis, 2020, 50(4): 540-550.

19 尹奇跃, 赵美静, 倪晚成, 等. 兵棋推演的智能决策技术与挑战[J]. 自动化学报, 2020, 48(9): 1-15.

YIN Q Y, ZHAO M J, NI W C, et al. Intelligent decision making technology and challenge of wargame[J]. Acta Automatica Sinica, 2020, 48(9): 1-15.

20 孙林, 焦鹏, 许凯. 基于改进分层任务网的指控行为模型[J]. 计算机科学, 2017, 44(S1): 519-522.

SUN L, JIAO P, XU K. Command and control behavior model based on improved hierarchical task network[J]. Computer Science, 2017, 44(S1): 519-522.

21 赖俊, 魏竞毅, 陈希亮. 分层强化学习综述[J]. 计算机工程与应用, 2021, 57(3): 72-79.

LAI J, WEI J Y, CHEN X L. Overview of hierarchical reinforcement learning[J]. Computer Engineering and Applications,2021, 57(3): 72-79.

23 HECKERMAN D. A tutorial on learning with Bayesian networks[C]// Nato Advanced Study Institute on Learning in Graphical Models. Kluwer Academic Publishers, 1998: 1207-1215.

24 THOMPSON W R. On the likelihood that one unknown probability exceeds another in view of the evidence of two samples[J]. Biometrika, 1933, 25(3-4): 285-294.

26 MICHAEL M, EILON S, SHMUEL Z. Game theory[M]. UK:Cambridge University Press, 2013: 155-166.

作者简介

王玉宾 (1987—),男,硕士,工程师,主要研究方向为人工智能。

孙怡峰 (1976—),男,博士,副教授,主要研究方向为方向人工智能、信息安全。本文通信作者。

吴 疆 (1995—),男,硕士,助教,主要研究方向为信息安全。

李 智 (1995—),男,硕士,助理工程师,主要研究方向为方向人工智能。

张玉臣 (1977—),男,博士,教授,主要研究方向为计算机网络安全。

排版校对:刘亚丽

转载请标明作者信息及出处

关注公众号了解更多

会员申请 请在公众号内回复“个人会员”或“单位会员

欢迎关注中国指挥与控制学会媒体矩阵

CICC官方网站

CICC官方微信公众号

《指挥与控制学报》官网

国际无人系统大会官网

中国指挥控制大会官网

全国兵棋推演大赛

全国空中智能博弈大赛

搜狐号

一点号

特别声明

本文仅代表作者观点,不代表本站立场,本站仅提供信息存储服务。

分享:

扫一扫在手机阅读、分享本文