您的位置:主页 > 品牌天下 > > 正文

让AI掌握星际争霸微操:中科院提出强化学习+课程迁移学习方法

信息来源:品牌 文章作者:户外品牌网 发布日期: 2018-04-16

在围棋之后,即时战略游戏星际争霸是人工智能研究者们的下一个重要目标。近日,中科院自动化所提出了一种强化学习+课程迁移学习方法,让 AI 智能体在组队作战的条件下掌握了微操作的能力,该研究或许可以让多智能体 AI 方向的发展向前推进一步。该论文已被学术期刊 IEEE Transactions on Emerging Topics in Computational Intelligence 收录。

该研究的代码和结果已公开:https://github.com/nanxintin/StarCraft-AI

人工智能(AI)在过去的十年中已经有了巨大的进展。作为 AI 研究的绝佳测试平台,游戏自从 AI 诞生之时就在其身边推动技术的发展,与人工智能产生联系的游戏包括古老的棋盘游戏、经典的 Atari 街机游戏,以及不完美信息博弈。这些游戏具有定长且有限的系列动作,研究人员只需要在游戏环境中控制单个智能体。此外,还有多种更加复杂的游戏,其中包含多个智能体,以及复杂的规则,这对于 AI 研究非常具有挑战性。

在本论文中,我们专注于即时战略游戏(RTS)来探索多智能体的控制。RTS 游戏通常需要即时反应,这与棋盘游戏的回合制不同。作为最为流行的 RTS 游戏,《星际争霸》拥有庞大的玩家基础和数量众多的职业联赛——而且这个游戏尤其考验玩家的策略、战术以及临场反应能力。对于游戏 AI 的研究,星际争霸提供了一个理想的多智能体控制环境。近年来,星际争霸 AI 研究取得了令人瞩目的进展,这得益于一些星际争霸 AI 竞赛,以及游戏 AI 接口(BWAPI)的出现。最近,研究人员开发出了一些更加有效的平台来推动这一方向的发展,其中包括 TorchCraft、ELF 和 PySC2。

星际争霸 AI 旨在解决一系列难题,如时空推理、多智能体协作、对手建模和对抗性规划 [ 8 ]。目前,设计一款基于机器学习的全星际游戏 AI 是不现实的。许多研究者将微操作为星际争霸人工智能研究的第一步 [11]。在战斗场景中,单位必须在高度动态化的环境中航行,攻击火力范围内的敌人。星际争霸有很多微操方法,包括用于空间导航和障碍规避的潜在领域 [12] [13]、处理游戏中的不完整性和不确定性的贝叶斯建模 [14]、处理建造顺序规划和单位控制的启发式博弈树搜索 [15],以及用于控制单个单位的神经进化方法 [16]。

作为一种智能学习方法,强化学习 ( RL ) 非常适合执行序列决策任务。在星际争霸微操任务中,RL 方法有一些有趣的应用。Shantia 等人使用在线 Sarsa 和带有短期记忆奖励函数的神经装配 Sarsa 来控制单位的攻击和撤退 [ 17 ]。它们利用视觉网格获取地形信息。这种方法需要手工设计,而且输入节点的数量必须随着单元的数量而改变。此外,他们还采用增量学习方法将任务扩展到具有 6 个单元的更大场景中。但是,增量学习的成功率仍然低于 50 %。温德尔等人在微操作中使用不同的 RL 算法,包括 Q 学习和 Sarsa [ 18 ]。他们控制一个强大的单位对抗多个彼此之间不存在协作的弱单位。

在最近的几年里,深度学习在处理复杂问题上已经实现了令人瞩目的成果,也大大提高了传统强化学习算法的泛化能力和可扩展性 [5]。深度强化学习(DRL)可以让智能体学习如何通过端到端的方式在高维状态空间中做出决策。Usunier 等人提出了一种通过深度神经网络进行微操作的强化学习方法。他们使用 greedy MDP 在每个时间步上有顺序地为单位选择动作,通过零阶优化(zero-order optimization)更新模型。这种方法能够控制玩家拥有的所有单位,并检视游戏的全局状态。Peng 等人则使用 actor-critic 方式和循环神经网络(RNN)来打星际争霸的对战(参见:阿里人工智能新研究:在星际争霸中实现多兵种协同作战)。单位的控制由隐藏层中的双向 RNN 建模,其梯度更新通过整个网络高效传播。另一方面,与 Usunier 和 Peng 设计集中控制器的工作不同,Foerster 等人提出了一个多智能体 actor-critic 方法来解决去中心的微操作任务,这种方法显著提高了集中强化学习控制器的性能 [22]。

对于星际争霸的微操,传统方法在处理复杂状态、行动空间和学习合作策略方面存在困难。现代方法则依赖于深度学习引入的强大计算能力。另一方面,使用无模型强化学习方法学习微操通常需要大量的训练时间,在大规模场景中,这种情况更为明显。在中科院自动化所的新研究中,研究人员试图探索更高效的状态表示以打破巨大状态空间引发的复杂度,同时提出了一种强化学习算法用以解决星际争霸微操中的多智能体决策问题。此外,研究人员还引入了课程迁移学习(curriculum transfer learning),将强化学习模型扩展到各种不同场景,并提升了采样效率。

行业新闻更多>>
户外运动更多>>