《王者荣耀》迎来大结局？最强AI分分钟教你做人

2020年12月16日 334点热度 0人点赞 0条评论

11月28日，对于热衷在王者峡谷里组队开黑的《王者荣耀》玩家来说，是个让人又爱又恨的日子，因为那个难度变态的“绝悟挑战”回来了，增加到了二十关，每一关的敌方阵容都不一样，难度也在呈几何级数上升。你在游戏中要面对的，不是狡猾的最强王者小学生，而是“绝悟”——由腾讯 AI Lab 与王者荣耀联合研发的策略协作型 AI。

"绝悟挑战”对于许多《王者荣耀》玩家来说，是一种“分分钟被教做人”的体验 | 腾讯AI Lab供图

更恐怖的是，腾讯官方宣布，“绝悟”刚刚升级为“绝悟完全体”，创新算法突破了可用英雄限制（AI能够使用的英雄池数量从40增为100以上），让 AI 完全掌握所有英雄的所有技能，能掌握高达10^15 （算算有多少个零）种英雄组合数变化！

有些玩家谑称，面对“绝悟完全体”，终于体会到了柯洁面对Alpha Go时的心情：“被赤裸裸地碾压，感觉游戏就要迎来大结局——堪比职业选手的配合，零延迟的反应速度，让你无法动弹直到死去的控制链，一招一式中都蕴含着精确至极的伤害计算。”一位已经到了星耀段位的知乎网友这样吐槽“绝悟完全体”的比赛风格。

“绝悟”控制的太乙真人，会在敌人对自己造成致命伤害的最后0.1秒放出大招，把一个主动卡时间的复活玩成苏烈的被动复活

根据统计，今年5月，“绝悟”在《王者荣耀》游戏内，与高水平真人玩家对抗了642,047局，胜率高达97.7%，这已经不是碾压，更像是一场屠杀，和它交手过的玩家都在怀疑人生：“是我太菜？还是我之前玩的是假王者？”

拟人化学习：从青铜小强到最强王者

从理论上讲，让AI学会玩“王者”和教它下围棋，在底层理论上别无二致，都是一种探索-发现机制：让AI探索外部环境、得到反馈、然后根据反馈调整策略进行输出、力争完成预定目标。不过，像《王者荣耀》这种5对5的即时MOBA类游戏，其策略多样性和游戏环境的不确定性，比围棋复杂太多，因为玩家需要操作角色作出移动、探索、攻击、打开商店等动作，同时还要与队友进行合作，兼顾各种长期目标（比如推掉对方水晶）以及短期目标（打野拿buff和经验），如此多的决策路径，会让人类新手玩家头晕脑胀，难以兼顾，更遑论“智力”还处于小孩阶段的AI了。

自诞生以来，“绝悟”的English一直在以惊人的速度增长 | 腾讯AI Lab供图

虽然美国知名人工智能初创公司OpenAI，在2018年就尝试开发了针对MOBA类游戏DOTA2的AI策略模型，在一系列赛事中取得了不错的成绩，但其仅支持小规模英雄池（17个），英雄池扩展对于人工智能学习框架来说，依旧是个高难度的挑战。那么，对于AI这个“笨小孩”来说，如何把它调教成一名“农药高手”呢？腾讯AI Lab的技术人员透露说，“绝悟”背后的算法是强化学习技术，它源自心理学中的行为主义理论，目标是让AI实现“拟人化学习”。

“绝悟”进行拟人化学习的流程架构图 | 腾讯AI Lab供图

首先，研究人员把游戏中的一切元素，都抽象为各种集合（特征），让AI进行记忆。其中，我方英雄，敌方英雄，包括拥有运动和速度属性的单位，称为向量特征，地形元素和水晶塔等静止单位称为图像特征，再让AI了解这些要素之间的“相生相克”。同时，还要教会AI兼顾全局和当下，既要赢得比赛，又不过度计较一塔一血的得失。

由于游戏中包含的变量和元素实在太多，腾讯AI Lab又在训练“绝悟”时引入了“长短时记忆网络”，说白了，就是要让“绝悟”在学习中，记住那些重要的知识点，忘掉那些次要的，实现“抓大放小”。

在与真人玩家对战中，通过精确化操控，绝悟的公孙离使出完美连招一秀三反杀 | 腾讯AI Lab供图

更可怕的是，“绝悟完全体”能够掌握10^15 种英雄组合，使得真人玩家基本无法靠阵容组合实现克制。这是如何做到的呢？腾讯AI Lab表示，为了应对多英雄组合问题，技术团队引入了“老师分身”模型，就好比《射雕英雄传》里江南七怪教郭靖：首先，分别训练单个AI使用某一英雄阵容，直到精通，例如代号00001的AI，只负责熟悉安琪拉、妲己、王昭君领衔的“草丛三姐妹”，代号00002的AI专练阿轲、兰陵王领衔的“隐身组”……最后，再引入一个AI，作为学生，模仿先前学习所有的AI老师。这样，“绝悟”就掌握了所有英雄全部组合的各项技能。

接下来，和普通真人玩家一样，“绝悟”还要在不断地对局中练手，才能越战越强，从青铜菜鸟向荣耀王者一步步地迈进。当然，“绝悟”不可能自己跑到游戏里，厚着脸皮呼唤陌生的小姐姐带自己上分，他只能在家里“左右互搏”：和自己的分身进行对抗，从而积累游戏经验，优化策略。最后的结果自然就是，人工智能通过人类无法实现的精确微操作和最优长期策略，牢牢把控整个游戏进程，可以轻松以丝血反杀玩家，而人类只能实现三大错觉之一：“我觉得我能翻盘”！

AI与玩家，到底谁套路了谁？

不过，早期的“绝悟”在“经验”上并不丰富，所以有时会因为“套路明显”而落入真人玩家的陷阱。一些玩家在与“绝悟”交手后，迅速总结出了一些AI游戏操作的规律，诸如“有龙必开，从不蹲草”等等，从而使得真人玩家在早期的“绝悟挑战”中，能够料敌机先，增加自己击败AI的可能性。

对此，腾讯AI Lab的技术人员表示，这是早期AI策略设置中不可避免的现象。对于AI这个“笨小孩”来说，为了让它朝着战胜对手的最终目标前进，就必须给它设定各种“加分小目标”，让它为了“得分”而反复朝着一个大致方向进行探索，试错。

在王者荣耀中，无论是获取经验、打龙、推塔，或是击杀地方英雄，都可以看做是技术人员为AI设定的“加分目标”，同时这些“加分目标”也被设置了不同的权重，这样做的好处，就是给AI指出了一条策略选择的“光明之路”，缺点，自然是让AI的游戏策略显得墨守成规，“有迹可循”。

近期，关于绝悟AI深度学习机制的论文，已经被NeurIPS 2020收录 | 腾讯AI Lab供图

为何要开发“绝悟”？当然不是单纯为了碾压玩家，打击大家“开黑”的信心。腾讯AI Lab表示，像《王者荣耀》这样的复杂游戏，是训练AI分析决策的绝好平台，从而让我们距离攻克 AI 终极难题——通用人工智能（AGI）更近一步。乐观一点想，虽然人类可能在游戏世界里被AI轻松秒成渣，但换来的却是AI能够在各个方面，以完美的方式完成其他复杂困难的任务，这样一来，占便宜的依旧是我们，狡猾的人类。

（感谢腾讯AI Lab提供的资料和大力帮助）

作者：棉猪

编辑：odette

一个AI

万年青铜段位的我连眉毛都不带皱一下的

本文来自果壳，未经授权不得转载.

如有需要请联系[email protected]