《王者荣耀》迎来大结局? 最强AI分分钟教你做人

2020年12月16日 214点热度 0人点赞 0条评论

11月28日,对于热衷在王者峡谷里组队开黑的《王者荣耀》玩家来说,是个让人又爱又恨的日子,因为那个难度变态的“绝悟挑战”回来了,增加到了二十关,每一关的敌方阵容都不一样,难度也在呈几何级数上升。你在游戏中要面对的,不是狡猾的最强王者小学生,而是“绝悟”——由腾讯 AI Lab 与王者荣耀联合研发的策略协作型 AI


图片

"绝悟挑战”对于许多《王者荣耀》玩家来说,是一种“分分钟被教做人”的体验 | 腾讯AI Lab供图


更恐怖的是,腾讯官方宣布,“绝悟”刚刚升级为“绝悟完全体”,创新算法突破了可用英雄限制(AI能够使用的英雄池数量从40增为100以上),让 AI 完全掌握所有英雄的所有技能,能掌握高达10^15 (算算有多少个零)种英雄组合数变化!


有些玩家谑称,面对“绝悟完全体”,终于体会到了柯洁面对Alpha Go时的心情:“被赤裸裸地碾压,感觉游戏就要迎来大结局——堪比职业选手的配合,零延迟的反应速度,让你无法动弹直到死去的控制链,一招一式中都蕴含着精确至极的伤害计算。”一位已经到了星耀段位的知乎网友这样吐槽“绝悟完全体”的比赛风格。


“绝悟”控制的太乙真人,会在敌人对自己造成致命伤害的最后0.1秒放出大招,把一个主动卡时间的复活玩成苏烈的被动复活


根据统计,今年5月,“绝悟”在《王者荣耀》游戏内,与高水平真人玩家对抗了642,047局,胜率高达97.7%,这已经不是碾压,更像是一场屠杀,和它交手过的玩家都在怀疑人生:“是我太菜?还是我之前玩的是假王者?”

拟人化学习:从青铜小强到最强王者

从理论上讲,让AI学会玩“王者”和教它下围棋,在底层理论上别无二致,都是一种探索-发现机制:让AI探索外部环境、得到反馈、然后根据反馈调整策略进行输出、力争完成预定目标。不过,像《王者荣耀》这种5对5的即时MOBA类游戏,其策略多样性和游戏环境的不确定性,比围棋复杂太多,因为玩家需要操作角色作出移动、探索、攻击、打开商店等动作,同时还要与队友进行合作,兼顾各种长期目标(比如推掉对方水晶)以及短期目标(打野拿buff和经验),如此多的决策路径,会让人类新手玩家头晕脑胀,难以兼顾,更遑论“智力”还处于小孩阶段的AI了。


图片

自诞生以来,“绝悟”的English一直在以惊人的速度增长 | 腾讯AI Lab供图


虽然美国知名人工智能初创公司OpenAI,在2018年就尝试开发了针对MOBA类游戏DOTA2的AI策略模型,在一系列赛事中取得了不错的成绩,但其仅支持小规模英雄池(17个),英雄池扩展对于人工智能学习框架来说,依旧是个高难度的挑战。那么,对于AI这个“笨小孩”来说,如何把它调教成一名“农药高手”呢?腾讯AI Lab的技术人员透露说,“绝悟”背后的算法是强化学习技术,它源自心理学中的行为主义理论,目标是让AI实现“拟人化学习”


图片

“绝悟”进行拟人化学习的流程架构图 | 腾讯AI Lab供图


首先,研究人员把游戏中的一切元素,都抽象为各种集合(特征),让AI进行记忆。其中,我方英雄,敌方英雄,包括拥有运动和速度属性的单位,称为向量特征,地形元素和水晶塔等静止单位称为图像特征,再让AI了解这些要素之间的“相生相克”。同时,还要教会AI兼顾全局和当下,既要赢得比赛,又不过度计较一塔一血的得失。


由于游戏中包含的变量和元素实在太多,腾讯AI Lab又在训练“绝悟”时引入了“长短时记忆网络”,说白了,就是要让“绝悟”在学习中,记住那些重要的知识点,忘掉那些次要的,实现“抓大放小”


在与真人玩家对战中,通过精确化操控,绝悟的公孙离使出完美连招一秀三反杀 | 腾讯AI Lab供图


更可怕的是,“绝悟完全体”能够掌握10^15 种英雄组合,使得真人玩家基本无法靠阵容组合实现克制。这是如何做到的呢?腾讯AI Lab表示,为了应对多英雄组合问题,技术团队引入了“老师分身”模型,就好比《射雕英雄传》里江南七怪教郭靖:首先,分别训练单个AI使用某一英雄阵容,直到精通,例如代号00001的AI,只负责熟悉安琪拉、妲己、王昭君领衔的“草丛三姐妹”,代号00002的AI专练阿轲、兰陵王领衔的“隐身组”……最后,再引入一个AI,作为学生,模仿先前学习所有的AI老师。这样,“绝悟”就掌握了所有英雄全部组合的各项技能。

接下来,和普通真人玩家一样,“绝悟”还要在不断地对局中练手,才能越战越强,从青铜菜鸟向荣耀王者一步步地迈进。当然,“绝悟”不可能自己跑到游戏里,厚着脸皮呼唤陌生的小姐姐带自己上分,他只能在家里“左右互搏”:和自己的分身进行对抗,从而积累游戏经验,优化策略。最后的结果自然就是,人工智能通过人类无法实现的精确微操作和最优长期策略,牢牢把控整个游戏进程,可以轻松以丝血反杀玩家,而人类只能实现三大错觉之一:“我觉得我能翻盘”!

AI与玩家,到底谁套路了谁?

不过,早期的“绝悟”在“经验”上并不丰富,所以有时会因为“套路明显”而落入真人玩家的陷阱。一些玩家在与“绝悟”交手后,迅速总结出了一些AI游戏操作的规律,诸如“有龙必开,从不蹲草”等等,从而使得真人玩家在早期的“绝悟挑战”中,能够料敌机先,增加自己击败AI的可能性。

对此,腾讯AI Lab的技术人员表示,这是早期AI策略设置中不可避免的现象。对于AI这个“笨小孩”来说,为了让它朝着战胜对手的最终目标前进,就必须给它设定各种“加分小目标”,让它为了“得分”而反复朝着一个大致方向进行探索,试错。

在王者荣耀中,无论是获取经验、打龙、推塔,或是击杀地方英雄,都可以看做是技术人员为AI设定的“加分目标”,同时这些“加分目标”也被设置了不同的权重,这样做的好处,就是给AI指出了一条策略选择的“光明之路”,缺点,自然是让AI的游戏策略显得墨守成规,“有迹可循”。


图片

近期,关于绝悟AI深度学习机制的论文,已经被NeurIPS 2020收录 | 腾讯AI Lab供图


为何要开发“绝悟”?当然不是单纯为了碾压玩家,打击大家“开黑”的信心。腾讯AI Lab表示,像《王者荣耀》这样的复杂游戏,是训练AI分析决策的绝好平台,从而让我们距离攻克 AI 终极难题——通用人工智能(AGI)更近一步。乐观一点想,虽然人类可能在游戏世界里被AI轻松秒成渣,但换来的却是AI能够在各个方面,以完美的方式完成其他复杂困难的任务,这样一来,占便宜的依旧是我们,狡猾的人类。


 (感谢腾讯AI Lab提供的资料和大力帮助)


作者:棉猪

编辑:odette

 一个AI 

万年青铜段位的我连眉毛都不带皱一下的

图片

本文来自果壳,未经授权不得转载.

如有需要请联系[email protected]

图片
87480《王者荣耀》迎来大结局? 最强AI分分钟教你做人

这个人很懒,什么都没留下

文章评论