让MMO再次伟大!网易互娱AI Lab在NeurIPS Neural MMO挑战赛以绝对优势夺冠
网易游学 · 2022-12-15 · 28931次浏览
1评论
2收藏
2点赞
分享
网易互娱又双叒拿奖了!
在国际人工智能顶级会议
NeurIPS 2022 Neural MMO挑战赛中
网易互娱AI Lab在包揽了所有赛事指标的第一名
以总分领先第二名129%的优势夺得冠军
击败了来自全球35个国家和地区的顶尖队伍!
比赛概况
近日,国际人工智能顶级会议NeurIPS 2022在美国新奥尔良落下帷幕,在本届会议举办的Neural MMO挑战赛中,网易互娱AI Lab从来自全球35个国家和地区的134支队伍中脱颖而出,以领先第二名得分129%的巨大优势夺得冠军,并强势包揽了所有赛事指标的第一名。
这是网易互娱AI Lab研发的Athena AI在连续夺得多项国际冠军后,再次登顶国际AI竞赛,同时也是继去年在NeurIPS MineRL挑战赛上首次教会AI在《我的世界》中挖到钻石后,连续两年获得NeurIPS竞赛冠军,彰显了网易互娱AI Lab在人工智能领域的综合技术实力。
本届比赛由超参数科技、麻省理工学院、清华大学深圳研究院和AICrowd联合举办,在今年的NeurIPS(Conference and Workshop on Neural Information Processing Systems)大会中举行。该会议是人工智能领域最重要的学术会议之一,和ICLR、ICML并称为机器学习领域的三大顶级会议。
本届比赛是Neural MMO系列挑战赛的第三届,由于新引入了装备系统、交易系统和毒圈机制,且地形环境也变得更为复杂,因此比赛难度相较于前两届大幅提升。本届比赛在两个半月的赛程内吸引了来自中国、美国、英国、法国、俄罗斯、加拿大、日本等世界各地的学术界和工业界的队伍,其中包括网易、腾讯、哔哩哔哩、InstaDeep、twosense.ai、CVTE、清华大学、浙江大学、香港中文大学、波士顿大学、爱丁堡大学、京都大学等,也包括了上一届Neural MMO挑战赛的冠军。
规则介绍
本次比赛所依托的环境Neural MMO最初由OpenAI于2019年发布,现由麻省理工学院继续开发和维护,是一个用于大规模多智能体研究的平台。
Neural MMO的设计灵感来自于大型多人在线角色扮演游戏(MMORPG),模拟出了一个在广阔且持续的环境中支持可变数量玩家互相竞争的大型生态系统。不同于Dota、星际争霸等AI已经取得领先人类水平的游戏场景,Neural MMO中的AI设计不光要考虑队伍内大量智能体之间的配合,还要考虑如何与其他十几支甚至更多的队伍进行竞争。
本次比赛的场景中,一共有128个智能体,分成16支队伍,每支队伍由8个智能体组成。每位参赛者需要控制其中的一支队伍在128x128大小的地图上和其他15个参赛者的队伍进行对抗。
比赛持续时间为1024步,智能体在每一步中可以同时执行多种操作,如移动、攻击目标选择、攻击类型选择、背包物品使用、从市场上购买物品、出售物品并对其进行定价等。
智能体可发起的攻击类型包括近战攻击、远程攻击和魔法攻击,三种类型为互相克制的关系。智能体还可以收集对应的武器和弹药来提升攻击力,同时也可以收集头盔胸甲等装备来提升的防御力。比赛开始后,每支队伍会随机出生于地图边缘,随着比赛进行,逐渐缩小的毒圈会迫使所有智能体向地图中心聚集,爆发更加激烈的对抗。每个智能体除了需要补充收集食物和水以保证基本生存外,还需要考虑很多复杂的长期决策问题,例如遇到敌人时判断是进攻还是逃跑、队友遇到危险时自己应该马上赶去帮忙还是继续击杀附近的NPC、如何找到进圈通道、背包装满后到底是卖掉弹药还是卖掉回复药水等等。
以下视频是来自Neural MMO作者本人对本次比赛规则的介绍:
Neural MMO系列赛事曾获得过国内多家主流科技自媒体的报道,在强化学习类比赛中知名度较高。
最终战况
比赛最终的排名由参赛队伍之间互相对抗(PvP)决定,每支队伍的得分由生存分和击杀分两部分组成,其中生存分主要根据队伍内存活到最后的智能体数量决定,存活的数量越多得分越高,而击杀分则是根据全队击杀敌方智能体的数量乘以0.5计算得到。
来自网易互娱AI Lab的队伍realikun在最终的PvP对抗中以8.86的生存分、19.18的击杀分,总分28.04分夺得冠军,分数甚至超越了第二三名的得分总和。值得一提的是,PvP环节中最初还额外设置了两个特别奖项,分别为坦克奖——用于奖励场均承受伤害最高的队伍,和打钱奖——用于奖励每局平均获得金钱数量最多的队伍。比赛初期大家普遍认为注重生存和击杀方面的队伍是难以承受更多伤害或是获取更多金钱的,奖项的设立旨在鼓励比赛中涌现出更加多样化的策略。
但从PvP的结果上看,网易互娱AI Lab最终同时包揽了生存、击杀、打钱、承伤所有四项赛事数据的第一名。
另外比赛还设置了两个PvE环节,用于帮助选手们在PvP前能有一个稳定的评估智能体水平的环境。网易互娱AI Lab也同样分别以63.50分和25.35分的分数大幅领先其他队伍占据榜首。
在PvE Stage 1中,智能体需要同其他15支队伍共120名由规则控制的智能体进行对抗,网易互娱AI Lab在保证获得最高生存分的情况下,每场平均击杀了其中107名敌方智能体。在PvE Stage 2中,其他15支队伍的智能体由主办方训练的神经网络控制,强度相较于上一阶段大幅提升,但网易互娱AI Lab在第二阶段发布后仅用六天时间就达到了Top1 ratio 1.0(在每场16支队伍中排名第一的概率为100%)的成绩,并一路占据榜首至比赛结束。
方案介绍
本次比赛中,网易互娱AI Lab整体采用了深度强化学习和规则相结合的方式构建Neural MMO版Athena AI智能体。其中强化学习部分使用了PPO(近端优化算法)在CTRL(Centralized Training based Reinforcement Learning)模式下进行自博弈训练,主要控制智能体在移动、选敌、补给道具的使用和交易这些方面做出决策,同时使用基于规则的方法控制了攻击方式、非补给道具的使用和交易、出价等,这样设计是因为:
1.Neural MMO中攻击方式涉及到智能体的职业成长,一旦选择一种主战攻击类型后再更换其他攻击方式收益较低;
2.使用盔甲、武器等非补给品也没有涉及到太过复杂的时机选择问题;
3.交易行为中尤其是出价所包含的动作空间巨大,让神经网络学习到正常的交易行为所需的训练代价远远超过移动、攻击等,但是对于最终智能体的强度提升却十分有限,因为在Neural MMO中取得胜利最为关键的要素是团队配合,而智能体之间的配合在很大程度上并不是依靠交易来完成的。
针对复杂的游戏机制,网易互娱AI Lab也相应地为Athena AI设计了精细的神经网络结构。
如图所示,网络主要由特征编码器、隐变量交互结构以及动作解码器三部分组成,其中隐变量交互结构中的Transformer和LSTM两大模块占据了整个网络的绝大部分参数量。队伍中每个智能体均由参数相同的一份网络副本所控制,网络根据不同的输入而使每个智能体做出各自的决策。
特征编码器将每个智能体的生命值和等级之类的标量特征、周围地图信息、历史动作信息、装备信息、动作掩码以及游戏进度等信息作为输入,其中部分特征会经过一些如ResNet的子编码器进行总结抽象后再和其他特征拼接输出。
隐变量交互结构是网络的核心部分,其中Transformer结构将每个智能体同其他友方单位、敌方单位和NPC利用自注意机制进行充分的特征交互,是增进智能体团队配合能力的重要组件,而LSTM结构通过引入历史特征进行交互,从一定程度上解决了Neural MMO中部分可观测的问题。
动作解码器将LSTM的输出分别映射为四种动作的选择,包括移动、目标选取、装备使用和售卖。四种动作均通过PPO分别独立优化。此外训练过程中还会将所有智能体的LSTM输出经平均池化后映射为一个联合的价值估计,使智能体具有团队意识。
此外为了进一步增强团队配合以及历史信息的使用,网易互娱AI Lab将表示智能体视野的二维特征大小从15x15扩充至了25x25,扩充的部分由来自队友的视野以及过去探索得到的信息进行填充,同时在原有的地形信息上,还额外设计了足迹、战争迷雾、毒圈信息等共计7个通道增强网络的表达能力。
网易互娱AI Lab使用了自研的分布式深度强化学习框架进行Athena AI的训练,该框架不但训练高效,也能支持同时模拟和数百种不同风格的对手进行对战的场景,因此能够在此次比赛中面对各种未知对手的情况下稳定取胜。相较于其他参赛队伍,网易互娱AI Lab的智能体也表现出了更加多样的策略,例如吃鸡类游戏中玩家经常使用的卡圈、堵圈以及借助地形完成十字围杀等高级战术。
值得一提的是,本次比赛中大部分队伍都会携带工具和弹药,分别在智能体靠近资源点时或接近敌方智能体时使用。
得益于自研框架强大的平衡性测试功能,网易互娱AI Lab发现由于每种等级的弹药和工具都会占用一格物品栏,但由于Neural MMO中数值设计的原因这些道具带来的提升十分有限,导致在和敌方智能体对拼时反而会因为没有携带足够的补给品率先阵亡。而每件补给道具虽然也要单独占用一格物品栏,但是能提供非常可观的回复能力。于是在比赛后期,网易互娱AI Lab大胆地放弃了比赛中主流的装备选择策略,转而让智能体携带更多回复道具,大幅提升了生存能力。
更加详细的技术方案介绍可以参见网易互娱AI Lab在本届NeurIPS上的报告视频:
比赛回放
以下是来自网易互娱AI Lab的队伍realikun在本届比赛最终PvP环节中的回放,通过这些场景我们可以大致感受到Athena AI的各种战术策略。图中智能体上方从上到下的绿色、黄色、蓝色槽分别表示血量、食物和水,地图上的阴影部分表示毒圈,越远离安全区毒圈伤害越高。
场景一:堵圈
passerby_82在被realikun_25追击后选择向上逃跑,这时遇到了前来支援的realikun_31。被上下包抄的passerby_82选择向远离安全区的方向继续躲避,但是逐渐加剧的毒圈伤害让passerby_82进退两难。
realikun_25和realikun_31并不急于完成击杀,而是一边刷NPC继续打钱,另一边等待passerby_82耗尽补给品。注意此时两名智能体所处的位置比passerby_82更加靠近安全区,同时不断试探、拉扯使passerby_82位于其视野范围之内,但又在射程范围之外。中途realikun_31由于所携带的补给品较少不希望承受过高的毒圈伤害而选择先行离开,留下的realikun_25则找准机会确定passerby_82补给品耗尽后主动进入射程内补刀拿下击杀分,随后快速离开并靠近安全区。
场景二:十字围杀
realikun_31偶遇zhangzhang_65,经过一番缠斗后依然难分伯仲,随后身处附近正在打钱的realikun_28和realikun_25闻讯赶到,抓住了对方的一个走位失误,借助周围的障碍物联手封死了zhangzhang_65的所有行动方向。尽管对方所携带的补给品数量较多,但最终还是寡不敌众。
场景三:开团
realikun_112在前期分散打钱过程中遇到组队抓单的passerby三人,随后迅速与附近的队友realikun_110汇合。由于两人目前所携带的道具还不够精良,人数上也不具备优势,因而选择先利用障碍物拉扯等待队友支援。随后队内大哥realikun_107赶到,主动吸引火力,此时realikun_112和realikun_110借机补充了一波食物和水后也前来应战。
很快又有三名附近的队友赶到战场,瞬间扭转了局势。随后全队选择继续追击附近的mori_89,但由于其护甲较高,在经历了数十回合后,全队借助了一个峡谷地形两路包抄完成击杀。
场景四:大局观
本片段从更宏观的视角展示了出生在地图左侧的realikun全队在该局比赛前600回合的战术安排。在开局前50回合内,由于单体战斗力较弱,realikun自发地从中分成了两个小队组队刷NPC。
在50-250回合,由于每个智能体已经积累了一定装备,这时他们选择了效率更高的分散打钱策略,但他们互相之间仍然保持在一定距离内,当遇到威胁时可以及时组成小队互相保护。第250回合后,这时装备已基本成型,每个智能体都具备较强的作战能力,此时团队目标转变为了主动搜寻其他玩家进行击杀,队伍的活动半径进一步扩大。
其他:来自Neural MMO作者本人的解说
此外,在本届NeurIPS比赛进行过程中,网易互娱AI Lab在PvE Stage 1中训练的另一支风格更加激进的AI队伍,受到了来自麻省理工学院的Neural MMO作者Joseph Suarez的关注。
以下视频片段是作者本人对于这支队伍在PvP模拟阶段的行为的分析。值得注意的是,虽然作者本人认为智能体携带低等级的武器可能是一个错误,但是网易互娱AI Lab平衡性分析的结果显示,由于高等级武器的掉率过低,与其花费时间收集武器不如专注于通过击杀NPC提升护甲和金钱。
展望未来,我们相信AI技术可以让MMO中的每一个游戏角色都拥有与真实世界逻辑更相符合的行为举止,而通过Neural MMO这个试验场我们也欣喜地看到了AI不仅能够掌握基本的资源获取、装备选择,也能借助地形完成十字围杀、卡圈、堵圈等高级战术。
相信在不远的未来,我们就能看到AI技术在MMO或是其他品类游戏中的更多应用。
关于互娱AI Lab和Athena AI系统
网易互娱AI Lab成立于2017年,隶属于网易互动娱乐事业群,是游戏行业领先的人工智能实验室。AI Lab所提供的人工智能服务包括计算机视觉、自然语言处理、语音信号处理、游戏AI多个方面。目前技术已应用于网易互娱旗下多款热门游戏,如《梦幻西游》、《哈利波特:魔法觉醒》、《阴阳师》、《大话西游》、《荒野行动》等等。
Athena AI是互娱AI Lab研发的游戏AI系统,应用了前沿的模仿学习、强化学习、进化学习算法实现游戏中的竞技对战,友好陪玩,平衡性测试等AI需求。目前已落地《梦幻西游》《哈利波特:魔法觉醒》《荒野行动》《颠峰极速》《决战!平安京》《指环王》《百闻牌》《网易棋牌》《超凡先锋》等多款游戏,涵盖棋牌、RPG、SLG、体育、卡牌、TPS等多种类的游戏。
评论 (1)