网易游戏用19个案例告诉你，怎么用AI技术赋能游戏-网易游学-为热爱赋能

网易游戏用19个案例告诉你，怎么用AI技术赋能游戏

林悦

2021-06-0427921次浏览

0评论

10收藏

3点赞

4月27日，2021 N.Game网易游戏开发者峰会（以下简称峰会）在线上举行。

在第二天的技术论坛上，网易互娱AI Lab技术总监林悦发表了题为《当游戏遇见AI》的演讲，就AI在美术资源的制作、玩家体验的优化、游戏运营及营销的支持等多个方面的探索成果进行了分享。

为了提升阅读体验，内容有所删减，以下是手游那点事整理的演讲全文：

大家好，我是来自网易互娱AI Lab的林悦，很荣幸能够和大家分享我们的一些成果。今天我分享的题目是《当游戏遇见AI》，会对网易互娱AI Lab是如何利用AI技术赋能游戏研发和运营进行介绍。

一、AI与游戏的渊源

其实AI与游戏一直都是密不可分的，在这方面人类也已经做了很多探索。

早在1952年，科学家们就已经尝试利用AI技术让机器打败人类。最近特别有名的几个机器人，包括在围棋界搅动风云的AlphaGo，AlphaZero；以及在星际争霸中扬威的AlphaStar，在德扑中击败全球顶尖玩家的Pluribus。

这些机器人的最终目标都是击败职业玩家，从而证明AI的决策能力和计算能力。

除了游戏AI这个方向外，人们也发现，通过对2D、3D的视觉技术以及语音处理、自然语言处理等其他一些AI技术的运用，完全可以优化玩家的游戏体验，这也将是AI技术更大的价值所在。

我们互娱AI Lab从成立起就致力于将AI赋能于游戏，将技术落地。这里列的也是我们在游戏领域应用方面一些落地的思考和洞见。

从美术资源制作到游戏体验优化到运营和营销，AI能够在游戏的各个领域赋能，帮助降低开发的成本，大幅提高生产的品质和效率。我们希望通过领先的AI技术推动产业的技术革新，为游戏行业带来新的破局点。

二、AI赋能于游戏，降低研发成本

网易互娱AI Lab在成立的时候，主要目标是降低游戏的研发成本。考虑到现阶段高昂的游戏研发成本，在降低成本方面我们做了许多尝试和探索。下面就给大家介绍一些具体的实践场景，也会针对一些固定场景做出简单的技术介绍。

（1）语音驱动嘴型动画技术

首先我们在这里介绍的是语音驱动嘴型动画技术。

游戏内容对于角色人设是非常看重的，这就需要大量的剧情动画来完善游戏角色的人设。为了让角色栩栩如生，游戏公司需要为这个角色录制大量的声优对白，当游戏角色念这些对白的时候，策划也非常希望这些角色能够拥有比较生动的面部表情和正确的嘴型。

但是嘴型和面部表情的制作成本是非常高的，目前AI技术已经可以根据语音生成对应的表情及口型。这就大大提高了美术的动画制作效率，也降低了制作成本。目前这项技术已经在网易多款游戏中落地，像已经上线的《梦幻西游三维版》、《时空中的绘旅人》以及《神都夜行录》等等。

目前这项技术已经非常的robust，它支持不同的引擎，像我们自研的弥赛亚、NeoX引擎，包括其他商用引擎。已经能够支持多语言，包括中、英、日、韩等。无论是说话还是歌唱，这项技术都能够完美地去对齐嘴型并生成相应的表情。

当有的游戏还没有对应语音文本的时候，我们也可以通过这项技术生成对应嘴型动画。针对不同的游戏风格和类型，比如2D、3D、二次元、写实、古风等等，生成的嘴型和表情都有比较好的效果。

这里对背后技术进行简单的介绍，整个的流程就像是这样。

首先我们需要制作一些嘴型模板，当然语言不同所使用的模板也会有一些差异。在实操过程中，我们需要同时输入语音以及对应文本，通过语音识别技术，按帧来做对齐，不同的帧会对齐不同的音素。根据对齐的结果，我们用模板融合权重生成的算法，计算出每一帧所对应的嘴型模板，最终输出为整个嘴型动画帧。

前面我们也提到过可以不直接提供语音文本，这时候通过运用语音识别技术比如结合CTC加边界检测的算法，一样可以做到自动生成嘴型的效果。

（2）风格化头部模型生成

第二个要介绍的技术是风格化头部模型生成。

目前游戏领域中Avatar除了写实风格以外，还会有比如日系卡通、美式卡通、科幻以及唯美等多种不同的游戏风格。相较于真实模型，这一类可参考的头部模型比较少，所以对于美术来说，制作头部模型会有比较高的成本，同时周期会延长，流程也会更慢。

针对这个问题，我们自研了一个风格化头部模型生成的算法。工作室只需要提供少量的符合游戏风格的头部模型，就可以批量化地生成同风格的头部mesh。

下面展示的是两个例子。

第一个例子是和《猎手之王》的合作，左上角是制作方提供给我们的游戏角色资源。在实际运用过程中，我们只需要输入真实图像，就能生成和游戏风格一致的头部模型，当然还需要制作方再去进行微调。

第二个例子可能会对这个技术展示得更清晰。这是和《故土》这款游戏的合作，这款游戏的脸模风格非常有特点，根据这些游戏角色资源，算法就能够做出对应的效果。在把整个头部模型生成出来之后，就可以直接放入到游戏里，从而生成符合游戏风格的不同的NPC资源。

这里也简单介绍一下整个流程。首先输入一张图，我们需要对其进行模板预处理，接着做人脸检测和人脸关键点的对齐，然后是3D人脸重建。

因为人脸重建的结果和制作方提供的头部模型的拓朴很大概率会不一样，所以我们还需要做一个步骤，叫做拓扑对齐。

下一步非常重要，叫做形状风格化。即根据制作方提供的脸模进行风格化，对3D模型进行风格转变，并生成对应的纹理风格化贴图，最后输出资源给游戏方。

这里展示的就是拓扑对齐的这一步。

重建的人脸和游戏制作方提供的人脸风格分别是下面左边的两个图。我们需要通过mesh deformation的方案，把这两个拓扑完全不一样的脸模进行拓扑对齐。

然后再根据一些特征规则和组合部件的方式，先分解五官，再按不同的五官顺序进行组合，最后添加脑壳，使得生成形象符合游戏风格。

（3）面部动捕技术

近些年，用户也非常喜欢运用智能手机直接捕捉自己的表情，并通过一些APP去制作虚拟角色的表情动画。针对这一点，网易互娱AI Lab自研了一项面部动捕技术。

这个技术既可以用于离线表情资源制作，也可以用于游戏中实时捕捉玩家表情，譬如说制作玩家特有的表情动画，或者制作UGC内容。

我们这里看一个例子。

大家可以看到，在捕捉这些细微表情时，面部动捕技术是非常准确的。这项技术也和浙江卫视合作过，为他们跨年晚会的虚拟形象“万一”提供技术支持。可以看到技术捕捉的整个嘴型和面部都是非常自然的。

当然这项技术背后还是有非常多细节。首先我们制作了属于网易互娱AI Lab的人头数据库，其中包含了500个通过高精度面部扫描仪得到的不同的人头数据。然后通过对布线的整理，进行重拓扑，再结合不同的表情构建出我们自己的数据库。

下面是一个表情捕捉的实际流程。

因为求解表情系数是一个非线性优化的问题，它的效果很大程度上取决于人脸特征点。为了得到更好的效果，我们自己研发了一个轻量级、高精度的人脸关键点追踪系统，对细致表情进行定位。针对眨眼检测、视线跟踪和舌头检测这些，我们也分别训练了不同的网络进行精准跟踪和捕捉。

（4）动捕去噪技术

传统的动作捕捉存在非常多人工环节。当我们做完整个动捕数据后，后期需要非常多美术外包修正，因为得到的结果很可能并不非常连贯，也会有抖动情况。

实际上AI技术可以优化大量的美术外包工作。我们在今年的SIGGRAPH上发表了一篇动捕论文，大家有兴趣可以看一下。

这个算法可以针对不同的动捕效果进行后期优化，当具有一定的噪声的时候，我们的算法明显优于目前已有算法的效果，这边展示两个对比的例子。目前已有的算法优化出来依旧有脚步抖动的情况，但我们的算法呈现出的连贯性非常好。

（5）视频动捕

下一个介绍的技术叫视频动捕。因为前面提到过传统的硬件动捕需要非常大的拍摄空间，还需要很多高速摄像机，还需要演员去演绎。再加上复杂的后期处理，整个周期就会很长，成本也会很高。

但是通过动作迁移技术，即使是普通摄像头拍摄的RGB视频，也能可以用于捕捉动作，算法可以直接从视频中提取出动作序列，然后制作方就可以直接把动作序列放入到相应的游戏角色中。玩家也可以制作自己喜欢的动作，比如说胜利和庆祝的动作等等。

这项技术还可以用于营销上的产出。我们这里以《天下3》跳舞视频效果为例。可以看到通过一个很简单的RGB视频，就能从中分析出整个动作序列，并将其植入游戏角色。

整个流程是这样一个顺序。

首先，我们需要对第一帧进行人的检测，就是Detection的过程，然后需要做人体2D关键点的定位。因为在第一帧，我们已经通过Detection对人的位置进行了检测和定位，后面的帧，我们直接可以直接用tracking的方式去跟踪就可以了。

在2D Pose Estimation之后，因为本身是一个RGB视频，但我们最后需要的是3D的结果，所以还会有3D Pose Estimation的过程，才能得到3D点。

因为我们是以帧为单位获取结果，所以帧与帧之间信息可能没有被充分利用到，就会有一些抖动，因此还会有Refinement的过程，将视频动作进行平滑处理。

接着，再把3D的点Reprojection到2D点的位置上进行比对，以及需要一个后处理的算法，对美术比较关心的，像重心、脚步、还有胯部等多个细节进行自动修正。

（6）自动插帧

下面介绍的这项技术叫做自动插帧。

一款二次元游戏中会包含大量的动态图，而每一个动态图都需要美术一帧帧地去手K。为了提升美术的速度，我们开发了一个工具。

原来美术手K一个1秒30帧的动画，需要很长的时间。现在通过这个算法，我们只需要美术手K第一帧和最后一帧，中间的其他帧可以用算法直插帧进去，达到提升效率的目的。

比如说展示的两个动态图，左边实际都是美术手K的效果，右边是运用算法的效果，就是美术只提供了第一帧和最后一帧，其余都是算法自动完成。可以看到它们的效果没有很大的差别。

（7）资源超分

下一个技术是资源超分。

其实国内外很多游戏公司都会对这个课题进行探索和尝试，因为对游戏公司而言，随着时间推移，游戏品质也是需要提升的。针对过去的游戏纹理资源，游戏公司需要做升级。

这里展示的是国外已经PR过的一些效果，比如说像《重返德军总部》，还有《毁灭战士》等等。他们都是运用这项技术快速重制资源，改善了玩家的游戏体验。

那我们也和《天下3》合作过，通过对旧的纹理资源的资源超分和去噪处理，升级了游戏资源的纹理。大家可以看到通过运用这个算法，游戏纹理的精细度提高了非常多。整个过程完全由算法实现，不需要美术参与。

（8）贴图变换

下一个介绍的技术和贴图变换相关。

现在非常多游戏，会通过卖服饰或者是武器和皮肤等营收。而很多策划对于新服装本身是很有想法的，但不可能让美术实现策划的每个想法，然后再去进行比对，选出最好的放到游戏给玩家购买，因为这样非常消耗成本。

针对这一情况，我们提供了设计了一个算法，可以根据真实服饰的图片生成纹理，然后放入3D模型，这样策划就可以非常快并且很直观地看到最终效果。

包括武器皮肤也是一样，策划输入他希望得到的武器新皮肤的大体配色的图片，即可快速生成预览效果。根据这样的效果图，制作团队可以更有效率地做决定。

三、AI赋能游戏，优化玩家体验

除了第一部分介绍的降低开发成本的探索和尝试以外，我们也在思考第二个问题，就是怎样运用AI技术带给玩家新的游戏体验？

（1）优化匹配机制

常规的匹配基本上都是根据战力来做，但我们发现除了战力的均衡外，有些社交上的目标匹配也是会给游戏带来比较好的结果。譬如说之前不认识的玩家，在打完几局游戏后，他们可能会组成小队或者加好友，然后一直玩下去，这样对整个游戏也是有积极作用的。

所以在匹配算法上，我们也做了非常多优化尝试，加入了很多社交目标。实际运用过程中，我们发现这些加入考虑的这些因素，对游戏内部玩家的社交沉淀有很大的正面影响。

（2）自动捏脸

现在非常多游戏都有捏脸系统，也成了很多游戏，尤其是MMORPG的标配。在捏脸的过程中，有的玩家想把角色捏成自己的样子，有的玩家希望把角色捏成某个爱豆的模样。但是部分玩家可能并不擅长做这件事情，就此我们设计了自动生成捏脸效果的算法。

这时候，玩家只需要上传自己的或者是某个爱豆的图片，算法就会直接找到最优的捏脸参数并在游戏中一键生成。这个技术也已经落地了，像在《一梦江湖》等游戏里已经应用。

（3）语言交互功能

语音交互的功能在我们现实生活中已经很常见了，我们也和非常多的工作室实现了语音交互和操控这样方面的一些技术落地和应用。

这边可以看三个例子。

第一个例子是《明日之后》，主要做的就是人和宠物之间的简单沟通和交互。

第二个例子是《哈利波特：魔法觉醒》飞行课学习的例子。在游戏中这堂“飞行课”中需要玩家念指定咒语，系统会判断玩家念的咒语是否正确。

下面有一个更有趣的例子。我们为《机动都市阿尔法》做了语音唤醒和语音匹配功能。玩家可以通过语音操控的方式释放技能，操控技能的语音也完全是自定义匹配的。

就是说，玩家想用什么语音命令来驱动游戏角色，完全可以自定义，在实际的操作过程中玩家喊出来就可以了，系统会自动识别这个指令，并释放技能。

在识别过程中，系统能够对声音的来源进行判断，即使说出了命令，但不是录入指令的玩家的声音，系统也不会对其作出反应。关于这个技术我们在语音顶会INTERSPEECH 2020里也发表了，大家有兴趣可以去看一下。

（4）基于音乐的舞蹈生成

下一个要介绍的就是自动生成舞蹈的功能。因为一些二次元的内容非常受欢迎，游戏方也会想要这样的一个功能，用于游戏资源的产出以及提供这样的UGC产出渠道。针对这一需求，我们研发了基于音乐生成舞蹈的功能，相关的技术也发表在今年的SIGGRAPH里面。

我们可以看两个不同的例子。首先第一个，这是基于英文歌曲生成的舞蹈，可以看到节奏点是非常准确的。

除了英文歌曲，这项技术还能够实现中文歌曲的效果。针对不同的音乐类型，也会呈现出不同的舞蹈效果。

目前这项技术已经应用于《黑潮之上》，用来生成游戏里需要的舞蹈资源。只需要输入一段音乐，就可以对应生成角色舞蹈。

（5）文本生成

此外，我们也利用非常多的NLP相关技术和游戏工作室合作，为他们游戏中的功能提供技术支持，譬如生成对联、自动写诗以及风格化昵称推荐，都是基于NLP的技术支持。

（6）语音合成

语音合成也是一直我们在探索并尝试落地的技术。通过深度学习的方案，我们能达到比较好的语音合成效果。

大家可以看《决战！平安京》剧情编辑器的例子，这一段整个就是合成的，包括编辑器所有的音色，玩家可以自主选择用于编辑剧情。

同时在系统提示音方面，也可以直接通过这项技术实时生成。这里我们找了一个吃鸡的视频，然后里面去简单做一些配音，大家可以看一下。

这里的数字基本都是动态的，整个语音都是实时生成。

我们一直希望能够用最少的音频数据去做出质量比较好的合成效果，相关的一些技术也发表在INTERSPEECH 2020里面，大家有兴趣的话可以去看一下。主要的做法就是通过对未标注的非平行数据进行预训练，使它整体的合成效果变得更好。

（7）音色转换

音色转换也是比较热门的研究方向，这在狼人杀游戏里非常有前景。试想一下，当你在玩狼人杀游戏时，能够用柯南的音色来玩，那会不会大大增加游戏的趣味性呢？

这里可以看一个例子，是原声和目标音色之间的转换效果。可以看到，这项技术可以比较好地保留说话人的情绪以及内容。

（8）平衡性测试

在游戏领域内，基于强化学习我们进行了很多不同的尝试和应用，其中就包括平衡性测试。

比如说赛车游戏，策划设计的时候会有很多不同的车辆参数以及不同的赛道，那策划也很想知道车辆在这些赛道中的实际表现究竟如何。通过AI技术，就可以快速生成赛道和车辆之间不同的组合效果。

又比如说卡牌游戏，当在修改数值之后，对整个游戏的平衡性会产生多大影响不明确的时候，也可以通这项技术，模拟测试并将数据反馈给策划。

值得一提的是，我们在参加谷歌足球AI比赛的时候，我们发现了一些有趣的内容。在整个比赛里并没有玩家的数据可以学习，但AI能够通过自动学习出许多有趣的决策。

比如“过人”，在这个游戏里并没有“过人”键，但AI通过自动学习会“左右晃”去摆脱防守队员。像“下底传中”这样的技术，AI也能学会。甚至能够学会反击，比如“单刀球”这样的形式。防守的时候，AI能够主动铲球等等，其实都是算法自动学习的成果。

四、AI与游戏运营和营销

最后是AI在运营和营销方面的尝试和运用。

（1）游戏环境监控平台

我们会用AI技术去做图像文本以及语音方面的一些内容检测，去净化整个游戏环境，防止玩家上传一些不合规的图或者是一些影响玩家体验的语音内容。

这里面会涉及到像图像识别，物体检测，人脸检测与识别，OCR，文本分类，语音识别等各种AI方向的技术。

（2）用AI换脸做营销活动

我们也和很多工作室合作过AI换脸技术，并利用这项技术展开营销活动。比如玩家可以上传照片替换海报中的人脸，获取自己的游戏形象，这就大大增强了玩家的热情和参与度。

（3）通过AI综合技术打击外挂

最后，也是很重要的一点，就是我们会配合工作室、游戏程序和游戏运营，利用异常行为检测和视觉技术，对游戏中的外挂、作弊行为进行监控和打击，保证整体游戏环境的良好。

以上就是我今天和大家分享的关于网易互娱AI Lab在这段时间内做的AI赋能于游戏的尝试和思考，也希望未来能有更多成果和大家分享，谢谢。

——以上内容转载自公众号“手游那点事”

0/1000

网易游学APP

为热爱赋能

扫描二维码下载APP