AI如何对抗Dota人类游戏高手？OpenAI这样回答

近日，知名AI专家Ilya Sutskever在硅谷园区举行的NVIDIA年度NTECH工程座谈会中畅谈了最新的Dota 2赛事。该活动吸引了数百名工程师以及上千名在线参与者，其中不乏游戏发烧友。

操作敏捷、创意十足、机智聪明，这些都是优秀游戏玩家的代名词。相比之下，机器就需要人向其传授如何赶超人类玩家，而这些人指的就是Ilya Sutskever和他的OpenAI团队。

今年8月，由五个神经网络组成的OpenAI Five战队在Dota 2这个广为流行的多人在线竞技游戏中，与全球数位顶级职业玩家对抗。

对于OpenAI Five来说，能够参加这个游戏领域的专业级比赛已经是一次飞跃。

Dota 2是一款极为复杂的游戏。为了赢得胜利，玩家可以随意使用战术，还可以自由交互。该游戏仅可见部分布局，这就要求玩家在每场持续45分钟的对决中将眼前的战术和长远的战略配合使用。“专业玩家们将自己的生活全部都献给了Dota 2，”Sutskever说道，“玩这款游戏可不是件容易的事。”

Dota 2抬高了AI参与游戏的门槛

OpenAI Five在Dota 2比赛中取得的成绩标志着人类与AI的竞技对战达到了一个全新的水平。在国际象棋和围棋这些同样是热门的AI挑战中，其平均走法分别为35和250。而相比之下Dota 2的游戏规则则更为复杂，每步约有17万种可能的走法，而每场比赛又需要走2万步。

Sutskever表示，鉴于Dota 2的复杂性，与AI此前挑战过的其他游戏相比，Dota 2更接近于现实世界。那么，他们是如何做到的呢？答案是大规模的增强学习（reinforcement learning）。

无论是对于人类还是机器而言，增强学习都很重要。我们在游戏中因为某种走法获得奖励积分，或因为另一种走法而功亏一篑，这些时刻都会被记录下来，为下一轮游戏提供增强学习的信息。

增强学习对于AI的重要性在于，这是一种非常自然的方式，可以训练神经网络做出行动以达成目标，而这也是构建智能系统所必须的。

OpenAI Five取得了相当喜人的成绩，这要归功于其大规模地运用了一套可靠的增强学习算法（近端策略优化），其运行于Google云平台中的1000个NVIDIA Tesla P100 GPU上。

从很早开始，NVIDIA就一直在为OpenAI提供支持，黄仁勋先生曾亲自为其赠送了第一台DGX-1 AI超级计算机。

GPU 挑战的历史

在利用GPU应对AI重大挑战方面，Sutskever早已轻车熟路。他是赢得著名的ImageNet竞赛的多伦多大学三位研究人员之一（其他两位分别是Alex Krizhevsky和导师Geoffrey Hinton），帮助他们斩获大奖的是其所开创的一款基于GPU的卷积神经网络。

该网络将错误率猛降近50%，并因此载入史册，开启了当代AI的热潮。

这就是现在的AlexNet，无数深度学习模型均以此为基础打造。在GTC 2018 上，黄仁勋先生提及了AlexNet对数以万计的AI模型的影响：“神经网络正以惊人的速度增长和发展。”

Sutskever表示，AI技术的飞跃与处理能力的提升密不可分。“值得一提的是，从最初的AlexNet到后来的AlphaGo Zero，计算量提升到了原来的30万倍。仅仅五年的时间，增量可以说十分可观。”

OpenAI 的“登月”雄心

OpenAI成立于2015年，是一家非营利性机构，致力于通过开发和利用通用AI造福全人类。其创始成员包括Tesla首席执行官Elon Musk、Y Combinator总裁Sam Altman和其他技术行业的杰出人物。为了完成该组织的使命，他们共投入了10亿美元。

OpenAI的研究人员正在投身于一项名为Dactyl的项目，旨在增强机械手的灵活性。还有一支团队在研究域名随机化（domain randomization）这一古老概念，也取得了令人瞩目的成果。他们已经能够在模拟环境下训练机械手操控物体，并计划随后将此成果投入实际应用。这一点非常重要，因为模拟是让这些机械手获得足够训练经验的唯一方式。“这种想法实施的结果非常好，”Sutskever说道。