AI如何对抗Dota人类游戏高手?OpenAI这样回答

作者 Scott Martin

近日,知名AI专家Ilya Sutskever在硅谷园区举行的NVIDIA年度NTECH工程座谈会中畅谈了最新的Dota 2赛事。该活动吸引了数百名工程师以及上千名在线参与者,其中不乏游戏发烧友。

操作敏捷、创意十足、机智聪明,这些都是优秀游戏玩家的代名词。相比之下,机器就需要人向其传授如何赶超人类玩家,而这些人指的就是Ilya Sutskever和他的OpenAI团队。

今年8月,由五个神经网络组成的OpenAI Five战队在Dota 2这个广为流行的多人在线竞技游戏中,与全球数位顶级职业玩家对抗。

对于OpenAI Five来说,能够参加这个游戏领域的专业级比赛已经是一次飞跃。

Dota 2是一款极为复杂的游戏。为了赢得胜利,玩家可以随意使用战术,还可以自由交互。该游戏仅可见部分布局,这就要求玩家在每场持续45分钟的对决中将眼前的战术和长远的战略配合使用。“专业玩家们将自己的生活全部都献给了Dota 2,”Sutskever说道,“玩这款游戏可不是件容易的事。”

Dota 2抬高了AI参与游戏的门槛

OpenAI Five在Dota 2比赛中取得的成绩标志着人类与AI的竞技对战达到了一个全新的水平。在国际象棋和围棋这些同样是热门的AI挑战中,其平均走法分别为35和250。而相比之下Dota 2的游戏规则则更为复杂,每步约有17万种可能的走法,而每场比赛又需要走2万步。

Sutskever表示,鉴于Dota 2的复杂性,与AI此前挑战过的其他游戏相比,Dota 2更接近于现实世界。那么,他们是如何做到的呢?答案是大规模的增强学习(reinforcement learning)。

无论是对于人类还是机器而言,增强学习都很重要。我们在游戏中因为某种走法获得奖励积分,或因为另一种走法而功亏一篑,这些时刻都会被记录下来,为下一轮游戏提供增强学习的信息。

增强学习对于AI的重要性在于,这是一种非常自然的方式,可以训练神经网络做出行动以达成目标,而这也是构建智能系统所必须的。

OpenAI Five取得了相当喜人的成绩,这要归功于其大规模地运用了一套可靠的增强学习算法(近端策略优化),其运行于Google云平台中的1000个NVIDIA Tesla P100 GPU上。

从很早开始,NVIDIA就一直在为OpenAI提供支持,黄仁勋先生曾亲自为其赠送了第一台DGX-1 AI超级计算机。

GPU 挑战的历史

在利用GPU应对AI重大挑战方面,Sutskever早已轻车熟路。他是赢得著名的ImageNet竞赛的多伦多大学三位研究人员之一(其他两位分别是Alex Krizhevsky和导师Geoffrey Hinton),帮助他们斩获大奖的是其所开创的一款基于GPU的卷积神经网络。

该网络将错误率猛降近50%,并因此载入史册,开启了当代AI的热潮。

这就是现在的AlexNet,无数深度学习模型均以此为基础打造。在GTC 2018 上,黄仁勋先生提及了AlexNet对数以万计的AI模型的影响:“神经网络正以惊人的速度增长和发展。”

Sutskever表示,AI技术的飞跃与处理能力的提升密不可分。“值得一提的是,从最初的AlexNet到后来的AlphaGo Zero,计算量提升到了原来的30万倍。仅仅五年的时间,增量可以说十分可观。”

OpenAI 的“登月”雄心

OpenAI成立于2015年,是一家非营利性机构,致力于通过开发和利用通用AI造福全人类。其创始成员包括Tesla首席执行官Elon Musk、Y Combinator总裁Sam Altman和其他技术行业的杰出人物。为了完成该组织的使命,他们共投入了10亿美元。

OpenAI的研究人员正在投身于一项名为Dactyl的项目,旨在增强机械手的灵活性。还有一支团队在研究域名随机化(domain randomization)这一古老概念,也取得了令人瞩目的成果。他们已经能够在模拟环境下训练机械手操控物体,并计划随后将此成果投入实际应用。这一点非常重要,因为模拟是让这些机械手获得足够训练经验的唯一方式。“这种想法实施的结果非常好,”Sutskever说道。