强化学习是足球机器人夺冠的关键,听听机器人先驱怎么说

by 英伟达中国

别再想机器人抢走您工作的事儿了,Peter Stone 正在打造可以抢走罗纳尔多工作的机器人。这么说吧,Stone 近期绝不会失去工作。

引用一句口头禅“好问题产生好科学”,Stone 和其他计算机科学家正在打造他们希望到 2050 年能抗衡(并打败)世界上优秀足球队的机器人。

尽管 Stone 的机器人无法打败人类球员,但它们已跻身世界优秀机器人足球队员之列,这归因于他的团队将强化学习(一种机器学习类型)引入机器人这一创举。

功能强大、完全自主的真实智能体

Stone 表示,这项技术是实现人工智能 (AI) 和机器人领域中创建“功能强大、完全自主的真实智能体”这一长期目标的关键。

Stone 是德克萨斯大学奥斯汀分校机器人产品组合项目主席,他面向星期三来参加 NTECH(我们在硅谷园区举行的年度内部工程大会)的几百名工程师(以及其他几百名在线工程师)发表了演讲。

Stone 在 AI 领域的研究方向包括机器学习(尤其是强化学习)、多智能体系统、机器人和电子商务。同时,他还是致力于持续学习的初创公司 Cogitai 的联合创始人。

不过,他最为人所知的是对机器人足球的热情,这已成为世界各地 AI 和机器人研究人员至高无上的目标。

将足球场变为验证场

Stone 及其团队取得了优异的成绩,在 2011、2012、2014、2015、2016 和 2017 年度机器人世界杯上都是得分冠军。Stone 成功的关键:改进了强化学习这一机器学习领域。

大部分现代机器学习均依赖监督式学习。监督式学习利用神经网络预期应当可以理解的现实图像的标记样本(例如手写数字)来训练神经网络,如果出错,立即提供反馈。

问题是:人类几乎不会使用这种学习方法,并且这种方法不能帮助机器人学习复杂任务,例如踢足球。

强化学习和监督式学习的区别

相比之下,强化学习算法必须处理延迟反馈 – 系统在做出一系列决策后才知道是否正确。Stone 解释说,想象一下赢得象棋比赛或驾驶汽车导航到目的地,这些任务都需要依赖一系列正确的决策。

更重要的是,我们不会提前为学习算法提供数据,而是让它努力做出一系列决策才能实现目标,并且让它根据所选择的行动来自行积累经验。

尽管这个方法在过去二十年间已经产生了很多突破成就(从计算机可以在双陆棋中击败人类,到 Google 去年在古老竞赛 go 中取得胜利),但是在教机器人如何掌握足球技巧方面,仍然充满着更加复杂的挑战。

这些机器人不仅要学习包括行走、运球和射门等行为,还要适应环境来与团队队员合作并与其他团队比赛。

关键:Stone 团队训练机器的方式是将不同技能分层,这就像人类一次掌握多项技能一样, 而不是一次只孤立地学习一种技能。

现实影响

如果机器人能够走出工厂,成为家庭和办公室里的实用设备,那么此类技术肯定必不可少。

Stone 说:“要将这一切联系在一起,问题在于自主智能主体在团队合作和/或在现实的动态场地遇到对手时能学习到什么程度。”

找到此类棘手问题的答案意味着,在未来几十年,所谓的 AI 系列技术在运输和医疗保健等各行各业中将会产生越来越大的影响力。

一些影响是每个人都乐于积极接受的,也有一些影响可能需要我们找到富有创造力的方法来适应。Stone 说:“我们认为不可能所有工作都会消失,但贫富差距可能会扩大。”

当然,目前为止仍无需担忧,如果您的足球水平在世界上都值得称道的话,那就更不必担心了。因为即使是一支由中年计算机科学家组成的团队也可以在现实的足球比赛中轻松打败机器人。