为了应对这项有史以来最大的计算挑战之一,特斯拉需要配备前所未有的算力。
在本周的CVPR(国际计算机视觉与模式识别会议)上,汽车制造商特斯拉的AI高级总监Andrej Karpathy公布了公司内部用于训练Autopilot与自动驾驶深度神经网络的超级计算机。这个集群使用了720个节点的8个NVIDIA A100 Tensor Core GPU(共5760个GPU),实现了1.8 exaflops级别的超强性能。
Karpathy表示:“这是一台性能卓越的超级计算机,以FLOPS计,它大概可以在全球超级计算机中排到第5位”
通过将汽车行业前所未有的算力水平作为其研发周期的核心,特斯拉让其自动驾驶汽车工程师能够使用前沿技术来高效完成这项工作。
NVIDIA A100 GPUs 为全球最强的数据中心提供各种尺度的加速。A100 GPU基于NVIDIA Ampere架构打造,其性能比上一代产品高出20倍,并且可以划分成7个GPU实例,动态地适配不同的需求。
使用100多万辆在路上跑的车(的数据)来持续优化和迭代新功能,正是Tesla自动驾驶的垂直整合之道,而GPU集群也是其中一部分。
从汽车到数据中心
特斯拉的循环开发流程始于汽车。“影子模式”在不实际控制车辆的情况下,悄无声息地执行着感知和预测深度神经网络(DNN)。
任何的错误预测、误识别都会被记录下来。随后,这些实例都会被特斯拉工程师所用,来创建一个包含多种复杂场景的训练数据集,以完善DNN。
当前已经收集了 100万个以每秒36帧的速度记录的10秒片段,总数据量高达1.5PB。在数据中心,特斯拉将DNN置于这些场景中反复运行,直到DNN能够无差错地运行。最后,DNN被发送回车内,并开始下一轮循环。
Karpathy表示,以这种方式在如此大量的数据上训练DNN需要庞大的计算能力,特斯拉为此建立并部署了内置高性能A100 GPU的最新一代超级计算机。
连续迭代
除了全方位的训练之外,特斯拉的超级计算机还为自动驾驶汽车工程师提供了在开发过程中进行实验和迭代所需的性能。
Karpathy表示,特斯拉目前部署的DNN结构可以让一个由20名工程师组成的团队同时在一个网络上工作,通过隔离不同功能来实现并行开发。
这些DNN运行训练数据集的速度会比之前快速迭代时还更快。
Karpathy表示:“计算机视觉是我们一切工作的基础,并且也是实现Autopilot的关键。为此,我们必须训练一个庞大的神经网络并进行大量实验。这也是我们在算力方面投入大量资金的原因。”
如欲了解更多内容,敬请观看完整的CVPR会议视频。