NVIDIA Triton助力蚂蚁集团打造新一代推理引擎

作者 英伟达中国

案例简介

•    蚂蚁集团通过NVIDIA Triton推理服务器提供的高性能模型推理能力,实现了一个多模态、多模型的模型推理服务框架,助力多个业务场景实现高性能,延迟降低20%,吞吐提升2.4倍;

•    本案例主要应用到 NVIDIA Triton 和NVIDIA DALI.

Case Introduction

  • With the high-performance model inferencing capabilities provided by NVIDIA Triton, Ant Group has implemented a multi-modal, multi-model model reasoning service framework, which helps multiple business scenarios achieve high performance, reduces latency by 20%, and increases throughput by 2.4 times.
  • Major products utilized in the case are NVIDIA Triton and NVIDIA DALI.

背景

蚂蚁集团是一家旨在为世界带来普惠金融服务的创新型科技企业。多模推理服务器旨在解决视频和图文场景中多模联合高性能推理问题,既可以支持多种深度学习框架的模型(TensorFlow、PyTorch等),也能支持多个模型(分类、检测)一起解决同一问题,同时也要充分利用 GPU 性能优势,在延时和吞吐方面均提出了非常高的要求;多模推理服务器在诸多业务场景中都取得了明显的性能提升,成为视频领域 AI 模型推理的最佳解决方案。

挑战

模型推理的挑战主要来自于吞吐和延时,同时多模场景还需要具备串联多模型的能力。

单模型推理面临的挑战:

  1. 是否支持Python backend,以及如何解决Python GIL的性能瓶颈;
  2. 是否可以利用Multi-Stream,充分利用GPU的算力;
  3. 视频和图片的预处理性能如何提升。

多模型推理面临的挑战:

  1. 是否支持灵活的DAG处理能力,以编排整个处理流程;
  2. 是否可以同时加载多种深度学习框架的模型联合推理。

方案

基于以上挑战,蚂蚁集团选择采用NVIDIA Triton推理服务器,以解决新场景下模型推理引擎面临的挑战。

Triton 是一款开源软件,对于所有推理模式都可以简化模型在任一框架中以及任何 GPU 或 CPU 上的运行方式,从而在生产环境中使用 AI。Triton 支持多模型ensemble,以及TensorFlow、PyTorch、ONNX 等多种深度学习模型框架,可以很好的支持多模型联合推理的场景,构建起视频、图片、语音、文本整个推理服务过程,大大降低多个模型服务的开发和维护成本。

Dynamic-batch和Multi-stream,以及对Tensor RT的支持,同时配合T4的GPU,将整体推理服务的吞吐能力大幅提升2.4倍,延迟降低20%,既满足了业务的低延时需求,成本也降低了50%。

NVIDIA DALI是GPU加速的数据增强和图像加载库,能够与面向MxNet、TensorFlow 和PyTorch的直接插件轻松实现框架整合,可优化深度学习框架的数据管道,解决当今计算机视觉深度学习应用的性能瓶颈问题。蚂蚁集团利用其图像预处理能力结合到Triton的DALI backend,替换掉原来的解码、resize等操作,端到端性能提升20%。

Metrics和Perf Analysis有很强大的能力,可以快速定位开发调试,甚至是线上问题,对于开发和定位问题的效率有很大提升。

影响

借助NVIDIA Triton 推理服务器,配合DALI的图像预处理能力,以及T4 GPU,多模型推理性能整体提升2.4倍,帮助蚂蚁业务在多模态业务场景中,以更低的成本构建了高性能的推理服务,同时更低的延迟降低了整条系统链路的响应时间,优化了用户体验。