NVIDIA Triton 助力时域科技打造歌声合成系统

by 英伟达中国

时域科技是一家专注于 AI 领域的科技公司,致力于让 AI 满足人类的情感需求,通过“富情感”人声合成技术,赋予 AI 表现情感的能力。时域科技服务以“游戏”+“虚拟偶像”为主的元宇宙业务客户,为客户提供高情感、高质量、高可控、高定制、全场景的 AI 人声,帮助客户通过 AI 与用户建立情感连接,给用户带来情感价值的享受。 

时域科技旗下 ACE studio 是 PC 平台上的一款歌声合成软件,主要面向较为专业的用户。ACE 虚拟歌姬是移动平台上的一款歌声合成软件,用户可以很方便的进行自由创作,二次创作,并且将自己的作品分享在平台上,目前已有众多炙手可热的作品流传。同时,时域科技还为多个合作伙伴提供接口服务。 

时域科技歌声合成引擎,由一组高性能模型组成,包括韵律模型,唱法模型,音色模型,参数模型等。采用云端部署方式,选用 NVIDIA A10 GPU 作为推理芯片,实现快速完成各种复杂的合成任务。 

歌声合成引擎迭代部署面临诸多挑战 

歌声合成引擎的迭代与部署过程中,团队也遇到了诸多挑战: 

  • 歌声合成服务的用户,由于很多正在进行创作活动,对于调用延迟耐受度很低,使得我们必须在各个环节进行极致优化,进一步提高合成吞吐瓶颈。 
  • 不同类型的服务,需要多个模型协同完成,有些请求需要 2-3 个模型的串联处理,多则需要包含 8 个模型的处理管线。如何在复杂的算法设计下,进一步提高 GPU 资源的利用率也亟待解决。 
  • 模型可热插拔与版本管理。歌声合成系统包含多个模型,每个模型都发挥了重要的作用,算法团队对于模型也在一直进行效果优化。因此,需要一个架构可以支持不同版本模型管理及快速上线。 

NVIDIA Triton 为歌声合成引擎迭代部署提供算力支持 

为应对上述挑战,时域科技算法团队与 NVIDIA 技术团队合作,使用 NVIDIA TensorRT 对模型进行推理加速,并且利用 NVIDIA Triton 推理服务器进行部署。 

首先,模型迭代团队使用 PyTorch 框架快速迭代模型效果,每个模型通过 Torch-TensorRT 集成,仅用一行代码就可以获得最高 6 倍的性能提升。Torch-TensorRT 是 TorchScript 的延伸,经过编译后使用与 TorchScript 模块无异,同时模型中大部分算子可经 TensorRT 优化后获得大幅性能提升。 

结合 NVIDIA Triton 的 Python Backend,通过 BLS (Business Logic Scripting)灵活配置多个模型组合,并且实现必要的业务逻辑处理,显著的降低了部署成本。而且基于 Triton 的 Tracing 能力,可更快速调试、定位问题,提高了部署效率。 

经过优化,使得单个歌声片段的平均合成耗时降低 28%,单机 GPU 利用率提升 25%,并且显著提高了模型迭代效率。 

2022年,时域科技加入了 NVIDIA 初创加速计划,与 NVIDIA 专业技术团队进行了深入沟通,获得了包括架构选择,部署方案等方面的技术支持。 

时域科技也参加了 2022 初创企业展示活动,并入围最终展示荣耀企业,在产品折扣,市场宣传,业务对接等方面也获得了 NVIDIA 的多方支持。后续双方会进一步加强合作。 

NVIDIA初创加速计划 

时域科技是NVIDIA初创加速计划 (NVIDIA Inception) 会员企业。NVIDIA初创加速计划为免费会员制、旨在培养颠覆行业格局的优秀创业公司。该计划联合国内外知名的风投机构,创业孵化器,创业加速器,行业合作伙伴以及科技创业媒体等,打造创业加速生态系统。能够提供产品折扣,技术支持,市场宣传,融资对接,业务推荐等一系列服务,加速创业公司的发展。 

想获得 NVIDIA 初创加速生态助力?扫描下方二维码,仅需一分钟填写意向申请表单,获得快速联系。