碳云智能: 基于RAPIDS加速数字生命AI应用

by 英伟达中国

案例介绍

碳云智能作为数字生命健康管理领域全球独角兽公司,旨在利用信息学、统计学、人工智能等前沿技术算法深入挖掘整合人体健康相关的各类数字生命数据,最终实现数字化精准健康管理服务。

GPU 加速数字生命计算

基于数字生命的理念,高通量测序技术的发展、可穿戴设备的普及、生物多组学与医学影像分 析方法的突破都为个性化智能健康服务带来了机遇。

碳云智能的数字生命计算平台将Tesla P40 应用于多类生物数据挖掘分析加速。任务涵盖小样 本高维度生命数据的特征提取、机器学习分类及基于深度神经网络的健康状态预测等。

以碳云针对类风湿关节炎病患的宏基因组数据提取关键特征任务为例,通过RAPIDS的加速, 使用一块Tesla P40后,处理相同任务的速度相较于之前使用传统10核CPU提高了6倍。同样,使用GPU的加速也能将碳云的深度模型加速10倍以上。

数据激增,性能遇瓶颈

随着数据量的急剧增长,通常的分析流程和算法模型开始在某些IO 与计算密集的部分出现性 能瓶颈,同时人工智能的发展又为碳云智能提供了新的方式去分析数据。

一方面,准确性与响应速度对于用户体验的重要性与日俱增;另一方面,生物数据下机之后往往需要大量计算密集的预处理,导致研发人员需要把大量的时间消耗在等待数据的读取与预处理流程上。碳云智能需要优化流程与算法中关键部分的运行速度,从而提高用户体验与整体研发效率;同时拥抱各类深度学习算法,提高算法准确度。

RAPIDS 加速计算显成效

碳云智能采用Tesla P40,并使用RAPIDS 提供的接口,在多项组学数据挖掘工作中利用GPU 取代传统CPU,从而使得整体处理速度明显提高。

不失一般性,以基于肠道微生物数据预测类风湿疾病风险和生理年龄等指标为应用案例,微生 物的K-mer 数据有超过上亿数目的特征数量,对数据读取和分析算法都是巨大的挑战。分析 流程需要先并行地使用显著性分析进行特征过滤,随后整体进行特征降维并用于下游分析。使 用RAPIDS 对该流程各模块提速,其中数据读取提高最大可达6 倍以上;特征降维以PCA 为 例,在目前CuML 的实现仍不成熟的前提下依然可以将计算时间缩短至1/2。

深度学习方面,碳云智能使用大量微生物数据训练特征深度模型用于特征提取,GPU 可使训 练过程提速10 倍以上,并且基于微生物的深度特征的分类器的F1-score 比传统方法提高 30%。这一案例说明,在数字生命大数据通用的运算需求下,GPU 及RAPIDS 框架有效地助 力提升了碳云智能挖掘整合多维生命数据的运算效率。

GPU 加速激发数字生命计算新思路

碳云智能使用RAPIDS 加速各类数据读取与统计机器学习方法,利用GPU 加速的深度学习算 法在性能表现上显著超过了传统方法。RAPIDS 的Python 接口简单易用,能帮助碳云智能的 数据科学家无需付出过多的额外努力即可改良现有流程,能够每日为数据预处理节约大约1 小 时。

通常数字生命中的多组学大数据相较于互联网大数据(图片、语音、文字等)具有样本空间小 特征维度高的特点。通过碳云智能的示范案例可以了解到GPU 及RAPIDS 框架对于传统生命 大数据的降维、分类、回归预测等任务加速具有强大的潜力,使其得以充分运用现有各类生物 数据,深度模型在碳云智能的各类分类与回归任务上都对传统方法有所提高,给生物信息的方 法学带来了各种新思路。

www.nvidia.com

© 2019 NVIDIA Corporation. All rights reserved.