解密 AI 如何加速数据科学工作流

RAPIDS cuDF 配合 RTX AI PC 和工作站,可为热门的 pandas 软件库提供高达 100 倍加速。
作者 Howard Wright

编者注:本文属于《解码 AI》系列栏目,该系列的目的是让技术更加简单易懂,从而解密 AI,同时向 RTX PC 用户展示全新硬件、软件、工具和加速特性。

AI 正帮助各行各业推动创新和提高效率,但要充分发挥其潜力,必须基于海量的高质量数据对各种模型进行训练。

数据科学家在准备这类数据方面发挥着关键作用,在专业数据(通常为专有数据)对于增强 AI 功能至关重要的特定领域尤其如此。

为了帮助数据科学家应对日益增长的工作负载需求,NVIDIA 发布了 RAPIDS cuDF 库,以便用户更轻松地处理数据,并且无需更改代码即可加速 pandas 软件库。Pandas 是面向 Python 的一个灵活、功能强大的热门数据分析和处理库。借助 cuDF,数据科学家现在可以在他们首选的代码库上全速运行数据处理。

NVIDIA RTX AI 硬件和技术也可以加速数据处理。这包括强大的 GPU,可提供在各个层面快速高效地加速 AI 所需的计算性能 — 从数据科学工作流到 PC 和工作站上的模型训练和定制。

数据科学的瓶颈

最常用的数据格式是按行和列组织的表格数据。小型数据集可以使用 Excel 等电子表格工具进行管理,但是,包含数千万行的数据集和建模工作流通常依赖于采用了例如 Python 等编程语言的二维表库。

Python 是进行数据分析时的热门选择,主要是因为 pandas 库采用易于使用的应用编程接口 (API)。然而,随着数据集的规模不断增长,pandas 在纯 CPU 系统中难以实现理想的处理速度和效率。该库在处理文本密集型数据集时的性能也为人所诟病,而对大语言模型来说,这是一种重要的数据类型。

当数据需求超出 pandas 的能力时,数据科学家会面临两难境地:要么忍受缓慢的处理速度,要么采取复杂且成本高昂的措施,即转而采用更高效但对用户不够友好的工具。

使用 RAPIDS cuDF 加速预处理工作流

RAPIDS cuDF 配合 RTX AI PC 和工作站,可为热门的 pandas 软件库提供高达 100 倍加速。

借助 RAPIDS cuDF,数据科学家现在可以在他们首选的代码库上全速运行数据处理。

RAPIDS 包含一整套开放源代码的 GPU 加速 Python 库,旨在改进数据科学和分析工作流。cuDF 是一个 GPU DataFrame 库,可提供类似于 pandas 的 API 来加载、过滤和操作数据。

使用 cuDF 的“pandas 加速器模式”,数据科学家可以在 GPU 上运行现有的 pandas 代码,充分利用强大的并行处理功能,并可放心的将代码在必要时移植到 CPU 上。这种互通性提供了出色、可靠的性能。

最新版本的 cuDF 支持更大规模的数据集和数十亿行的表格文本数据。这样,数据科学家就能够使用 pandas 代码来预处理生成式 AI 的数据。

在 NVIDIA RTX 加持的 AI 工作站和 PC 上加速数据科学

最近的一项研究表明,57% 的数据科学家使用 PC、台式机或工作站等本地资源来执行数据科学任务。

NVIDIA GeForce RTX 4090 D GPU 开始,数据科学家可以实现显著的速度提升。随着数据集规模不断增长,处理工作占用更多内存,相比于基于传统 CPU 的解决方案,在工作站中配合使用 cuDF 和 NVIDIA RTX 5880 Ada 架构 GPU,可以将性能提升多达 100 倍。

y 轴表示两种常见的数据科学操作 —“join”和“groupby”,而 x 轴显示运行每项操作所需的时间。

数据科学家可以在 NVIDIA AI Workbench 上轻松开始使用 RAPIDS cuDF。利用这个基于容器的免费开发者环境管理器,数据科学家和开发者可以跨 GPU 系统创建、迁移 AI 和数据科学工作负载并进行协作。用户可以从 NVIDIA GitHub 仓库中提供的几个示例项目开始,例如 cuDF AI Workbench 项目

HP AI Studio 也默认支持 cuDF,这是一个集中式数据科学平台,旨在帮助 AI 开发者将其开发环境从工作站无缝复制到云端。这便于他们创建、开发项目并进行协作,而无需管理多个环境。

在 RTX 加持的 AI PC 和工作站上,cuDF 的优势并不仅限于提升原始性能。不止如此:

  • 在强大的 GPU 上进行固定成本的本地开发,并可以无缝复制到本地部署的服务器或云实例,从而节省时间和支出。
  • 加快数据处理以实现更快迭代,以便数据科学家以交互式的速度进行实验、优化并从数据集中产生洞察。
  • 实现更有效的数据处理,以在后续工作流获得更好的模型结果。

详细了解 RAPIDS cuDF

数据科学的新时代

随着 AI 和数据科学的不断发展,快速处理和分析大量数据集的能力将成为各行业实现突破的关键差异化因素。无论是开发复杂的机器学习模型、执行复杂的统计分析还是探索生成式 AI,RAPIDS cuDF 都可为新一代数据处理奠定基础。

NVIDIA 正通过增加对最热门的二维表工具的支持来巩固这一基础,其中包括 Polars,它是增长最快的 Python 库之一,与其他开箱即用的纯 CPU 工具相比,可帮助显著加速数据处理。

Polars 本月宣布推出由 RAPIDS cuDF 提供支持的 Polars GPU 引擎公开测试版。Polars 用户现在可以将本已极快的 DataFrame 库性能提升多达 13 倍。

RTX AI 为未来的工程师创造无限可能

无论在大学数据中心、GeForce RTX 笔记本电脑还是 NVIDIA RTX 工作站上运行,NVIDIA GPU 都可加速学习过程。数据科学领域及其他领域的学生将增强其学习体验,并通过广泛应用于现实世界应用的硬件获得实战经验。

详细了解 NVIDIA RTX PC 和工作站如何帮助学生借助 AI 赋能工具提升学习水平。

请订阅《解码 AI》时事通讯,我们每周都会将新鲜资讯直接投递到您的收件箱。