MapD、H2O.ai 和 NVIDIA 将在下周于纽约举行的大数据会议 Strata Data Conference 上推出 GPU 数据帧 (GDF)。而且,正如 Ricky Ricardo 过去常说的那样,我们需要“好好解释一下”。
GDF 允许完全在 GPU 上执行数据科学工作流程,从而加快其速度。
早在五月份,我们就宣布了打算建立这种通用 API 的计划,可实现在 GPU 上运行的进程之间进行高效的数据交换。我们将在 Strata 大数据会议上通过实际用例(例如预测按揭拖欠数据)展示运行中的 GDF。
那么,我们是如何实现的呢?
MapD 通过包含数百列和数亿行的数据集的交互式可视化使数据科学变得更加简单。数据科学家还通过构建机器学习和 AI 的模型以物理方式探索数据。
构建机器学习模型最繁琐和耗时的部分之一是特征工程,即“使用数据领域知识来创建使机器学习算法达到更佳性能的特征的过程”。
我们见过的数据科学家并非创建 1000 行数据集的四个特征,而是通常会为超过数亿数据点的预测模型创建 40 个特征。
如果没有 MapD 实现加快分析速度,这种特征工程会耗费数据科学家有限研究时间的数小时甚至数天。模型的首个训练迭代必然会返回需要改进的结果,然后再返回特征工程尝试其他训练。该过程会不断继续形成恶性循环。
虽然 MapD 专门缩短了迭代、人工特征工程所需要的时间,但我们在 H2O.ai 的合作伙伴是机器学习专家。两家公司都希望使用 GPU 来更快实现端到端机器学习工作流程的各个部分。
我们与 Anaconda(前身为 Continuum)在 GDF 方面的合作就在于实现此目标。
GDF 正好是更大的开源框架,即由 MapD、H2O.ai 和 Anaconda 共同成立的 GPU 开放分析计划 (GOAI) 合作的首个项目。
我们在开源 GOAI 框架领域的合作非常令人兴奋,而且这也只是我们合作的开始。我们邀请所有对 GPU 加速数据科学感兴趣的技术人员和数据科学家加入我们,一同为 PyGDF Github 开源库做出贡献。
欢迎到 Strata 大数据会议了解 GDF
我们很难用语言来描述在 NVIDIA GPU 上运行机器学习的速度之快。欢迎到 Strata 大数据会议的现场亲身体验 GDF。
您可以通过以下几种方式了解展示详情:
- 造访 MapD 展台(编号 839)
- 9 月26 日(星期二),晚上 7:00 – 10:00 | AI CONNECT | 与 NVIDIA、我本人和其他合作伙伴共同了解深度学习和 GPU 加速分析方面的新进展
- 9 月27 日(星期三),上午 11:30 – 中午 12:00 | MapD 首席执行官 Todd Mostak 在 NVIDIA 展台(编号 831)开展研讨会
- 9 月27 日(星期三),下午 1:15 – 1:55 | 使用 GPU 数据帧加速分析 | Todd Mostak 深入介绍 GDF(由 MapD 提供赞助)
- 9 月28 日(星期四),上午 11:20 – 中午 12:00 | 借助深度学习和加速分析改变格局 | 包括 Todd Mostak 和 H2O 首席执行官 Sri Ambati 在内的座谈小组,由 NVIDIA 的 Jim McHugh 主持
- 9 月28 日(星期四),中午 12:00 – 下午 12:30 | 我与 MapD 数据科学家 Wamsi Viswanath 开展研讨会,在 MapD 展台(编号 839)向大家展示按揭拖欠预测演示
来自 Strata 大数据会议的录制内容和有关 GOAI 开源合作的更多新闻将在未来几个月内公布。