终结分析瘫痪的局面:NVIDIA 联合 MapD 解决各行业普遍面临的令人头疼的大数据问题

作者 英伟达中国

过去两年内产生的数据量比整个人类历史上产生的数据量都要多。为了以视觉化的方式呈现这些海量信息并从这些信息中获得深刻见解,MapD 提出一个由 NVIDIA GPU 加速计算的新方法。

MapD 的数据库可以智能地在所有 GPU 上分割、压缩和缓存数据,将使用户查询数据库的速度提高多达 100 倍,并且无需索引或优化。与 MapD Immerse 分析前端工具配合使用时,该系统可为拥有数十亿条记录的数据集提供即时可视化见解。

以视觉化方式呈现的纽约肯尼迪国际机场的交通活动。
以视觉化方式呈现的纽约肯尼迪国际机场的交通活动。

Mark Litwintschik 来自英国,身兼顾问、博客博主和数据狂热者这三重身份,他最近使用去年年底首次发布的大量数据集测试了超过 12 个不同的数据库和配置。此数据集涵盖纽约市 12 亿辆个人出租车、豪华轿车和优步用车在五年多的时间内惊人的详细数据,包括完整的 GPS、交易类型、乘客计数和时间戳。

Litwintschik 的大部分前期工作是在基于 CPU 的系统上完成的,而使用 NVIDIA GPU 来测试 MapD,则将性能提高了 55 倍。

“我个人认为,未来商业智能报告会采用 GPU 技术,”Litwintschik 说,“这些基准测试搭配的显卡使用的是两代以前的架构,与我见过的某些情况(包括大型集群 CPU 解决方案)相比,它的查询速度要快 55 倍。”

Litwintschik 表示商业情报领域的“前景相当光明”。事实上,NVIDIA 与 MapD 早就联手帮助各行业的公司筛选并以可视化的方式呈现海量数据集,并且未出现延迟的情况。

MapD  使用  NVIDIA GPU 对海量复杂的数据集(例如以可视化方式呈现在此处的纽约市交通数据)进行实时数据分析。
MapD 使用 NVIDIA GPU 对海量复杂的数据集(例如以可视化方式呈现在此处的纽约市交通数据)进行实时数据分析。

Verizon 调整数据库以处理飞速激增的海量数据

从市场营销和销售到网络和内容操作等企业运营的方方面面来看,如果遇到飞速激增的海量数据,很少有哪个行业能赢过电信行业。无论是查明通话中断的原因、感应器数据、日志文件、客户流失、设备统计还是数据中心性能,数据都会源源不断地涌入。实时查看数据的需要让问题变得更加复杂,难以进行模式识别和根本原因分析。

Verizon 将 MapD 经 GPU 调整后的数据库用在监控电信网络中的智能手机这一难题上,进而评估各种指标。在使用 MapD 之前,需要花费数小时才能完成查询,所以 Verizon 只会偶尔执行这项操作。使用 MapD 之后,仅在几毫秒之内便能完成同样的查询,并且可以即刻呈现出画面。这使得 Verizon 可以快速找出问题的根本原因,从而帮助客户以及公司的运营和后勤团队。

“因为数据库采用的是 GPU 真正的计算能力,数据几乎即刻就能被处理器所用,”Verizon 高级解决方案架构师 Abdul Subhan 说。

数十亿美元危若累卵之际

为了创造竞争优势,金融企业已在高速网络、巨大的数据存储空间和算法交易模型等核心技术上投资数十亿美元。在查询和以可视化方式呈现数十亿项记录时,需要产生假说及测试,使用 CPU 技术会出现延迟或等待的情况,显然不适用。

NVIDIA 和 MapD 与某对冲基金客户合作,开发出一个可随时间大幅增长,且有着丰富内容的专属数据集,而该公司对数据集的有效提问能力却未能与时俱进。从其大型规模而言,单笔交易出现些许延迟的情况相当于损失数百万美元的机会成本。

通过使用 MapD 的产品,该公司能够在几毫秒之内查询并以图形化的方式呈现结果,从而形成优于竞争对手的资讯优势。借助于 MapD 采用 GPU 技术的数据探索平台,便能立即测试新的投资想法,为投资组合经理、交易员和分析师等人员构建更流畅和富有创意的流程。

管理 JavaScript 领域

在 Twitter、Facebook 和 Snapchat 上,每天都有数百万个图片和视频按赞登上新闻头条,机器和人都是在背后推动数据出现爆炸性增长的因素。客户活动、用户、交易、应用程序、服务器、移动设备和网络这些不起眼的信息也会作为机器数据累积起来。

这些高维度数据,再加上其惊人的数量和增长速度,使得采用 CPU 技术的方法不知所措。npm, Inc. 拥有最广泛使用的 JavaScript 数据包管理器,该公司看上了 NVIDIA 和 MapD 的卓越性能,选择它们来解决数据库方面的难题。

Npm 托管着超过 25 万个可重复使用的代码程序包,全球每天有逾 400 万名开发人员使用,一个月总共的需求量超过 200 亿。借助于 GPU 的并行处理能力和 MapD 经 GPU 调整的数据库,npm 能够在几毫秒(而不是几分钟)内查询数据。它随时都能准确掌握 JavaScript 社区内发生的情况,成本仅为低性能解决方案的一小部分。

“因为一个月有 200 亿个查询请求,我们希望能有一个速度快如闪电,能满足临时性数据分析需求的行业级别的数据库,”npm 首席技术官 Laurie Voss 说,“我们要求这个数据库有着出色性能和可扩展性,能处理大型复杂的查询内容,而 MapD 正是我们要的。”

NVIDIA  DGX-1 深度学习超级计算机。
NVIDIA DGX-1 深度学习超级计算机。

DGX-1:性能方面的大跃进

电信、金融和技术行业的客户只是这股浪潮的开端,MapD 与 NVIDIA 密切合作开发新的装置:NVIDIA DGX-1。这款一体化超级计算机提供的吞吐量相当于配备有八个 Tesla P100 GPU 和 128GB GPU 内存的一个系统中的 250 台传统服务器提供的吞吐量。

零售、保险、制造和医疗保健等行业中的公司都能通过采用 GPU 的性能更快更好的解决方案获益。