现代商业智能 (BI) 的兴起催生了许多组件,它们支持企业获得资讯所必需的不同分析功能。
BI 活动的最根本组件,或许是Tableau、Qlik、Birst、Domo 和 Periscope 等公司提供的传统前端或可视化应用程序。这样的例子还有很多,它们基本上都具备相同的功能,即让试算表看起来更美观。一些公司的产品在实用性方面与众不同,从而获得了巨大成功。
BI 领域另一个同样重要的元素是数据库。这方面同样存在Redshift、Impala、Vertica、Netezza 等表现亮眼的业者。其中的某些数据库是具有完整功能、相当于记录系统的解决方案,而其他数据库则侧重于串流等特定性能,同样有着优异表现。
最后,BI 和数据库领域业者对机器学习、深度学习和人工智能等技术产生出莫大兴趣,这三个领域也出现爆发性发展,诞生出更先进的分析工具。这个市场既有像 Google、Facebook、Amazon、Microsoft、IBM、百度和 Tesla 这样的大咖企业,也有大量表现出色的新创公司,例如 Sentient、Ayasdi、Bonsai 和 H2O.ai。
一套成功又具备完整功能的 BI 系统应使各项元素顺利运作,但问题是没有哪套系统是顺利运作的,原因在于数据的飞速增长。
这些系统全部采用以 CPU 为中心的过时理念,计算能力不足以对经济领域要求的 PB 级规模的数据进行查询、渲染或学习,因此不堪重负。
不过总有解决的办法。答案就在深度学习圈早就采用的GPU。
借助 GPU,系统的性能将突飞猛进。这可以解释为何有这么多的全球 500 强超级计算机使用 NVIDIA GPU。因为 GPU 解决数学计算任务的能力要比传统 CPU 强得多。
不只是深度学习,数据库和可视化技术亦受惠于 GPU。基于 GPU 的系统具备处理如此多工作集所需的速度和规模,并提供需要的功能。

您需要了解的关于 GPU 和集成分析的事
首先,GPU 提供超高显存带宽,这里是指跨多个 GPU 的每秒 TB 级别的数据量。数据库查询通常受显存带宽或 I/O 的限制,因此这一点很重要。鉴于显存占用量,GPU 可以在更短时间内扫描更多数据,从而更快获得结果。
在这种背景下,著名的数据库权威人士 Mark Litwintschik 发现,在处理 11 亿行数据时,采用一个 GPU 服务器的速度与大型 Redshift 集群相比要快 74 倍。不是快 74%,而是快 74 倍。相比 Postgres,更是要快 3,500 倍,可谓是几毫秒与几十分钟之间的差距。
这具有重要意义,因为工作集会随数据大量增加。几百万行数据集在过去是个天文数字,而如今却微不足道。如今的数据集数量通常都达到几亿到几十亿不等。
其次,GPU 不只在速度方面有优势,还可以针对特定任务和查询优化其他系统,在处理图形方面的表现也十分出色。事实上,GPU 本来的渲染管线使之成为数据可视化的理想引擎。
这一点表明 GPU 不仅能制作出更好看的仪表板,还能制作出响应更快、处理速度更快的仪表板。理由在于,要是您能在进行图形渲染的同一芯片上执行查询,就不用将数据移到别处。在处理几百万行数据集时这也许不是问题,但如果数据集的数量达到十亿,就会成为大问题,更不用说几十亿了。
最后,GPU 提供超级计算级别的计算能力。GPU 在机器学习和深度学习排行中占据重要位置是因为它们在矩阵乘法方面的优异表现。需要重申的是,能在同一芯片上进行查询和机器学习,便能以超高效率将训练和推理所需的数据输入机器学习算法。

如何在企业内使用 GPU
一个集合了 GPU 硬件与经 GPU 调整的数据库、经 GPU 调整的前端/可视化层和经 GPU 调整的机器学习层的集成系统,会为企业带来实质效益。
但是,如果只升级一个组件,产生的连接会非常薄弱。GPU 数据库能够更快地填充 CPU 可视化前端,但是不会像 GPU 数据库填充 GPU 可视化前端那样快。
任何可能的组合都会产生相同的问题,造成同样薄弱的 CPU 连接。
最佳系统处处得益于 GPU 硬件和经 GPU 调整的软件。
速度、可视化、先进的分析工具全部以 GPU 为导向。使用为传统计算平台设计的硬件或软件无疑是选择等待、降低取样以及在横向扩展上付出更多,虽然我们处于一个变通的世界也是如此。
目前市面上已经出现集成系统,并且已经开始整合其他显著受益于 GPU 的重要任务或子任务。集成 GPU 堆栈对于 BI、IT、数据科学和企业的其他领域具有重大意义。正因如此,MapD 将现在视为 GPU 时代,而我们则因成为推动这场革命的一份子而欢欣鼓舞。