什么是 Pod?集群又是什么?我们的数字化生活基于通过高速网络紧密相连的各类计算机,最新出现的此类计算机是一台名为 NVIDIA DGX SuperPOD 的 AI 超级计算机。

作者 Rick Merritt

我们在互联网上的所作所为(也就是我们如今的一切活动)都离不开 Pod(也就是集群)。

当我们在线观看热门电视节目、订购牛仔裤或者通过 Zoom 与祖母聊天时,我们成为这个集群的一部分。此刻,您可以阅读这篇文章也要归功于 Pod。

那么,何为 Pod?集群又是什么?

Pod 或集群,其实就是一组通过高速网络链接,而成为一个整体的计算机。

计算机架构师必定借用了(至少是无意识地)这个自然界的术语。像现在的计算机集群一样,豌豆荚和超级海豚群展现了众多个体团结成为一个整体时所具有的能量。

豌豆荚和超级海豚群的根源

联系更为深入。植物学家指出,豌豆荚不仅能够保护并滋养每粒豆子,而且还可以将受损种子的资源重新分配给茁壮成长的种子。同样,负载均衡器会将作业从发生故障的计算节点移动到正常工作的节点。

这种动态关系与海豚群的动态关系具有相似性。

经验丰富的海洋生物学家 Denise Herzing 在巴哈马海岸工作时,她每天都常常会看到相同的数群海豚(大约由 20 条海豚组成的家庭群体)。有一次,她看到了一个数量庞大的海豚群

“多年前,在巴哈半岛外面,我看到了一个超级海豚群。这非常令人兴奋,也有点让人难以招架,因为作为一名研究人员,我只想仔细观察一小群动物,而不是一千只散布在大片区域的动物。”这位创立了野生海豚项目的科学家说道。

超级海豚群对于海豚至关重要。她指出“配有一千双耳朵,超级海豚群会形成一个巨大的感知系统,像一个超级传感器一样倾听掠食者的动静,从而保护穿梭往来的海豚个体”。另外,她还说道,这与当今云计算服务中使用的集群很相似。

Warehouse-sized data center with many clusters or pods.

拥有多个集群或 Pod 的数据中心分布在多座建筑中,并作为单个系统运行。

早期数据中心的 Pod 雏形

前 IBM 技术员兼集群专家 Greg Pfister 表示,当许多公司在20 世纪 60 年代初期将会计系统计算机化时,他们自然而然地将多台计算机连接在了一起,以便在某台计算机出现故障时,有备用的计算机设备。

“我十分肯定 NCR、MetLife 和很多人都这样做过。”Pfister 说道。他是In Search of Clusters《搜寻集群》的作者,这本书被一些人奉为集群领域的“圣经”。

1983 年 5 月,Digital Equipment Corp.将旗下几款广受欢迎的 32 位 VAX 迷你计算机整合为一个名叫 VAXcluster 的系统。每台计算机有独立运行的系统,但它们共享其他资源,能够为 IT 用户提供单个系统映像。

An early cluster diagram

早期基于 PC 的集群示意图。

在 20 世纪 90 年代末期,低成本 PC 处理器、以太网和 Linux 的出现催生了至少 8 个旨在构建集群的重大研究项目。NASA 设计了一个集群(由通过两个 10 Mbs 网络连接的 16 块 PC 主板组成),并将其命名为 Beowulf,幻想它会淘汰当时的巨型机和大规模并行系统。

集群网络需要速度

研究人员发现,只要使用高速网络消除瓶颈,就能快速搭建集群,并以低成本提供高性能。

20 世纪 90 年代末期的另一个项目是伯克利的“工作站网络”(NoW),该项目通过当时最快的互联技术将数十台 Sparc 工作站连接在一起。他们还创作了一幅一群小鱼吃掉一条大鱼的图片,以此展现他们的成果。

Berkeley NoW image of pod or superpod cluster

伯克利 NoW 项目背后的研究人员推测,许多小型系统组成的集群在性能上会超过单台大型计算机。

其中一位研究人员 Eric Brewer 认为集群非常适合新兴的互联网应用程序,因此他使用了由 100 台服务器组成的 NoW 系统作为搜索引擎。

“曾几何时,我们在伯克利园区运行着世界上最出色的搜索引擎。”参与 NoW 和伯克利许多计算机研究项目的资深人士 David Patterson 说道。

这项工作非常成功 – Brewer 与别人共同创立的 Inktomi 是一个早期搜索引擎,基于受 NoW 启发的集群构建,该集群包含 1000 个系统。Inktomi有许多竞争对手,包括一家名叫 Google、扎根于斯坦福大学的初创公司。

Patterson 是一本热门计算教材的合著者,他说:“他们使用 PC 构建网络集群,并且制定了有利于自身发展和真正改善搜索质量的经营模式 – 剩下的大家都知道了。”

如今,集群或 Pod 是大多数全球500强超级计算机和几乎所有云计算服务的基础。它们大部分都使用 NVIDIA GPU,但是我们还在不断变得更好。

Pod 与集群:术语之争

虽然计算机架构师将这些系统称为集群,但一些网络专家更喜欢 Pod 一词。他们将这个生物术语转化为技术缩略词,指出 POD 表示计算服务的“交付点”。

Pod 一词在云计算的早期阶段就很受欢迎。服务供应商竞相构建仓库规模的更大型系统,他们通常订购整个“航运货柜”(也称为 Pod)的预配置系统,并且可以像乐高积木一样将它们插接在一起。

First Google cluster in a container

交付给云服务供应商的早期原型“货柜”。

最近,Kubernetes 小组采用了 Pod 一词。他们将软件 Pod 定义为“一个容器或少数几个紧密耦合并共享资源的容器”。

航空航天和消费电子等行业也采用了 Pod 一词,这可能是为了使它们的概念带上有机体的温暖感。最具标志性的示例包括 iPod(iPhone 的前辈),以及影片《2001:太空漫游》中的单人宇宙飞船。

AI 邂逅集群

2012 年,云计算服务提供商迎来了 AI 大爆炸,一种强大的新计算形式从此诞生。他们竞相构建大型 GPU 集群,这些集群借助其内部加速器核心集群,能够处理庞大的数据集,以训练和运行神经网络。

为了帮助将 AI 推广到各种企业数据中心,NVIDIA 将 InfiniBand 网络上的 GPU 集群整合为 NVIDIA DGX 系统参考架构可让用户轻松从单个 DGX 系统扩展为 NVIDIA DGX POD 甚至超级计算机级别的 NVIDIA DGX SuperPOD

例如,英国的 Cambridge-1 AI 超级计算机基于 DGX SuperPOD 构建,专用于推动生命科学和医疗健康的发展。它是以前所未有的方式推广的众多 AI 就绪型集群和 Pod 之一。它们正像 AI 本身一样,以多种形式和规模在各行各业中飞速发展。