本周的 CES 上,未来科技以一种极为“硬核”的方式登场——它并不精巧,也不轻便,而是一个由钢铁打造、涂着黄色油漆、重达六吨并充满真实力量的工业设备,大到根本无法搬上演讲舞台。
也正因为如此,NVIDIA 机器人与边缘 AI 副总裁 Deepu Talla 才不得不“换一种方式”与 Caterpillar 同台亮相,呈现了今年 CES 上按重量计算规模最大的一次技术演示。在 Caterpillar 的主题演讲中,画面切换到了展馆内这家工程机械制造商的展位,一台 Cat 306 CR 小型挖掘机已就位,准备进行实时演示。
来自驾驶舱内部的实时视频被投放到主会场的大屏幕上,观众第一次近距离目睹重型设备的一项创新功能:通过自然语言与机器对话。
“嘿,Cat,我该怎么开始操作?”
回应随即传来——声音来自一个直接运行在机器本体上的 AI 系统。它听懂了问题,调用相关信息,并用自然语音回答。屏幕上,挖掘机的机械臂随之抬起,现场观众不由自主地向前探身观看。在那一刻,未来不再是幻灯片上的概念,也不是技术参数表中的描述,而是以钢铁与芯片为载体,真实地呈现在眼前。
正如 Caterpillar 首席执行官 Joe Creed 在演讲中所说:“Caterpillar 构建并赋能全球现代科技体系的底层实体基础设施。”无论是会场里的电子设备,还是支撑当下 AI 浪潮的数据中心,都离不开从地球开采的矿产资源,以及 24 小时不间断运行的基础设施。
“这正是 Caterpillar 在全球范围内大规模开展的业务。”Creed 表示。
在 CES 的舞台上,这一平时不为人所见的基础设施首次走到台前,依托 AI 技术助力设备操作员实现更安全、高效、便捷的作业。
Caterpillar 的设备以高度适应性著称,能够应对不同气候、地形和施工需求。其中 Cat 306 CR 小型挖掘机凭借高精度作业能力和成熟的操作辅助功能广受认可,已广泛应用于全球各类规模的施工现场。

在此次演示中,Cat AI 助手在 NVIDIA Jetson Thor 平台上运行——这是 NVIDIA 专为工业和机器人系统打造的实时边缘 AI 推理平台。
NVIDIA Riva 负责语音交互,结合 NVIDIA Nemotron 语音模型,实现快速且精准的自然语音交互。
Qwen3 4B 通过 vLLM 在本地运行,用于理解用户意图并生成回应,全程无需连接云端,延迟极低。
Caterpillar Helios 数据平台提供可靠的设备运行上下文信息。
以下是该技术体系在 CES 现场演示中的核心应用:
安全与作业边界 (E-Ceiling):操作员展示了如何借助辅助功能精确控制设备位置,例如限制机械臂的运动范围,以避免碰撞上方结构或地下设施。语音交互让这些设置变得更快捷,比如通过语音即可直接调整已知管线区域上方的地面边界。
更直观的操作体验:在空间受限的工况下,Cat 306 的操控方式尤为关键。AI 作为“随车助手”,能够帮助操作员快速定位功能、理解设备行为,并通过自然对话的方式进行故障排查。
驾驶舱内 AI 辅助:Caterpillar 还展示了 Cat AI 助手的未来潜力,包括提供个性化操作建议、安全提示,以及快速访问设备文档和相关资源。
Caterpillar 正在和 NVIDIA 一起探索如何将这些能力扩展到整个设备车队和施工作业现场,通过边缘 AI 将不断增长的机器数据转化为及时、可执行的决策支持。
然而故事并不止步于作业现场。
Caterpillar 还在美国多个工厂推进基于 NVIDIA Omniverse 库和 OpenUSD 的数字孪生试点项目,用于制造建筑产品和大型采矿设备。
借助数字孪生技术,团队可以在不进行任何实体改造的情况下,对产线调整进行仿真,测试各种调度场景,并优化物料流转。
与此同时,AI 的快速发展也在推动对实体基础设施的新一轮需求,比如道路、港口、电力系统,以及建设和维护这些设施所需的设备。
正因如此,Caterpillar 承诺在未来五年投入 1 亿美元用于劳动力培训和教育,其中包括价值 2500 万美元的全球劳动力创新挑战赛,旨在挖掘并推广能够帮助工人适应下一代 AI 工业系统的解决方案。
当 Cat 306 小型挖掘机的黄色涂装在大屏幕上闪耀时,Creed 用一句话为演讲画下句号:
“如果只能记住本次展示的一点,我希望是——Caterpillar 始终是全球物理世界的建设者与赋能者,支撑着每个人的日常生产生活;而如今,我们正致力于让现代科技体系的底层实体基础设施,具备更强大的智能能力。”
这个世界正在变得更加智能。边缘 AI 技术让重型设备拥有倾听、解读、辅助的核心能力,持续赋能操作员、技术人员、车队设备管理者的作业全流程。这些智能工业设备的作业轰鸣,正是工业智能化未来的破土之声。
技术亮点
NVIDIA Jetson Thor:面向工业与机器人系统的实时边缘 AI 推理平台
NVIDIA Riva:语音 AI 框架,包含 Parakeet ASR 与 Magpie TTS
Qwen3 4B LLM:用于意图解析和生成回复的轻量级大语言模型
vLLM:在边缘端实现高效 LLM 推理服务的运行时
Caterpillar Helios:提供可信的设备上下文的统一数据平台
NVIDIA Omniverse:面向工业工作流的数字孪生与仿真库和框架