NVIDIA Media2 通过 AI 深入改变内容创作、流媒体和受众体验

总规模达到 3 万亿美元的媒体行业计划使用 NIM 微服务、AI Blueprint 等 NVIDIA 技术简化 AI 视频管线并提高受众的参与度。
作者 Richard Kerris

从创建 GPU、RTX 实时光线追踪和神经渲染,到如今重塑 AI 计算,NVIDIA 几十年来一直站在计算机图形领域的前沿,不断推动媒体和娱乐行业的发展。

NVIDIA Media2 是一项 AI 赋能的全新计划。它将深入改变内容创建、流式传输和实时媒体体验。

Media2 以 NVIDIA NIM 微服务、AI Blueprint 等技术,以及初创企业和软件合作伙伴的突破性 AI 应用为基础,使用 AI 技术帮助创建更加智能、更加定制化、更具影响力的内容,并且可根据受众的个人偏好加以调整。

在这次创意行业的快速转型中,积极使用 NVIDIA Media2 的公司能够站在总规模达到 3 万亿美元的媒体和娱乐行业的前沿,重塑受众的消费和与内容互动方式。

NVIDIA Media2 技术堆栈

Media2 使用的核心 NVIDIA 技术

随着生成式 AI加速计算在媒体和娱乐行业的普及,NVIDIA 技术正在深入改变内容的创建、交付和体验方式。

NVIDIA Holoscan for Media 是一个 AI 赋能的软件定义平台,它能够让广播公司、流媒体公司和体育直播公司的实时视频管线与 AI 在同一个基础设施上运行。该平台在 NVIDIA 加速的基础设施上提供全行业厂商的应用。

NVIDIA Holoscan for Media

NVIDIA Blackwell 架构提供了驱动下一代数据增强型智能内容创建和超个性化媒体所需的强大动力。该架构专为处理数据中心规模的生成式 AI 工作流构建,能耗仅为 NVIDIA Hopper 的 25 分之一。Blackwell 集成了六种类型的芯片,包括 GPU、CPU、DPU、NVIDIA NVLink Switch 芯片、NVIDIA InfiniBand 交换机和以太网交换机。

NVIDIA Blackwell 架构

NVIDIA Blackwell 由 NVIDIA AI Enterprise 提供支持,后者是一个适用于生产级 AI 的端到端软件平台。NVIDIA AI Enterprise 包含丰富的 NVIDIA NIM 微服务、AI 框架、库和工具,并且这一阵容还在不断壮大。媒体公司可在 NVIDIA 加速的云、数据中心和工作站上部署它们,包括:

  • Llama 3.1-405B-Instruct NIM 微服务:可以为聊天机器人、编码和特定领域任务提供合成数据生成、蒸馏和推理功能。
  • Mistral-NeMo-12B-Instruct NIM 微服务:可实现多语种信息检索,即跨语言搜索、处理和检索知识的能力,是提高 AI 模型输出结果准确性和全球相关性的关键。
  • 适用于精确视觉生成式 AI 3D 调节的 NVIDIA  Omniverse Blueprint:能够帮助广告主在不影响主要产品资产的情况下,使用实时渲染和生成式 AI 轻松/大规模地构建个性化、符合品牌形象和精准贴合产品的营销内容。
  • NVIDIA NeMo Retriever 嵌入重排 NIM 微服务:能够将文本文档、文字记录、新闻文章和其他书面内容矢量化。媒体公司可以使用这两项服务扩展生成式 AI 方面的工作并构建准确的多语种系统。
  • NVIDIA Cosmos Nemotron 视觉语言模型 NIM 微服务:这个多模态 VLM 能够理解文本、图像和视频的含义和上下文。借助这项微服务,媒体公司可以使用自然语言查询图像和视频并获得包含有用信息的回答。
  • 适用于视频搜索和摘要(VSS)的 NVIDIA AI Blueprint:继承了 VLM 和 LLM,并提供用于构建视频分析、搜索和摘要应用的云原生构建模块。
  • NVIDIA Edify 多模态生成式 AI 架构:可根据文本或图像提示生成视觉资产,例如图像、3D 模型和 HDRi 环境等。该架构为开发者提供了先进的编辑工具和高效的训练方式。借助 NVIDIA AI Foundry,服务提供商可以使用 NVIDIA NIM 微服务为商业视觉服务定制 Edify 模型。

Media2 生态系统中的合作伙伴

全行业的合作伙伴都在使用 NVIDIA 技术重塑叙事新篇章。

Getty ImagesShutterstock 使用了来 NVIDIA Edify 构建智能内容创作服务。它们的 AI 模型还经过优化和打包,能够通过 NVIDIA NIM 微服务实现性能最大化。

Bria 是专为开发者设计的商用视觉生成式 AI 平台。它基于 100% 授权的数据训练而成,并根据负责任的 AI 原则构建。该平台提供了用于实现定制管线、无缝集成和灵活部署的工具,保证了企业级合规以及内容生产的可扩展性和可预测性。经过 NVIDIA NIM 微服务的优化,Bria 可提供更加快速、安全和扩展自如的生产就绪解决方案。

Runway 是一个为艺术家和电影制作人提供先进创作工具的 AI 平台。该公司的 Gen-3 Alpha Turbo 模型具有出色的视频生成能力,并且包含一项新的相机控制功能,可实现相机平移、倾斜、变焦等精准的移动。通过集成搭载 NVIDIA GPU 的 NVIDIA CV-CUDA 开源库,Runway 加快了其分割模型的高分辨率视频预处理速度。

Autodesk 旗下的 Wonder Dynamics 最近推出了 Wonder Animation 测试版,该测试版采用强大的全新视频转 3D 场景技术,可将任何视频序列转换成用于动画电影制作的 3D 动画场景。Wonder Animation 由 NVIDIA GPU 技术提供加速,是一个专为视觉特效艺术家和动画师提供的灵活、易用的工具。它大大减少了传统 3D 动画和视觉特效工作流的时间、复杂性和工作量,同时让艺术家能够保持对创作的完全掌控。

Comcast 的 Sky 创新团队正在与 NVIDIA 合作,在其全球平台上对 NVIDIA NIM 微服务和合作伙伴模式进行实验室测试。该整合可以提高全球用户的互动性和可访问性,例如在直播体育节目时使用语音指令请求摘要、访问其他上下文信息等。

是一家创意技术公司,有着大型虚拟工作室网络,它正在利用 NVIDIA 加速的生成式 AI 技术,拓宽创建虚拟环境和沉浸式内容的渠道。

Twelve LabsNVIDIA 初创加速计划成员。该公司正在开发先进的多模态基础模型。由于这些模型能够像人类一样理解视频,因此可以进行精确的语义搜索、内容分析和视频转文本生成。Twelve Labs 还使用 NVIDIA GPU 大幅提高了这些模型的推理性能,将每秒处理的请求数最多增加了 7 倍。

S4 Capital 的 Monks 正在使用领先的 AI 技术对实时内容进行细分和提供个性化的观众体验,使直播效果变得更佳。该公司的解决方案由 NVIDIA Holoscan for Media 驱动,集成了 NVIDIA VILA 等工具,可生成上下文元数据并添加到时间可寻址媒体存储框架中,从而对视频内容进行基于动作的精确搜索。

此外,Monks 还使用 NVIDIA NeMo Curator 帮助处理数据,以便为体育联盟和 IP 持有者构建量身定制的 AI 模型,然后以授权使用的方式开辟新的变现渠道。通过将这些技术“糅合”在一起,广播公司可以随着赛事的进行向观众不间断地提供超相关内容,同时满足当今受众不断变化的需求。

媒体公司管理着海量视频内容,这些内容的定位、编目和编译成品既困难又耗时。领先的媒体顾问和系统集成商 Qvest 在 NIM 微服务基础上开发了 AI 视频发现引擎,该引擎通过自动采集视频文件的数据加快了这一过程,使用户能够更加轻松地发现视频并联系上下文研究如何将视频融入到其想要讲述的故事中。

Verizon 将其安全可靠的 5G 专网与 NVIDIA 全栈 AI 平台(包含 NVIDIA AI Enterprise 和 NIM 微服务)整合成最新的边缘 AI 解决方案,深入改变了全球企业的运营方式以及直播媒体和体育内容。

通过使用该解决方案,流媒体公司、体育联盟和 IP 持有者可部署高性能 5G 连接以及能够实现个性化内容交付的生成式 AI、代理式 AI、扩展现实和流媒体应用,以更强的互动性和沉浸感提升观众体验。该技术还通过向教练、运动员、裁判和观众提供实时数据分析,帮助提升运动员的表现和观众的参与度。它还支持 5G 驱动的私有企业 AI 用例,并以此推动自动化和生产力的发展。

欢迎加入 NVIDIA Media2

NVIDIA Media2 计划通过智能、数据驱动的沉浸式技术,帮助企业重新定义媒体和娱乐的未来,在为他们带来竞争优势的同时,使他们能够推动整个行业的创新。

现在可以试用 NVIDIA 和模型开发者提供的 NIM 微服务,未来将定期添加更多模型。

开始使用 NVIDIA NIM 和 AI Blueprint,并观看 NVIDIA 创始人兼首席执行官黄仁勋在 CES 上的开幕主题演讲,了解 AI 领域的最新进展。