Nemotron Labs:AI 智能体如何将文档转化为实时商业智能

基于 NVIDIA Nemotron 开放模型的 AI 驱动文档智能,增强科学研究、金融和法律等领域工作流。
作者 Moon Chung

编者注:本文是 Nemotron Labs 系列博客文章,探讨最新的开放模型、数据集和训练技术如何帮助企业在 NVIDIA 平台上构建专用的 AI 系统和应用。每篇文章都强调了在生产中使用开放堆栈来提供价值的实际方法,涵盖了从透明的研究 copilot 到可扩展的AI 智能体等领域。

如今,企业面临着从各种文档中 (包括报告、演示文稿、PDF、网页和电子表格) 挖掘宝贵见解的挑战。

通常,团队需要通过手动审阅文件、将数据复制到电子表格、构建仪表板,以及使用基本的搜索或模板化的光学字符识别 (OCR) 工具来整理见解,而这些方法往往会遗漏复杂媒体中的重要细节。

智能文档处理是一种由 AI 驱动的工作流,可以自动读取、理解文档并从中提取见解。它依托 AI 智能体检索增强生成 (RAG) 等技术,解析文档中的多种格式 (包括表格、图表、图像和文本),并将多模式内容转化为易于其他多智能体系统以及人类运用的洞察。

借助 NVIDIA Nemotron 开放模型和 GPU 加速库,组织可以构建 AI 驱动的文档智能系统,用于研究、金融服务、法律等领域工作流。

这些开放模型、数据集和训练方法在 MTEBMMTEBViDoRe V3 等排行榜上表现优异,这些榜单是评估多语言和多模态检索模型的权威基准。团队可以从中选择适用于搜索和问答等任务的最佳模型。

文档处理如何优化商业智能

文档智能系统能够从复杂的布局中提取意义,扩展到庞大的文件库,并准确显示答案的来源,这在高风险环境中非常有用。这些系统:

  • 理解丰富的文档内容,超越简单的文本抓取,从图表、表格、图形和混合语言页面中捕获信息,并像人类处理文档一样识别其结构、关系和上下文内容。
  • 处理大量动态数据,并行摄取和处理海量文档,同时保持知识库的持续更新。
  • 精确定位用户所需的内容,帮助 AI 智能体精确找出与查询最相关的段落、表格或文字,从而提供精准和准确的响应。
  • 通过提供对特定页面或图表的引用,展示答案背后的证据,使团队能够获得透明度和可审计性,这在受监管的行业中尤为关键。

其结果是从静态文档档案转变为直接驱动商业智能、客户体验和运营工作流的动态知识系统。

工作中的文档智能

基于 NVIDIA Nemotron RAG 模型、Nemotron Parse 和加速计算构建的智能文档处理系统,已经在重塑各行业组织从文档中获取洞察的方式。

Justt:AI 原生的退款管理和争议优化平台

在金融服务领域,支付纠纷常常给商家带来巨大的收入损失和运营复杂性,其主要原因是处理纠纷所需的证据以非结构化格式存在。交易日志、客户沟通记录和政策文件通常分散在各个系统中,难以实现规模化处理,从而导致纠纷处理过程缓慢、依赖手动操作且成本高昂。

Justt.ai 提供的 AI 驱动平台能够大规模自动化整个退款处理生命周期。该平台直接连接支付服务提供商和商户数据源,以获取交易数据、客户交互记录和政策信息,然后自动收集符合卡网络和发卡机构要求的特定争议证据。

该平台的 AI 驱动争议优化功能由 Nemotron Parse 提供支持,运用预测分析来确定哪些退款应反对或者接受,以及如何优化每次回应以实现最大化的净回收。像 HEI Hotels & Resorts 这样的领先酒店运营商使用该平台自动化处理其酒店的争议,不仅维持良好的客户关系,同时还成功地收回了收入。

通过结合以文档为中心的智能与决策自动化,商家能够收回因不当退款而损失的大部分收入,并有效减少人工审核的工作量。

了解 Justt 的退款管理工具如何自主处理财务数据来解决商户纠纷。

Docusign:扩展协议智能

Docusign 是智能协议管理领域的全球领导者,每天为超过 180 万客户和逾 10 亿用户处理数百万笔交易。

协议是每项业务的基础,但其中包含的关键信息通常隐藏在文档的多个页面中。为了提取信息,Docusign 需要从像 PDF 这样的复杂文档中高精度地提取表格、文本和元数据,使得企业能够更快地理解并应对义务、风险和机遇。

Docusign 正在评估 Nemotron Parse,以用于大规模深度合约理解。基于 NVIDIA GPU,该模型将先进的 AI 技术与版面布局检测和 OCR 相结合。该系统能够可靠地解析复杂表格,并重建包含关键信息的表格结构。这大幅减少了人工校正的需求,确保即使是极复杂的合同,也能以客户所期望的速度和准确性完成处理。

在此基础上,Docusign 将把协议存储库转化为结构化数据,为合同搜索、分析以及 AI 驱动的工作流提供支持——将协议转变为业务资产,帮助企业及其团队提升透明度、降低风险并更快地做出决策。

Edison Scientific:大规模文献研究

Edison Scientific 的 Kosmos AI Scientist 助力研究人员梳理复杂的科学领域,进行文献综述、发现关联点并挖掘相关证据。

Edison 需要一种能从大量 PDF 文件中快速、准确提取结构化信息的方法,包括那些传统信息解析方法常处理不当的公式、表格和图形。

通过将 NVIDIA Nemotron Parse 模型集成至其 PaperQA 管道中,Edison 可以分解研究论文、为关键概念建立索引,并以具体文献段落为依据给出结论,从而提高科研人员的效率和答案质量。这种方法将庞大的研究文献库转变为一个可交互、可查询的知识引擎,助力加快假设生成和文献审阅。

Nemotron Parse 的高效率可实现大规模经济高效的服务,使 Edison 的团队能够解锁整个多模态管道。

借助NVIDIA 技术设计智能文档处理应用

强大且适用特定领域的文档智能管道需要能够处理数据提取、嵌入和重排名的技术,同时确保数据的安全性,并遵循相关法规。

  • 提取Nemotron 提取和 OCR 模型快速摄取多模式 PDF、文本、表格、图形和图像,将其转换为结构化、机器可读的内容,同时保留其布局和语义。
  • 嵌入Nemotron 嵌入模型将段落、实体和视觉元素转化为适用于文档检索的向量表示,从而实现语义准确的搜索。
  • 重排名Nemotron 重排名模型对候选段落进行评估,以确保最相关的内容作为大语言模型 (LLM) 的上下文,从而提高答案的准确性并减少幻觉。​​
  • 解析:Nemotron Parse 模型解析文档语义,以精确的空间定位和正确的阅读流程提取文本和表格。克服布局的可变性,将非结构化的文档转化为可操作的数据,从而提高了 LLM 和代理式工作流的准确性。

这些功能打包为 NVIDIA NIM基础模型,可在 NVIDIA GPU 上高效运行,使团队能够从概念验证扩展到生产部署落地,同时将敏感数据保留在其选择的云或数据中心环境中。

最有效的 AI 系统混合使用前沿模型和开源模型,例如 NVIDIA Nemotron,通过 LLM 路由器来分析每个任务,自动选择最适合的模型。这种方法可以在保持强大性能的同时管理计算成本并提高效率。

开始使用 NVIDIA Nemotron

获取分步实操指南,学习如何搭建具备 RAG 能力的文档处理管道。探索 Nemotron RAG 如何赋能为各行业定制的专用智能体

另外,还可以尝试使用 Nemotron RAG 模型和 NVIDIA NeMo Retriever 开放库 (现已上线 GitHubHugging Face) 以及 Hugging Face 上的 Nemotron Parse。

加入开发者社区,共同基于NVIDIA Blueprint for Enterprise RAG 进行构建,该蓝图受到十余家行业领先的 AI 数据平台提供商的认可,现已上线 NVIDIA 官网GitHubNGC 目录

订阅 NVIDIA AI 新闻并加入社区,了解代理式AI、NVIDIA Nemotron等最新动态。