当今复杂的业务环境中,IT 团队面临着不断的挑战,从员工账号锁定等简单问题到关键的安全威胁,不胜枚举。针对这些情况,既需要快速修复,也需要战略防御,这使得维持平稳和安全运营的工作变得愈发困难。
而这正是 AIOps 的用武之地。它将人工智能与 IT 运营相结合,不仅可以自动执行日常任务,还能够增强安全措施。这种方法非常高效,不仅可让团队快速处理小问题,而且更重要的是,还能让团队比以前更快、更准确地识别安全问题并作出响应。
借助机器学习,AIOps 不仅成为了简化操作的重要工具,而且还能全面加强安全性。事实证明,对于希望为团队引入先进 AI 的企业来说,AIOps 将成为一个颠覆性的工具,帮助企业未雨绸缪,提前为应对潜在安全风险做好准备。
据 IDC 数据显示,IT 运营管理软件市场预计将以每年 10.3% 的速度增长;到 2027 年,预计收入将达到 284 亿美元。这一增长凸显了企业日益依赖 AIOps 来提升运营效率,并且它已成为现代网络安全战略的关键组成部分。
随着机器学习运维的快速增多,生成式 AI 时代不断发展。由 NVIDIA 合作伙伴组成的广泛生态系统正在提供 AIOps 解决方案,利用 NVIDIA AI 帮助企业改进 IT 运营。
NVIDIA 致力于通过加速计算和 AI 软件,为广泛的 AIOps 合作伙伴生态系统提供帮助。其中包括 NVIDIA AI Enterprise,这是一个可以在任何地方运行的云原生堆栈,并通过 NVIDIA NIM(用于加快 AI 模型推理)、NVIDIA Morpheus(用于基于 AI 的网络安全)和 NVIDIA NeMo(用于自定义生成式 AI)等软件,为实现 AIOps 奠定坚实的基础。该软件有助于实现基于生成式 AI 的聊天机器人、摘要和搜索功能。
使用 NVIDIA AI 的 AIOps 服务提供商包括:
- Dynatrace Davis 超模态 AI 集成了因果 AI、预测式 AI 和生成式 AI 技术,并采用 Davis CoPilot,以强化 AIOps。这一组合能够提供精确、切实可行且由 AI 驱动的回答和自动化,有助于增强 IT、开发、安全和业务运营的可观察性和安全性。
- Elastic 提供用于语义和向量搜索的 Elasticsearch Relevance Engine (ESRE),该引擎集成了 GPT-4 等热门 LLM,能够为可观察性和安全性解决方案中的 AI 助手提供强大的支持。Observability AI Assistant 是新一代 AIOps 功能,可协助 IT 团队了解复杂系统、监控运行状况,并自动修复运营问题。
- New Relic 正在利用其机器学习、生成式 AI 助手框架以及长期以来在可观察性方面积累的专业知识来强化 AIOps。它的机器学习和高级逻辑可帮助 IT 团队减少警报噪音、缩短平均检测时间和平均修复时间、自动分析根本原因并生成回顾。它的生成式 AI 助手 New Relic AI 可加快问题解决速度,用户无需切换上下文,即可识别、解释和解决错误。它能够直接在开发者的集成开发环境中提供代码修复建议并修复代码。此外,它还能自动生成高级系统运行状况报告、分析和汇总仪表盘以及回答有关用户应用、基础设施和服务的简单语言问题,将事件可见性和预防扩展到非技术团队。对于受益于 NVIDIA GPU 的 AI 驱动的应用,New Relic 还能实现全栈可观察性。
- PagerDuty 在 PagerDuty Copilot 中新增一项功能,即在 Slack 中集成了生成式 AI 助手,以便在从事件发生到解决的整个过程中提供深入洞察,简化事件生命周期,并减少 IT 团队的人工任务量。
- ServiceNow 致力于创建主动 IT 运维, 包括自动产出洞察(以对事件作出快速响应)、优化服务管理和检测异常。现在,该公司正在与 NVIDIA 合作推进生成式 AI 的发展,进一步推动技术服务和运营的创新。
- Splunk 的技术平台依托人工智能和机器学习,针对实现运营问题与威胁,实现了识别、诊断和解决流程的自动化,进而提高 IT 效率,并改善安全状况。Splunk IT Service Intelligence 是 Splunk 的主要 AIOps 产品,能够从一个位置提供由嵌入式 AI 驱动的事件预测、检测和解决方案。
亚马逊云科技 (AWS)、谷歌云和 Microsoft Azure 等云服务提供商为企业和组织灵活地提供大规模云资源,帮助其实现 IT 运营的自动化和优化。
- 亚马逊云科技提供了一套有助于 AIOps 的服务,包括用于监控和可观察性的 Amazon CloudWatch、用于跟踪用户活动和 API 使用情况的 AWS CloudTrail、用于创建可重复且负责任的机器学习工作流的 Amazon SageMaker 和用于无服务器计算、可基于触发器自动执行响应操作的 AWS Lambda。
- 谷歌云通过 Google Cloud Operations 等服务为 AIOps 提供支持,该服务可为云端和本地的应用提供监控、日志记录和诊断功能。谷歌云的 AI 和机器学习产品包括 Vertex AI(用于模型训练和预测)和 BigQuery(利用 Google 基础设施的处理能力进行快速 SQL 查询)。
- Microsoft Azure 通过 Azure Monitor 来全面监控应用、服务和基础设施,推动 AIOps 发展。Azure Monitor 的内置 AIOps 功能有助于预测容量使用情况,实现自动扩展,识别应用性能问题,以及检测虚拟机、容器和其他资源中的异常行为。Microsoft Azure 机器学习(AzureML)提供了一个基于云的 MLOps 环境,可安全、负责任地大规模训练、部署和管理机器学习模型。
专注于 MLOps 的平台主要致力于简化机器学习模型的生命周期(从开发到部署和监控)。下列公司虽然核心任务在于让机器学习变得更易于获取、更高效和更具可扩展性,但鉴于其技术和方法增强了 IT 运营中的 AI 功能,因此也间接实现了对 AIOps 的支持:
- Anyscale 的平台基于 Ray,可以轻松扩展 AI 和机器学习应用,包括 AIOps 中用于异常检测和自动修复等任务的应用。Anyscale 通过促进分布式计算,帮助 AIOps 系统更高效地处理大量运营数据,实现实时分析和决策。
- Dataiku 可用于创建预测 IT 系统故障或优化资源分配的模型,IT 团队借助它,可在生产环境中快速部署和迭代这些模型。
- Dataloop 的平台提供完整的数据生命周期管理功能,并能够灵活地为端到端工作流引入 AI 模型,使用户能够使用自身数据开发 AI 应用。
- DataRobot 是一个完整的 AI 生命周期平台,可帮助 IT 运营团队快速构建、部署和管理 AI 解决方案,提高运营效率和性能。
- Domino Data Lab 的平台使企业及其数据科学家在统一的端到端平台上构建、部署和管理 AI。所有环境中的数据、工具、计算、模型和项目都是集中管理的,因此团队可以彼此协作、监控生产模型,并实现受治理的 AI 创新最佳实践标准化。这种方法对于 AIOps 至关重要,因为它既能满足数据科学团队对自助服务的需求,又能满足 IT 运营所需的完全可复现性、精细的成本跟踪和对 AI 的主动治理。
- Weights & Biases 提供用于实验跟踪、模型优化和协作的工具,这对于开发和微调 AIOps 中使用的 AI 模型至关重要。Weights & Biases 还提供有关模型性能的详细洞察,并促进团队间的协作,这有助于确保为 IT 运营部署有效且透明的 AI 模型。
参加 NVIDIA GTC 大会,详细了解 NVIDIA 合作伙伴生态系统及其开展的工作。