NVIDIA AI 助力赖耶科技构建 AI 工厂
赖耶科技作为一家专注于人工智能领域的创新企业,于 2024 年正式加入 NVIDIA 初创加速计划(NVIDIA Inception Program),并在提高算力资源整合使用效率及效果领域,始终与 NVIDIA 技术团队保持合作。赖耶科技通过 NVIDIA AI Enterprise 平台打造的超级 AI 工厂,致力于加速大模型场景应用的深化拓展及落地,为企业与个人开发者提供高性能的 Token 服务,助力新质生产力加速发展。
大模型场景应用落地的挑战
赖耶科技的愿景是建立“人工智能工厂(AI Factory)”为客户提供“开箱即用”的企业级人工智能解决方案。在大模型场景应用落地过程中,行业面临着诸多挑战:
- 数据复杂性:大模型需要处理海量的数据,且数据来源多样、格式复杂,如何有效地整合和管理这些复杂数据是一个重大挑战。
- 计算资源需求:大模型的训练和推理需要大量的计算资源,包括 GPU 等硬件设备,这对企业的成本和技术实力提出了相对高的要求。
- 模型准确性和可靠性:大模型的输出结果直接影响到企业决策和业务发展,因此模型的准确性和可靠性至关重要。
- 应用场景适配:不同的企业和行业有不同的需求和应用场景,如何将大模型适配到具体的场景中,以发挥其最大的价值,是一个亟待解决的问题。
NVIDIA AI Enterprise 最佳实践,推动大模型应用的超级 AI 工厂
赖耶科技基于 NVIDIA 企业 AI 套件 NVIDIA AI Enterprise 打造的赖耶超级 AI 工厂,从构成上分为基础架构、大模型生产框架和智能体应用三部分。
- 基础架构层:作为赖耶超级 AI 工厂的底层操作系统,是由万卡大规模集群管理系统 KAA 和赖耶集群堆叠全栈优化方案 MONA 组成。基于 NVIDIA AI Enterprise 的 BCME( Base Command Manager Essentials)组件对万卡集群进行部署和管理,实现了 IO 通讯优化、资源虚拟化、云原生管理和编排、高性能多租户隔离、计费计量、动态部署扩展、GPU 驱动适配等功能。
- 大模型生产框架:中间层的 MANAS 大模型生产框架基于 NVIDIA AI Enterprise 的 NeMo Framework 提供核心组件,涵盖从数据处理到模型训练、模型对齐、模型微调和企业部署过程中对安全审查的安全护栏等全套功能。
- 智能体应用层:最上层的 LIM(Laiye Inference Microservice) 智能体服务与生产工厂,是可快速部署的大模型微服务。基于 NVIDIA NIM 提供的核心能力,能够在短时间内完成系统集成。面向企业 IT 团队,提供了易用无代码化的多模态知识库、多模态微调数据集、大模型微调定制和版本管理、多模态智能对话和企业搜索、行业智能体参考设计等一站式企业大模型定制化平台
赖耶超级 AI 工厂提供企业大模型生产和场景应用两大核心功能,大模型生产功能包含了大规模 GPU 集群的组网调优、模型的稳定性训练和企业垂类大模型定制;企业场景应用功能,提供了开箱即用的 OpenAI 兼容的大模型 API 微服务,以及屏蔽了 GPU 底层复杂技术细节的加速推理镜像服务。
赖耶 AI 超级工厂是基于 NVIDIA AI Enterprise 的最佳实践,目前已在多家千 P 级算力中心完成落地应用,在大模型训练效率和推理性能上达到了同类型最佳水平,帮助各行各业的企业以更低成本、更快速度将大模型应用到实际场景中。
北京赖耶信息科技有限公司 CEO Lucas Dai 表示:“赖耶科技通过与 NVIDIA 团队合作,基于 NVIDIA AI Enterprise 打造的超级 AI 工厂,帮助企业快速定制专属的大模型。我们的平台将企业从模型开发到应用落地的周期从几个月缩短至几天或几周,大幅提高了业务响应速度,降低了运营成本。赖耶超级 AI 工厂专注于为企业提供开箱即用的解决方案,推动智能化转型,助力企业在复杂的业务环境中取得更高效的成果。”
大模型场景应用落地实例
案例一:多模块混合架构提升天气预测能力
此气象大模型在气象领域表现突出,采用多模块混合架构,结合深度学习、图神经网络与传统物理模型,显著提升长期天气模式预测能力。该模型能精准捕捉从局地到全球的大气动力学特征,实现小时到月尺度的高精度预报,最高空间分辨率达 1 公里。
通过多尺度输入处理、先进编码器等核心组件的协同工作,该模型在国际测试中预报精度超越传统数值模型,特别在 7-15 天的中期预报中提高近 20%,15-30 天的超长期预报达到传统模型 7 天水平。赖耶科技基于 NVIDIA AI Enterprise 提供的加速组件,让计算效率提升近万倍,实现全球尺度和百米局地尺度间无缝切换,预报期延长至 30 天。
案例二:优化数据处理与分析效率
赖耶大模型的 API 服务是基于 NVIDIA NIM 提供快速和稳定模型部署和发布,其成功实现了大模型在大数据企业应用中的落地。该平台赋能企业内部各部门,不仅提升了数据处理和分析的效率,还通过大模型的强大自然语言处理能力,优化了企业的内部沟通和客户服务流程。平台亦可快速生成复杂的商业报告,帮助管理层做出更明智的决策。
案例三:提升集群管理与算力利用率
该算力中心部署了赖耶超级 AI 工厂,对万卡规模的集群进行管理和性能优化,提供了高可靠的模型训练服务,对整体集群的模型算力利用率 MFU(Model FLOPs Utilization)提升了 2 倍,并且提供的大模型 API 微服务,面向区域内客户提供大模型服务,实现了从算力运营到 Token 运营的转变,达到了算力增值运营的目的,也让企业能更便捷地使用大模型。
未来展望
期望在不久的将来,大模型能在更多领域得到广泛应用,不仅惠及更多企业,还将为社会的发展带来更多价值。赖耶科技将继续与 NVIDIA 技术团队合作,为企业实现大模型 Token 赋能,加速大模型场景应用落地。