案例简介
• 江西师范大学数字产业学院,利用搭载了NVIDIA V100和 T4 Tensor Core GPU的联想ThinkSystem SR650和SR670服务器高性能计算集群,帮助学生和教师开展深度学习突破性研究。
• 本案例主要应用到NVIDIA Tesla V100 , NVIDIA T4 Tensor Core GPU ,NVIDIA RIVA平台、NVIDIA NEMO模型训练平台。
客户简介及应用背景
江西师范大学数字产业学院是江西省的第一所数字产业学院,学院于2021年成立,专注于计算机科学与技术、人工智能、大数据、物联网及动画等领域的教学和研究。
作为新成立的机构,江西师范大学数字产业学院计划从零开始构建一套行业顶尖的数字化基础架构,而这需要从设计并建立全新的数据中心开始。
客户挑战
“联想和NVIDIA在人工智能和传统高性能计算领域实力雄厚,在我们的评估中获得了最高的技术评分。”
——江西师范大学数字产业学院副院长
在为新的数据中心选择服务器和存储基础架构时,江西师范大学数字产业学院主要考虑两大需求。
首先,它需要一个强大的平台支持日常运营。该平台将运行学院的学生信息、图书馆、教室和校园系统,而且需要足够的灵活性和可扩展性,在学院不断发展壮大、招生人数增多的情况下实现快速扩展。
其次,它还需要一套强大的高性能计算基础架构,帮助教师和学生开展突破性科研工作。江西师范大学数字产业学院设立了多个和人工智能、深度学习相关的优势学科和科研项目。因此,找到一种不仅能够支持CPU密集型工作负载,同时还能支持GPU密集型工作负载的通用架构为教学和科研的必要的实验环境尤为重要。
由于学院可用于IT管理的资源非常有限,这两个平台都应当非常可靠且易于管理。此外,考虑到随着科研工作的逐步深入,数据量预计将迅速增加,强大的数据存储和数据保护功能必不可少。
应用方案
联想帮助江西师范大学数字产业学院设计并部署了一套基于两大主要解决方案的基础架构,这两套方案协同运行,能够对学院的运营系统和科研项目进行全面管理。“
首先,学院采用联想ThinkAgile AH超融合解决方案作为统一平台,支持日常行政管理、教学和科研管理等企业级应用。超融合的部署意味着学院可以根据需要随时添加计算和存储资源来支持业务增长。联想ThinkAgile AH还是为数不多能够支持异构设备扩容的超融合解决方案,以最大化的资源利用和灵活性充分保护学院的投资。
其次,利用联想ThinkSystem SR650和SR670服务器组成的高性能计算集群,学院搭建了一个可供各学科完成教学和科研工作的IT环境。这些服务器搭载了CPU和NVIDIA V100及T4 Tensor Core GPU。NVIDIA V100 GPU专门设计用于加速人工智能和高性能计算工作负载,可提供比传统CPU高32倍的训练吞吐量。
凭借4颗NVIDIA V100 GPU和18颗NVIDIA T4 Tensor Core GPU,联想高性能计算集群可交付出色的性能,满足深度学习和计算机视觉工作负载的苛刻要求。该系统可支持多种常见的深度学习框架(如Caffe和TensorFlow)以及容器技术。
与此同时,联想的LiCO 平台(Lenovo Intelligent Computing Orchestration)作为集群管理器,提供了一个简单且直观的操作界面,使集群资源对研究人员垂手可得,并帮助非技术用户消除复杂性。同时,联想LiCO平台能够实现细粒度资源监控,和CPU、GPU资源的灵活分配。
最后,学院通过联想ThinkSystem DM3000H和DE6000H存储系统以及DPA24000备份一体机,实现对核心数据的归档、备份和保护。这种并行文件系统还可帮助包括科研人员在内的所有用户进行统一的数据访问。
使用效果及影响
“我们的学生和导师非常期待使用联想和NVIDIA的高性能计算平台开展突破性科学研究。这将有助于我们推动城市的数字产业的发展,实现教育链、创新链、产业链的深度融合。”
——江西师范大学数字产业学院副院长
新平台就绪后,江西师范大学数字产业学院具备了所需的工具帮助教师和学生开展一流的科研工作。
通过轻松访问高性能计算工作负载所需的CPU和GPU资源,学院的学生和科研人员将能够有效地规划、实施和管理项目而不需要额外的技术帮助,进而减轻IT技术人员的负担。利用联想LiCO平台,只需简单点击鼠标就可以分配资源,部署深度学习应用和训练模型。技术和研究人员的时间和精力能够释放出来,帮助学院集中精力于学术工作,而不必被淹没在繁琐的部署、运营或系统维护任务中。
基于NVIDIA GPU的强大处理能力,可以很好的支持人工智能和深度学习研究项目。 用户友好的高性能计算集群管理,使学生和科研人员如虎添翼 。小维护工作量的基础架构,提供自动备份,可轻松扩展。