NVIDIA 硬件产品由数万个协调工作的组件构成,堪称工程壮举。随着其复杂性的增加,组件故障的风险也随之增加。
这就是我们拥有专门的故障分析团队的原因。他们是一小群充满热情的工程师,当产品出现问题时,他们会进行检查。
为了解决半导体行业中一些最棘手的问题,该团队负责确定故障发生的根本原因,可能包括设计缺陷、生产故障、可靠性测试失败以及外来污染物等。
有时问题很明显且很容易解决,但也可能像使用望远镜寻找宇航员在月球上的脚印一样困难。 NVIDIA 最新的 Hopper 芯片装有 800 亿个晶体管,这些晶体管是控制电流的微型开关。如果其中一个(比人类头发直径小 10,000 倍)有缺陷,整个芯片就会失效。
“如果将每家半导体公司的故障分析实验室视为一支 NBA 篮球队,那么 NVIDIA 的团队就是哈林篮球队,”故障分析工程师 Jonathon Elliott 说道。 “我们正在做人们认为不可能的特技展示。”
世界级的团队
嗡嗡声经常从故障分析实验室里传来,那是高度复杂的专业设备运转时发出的声音。该团队使用多项复杂的技术,包括激光电压探测和成像、扫描电子显微镜、脉冲反射仪、纳米探测、热成像和 X 射线成像等,来识别不同类型的故障。
“NVIDIA 投资建设了世界一流的实验室并培养了一支出色的团队,”芯片故障分析高级经理 Jane Li 说道。 “该团队始终如一的令人惊叹的创新工作推动我们取得更大的成功。”
“拥有内部故障分析专家对公司来说非常有价值,”芯片故障分析高级经理 Joy Liao 补充道。 “识别出即使是单一故障的根本原因,也可以帮助产品进入市场。”
为了提高准确性和效率,团队不断探索新方法并开发领先的解决方案。例如,为了缩短处理 3D X 射线的 12 小时周转时间,他们应用了 NVIDIA GPU 和 NVIDIA CUDA,仅用了 5 分钟就完成了任务。
通过密切合作实现卓越成果
故障分析团队与 NVIDIA 各个团队合作,解决产品生命周期各个阶段的问题——从早期产量提升和芯片流片到可靠性测试和现场故障。
他们与先进技术团队密切合作,分析正在开发的下一代芯片;与可靠性团队合作对新产品进行压力测试以发现潜在的故障点;并与支持团队合作,确保客户的硬件顺利运行。
“我可以给故障分析团队一块客户退回的电路板,几天后,他们就会告诉我关于故障原因和它如何发生的复杂细节,”客户和产品质量工程高级总监 Phillip Yu 说。 “当有数十亿个故障晶体管时,能够物理隔离并拍摄故障晶体管的照片,这就是神奇之处。”
承接大大小小的项目
这个忙碌的实验室每周都会处理数十个请求,从关键业务的深入研究到偶尔为同事和朋友做的副项目。
长期担任首席故障分析工程师的 Khanh Giang 回忆起 2000 年 12 月测试 NVIDIA GPU 的情景,当时同事们正在隔壁举行节日聚会。
“凌晨 3 点左右,当我完成微探测站的设置并且芯片投入使用时,我们的 CEO 黄仁勋领导的整个工程团队爆发出欢呼声,以配合隔壁房间的派对气氛,”他回忆道。
2022 年,来自圣克拉拉和新竹的团队成员合作快速解决了制造问题。
“停机时间是生产线中的一个巨大考验,”从事电气故障分析的Nick Poudel 说。 “在那关键时刻,我们从日志分析到软件诊断,仅用了72小时就得到了成功的结果。”
在业余时间,该团队使用水射流切割机将 NVIDIA RTX 4090 GPU 的冷却器切成两半,以实现 NVIDIA GeForce 与流行的 Gamers Nexus YouTube 频道的合作。他们还使用异丙醇和工业烤箱来帮助同事们从咖啡溢出物中抢救笔记本电脑。
了解有关 NVIDIA 生活、文化和职业的更多信息。