毫不夸张地说,目前 AI 已经开始用于训犬了。
科罗拉多州立大学的研究人员 Jason Stock 和 Tom Cavey 在其发表的一篇论文中提到,AI 系统能够识别和奖励对指令做出反应的狗。
这两名计算机科学专业的研究生对图像分类网络进行了训练,以判断狗的坐、立、卧等姿势。如果一只狗能够根据指令做出正确的姿势,机器就会对其进行奖励。
两人利用 NVIDIA Jetson 边缘 AI 平台实时识别技能并给予奖励。
Stock 和 Cavey 认为,他们的原型系统可用作驯犬师的辅助工具,用于给予奖励或用于训犬以规范它们在家中的行为。
“我们已经证明,这一系统将有望催生未来的新产品”,Stock 如是说。
获取犬类训练数据
研究人员需要获取呈坐、立、卧这三种姿势的犬类图像。他们发现,斯坦福大学犬类数据集中有超过 2 万张大小各异、呈现不同姿势的图片,需要对其进行预处理。为此,他们编写了一个程序,以便快速对其进行识别。
为完善这一模型,他们借助 ImageNet 上狗的图片进行了迁移学习。接下来,他们利用后训练和优化技术,大幅提升了速度并缩减模型尺寸。
Stock 表示,为了进行优化,他们使用了 NVIDIA Jetson,并通过 NVIDIA Jetpack SDK,让其能够更轻松地启动以及访问 TensorRT 和 cuDNN 库。此外,NVIDIA TensorRT 优化库“显著提升了”识别速度,他补充道。
Stock 利用斯坦福大学的计算系统,基于两台 24GB 的 NVIDIA RTX 6000 GPU,仅用了一晚就完成了模型的训练。
Stock 表示:“RTX GPU 的性能简直无敌,它拥有 24GB VRAM,整个数据集都可以加载到内存中,这就使得整个流程得以大幅加速。”
在 Henry 身上部署模型
研究人员对 Cavey 的澳大利亚牧羊犬 Henry 进行了模型测试。
在测试中,他们实现了近 92% 的模型准确率,并且能够以近每秒 40 帧的速度,在瞬时间进行推理。
基于 NVIDIA Jetson Nano,这一系统能够对狗的行为做出实时判断,并通过奖励的方式来强化正确的行为。其工作原理是通过向伺服电机发送信号,从而给予奖励。
Cavey 表示:“我们也考虑了树莓派和 Coral,但效果都不太理想。NVIDIA Jetson Nano 显然是我们的最佳选择。”
深入了解可解释的 AI
可解释的 AI 有助于更清晰地了解神经网络的构成。金融服务行业日益需要理解金融科技模型。Stock 和 Cavey 的论文中还提到了模型解释,其能够让可解释的 AI 应用于宠物行业。
这是通过姿势分析视频的截图来实现的。其中一组图像基于 GradCAM,一种显示卷积神经网络模型定位的常用技术。而另一组图像通过积分梯度来分析像素进而解释模型。
研究人员表示,需要为训犬师和普通用户使用的 AI 系统提供可信且符合道德规范的构成部件,这一点很重要。否则,当你的方法论受到质疑时,就无从解释了。
Cavey 表示:“我们可以解释模型的用处,这可能会对某些利益相关者有所帮助,否则要如何证实你所研究的模型 真正有意义呢?”
NVIDIA 深度学习学院提供计算机视觉和 Jetson Nano 课程。