课得乐公司和Vericant合作开发了AI评估系统,该系统基于Vericant开发的多维度面试评分指标来评估学生的英语口语水平。Vericant的访谈和评估已被美国许多声誉卓著的教育机构广泛使用,最近被ETS纳入了ETS的新测试包中。该测试是COVID-19疫情期间,ETS在中国推出的普通托福考试TOEFL ITP Plus的替代方案。目前,已有数以万计的视频采访基于Vericant进行,帮助中国学生申请美国高中和大学。课得乐利用人工评分数据构建AI评估系统,以评估其在复制人类评估方面的有效性。AI系统可以帮助大学筛选候选人,并帮助学生练习英语口语,从而进入理想的学校。
自动评分系统面临算力、算法、开发工具三重难题
虽然现有的通用语音识别系统已较为成熟,谷歌、亚马逊等各大厂商都提供了较为完备的通用语音识别模型,但是在较为垂直细分的特定场合,如面试学生和面试者的交互对话方面,市面上的语音识别系统效果差强人意。容易出现生成抄本识别错误单词较多、学生回答和面试老师提问识别混淆等问题。自动面试评分系统需要对学生回答的遣词造句能力、学生和老师交互积极性等维度进行评判,这些因素对系统最终给分造成了极大影响。同时,需要评分的面试是ETS认可的标准考试,因此,如果使用第三方的语音识别系统,将存在数据安全方面的潜在隐患。
因此,课得乐想要打造一个语音识别和自然语言处理一体化的自动评分系统。其在开发过程中主要面临以下挑战:第一是算力,现有的主流语音识别和自然语言处理系统都是深度学习模型,以海量数据为基础,耗费大量算力。效果最好的模型有上千隐蔽层和上亿个变量,如果使用普通商用GPU将耗费几个月的时间进行训练,部分模型甚至因GPU内存不足而无法训练;第二是算法,在对学生面试进行表达范围、准确度、流利度、交互能力、语句连贯性等多个维度进行自动评判时,从音频文字中生成潜在特征、对特征进行删选、评判特征相关性显著性,都是需要考虑的问题;第三是开发工具,目前课得乐使用Kaldi开发语音识别系统,而许多开源语音识别系统不是以Kaldi为基础,无法和现有系统进行结合。
基于此,课得乐选择了采用NVIDIA Tesla V100 GPU 和NVIDIA NeMo开源工具包来提供支持,给业务带来了巨大的支持和提升。
大幅缩短系统开发时间 字错率低至8%
借助基于NVIDIA Tesla V100 GPU和针对机器学习所提供的加速解决方案,相比于纯CPU的通用计算节点提升了30倍,大幅缩短了算法研发与部署周期,极大地减少了时间成本。
生成格式化数据 NeMo与现有系统流程相同,在每个管道终端生成的都是格式化数据,便于数据分析,减少了音频与文字数据非结构化后对最终评分的影响,从而对算法的评判更为标准。
极大地缩短系统开发时间。以往将开源系统与内部系统结合,往往需要耗时三个月至六个月,甚至更长时间。由于NeMo支持Kaldi格式数据,开发者无须费时费力考虑开发语言, 可将时间集中在优化语言识别系统上,而非兼容性。
通过使用 V100 GPU和NeMo工具包,极大地提升了课得乐面试自动评分系统的开发速度,进一步提升了系统的评判精度,为扩展AI教育领域其他业务打好了良好的基础。
课得乐通过使用NeMo开源工具包中的预训练语音识别和自然语言处理系统,结合自有人工标注面试抄本和人工给分数据,将生成的语音面试抄本字错率降低到8%以下,同时系统分数与人工分数相关性超过0.82,解决了语音识别和自然语言处理的技术难题,使课得乐能够更好地将人工智能和教育结合,开发出更高效更客观的产品。