西工大新闻网6月3日电(袁有根)据悉,通过产学研合作项目和腾讯犀牛鸟精英人才培养计划,西北工业大学计算机学院智能语音方向谢磊教授团队与腾讯合作的基于QBE的语音关键词检出技术近日成功上线腾讯信息服务。这也是继去年该团队语音识别后处理技术成功落地腾讯之后,我校与腾讯又一在人工智能校企合作上的硕果。
语音关键词检出是指从语音流中检测出设定目标内容的一类技术,在智能手机和智能音箱中的语音唤醒、网络语音信息搜索和大数据信息挖掘中有着举足轻重的作用。此次与腾讯合作研发的技术围绕实际应用场景中说话人多样性、重口音、场景复杂、噪声干扰类型繁多等挑战问题,利用基于大规模深度学习的QBE模板匹配技术进行鲁棒性建模,和传统深度关键词检出(deep kws)和基于网格(lattice)检索算法相比,该技术不依赖传统的复杂声学模型建模,而从海量关键词样例出发,学习更为有效的特征表征。通过对多风格、口音、不同声学环境下相同关键词语音信号本身进行大规模深度学习建模,可以有效提升关键词检测性能,检出率大幅提升10%以上,精准率提升3.5%。在黄赌毒信息检测上发挥了重要的作用,并已成功应用在腾讯安全天御的内容风控服务中,经过多方评测,关键词检出效果远超竞品。据统计,该技术日调用量超过亿次,例如在《王者荣耀》S16赛季后上线的文明语音对战系统,可以对困扰用户的谩骂语音进行自动检测,创造和谐的游戏环境;在网络直播这种复杂声学场景中,基于QBE的关键词检出技术同样对违规现象的发现发挥了重要作用。
腾讯游戏中基于关键词检出技术的不良语音检测
该技术的成功应用离不开校企合作的大力支持。腾讯犀牛鸟精英人才培养计划是腾讯围绕高校拔尖研究生的校企人才培养计划,每年仅支持少数顶尖学者。通过该计划可以让学生接触产业真实问题、拓展科研思路、验证学术理论、联合发表论文、实现学术突破。2018年10月,刚刚从新加坡国立大学联合培养归来的博士生袁有根同学,凭着出色的研究背景和丰硕的前期成果,从众多申请人中脱颖而出,成功入选该计划。在腾讯联合培养期间,结合西工大智能语音方向的雄厚技术积累和腾讯的真实场景,在双方导师的联合指导下,面对复杂声学建模的难题,发挥出出色的创造力,提出了基于深度学习的QBE关键词二次验证方案,有效的提升了复杂场景下的语音关键检出性能。同时该研究成果总结的论文“VERIFYING DEEP KEYWORD SPOTTING DETECTION WITH ACOUSTIC WORD EMBEDDINGS”发表在语音研究旗舰会议语音识别与理解国际会议(ASRU2019)上,在新加坡进行了论文宣读,受到了同行的广泛关注。袁有根同学另外一篇瞄准提升性能并同时提升搜索效率的论文《Fast Query-by-example Speech Search using Attention based Deep Binary Embeddings》也于近期发表在语音研究顶级刊物IEEE/ACM Transactions on Audio, Speech and Language Processing上。
与腾讯合作的论文发表在语言研究旗舰会议ASRU2019国际会议上
袁有根同学在新加坡ASRU2019国际会议上与讲解关键词检出研究成果
智能语音方向在语音关键词检出方面具备雄厚的研究基础。2014和2015年曾先后获得低资源语音关键词检出国际评测(QUESST)第二名和第一名的突出成绩;2015年和2017年又获得零资源语音(Zerospeech)关键词检出国际评测第一名和第二名的优异成绩,该评测围绕更为挑战的“无标注场景”,进一步证明了我校在该方向上的突出实力。同时,博士生侯静勇的论文《基于DTW的语音关键词检出》获得2015年全国人机语音通讯学会会议最佳学生论文奖,相关研究成果也成功应用于微软“小英”在线英语学习应用中,帮助语言学习者提升学习效果。
我校智能语音交互技术团队
智能语音团队所在的音频语音与语言处理研究组(ASLP@NPU)隶属于空天地海一体化大数据应用技术国家工程实验室,近年来该实验室在张艳宁教授的带领下,围绕人工智能中的语音与图像处理各种关键性问题取得了突破性进展,研究成果应用于智能家居、物联网、人机语音交互、空间感知、灾害监测、无人机、医学图像等多个方面,产生了巨大的经济效益和社会效益。
关键词检出论文获得2015年全国人机语音通讯学会会议最佳学生论文奖
获得零资源挑战赛第一名暨最佳论文奖
(审稿:邓磊)