职场文秘网

首页 > 心得体会 > 学习材料 / 正文

基于时延神经网络的语音识别算法及其在轨道交通领域的应用研究

2023-02-06 19:40:10

刘 悦,林 军,罗 潇,褚 伟,刘 任

(中车株洲电力机车研究所有限公司, 湖南 株洲 412001)

为了满足乘用车在安全及使用多样化方面的需求,车辆生产商在不断地朝车载设备智能化方向探索,开发了多种智能化功能,如采用智能语音交互技术的多媒体及导航系统等。车载智能化技术的不断提升为驾驶人员带来了便捷及舒适的体验。传统车载设备采用触控方式进行交互,存在因用户注意力分散而带来的安全隐患,而智能化功能的使用大大降低了此类安全隐患发生的概率。作为最有效且便捷的交互方式,语音为驾驶者提供了一种全新、安全的交互体验。近年来,多数汽车生产商推出具有语音交互功能的车载产品。宝马和奔驰部分车型采用语音交互功能实现系统控制,长安和大众部分车型配备了语音交互功能,可实现多媒体及导航语音操控。科大讯飞、思必驰及云知声等公司在为众多车企提供语音技术支持的同时,还推出了带有语音控制功能的汽车后视镜产品。

语音技术在轨道交通领域的应用起步较晚。目前,机车、动车和城市轨道交通车辆已逐步向智能化方向发展,语音技术在轨道交通车辆上的应用研究也随之开展。例如,智轨电车的显示器语音交互系统,其实现了语音关键词识别技术、车载语音合成技术。未来可通过声纹识别技术进行车辆的人员身份验证;
高铁乘客区域也可以通过语音交互系统为乘客带来更舒适的乘车体验。

语音识别是语音交互系统中最为重要的环节,是语音交互系统的入口,决定着语音交互体验效果。在该技术的发展过程中,深度学习算法的出现及多种开发工具、框架的使用使语音识别技术得到了真正的应用落地[1‐3]。本文介绍了语音技术及其发展历程,在此基础上,面向轨道交通场景应用需求,开发了一套基于时延神经网络的命令词定制语音识别系统,最后依托列车显示器平台及智能计算平台实现了该语音识别系统的应用部署,并完成了实车测试。

1.1 语音交互技术

以语音交互为代表的新一代智能交互模式在逻辑架构上主要分为5层,包括基础层、算法层、能力层、接口层和应用层(图1)。深度学习技术的出现使语音技术进一步发展,其对数据及计算平台算力的需求不断增大,算法层迭代优化的效果对基础层的依赖也不断增强。伴随着能力层各项技术的成熟,语音交互技术已被广泛应用于智慧车载、智慧医疗等应用领域。

图1 语音交互技术逻辑架构Fig.1 Logic architecture of voice interaction technology

语音交互过程有5 个关键处理阶段(图2),具体如下:

图2 语音交互技术框架Fig.2 Voice interaction technology framework

(1)拾音器所采集的音频信息经语音识别转换为文本信息;

(2)文本信息经自然语言理解模块进行语义分析,以理解文本意图;

(3)将文本意图结果传输给对话管理模块,为决策提供依据;

(4)自然语言生成模块将决策结果生成文本信息进行传输;

(5)语音合成将文本信息转换为语音进行播放。

作为语音交互的入口,语音识别技术的研究具有重要的现实意义。因此,多年来对该技术的研究从未间断。

1.2 语音识别技术发展历程

语音识别技术的研究起源于20世纪50年代。语音识别技术的发展从算法角度主要分为模板匹配、统计模型和深度学习3个阶段[4](图3)。

图3 语音识别技术发展历程Fig.3 Development history of speech recognition technology

(1)20世纪50年代至70年代,语音识别经典理论被先后提出和发表。在此阶段,Martin提出的时间归一化方法解决了语音时长不一致的问题;
随后,卡耐基梅隆大学的Reddy利用动态跟踪音素实现了连续语音识别;
苏联科学家Vintsyuk首次将动态规划引入语音信号的时间规整处理;
日本的Sakoe和Chiba基于该研究形成了动态时间规整(dynamic time warping,DTW)方法,将两段不同长度的语音在时间轴上进行了对齐,这几项工作为此后语音识别技术的发展奠定了坚实的基础[4‐5]。

(2)20 世纪80 年代至90 年代,研究的重点放在大词汇量连续语音识别系统上。在此阶段,人们多采用基于统计模型的技术,声学模型和语言模型由此产生。语言模型以N‐gram 模型为代表;
声学模型以隐马尔可夫模型(hidden Markov model,HMM)为代表[4,6],HMM 至今仍被看作是语音领域的主流技术。在这一阶段产生了一系列著名的语音识别系统,其中最具代表性的是李开复的SPHINX 系统[7]。该系统用HMM对语音状态的转移概率建模,用高斯混合模型(Gaussian mixture model,GMM)对语音状态的观察值概率建模,称之为高斯混合‐隐马尔可夫模型(Gaussian mixture model‐ hidden Markov model,GMM‐HMM)[4]。该技术的出现也为语音技术的落地应用奠定了基础,其核心算法成为主流语音识别技术,得到了更为广泛的应用;
以此为基础发展的一些自适应方法及训练准则进一步提升了语音识别的准确性,使其地位更加稳固[4]。

(3)自2006 年起,深度学习技术的迅速发展为语音技术的发展提供了新的研究思路。伴随着日常应用对语音交互技术需求的不断增长,多应用场景识别难度亦增加。GMM‐HMM算法的效果无法获得更为理想的体验感,识别率到达了一个瓶颈(80%左右),无法突破。直到2006年,Hinton提出“深度置信网络”概念,实现了训练的优化[8]。深度学习方法更易于进行深层神经网络的训练,使训练时间减少,模型性能提升,这项技术成为了语音识别的转折点。2012年微软研究院将深度学习技术与HMM 相结合,提出上下文相关的深度神经网络(context dependent deep neural network,CD‐DNN)[4,9]与HMM 融合的声学模型(CD‐DNN‐HMM),在大词汇量的连续语音识别技术上取得了显著的进步。相比GMM‐HMM 方 法,CD‐DNN‐HMM 性 能 提 升 约20%。之后涌现了各种神经网络模型:循环神经网络(recurrent neural network,RNN)[10]可以更好地利用音频信息中的上下文;
长短时记忆网络(long short term memory,LSTM)[11]通过遗忘门和输出门忘记部分信息来解决梯度消失的问题;
时延神经网络(time delay neural network,TDNN)可适应语音的动态时域变化,学习到音频特征之间的时间依赖关系,取得了很好的识别效果[12]。

伴随深度学习技术的飞速发展以及数据量和算力的不断提升,端到端语音识别技术逐渐受到关注,经典的CTC(connectionist temporal classification)算法实现了对语音的序列建模及输入语音和输出结果的直接映射[13]。各语音公司也开始了对该模型的研发和应用。2015 年,注意力机制(Attention)扩展到语音领域,基于Attention 的Seq2Seq 模型取得了优异的结果;
2017 年,新的架构Transformer 被提出,其中编码和解码均采用Attention,该架构在端到端语音识别中有明显的效果改进[14‐17]。研究人员通过不断地尝试新的建模方式,从HMM 和GMM 的出现,到DNN,再到CTC 和Attention,逐步提高语音识别技术的性能,为其更加广泛的应用奠定了坚实的基础。

语音识别系统的输入是一段音频信号序列。原始信号经过信息处理和特征提取后进行声学模型的训练,同时采用文本数据进行语言模型的训练;
之后,利用声学模型和语言模型发音词典共同进行解码搜索,输出的识别结果即文本序列[4]。

轨道交通车辆显示交互语音识别系统特点如下:

(1)识别内容通常为2~5个字的关键词;

(2)关键词数量有限;

(3)关键词随不同车辆显示界面的变化而变化,需针对不同场景定制开发。

针对以上特点,本文开发了一套轨道交通车辆显示交互语音识别系统(图4)。开发时需重点考虑针对轨道交通场景需求进行声学模型数据增广训练及语言模型的自适应性。

图4 轨道交通车辆显示交互语音识别系统Fig.4 Train display speech recognition system in rail transit

3.1 关键词识别系统建模

用O表示语音波形,用W表示文字序列。找到对应观察值序列O最可能的词序列Ŵ,一般用概率表示,并按贝叶斯准则转化为

式中,P(O)与P(W)没有关系,可以认为是常量,因此P(W|O)的最大值可转换为P(O|W)和P(W)两项乘积的最大值。P(O|W)由声学模型决定,P(W)由语言模型决定[4]。

3.2 基于TDNN的声学模型及其数据增广训练

数据增广训练目的是针对特定需求,在通用模型的基础上对关键词进行优化,进而提升交互效果。

3.2.1 特征参数提取及归一化

特征参数提取的输出就是声学特征参数表单和用于保存声学特征参数的二进制文档。提取声学特征参数的基本流程如下:

(1)预加重。采用高通滤波器突出高频信号。

(2)滑动加窗,进行语音分帧。通常帧长25 ms,帧移10 ms,重叠15 ms保证帧内信号平稳性。

(3)对每一帧做快速傅里叶变换,计算功率谱。

(4)应用梅尔滤波器组获取每个滤波器内的对数能量。

(5)对数能量向量做离散余弦变换。

特征参数提取后,完成了声学特征的空间转换。为了便于在新空间中分析参数的概率分布,缩小特征参数值域动态范围,并尽可能避免训练和测试环境的不匹配。

3.2.2 音素模型训练

首先使用高斯混合模型(GMM)描述单音子(monophone)发音状态的概率分布函数的HMM模型;
然后多轮迭代训练GMM‐HMM 模型做帧级别的标注,为后面训练深度神经网络声学模型做准备。在此过程中,需要解决如何获取每一帧对应的状态号问题,以此作为训练的标签。获取每一帧对应状态号的过程即对齐。在每一轮声学模型迭代训练完成后,都会有一次强制对齐;
将文字对应到具体的音频发音时间片段上,或者将文字对应的音素对应到具体的音频发音时间片段上。在声学模型训练的过程中,我们会先得到一个基础的声学模型;
然后加入训练数据,不断地迭代更新模型参数,优化模型。

单音素模型进行强制对齐后,开始迭代训练三音素模型。此处的三音素模型还加入了差分特征变换(Delta)、线性判别分析(LDA)和最大似然线性变换(MLLT)。三音素模型属于上下文相关的声学模型,其训练过程与单音素模型的建模训练过程非常类似。三音素模型的训练需要进行多轮反复的迭代,而每一轮迭代后都要进行强制对齐。

3.2.3 TDNN数据增广训练

在工程应用中,显示器界面的关键词会根据车型的不同而变化,因此,在训练时需适应性地进行优化。当有新的关键词输入时,需录制大量关键词语音信息,将新的音频数据进行格式规范化;
加入新的语音资源后,开始深度神经网络训练。TDNN的优点在于不仅能够对长时间依赖的语音信号进行建模,而且与DNN的训练速度和解码效率几乎相当。TDNN 在网络传播过程中对各隐层的输出进行了扩展。DNN每个隐层的输入是前一层网络的输出,而TDNN 则会参考前一层网络的历史输出。这样TDNN 可对更长的历史信息进行建模,这样可明显降低语音误识别率。从TDNN 的网络结构可以看出,相邻节点之间的变化很小且包含了大量冗余信息。因此,可每隔几帧计算一次,这样可加快训练和解码速度。图5为标准的TDNN网络。

图5 TDNN 网络Fig.5 TDNN network

基于DNN‐HMM 的语音识别系统采用TDNN 来构建深度神经网络,该网络融合了FNN、CNN 和RNN的优点,减少了重复计算次数,扩展了知识域。

3.3 语言模型及自适应训练

语言模型用于刻画语言的表达合理性,描述一句话中每个词之间的关联性。在语音识别解码中,词与词之间如何转移就是参考语言模型的结果,因此,语言模型是提高解码效率及识别效果的重要途径。面对新的交互内容,语言模型要与声学模型同步优化,采用两个文本进行模型训练,即通用大文本和定制的关键词文本,可训练出一个通用的语言大模型和一个定制化的小模型。将这两个模型进行合并调整各模型所占权重,通过输出词序列的可能性概率来描述语言内在的统计规律。

假定一个词序列S=(w1,...,wt),根据连式法则及马尔可夫假设可得其可能性概率:

计算语言模型概率值复杂度较高,计算量大,因此一般采用n个词组合的n‐gram 模型,即每个预测变量wt只与长度为(n-1)的上下文有关。在实践中,通常采用2‐gram 和3‐gram 统计模型,n过大时精度提高得不多[4],但是时间长、复杂度高。

3.4 语音识别解码

语音识别解码的核心是解决两个序列的对齐问题,一个是输入的语音特征,一个是输出的文本特征。由于输入语音特征的帧数要远大于输出的文本个数,因此需要建立的映射模型需要解决多帧对一帧的问题。

主流的语音识别解码器都是根据HMM、上下文、发音字典和语言模型构建一个加权有限状态转换器(weighted finite‐state transducer,WFST),生成一个用于搜索的解码网络,从中搜索到最大概率的路径,即最佳匹配作为输出。搜索解码分2个阶段:

(1)构建解码网络。根据训练阶段生成的声学模型、语言模型、字典以及上下文音素生成解码网络(图6)。

图6 语音识别解码网络结构Fig.6 Architecture of speech recognition decoded network

(2)解码。识别阶段先进行一次解码,得到词图网格;
然后进行图剪枝;
最后基于剪枝后的图进行多次解码,搜索出一个最可能的路径作为结果。

HCLG.fst由4部分组成:

(1)G,语言模型WFST,其输入符号为词,输出符号为句子;

(2)L,发音词典WFST,其输入符号为音素,输出符号为词;

(3)C,上下文相关WFST,其输入符号为三音素,输出符号为音素;

(4)H,HMM 声学模型WFST,其输入符号为HMM状态,输出符号为三音素。

声学模型和语言模型的计算结果共同决定了输入特征序列所对应输出识别序列,final.mdl 用来计算输入特征可能对应的识别状态,HCLG.fst为提前构建好的静态解码器,使得输入音频能够生成最优的序列。在解码过程中,信息存储在状态和状态的转移边之间,输入为状态序列,输出为词序列;
权值为语言模型的权值;
声学模型的后验概率需要实时计算得出[3‐4]。

为验证该基于TDNN的命令词定制语音识别系统在不同场景下的语音识别效果,本文在智轨电车司机室显示交互系统中进行测试。测试设备包括拾音器和智能硬件计算平台,设备关联关系如图7所示。通过车载拾音器采集音频信息并通过模拟信号与智能计算平台通信,语音识别系统将所接收的音频信号在智能硬件计算平台上进行处理,转为文本信息后再传送给主控系统(显示器)以实现相关逻辑控制。

图7 车载显示交互语音识别系统Fig 7 On‐board display speech recognition system

工程上广泛使用的语音识别评价指标包括字正确率及实时率。字正确率即测试集中被正确识别的字与测试集全部字数量的比值,它能够直观给出测试集中正确识别的比例;
实时率能够评价模型在硬件设备上的运行是否满足实时交互需求。

4.1 实验内容

(1)测试语料

测试命令词包括启动运营、结束运营、安全门、上行开、上行关、下行开、下行关、菜单、查询和设置等60余个。全局命令词包括检修界面、音量增大及亮度增大等7个。

(2)车载噪声

车辆运行过程中噪声环境较为复杂。本实验涉及车辆静止、车辆启动、车辆加速、车辆稳定行驶和车辆减速等场景,包含车载噪声以及车辆鸣笛、车内播报语音提示和空调噪声等声音。

(3)功能测试

功能测试是指语音识别准确率测试,其采用命令词测试音频200条、通用测试音频200条。

(4)性能测试

性能测试为语音识别实时率测试,其采用400 条测试音频,统计识别每条音频耗费的时间并取平均值。

4.2 测试场景

场景一:车辆处于静止状态。

场景二:车辆运行过程,包括平稳运行、加速、减速、鸣笛和刹车等工况,运行速度为10~35 km/h。

4.3 实验结果

表1和表2示出实验结果。可以看出,基于TDNN训练的模型能够满足车辆不同场景的识别需求,识别率较理想,但是由于场景二中车辆运行时存在多种噪声干扰,使得识别率出现一定程度的降低。现阶段,既往降噪系统可以基本消除平稳噪声,但对于非平稳噪声,还需改进。后续将在已有工程经验的基础上,一方面通过扩展麦克风阵列数量及采用深度学习方法提高降噪效果,另一方面尝试改进网络结构,满足不同车载设备及不同环境下的语音识别需求,从而提升整体识别率。

表1 场景一的测试结果Tab.1 Test results of scene 1

表2 场景二的测试结果Tab.2 Test results of scene 2

本文介绍了语音识别技术在语音交互中的重要作用,梳理了语音识别技术的发展历程,在此基础上进行了基于时延神经网络语音识别技术的研究,开发了面向轨道交通车辆显示交互的语音识别系统,重点介绍了针对显示交互内容的需求变化如何自适应训练及部署的各个环节,并在智轨电车上进行了实车测试。伴随数据及算力的不断增长,后续将持续迭代优化语音识别模型,并且重点关注端到端语音识别技术的进展,以满足轨道交通不同车载环境下对语音识别技术的需求,推进语音技术在轨道交通领域的工程化应用。

猜你喜欢 音素声学解码 《解码万吨站》中国石油石化(2022年12期)2022-07-16依托绘本课程,培养学生英语音素意识北京教育·普教版(2020年9期)2020-10-09爱的就是这股Hi-Fi味 Davis Acoustics(戴维斯声学)Balthus 70家庭影院技术(2020年6期)2020-07-27小学英语课堂中音素意识与自然拼读整合训练的探索校园英语·中旬(2019年11期)2019-11-26解码eUCP2.0中国外汇(2019年19期)2019-11-26在拼读阅读课中培养学生英语阅读素养广西教育·D版(2019年6期)2019-07-11Acoustical Treatment Primer:Diffusion谈谈声学处理中的“扩散”家庭影院技术(2019年1期)2019-01-21NAD C368解码/放大器一体机家庭影院技术(2018年11期)2019-01-21Acoustical Treatment Primer:Absorption谈谈声学处理中的“吸声”(二)家庭影院技术(2018年11期)2019-01-21Quad(国都)Vena解码/放大器一体机家庭影院技术(2018年11期)2019-01-21

Tags: 神经网络   算法   轨道交通  

搜索
网站分类
标签列表