首页 > 心得体会 > 学习材料 / 正文

基于机器学习算法的中文语音识别效果评估方法

2023-02-02 17:15:16 ℃

陈严，李浩

（长江职业技术学院湖北武汉 430074）

中文是我国的母语，也是学校的必修课，相对于英文来说，中文口语的训练难度较高[1]，因此近几年相关研究人员普遍利用虚拟现实设备来打造真实的中文训练环境，帮助学习者有效学习[2]。为满足中文学习者的实际学习需求，需要不断进行中文语音识别效果评估，但常规的语音识别效果评估方法尚未构建一个合理的效果评估模型[3]，综合评估指标偏低，评估精度也无法保证，因此，亟需设计一种新的中文语音识别效果评估方法。在语音识别效果评估中，最常见的评估指标就是词汇的错误率，也可以用WER代表[4]，为了保证识别出来的词与标准的词一致，在识别评估时要进行替换处理，或插入某些词汇，此时即可计算识别效果评估WER指标，判断此时的语音识别效果。机器学习算法可以将语音识别评估的各项评估因子整合，统一进行智能化评估，从而提高评估指标，保证评估效果的精准性，因此本文将机器学习算法引入该领域，设计了一种基于机器学习算法的中文语音识别效果评估方法。

1.1 采集处理语音识别信号

高精度的语音信号可以更好地展现语音识别信息[5]，提高评估鲁棒性。为提高语音识别效果评估的评估指标准确度，首先需要对采集到的语音识别信号进行特征化处理。由于在语音信号从人们的口中发出时，存在一定的衰减特征，因此本文选取高阶滤波器进行特征加重，此时语音信号的特性如下图1所示。

由图1可知，随着频率的增加，高频滤波的rad会逐渐下降，此时的高频滤波器具有标准的相频特性[6]，此时的初始化处理函数H(z)，如式（1）所示。

式中，μ代表信号加重系数，z-1代表信号处理权重，信号加重系数的取值范围较小，一般在0.9～1之间，研究发现[7]，采集到的语音识别信号具有平稳特性，因此存在部分重叠分段，此时可以进行分帧操作，示意图如图2所示。

由图2可知，分帧处理后的语音识别信号较多，可能存在连接误差，因此需要进行加窗处理[8]，本文选取汉明窗函数进行处理，处理式w(n)如下所示。

式中，n代表加窗个数，N代表窗长，处理后需要进一步提取中文语音识别信号中的特征，本文选取了LCP、CEP参数进行处理，首先需要使用FFT计算语音识别信号中的能量谱密度[9]，其次再使用Mel滤波器进行滤波，最后计算对数能量，完成特征提取。使用识别建模方法设计建模单元，选取21个基础声母、6个韵母，以及18个带调韵母构建语音识别算法，假定识别句子中包含n个词语，此时的语音识别计算式P(S)如下所示。

式中，P代表正确语句概率，s1,s2...si-1代表识别的语音序列，结合句子内部的语句关系可以进一步进行概率计算，计算式pn如下所示。

式中，P(r)代表识别序列的识别概率，此时可以结合上述计算式将最大程度上降低语音识别效果评估的难度，提高语音识别效果评估的有效性。

1.2 基于机器学习算法构建语音识别效果评估模型

常规的中文语音识别效果评估方法无法使用有效的智能化模型进行解码，因此其识别评估指标普遍偏低，不满足中文语音识别效果评估需求，因此本文使用机器学习算法，通过复杂度及神经网络构建有效的语音识别效果评估模型。

每个语音识别效果评估因素都包含多个特征，可以使用多特征图谱进行连接，此时各个特征也属于偏执矩阵，含有较多粗糙的特征信息，为实现权值共享，保证识别评估的精度，本文设计的语音识别效果评估卷积层的局部连接方式如图3所示。

由图3可知，每一个提取出的卷积层都含有多个特征面，符合神经元权值共享原则，语音识别卷积层中每个特征面都具有池化操作特点，因此本文设计的方法进一步进行池化处理，降低识别效果评估产生的偏差[10]，此时的池化计算式mh，如下所示。

式中，ijα代表向量区域内各个点的池化值，可以结合池化值的具体计算结果降低临域误差，判断方差变化情况，如下所示。

式中，Nm代表临域大小，经过池化处理的效果评估数据可以最大程度上保留数据的原有信息，降低计算总量，提高计算效率，还能避免数据过拟合，降低数据偏移概率。

经过上述处理的中文语音识别效果评估数据特征信息进入了全连接层，即每个特征都与相应的神经元进行连接，整个连接层都能收到来自神经元的信息，此时可以判断卷积神经网络的神经元分布状况，进行统一整合，从而得到基础概率向量，完成样本空间映射。

受语音识别信息的特殊性影响，其在进行评估时还要额外进行对其操作，本文结合时序分类准则划分了评估序列中的blank因子，引入序列自动优化节点，此时存在一个基础的映射标签序列，基于该序列构建的语音识别效果评估模型E如下所示。

式中，y代表标签序列，f(d)代表识别函数，p代表评估概率，此时使用该模型评估的数据存在一个基础的评估概率，计算式FP如下所示。

式中，D代表路径概率乘积，β代表节点blank值，t代表节点评估间隔，将计算出的基础评估概率代入上述设计的评估模型中可以有效进行语音识别效果评估，进一步提高了评估的精度。

1.3 设计语音识别效果评估平台

为保证中文语音识别效果评估的智能化，提高中文语音识别效果评估效率，本文设计了有效的语音识别效果评估平台，该平台主要应用了语音识别的基础原理，再结合贝叶斯公式完成解码，此时的解码式，如下所示。

式中，P(W|Y)代表评估条件，W代表预测文本，Y代表给定情况，使用该解码格式后可以得出效果评估平台的基础评估参数，基于此设计的效果评估平台评估流程如图4所示。

由图4可知，采集到的语音识别效果评估信号首先进入信号处理中心进行特征提取（主要进行降噪处理），然后保留重点特征信息，转化为特征向量传输至语音解码中心，由相关的搜索算法进行转换，再结合声学模型和语言模型的得分得到最优路径，从而得到最终识别结果，以实现中文语音识别效果的高精度评估。

为验证本文设计方法的评估效果，本文搭建了相关的实验平台，将其与常规方法（李明[8]方法）对比，进行实验如下。

为保证实验效果，本文首先构建中文口语语料库，选取一个AI角色，让其在实验平台中互动，从而得到中文语音识别效果评估结果。本实验构建的语料库属于基础结构化文本，内部的语料全部经过基础数据库加工，保证各个语料都符合语音识别、句法分析、翻译等指标需求，本文构建的语料库属于Spoken corpora语料库，内部的语料包括中文书本摘录、中文广播、中文词汇、即兴中文对话、叙事等，除此之外，语料库内部的数据需满足TIMIT数据需求，经过初始验证，该语料库采集构建示意图如图5所示。

由图5可知，按上述流程采集语料库数据后，得到的数据可能存在一定的评估误差，因此需要进行文本筛选、数据审核和误差排除，提高评估的有效性，最后构建的语料库内包含七大基础方言，采样频率约为16 Hz，将语料库内的语料按特征分成10个不同的类型，各个语料的特征权重及组成元素数量如表1所示。

表1 语料库组成权重及元素数量

由表1可知，上述语料库内的组成材料及数量满足中文语音识别效果评估的实验需求，此时可以结合上述参数设计WER评估指标计算式，如下所示。

式中，I代表插入词，S代表替换词，D代表删除词，TWiCT代表真实词序列，该识别效果评估指标越高证明其评估效果越好。

结合上述选取的语料库，可以进行语音识别效果评估实验，使用公式（10）计算两种方法的WER评估指标，实验结果如下表2所示。

表2 实验结果

由表2可知，本文设计方法的WER评估指标较高，而常规方法的WER评估指标较低，证明本文设计方法的评估精度较高，具有一定应用价值。

本文基于机器学习算法设计了一种新的中文语音识别效果评估方法，实验结果表明，设计方法的WER评估指标较高，证明该评估方法的评估精度较高，具有一定应用价值，可以作为后续中文口语虚拟练习平台优化的参考。

猜你喜欢语料库语音代表诠释代表初心践行人大使命上海人大月刊(2022年4期)2022-04-14四季的代表作文通讯·初中版(2022年2期)2022-02-05基于语料库的清末民初日源外来词汉化研究外语学刊(2021年1期)2021-11-04“代表通道”新观察人大建设(2020年5期)2020-09-25这个代表咋这么拗人大建设(2020年5期)2020-09-25《语料库翻译文体学》评介天津外国语大学学报(2020年1期)2020-03-25魔力语音阅读（快乐英语高年级）(2019年5期)2019-09-10基于MQ3与MP3的价廉物美的酒驾语音提醒器电子制作(2019年9期)2019-05-30数字滤波在语音信号降噪中的应用电子制作(2019年24期)2019-02-23对方正在输入……小说界(2018年5期)2018-11-26

Tags：中文算法评估

上一篇：计算机网络安全防护技术和策略研究
下一篇：基于改进背景差分的城市道路自动避障信息采集方法