基于神经网络的语音增强方法、装置、设备及介质-百检网

首页
中国
基于神经网络的语音增强方法、装置、设备及介质

1.本技术涉及音频处理技术领域，尤其涉及一种基于神经网络的语音增强方法、装置、设备及介质。

背景技术：

2.语音增强旨在从带噪语音中恢复干净的语音，以提高人与人之间或机器与人之间的通信效率。目前智能语音系统(如智能家居、智能机器人)基本上都采用基于深度神经网络(deep neural network,dnn)的语音增强方法，典型的做法是输入频域特征(如对数功率谱(lps)、梅尔倒谱系数(mfcc)、复数特征)到神经网络，然后神经网络输出时频掩膜(time frequency mask,tfm)作用于带噪语音的频谱实现语音增强。将基于dnn的语音增强算法应用于嵌入式系统主要考虑：系统的时间复杂度(运算量)和空间复杂度(内存)、语音质量。为了降低系统的复杂度，通常的做法有：设计相对简单的网络结构、减少特征维度和网络节点数量；多阶段降噪处理。为了克服系统的语音失真问题，通常的做法有：加入多种损失函数；输出复数时频掩膜、采用复数网络结构提高语音感知质量。
3.虽然上述的解决方案在一定程度上改善了语音增强系统的复杂度和语音质量的问题，但是这些解决方案存在一定的矛盾关系，在实际实施过程中会存在以下问题：设计简单的网络结构、减少特征维度和网络节点数量通常会导致模型效果不佳、模型的泛化性能差；多阶段降噪在减少模型复杂度方面是有效的，但很容易加剧语音失真问题，例如前一阶段降噪损伤了语音，后一阶段的降噪不仅难以弥补语音失真很可能进一步破坏语音；常规的损失函数为均方误差(mean square error,mse)损失，但在低信噪比下容易导致语音失真，即使加入了其他损失函数协同训练，还是难以解决此问题；输出复数频掩膜的方式相比常规的实数掩膜虽然在提高语音可懂度上有一定优势，但需要设计更合理且复杂的网络结构。