首页  专利技术  其他产品的制造及其应用技术

一种基于可控情感强度的语音编辑方法及装置

102次浏览

技术特征:

1.一种基于可控情感强度的语音编辑方法,其特征在于,方法包括以下步骤:

2.根据权利要求1所述的一种基于可控情感强度的语音编辑方法,其特征在于,所述预先建立的情感强度感知神经网络模型的后验网络包括说话人个性保持器和情绪评估单元,所述说话人个性保持器用于从所述梅尔谱图中提取说话人基频信息,所述情绪评估单元用于根据所述梅尔谱图提取其蕴含的效价、唤醒度、支配度数值。

3.根据权利要求2所述的一种基于可控情感强度的语音编辑方法,其特征在于,所述说话人个性保持器包括依次连接的多个一维卷积模块和一个全连接模块,其中每个卷积模块均包括依次的卷积、归一化、非线性激活函数三个操作,每个全连接模块包括1个全连接操作。

4.根据权利要求1所述的一种基于可控情感强度的语音编辑方法,其特征在于,所述强度映射器在训练过程中,根据所述效价、唤醒度、支配度生成情感强度伪标签;在推理过程中,通过指定目标情感类别和强度值,生成相应的效价、唤醒度、支配度。

5.根据权利要求4所述的一种基于可控情感强度的语音编辑方法,其特征在于,所述强度映射器的计算过程:

6.根据权利要求1所述的一种基于可控情感强度的语音编辑方法,其特征在于,所述预先建立的情感强度感知神经网络模型的先验网络包括:

7.根据权利要求1所述的一种基于可控情感强度的语音编辑方法,其特征在于,所述内容与节奏特征包括高斯分布的发音均值和发音方差,所述语调特征包括高斯分布的韵律均值和韵律方差,所述潜在中间特征包括高斯分布的中间特征均值和中间特征方差。

8.根据权利要求1所述的一种基于可控情感强度的语音编辑方法,其特征在于,所述解码器包括依次相连接的多个转置卷积操作和多感受野融合模块,其中多感受野融合模块包括依次连接的一维卷积、非线性激活函数及残差结构。

9.一种基于可控情感强度的语音编辑装置,其特征在于,包括:

10.一种终端设备,包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序,其特征在于,所述存储器中存储有能够在处理器上运行的计算机程序,所述处理器加载并执行计算机程序时,采用了权利要求1至8中任一项所述的一种基于可控情感强度的语音编辑方法。


技术总结
本发明公开了一种基于可控情感强度的语音编辑方法及装置,涉及语音信号处理技术领域,包括:获取原始样本数据,其中,所述原始样本数据包括音频数据、文本数据和情感类别标签;将文本数据转换为音频序列,将音频数据转换为梅尔谱图;将梅尔谱图输入至情感强度感知神经网络模型的后验网络内,提取得到语调特征,其中,所述语调特征包括说话人基频信息以及效价、唤醒度和支配度的数值;将音频序列和效价、唤醒度和支配度的数值输入至情感强度感知神经网络模型的先验网络内,得到内容与节奏特征;将内容与节奏特征以及语调特征输入至预先建立的情感强度感知神经网络模型的解码器内,输出得到潜在中间特征,根据潜在中间特征生成情感音频数据。

技术研发人员:郑文明,齐天铧,宗源,路成,连海伦,赵焱,李溯南
受保护的技术使用者:东南大学
技术研发日:
技术公布日:2024/11/14
文档序号 : 【 40002308 】

技术研发人员:郑文明,齐天铧,宗源,路成,连海伦,赵焱,李溯南
技术所有人:东南大学

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
郑文明齐天铧宗源路成连海伦赵焱李溯南东南大学
一种带减速桩的急流槽结构的制作方法 温度控制方法、装置、温控仪及存储介质与流程
相关内容