语音合成方法、语音合成装置、电子设备及存储介质与流程
技术特征:
1.一种语音合成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述内容编码教师模型包括语音识别预训练子模型和规范化层;
3.根据权利要求1所述的方法,其特征在于,所述初始内容编码学生模型包括注意力子模型和内容表征学习子模型;
4.根据权利要求1至3任一项所述的方法,其特征在于,在所述根据所述目标损失数据对所述初始内容编码学生模型进行参数调整,得到目标内容编码学生模型之前,所述方法还包括:更新所述目标损失数据,具体包括:
5.根据权利要求4所述的方法,其特征在于,所述韵律编码模型包括声学特征提取子模型和韵律特征提取子模型;
6.根据权利要求4所述的方法,其特征在于,在所述通过预设的韵律编码模型对所述语音样本数据进行韵律编码,得到样本韵律向量之后,所述方法还包括:
7.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述第一内容向量和所述第二内容向量进行内容蒸馏损失计算,得到目标损失数据,包括:
8.一种语音合成装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的语音合成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的语音合成方法。
技术总结
本申请实施例提出的语音合成方法、语音合成装置、电子设备及存储介质,涉及人工智能技术领域及金融科技领域。该方法包括:通过内容编码教师模型和初始内容编码学生模型分别对掩码声学特征表示序列进行内容编码,得到第一内容向量和第二内容向量;根据第一内容向量和第二内容向量计算得到目标损失数据;根据目标损失数据对初始内容编码学生模型进行参数调整,得到目标内容编码学生模型;通过目标内容编码学生模型对目标语音数据进行内容编码,得到目标内容向量;根据目标内容向量、目标说话人向量以及目标韵律向量进行解码,得到目标合成语音数据。本申请实施例能够保证语音合成的内容准确性和情感,还提高了语音合成效率。
技术研发人员:张旭龙,王健宗,程宁,邓钇敏
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:
技术公布日:2024/11/14
文档序号 :
【 40002188 】
技术研发人员:张旭龙,王健宗,程宁,邓钇敏
技术所有人:平安科技(深圳)有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
技术研发人员:张旭龙,王健宗,程宁,邓钇敏
技术所有人:平安科技(深圳)有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除