一种流式语音推理方法、装置、车机、存储介质及车辆与流程

205次浏览

本公开涉及语音推理，尤其涉及一种流式语音推理方法、装置、车机、存储介质及车辆。

背景技术：

1、语音推理是将一段语音输入模型，经由模型推理计算得到指定输出，语音推理包括语音识别、语音唤醒和语音合成等。在语音推理技术领域中，一边接收语音一边计算称为流式推理，例如，车机作语音识别时，能够基于流式推理实现用户一边说话显示屏一边显示。流式推理会对语音作切分处理，切分后可能导致上下文数据缺失，因此目前的流式推理技术大多重点关注模型中依赖上下文数据的卷积算子，对于特定的模型结构设计特定的卷积算子，以处理输入模型的语音得到与整句推理效果一致的输出，但模型结构是多元化的复杂的，特定的卷积算子难以扩展应用到其他模型中，缺乏通用性。

技术实现思路

1、为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种流式语音推理方法、装置及电子设备，使得语音推理不再局限于某个模型中的特定算子，提升了语音推理的通用性和可拓展性。

2、为了实现上述目的，本公开实施例提供的技术方案如下：

3、第一方面，本公开提供一种流式语音推理方法，包括：

4、获取输入语音和流式参数，流式参数用于指示预设张量维度；

5、将输入语音转换为第一帧张量，并确定第一帧张量的帧张量维度；

6、对预设张量维度对应的第二帧张量进行流式化计算，以得到计算结果，其中，流式化计算包括拆解、形状调整和对齐中的至少一个，计算结果用于指示输入语音的上下文依赖数据；

7、按照帧张量维度对计算结果进行维度恢复，以得到维度恢复结果，维度恢复结果用于进行语音推理。

8、作为本公开实施例一种可选的实施方式，计算结果是对预设张量维度对应的第二帧张量进行拆解得到的拆解结果，包括：

9、确定上下文依赖参数，上下文依赖参数包括算子核、步长和空洞；

10、按照算子核的长度，对第二帧张量进行拆分得到多个第一帧片段；

11、针对多个第一帧片段中的每个帧片段，拼接相邻帧片段中的相邻帧以得到拼接帧片段；

12、利用拼接帧片段和算子核进行计算，以得到拆解结果。

13、作为本公开实施例一种可选的实施方式，计算结果是对预设张量维度对应的第二帧张量进行形状调整得到的调整结果，包括：

14、确定形状依赖参数，形状依赖参数指示调整方式以及所要调整的目标帧张量；

15、按照形状依赖参数，对第二帧张量中的目标帧张量进行调整方式对应的调整，以得到调整结果。

16、作为本公开实施例一种可选的实施方式，调整方式为切片，目标帧张量为形状依赖区间对应的帧张量，形状依赖区间用于指示起始帧张量对应的位数和终止帧张量对应的位数；

17、按照形状依赖参数，对第二帧张量中的目标帧张量进行调整方式对应的调整，以得到调整结果，包括：

18、按照终止帧张量对应的位数，拆分第二帧张量得到多个第二帧片段，多个第二帧片段中每个第二帧片段的帧张量数与终止帧张量对应的位数相同；

19、按照起始帧张量对应的位数，遍历多个第二帧片段，直到遍历至最后一个第二帧片段，缓存目标帧片段，目标帧片段的帧张量数与起始帧张量对应的位数相同；

20、按照终止帧张量对应的位数，从目标帧片段中提取形状依赖区间对应的目标帧张量作为调整结果。

21、作为本公开实施例一种可选的实施方式，计算结果是对预设张量维度对应的第二帧张量进行对齐得到的对齐结果，第二帧张量是多个来自不同路径的帧张量，包括：

22、对多个来自不同路径的帧张量进行帧对齐，直到遍历至多个来自不同路径的帧张量的最后一个帧张量，得到对齐结果。

23、作为本公开实施例一种可选的实施方式，将输入语音转换为第一帧张量，并确定第一帧张量的帧张量维度，包括：

24、将输入语音转换为第一帧张量，确定第一帧张量的数据格式，数据格式用于定义第一帧张量的帧张量维度；

25、确定数据格式定义的帧张量维度。

26、作为本公开实施例一种可选的实施方式，将输入语音转换为第一帧张量，包括：

27、对输入语音进行预处理，预处理包括分帧处理和加窗处理；

28、对预处理后的输入语音进行格式转换得到第一帧张量。

29、第二方面，本公开提供一种流式语音推理装置，该装置包括：

30、获取模块，用于获取输入语音和流式参数，流式参数用于指示预设张量维度；

31、转换模块，用于将输入语音转换为第一帧张量，并确定第一帧张量的帧张量维度；

32、计算模块，用于对预设张量维度对应的第二帧张量进行流式化计算，以得到计算结果，其中，流式化计算包括拆解、形状调整和对齐中的至少一个，计算结果用于指示输入语音的上下文依赖数据；

33、维度恢复模块，用于按照帧张量维度对计算结果进行维度恢复，以得到维度恢复结果，维度恢复结果用于进行语音推理。

34、作为本公开实施例一种可选的实施方式，计算结果是对预设张量维度对应的第二帧张量进行拆解得到的拆解结果；

35、计算模块，具体用于确定上下文依赖参数，上下文依赖参数包括算子核、步长和空洞；

36、按照算子核的长度，对第二帧张量进行拆分得到多个第一帧片段；

37、针对多个第一帧片段中的每个帧片段，拼接相邻帧片段中的相邻帧以得到拼接帧片段；

38、利用拼接帧片段和算子核进行计算，以得到拆解结果。

39、作为本公开实施例一种可选的实施方式，计算结果是对预设张量维度对应的第二帧张量进行形状调整得到的调整结果；

40、计算模块，具体用于确定形状依赖参数，形状依赖参数指示调整方式以及所要调整的目标帧张量；

41、按照形状依赖参数，对第二帧张量中的目标帧张量进行调整方式对应的调整，以得到调整结果。

42、作为本公开实施例一种可选的实施方式，调整方式为切片，目标帧张量为形状依赖区间对应的帧张量，形状依赖区间用于指示起始帧张量对应的位数和终止帧张量对应的位数；

43、计算模块，按照形状依赖参数，对第二帧张量中的目标帧张量进行调整方式对应的调整，以得到调整结果，具体用于：

44、按照终止帧张量对应的位数，拆分第二帧张量得到多个第二帧片段，多个第二帧片段中每个第二帧片段的帧张量数与终止帧张量对应的位数相同；

45、按照起始帧张量对应的位数，遍历多个第二帧片段，直到遍历至最后一个第二帧片段，缓存目标帧片段，目标帧片段的帧张量数与起始帧张量对应的位数相同；

46、按照终止帧张量对应的位数，从目标帧片段中提取形状依赖区间对应的目标帧张量作为调整结果。

47、作为本公开实施例一种可选的实施方式，计算结果是对预设张量维度对应的第二帧张量进行对齐得到的对齐结果，第二帧张量是多个来自不同路径的帧张量；

48、计算模块，具体用于对多个来自不同路径的帧张量进行帧对齐，直到遍历至多个来自不同路径的帧张量的最后一个帧张量，得到对齐结果。

49、作为本公开实施例一种可选的实施方式，转换模块，具体用于将输入语音转换为第一帧张量，确定第一帧张量的数据格式，数据格式用于定义第一帧张量的帧张量维度；

50、根据第一帧张量的数据格式确定帧张量维度。

51、作为本公开实施例一种可选的实施方式，转换模块，具体用于将输入语音转换为第一帧张量，包括：

52、对输入语音进行预处理，预处理包括分帧处理和加窗处理；

53、对预处理后的输入语音进行格式转换得到第一帧张量。

54、第三方面，本公开提供一种车机，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面或其任意一种可选的实施方式所述的流式语音推理方法。

55、第四方面，本公开提供一种计算机可读存储介质，包括：所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面或其任意一种可选的实施方式所述的流式语音推理方法。

56、第五方面，本公开提供一种车辆，该车辆包括：如第二方面或其任意一种可选的实施方式所述的流式语音推理装置，或者，如第三方面所述的车机。

57、第六方面，本公开提供一种计算机程序产品，包括：该计算机程序产品包括计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机实现如第一方面或其任意一种可选的实施方式所述的流式语音推理方法。

58、本公开实施例提供的技术方案与现有技术相比具有如下优点：

59、本公开首先获取输入语音和流式参数，该流式参数用于指示预设张量维度，然后将输入语音转换为第一帧张量，并确定该第一帧张量的帧张量维度，进而针对流式参数所指示的预设张量维度所对应的第二帧张量做流式化计算，以得到用于指示输入语音的上下文依赖数据的计算结果，其中流式化计算包括拆解、形状调整和对齐中的至少一个；进一步的，将预设张量维度下的计算结果恢复至第一帧张量的帧张量维度下，以得到用于语音推理的维度恢复结果，该维度恢复结果可表示输入语音的上下文依赖数据，并且是面向各种流式化计算得到的，从而使得语音推理不再局限于某个模型中的特定算子，提升了语音推理的通用性和可拓展性。

文档序号 : 【 40001196 】

技术研发人员：薛原
技术所有人：北京罗克维尔斯科技有限公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

薛原丨北京罗克维尔斯科技有限公司