CN100401375C

CN100401375C - 语音处理系统及方法

Info

Publication number: CN100401375C
Application number: CNB971976317A
Authority: CN
Inventors: G·尼德尔迈尔; P·卡尔斯滕; S·哈伦格尔; F·穆尔
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1996-09-03
Filing date: 1997-09-02
Publication date: 2008-07-09
Anticipated expiration: 2017-09-02
Also published as: DE59706789D1; DE19635754A1; EP0925578A1; US7286989B1; EP0925578B1; CN1228866A; WO1998010413A1

Abstract

语音处理系统和方法，其中设有多个相互独立的语音识别模块，该语音识别模块各自所使用的语音识别方法是不同的，并且它们各自特别为一种规定方式的语音识别而建立，和/或设有多个相互独立的语音输出模块，该语音输出模块各自所使用的语音输出方法是不同的，并且它们各自特别为一种规定方式的语音输出而建立，并设有一个设备，用于根据一个说明后面需要何种语音识别和/或语音输出的输入信号为一个以后要执行的语音识别和/或语音输出选择至少一个语音识别模块和/或语音输出模块。从而显著减少对计算能力或者处理资源的需求。

Description

语音处理系统及方法

技术领域

本发明涉及一种语音处理系统及方法。

背景技术

在通常的语音处理系统中，例如基于电话的应用中提供各种可能的语音输入和输出。其输入可能为从识别单个口述数字和有限数目的命令词直到流利的发音。其输出可能为从输出完整录制的发音到由例如存储的音素纯粹合成产生的文字的声音输出。

语音处理系统在公共以及专门领域工业中的应用无论是语音输入还是语音输出都面对非常不同的需求。这由多种应用可能和由此产生的由语音处理系统要解决的语音任务所决定。

这同样适用于语音对话系统，在语音对话系统中语音处理系统与该语音处理系统的用户处于任意建立的对话中。

在语音处理系统领域的一个应用中例如需要能够在某一时刻从用户询问一个单个的数字，但在同一对话中的另一时刻由用户输入一个日期，而由该语音处理系统处理。

同样，在对某个位置输出时一个语音录制资料足够，而对需要多种输出文本的一个应用场合的另一个位置，语音合成是适宜的。

另外可能在不同的时刻从操作人员认为需要语音识别的各种功能特征，例如可以随意中断系统输出，但是反之，在另一位置用户应能完整地听到输出。

为尽可能有效地应用专门的、公知的语音识别和语音输出算法，以及具有复杂识别特征和输出特征的语音对话系统，例如为简单的数字识别或者为孤立识别一个小数目的命令词，迄今为止通常以下述方式建立系统，即通过特别选择技术方法和专门的软件技术措施考虑对语音识别或者对语音输出的专门需求。

然而这需要极大数量专家人力的开销，这种开销为每一新应用情况重新产生。前述方式显著阻碍有效经济地使用语音处理系统。

在电话领域中存在有对话系统，在这些对话系统中需要例如通过所谓的DTMF音调和简单列举数字或者一些少量预先给的命令字进行一项选择。

然而对于新开发一个具有现有方法和系统的的语音处理系统或者语音对话系统的开销十分昂贵。

[3]中公开了一种改进语音识别的方法，它考虑了各种数字编码条件。在此，对于大量使用同样语音识别算法、然而为接收的信号尽可能优化适应不同通道编码方法的语音识别模块识别每次应用的通道编码方法和选择各相应语音识别模块。

[6]中公开了一种为产生大量电子信号的方法和设备。在该设备中大量同样结构的语音输出单元彼此组合成整个设备。

发明内容

因此，本发明的任务在于，给出一种语音处理系统以及一种语音处理方法，通过该系统和方法可以实现最优地、根据内容使用语音识别模块和/或语音输出模块，同时减少需要的计算能力。

该任务通过按照以下的语音处理系统以及方法解决。

也即，根据本发明的语音处理系统，其具有多个相互独立的语音识别模块，该语音识别模块各自所使用的语音识别方法是不同的，并且它们各自特别为一种规定方式的语音识别而建立，和/或具有多个相互独立的语音输出模块，该语音输出模块各自所使用的语音输出方法是不同的，并且它们各自特别为一种规定方式的语音输出而建立，并且具有一个设备，用于根据一个说明后面需要何种语音识别和/或语音输出的输入信号为一个以后要执行的语音识别和/或语音输出选择至少一个语音识别模块和/或语音输出模块。

相应地，根据本发明的语音处理方法，其中分析一个输入信号，其说明后面需要何种方式的语音识别和/或语音输出，取决于该输入信号，从一个由多个相互独立的语音识别模块组成的集合中，和/或从一个由多个相互独立的语音输出模块组成的集合中，激活至少一个语音识别模块和/或至少一个语音输出模块，其中该语音识别模块各自所使用的语音识别方法是不同的，并且它们各自特别为一种规定方式的语音识别而建立，以及该语音输出模块各自所使用的语音输出方法是不同的，并且它们各自特别为一种规定方式的语音输出而建立，用所选择的语音识别模块和/或语音输出模块执行各自方式的语音识别和/或语音输出。

该语音处理系统具有多个语音识别模块和/或语音输出模块，它们各自为一种可预先给定方式的语音识别或者语音输出所提供。此外，该语音识别系统还具有一种选择一个语音识别模块和/或语音输出模块的设备。通过该设备，取决于引导到该设备的一个输入信号，选择、激活各语音识别模块或者语音输出模块，并且把相应的语音信号或者所需参数分配给各模块。然后由各模块执行语音识别或者语音输出。

在该方法中，分析一个输入信号，说明需要哪种方式的语音识别或者语音输出。取决于该输入信号，至少一个语音识别模块和/或至少一个语音输出模块为每次由说明语音识别或者语音输出的输入信号激活。通过每次选择的或者激活的模块执行各类语音识别或者语音输出。

无论是语音处理系统还是语音处理方法相对于现有技术来说都具有许多显著的优点。

语音识别或者语音输出对计算能力或者处理资源的需求显著减少，因为依赖于每次需要的应用场合使用为该场合优化适应的语音识别或者语音输出模块。

另外，在建立语音对话系统时该语音处理系统对于开发支持极具优点。该种语音处理系统在这一领域特别具有优点，因为可以快速简单地使现有技术的语音识别方法和语音输出方法适应该应用场合各种特定需求。

另外，可以灵活地、适应特定对话场合使用其不同功能和特征。另外也可能使语音识别能力和语音输出能力灵活适应在特定对话场合使用的可用资源，例如可用计算机资源。

因此，该语音处理系统说明了一种用于按需计算配置和适应语音输入和语音输出在各种应用场合的重要设备。

该语音处理系统的一种改进共同使用规定的算法，亦即共同使用模块的规定部分，以此避免冗余实现实际仅需一次的算法。

另一有利的改进在于，多个语音识别模块使用公共资源，例如语音识别的公共词汇。这能显著节省资源，例如存储器需求。

另外的优点是提供对话运行控制，通过这种控制能够实现语音处理系统与一个用户的对话。

附图说明

本发明的一个实施例在附图中表示，下面详细叙述。

图1表示具有一些改进的语音处理系统；

图2是表示对话运行控制的方框图，

图3是表示执行对话运行控制的一种可能方法的流程图；

图4是表示本发明方法的流程图。

具体实施方式

图1表示语音处理系统。该语音处理系统至少具有一个语音识别模块E1、E2、Ei、...、En。使用一个位于1到n之间任意数的下标i确定地表示每一语音识别模块Ei。使用n表示在该语音处理系统中的语音识别模块数。

此外该语音识别系统另外或可选至少具有一个语音输出模块A1、A2、Aj、...、Am。使用一个位于1到m之间任意数的第二下标j确定地表示每一语音输出模块Aj。使用m表示在该语音处理系统中的语音输出模块数。

此外该语音识别系统还具有一个选择语音识别模块Ei或者语音输出模块Aj的设备MA。选择模块的该设备MA与单个模块Ei、Aj连接，使得从设备MA为选择模块Ei、Aj能够向单个模块Ei、Aj发送信号，例如为激活单个模块Ei、Aj或者为传输由单个模块为执行语音识别或者语音输出所需要的参数。

语音识别模块Ei

语音识别基础例如在文献[1]和[2]中说明。

单个语音识别模块E1，E2，...En是各自为一种规定方式的语音识别特定的模块。

单个语音识别模块可以例如通过硬件或者通过单个的软件过程实现。

下面给出关于前述可在语音处理系统的范围内使用的语音识别模块Ei的不完全的研究概要。

- 单个数字识别器

如果语音识别模块Ei作为单个数字识别器模块建立的话，则其这样配置，其处理一个单个的、从该语音识别系统的用户B录制的表示一个从数字中选择的唯一数字的语音信号这样的输入。此时该单个数字识别器的不同之处在于声学模型的模型化。已知这样的系统，其中由不同的讲话者存储一个整词的声学模型，并通过比较方法，例如所谓的动态编程或者动态时间交换或者还通过在识别过程中使用神经网络确定最适合的词。其它用于单个数字识别器的已知模块基于隐式马尔科夫原理。在单个数字识别器的原理中多个讲话者说出的词的声音序列作为具有可变和预先给定长度的状态序列存储。在识别该词时，在这种场合为数字，确定对存储的词序列的最短距离。在该原理的各种变体下，在隐式马尔科夫模型中存储的由多个讲话者的数据获得的单个语音单元序列通常为数字。为减少所需要的计算能力，可以在一个单个数字识别器中使一个另外的序列不出现在任何存储的语音序列中。因此，在该种场合不需任何计算开销检测词界。同时要检查的词库小，因为仅需检查数字。

- 数字链识别器

如果语音识别模块Ei作为数字链识别器配置的话，则该语音识别模块通常与连续语音识别等同。一些在一个数字词典中定义的、预先给定的词，在该场合为数字，可以以任意顺序相继由该语音处理系统的用户B发出。对于该种场合，需要检测单个词之间的界限。这既可以通过一个显式检测词界的方法实现，也可以通过词查找的算法确定词界。在词查找时在输入信号中并行地检查所有数字并假定不同结尾。在每一结尾处可以在信号中寻找另一个数字。为此，建立一个查找范围，它同时接续各种可能的方案，并按照预先规定的准则排序。在这一意义上可以例如使用动态编程原理，如在文献[1]中所说明。一个这样的准则可以是该信号的观察部分对参考模型，即单个存储的数字的长度。数字链识别器通常的特色是以特殊方式的模型化连续识别声学参考模型，其中对数字使用单个数字的一个专门的发音方式或者典型长度。通过对讲话停顿的模型化或者通过一个决定准则，例如以信号可见能量，可以以不同的启迪学检测一个这样的序列的结尾。

- 从有限词汇表中识别词

如果一个语音识别模块Ei作为为一个有限词汇表中的确定频度命令词-所谓的核心词汇-的一个识别器配置的话，则使用相应的算法，就像为单个数字识别器所用，不同之处是其词汇表扩充相应词汇，或者其词汇表为单个词的相应存储表示不同于数字的表示。一个专门扩展或者使用的词汇表为该识别器预先确定，并通常用较大数目的讲话者训练。

- 从无限词汇表中识别一个单个词

为识别流利讲述的无限词汇的语音如此配置语音识别模块Ei，使得在该语音识别模块Ei中实现的语音识别算法不认识词汇表中的词，而由用户B事先规定。语音识别算法通常基于识别一系列语音单元，所谓的音素或者其它词子单元，待识别词汇表的词可由这些语音单元组成。在语音识别模块Ei的字典中在一个存储器中存储表示各词的声音序列。该声音可以在其模型中以及其它的子单元显示，例如音素开始、音素中间、音素结尾、音素转变等。该语音识别方法从所观察的语音信号中再次查找对参考数据具有最短距离的序列。单个词识别器可以通过算法利用下述情况，即在存储的语音序列中不出现任何其它序列。

- 识别流利讲述的具有无限词汇表的语音

如果一个语音识别模块Ei为识别用户流利讲述的具有无限词汇的语音而配置建立的话，则该语音识别模块Ei与识别数字链的语音识别模块Ei一般在语音单元的模型化的方式不同。如果辞典内容，亦即词汇表无限的话，其也作为一个未完结的辞典内容表示，则声学模型大多数以语音单元即音素或者词子单元实现，由这样的单元组成待识别词汇表。同样，如同在为识别连续数字的语音识别模块E i一样，在该语音识别模块的配置中词之间的界限通过一种适合的查找确定。这例如通过对语音停顿的模型化或者通过一种决定准则例如在信号中可见的能量实现。该语音识别模块可以输出可能的、或者通过扩展在查找算法中一个可预先给定数目的可能的词序列。在连续语音识别模块中的查找通常通过一个为规定的语音段的典型的或者可能的词序列的模型支持，该模型即所谓的语言模型。词序列或者词表的语法模型或者在所谓的N-Gram分析的意义上的统计模型例如应该理解为语言模型。

- 识别预先给定的词组合

为识别预先给定的词组合，如此配置语音识别模块Ei，即使用例如日期参数、时间参数、计量参数、费用参数作为专门词汇。在该种语音识别模块Ei中，通常涉及用于连续语音的语音识别模块Ei，但是其辞典内容就各领域的预先给定的词组合，例如要截取的一段日期参数或者计量参数。另外，词序列查找可以通过一个可能的词序列的模型支持，如同在连续语音识别模块Ei中一样，此时该模型的特征在于，基本上它特别考虑在该语音子区域例如日期参数上所期望的表达方式。

- 键字词识别

在用于键字词识别的语音识别模块Ei中可以检测在一个语音输入信号中一个或者多个预先规定的事先存储于一个辞典中的词。配置用于键字词识别的语音识别模块的各种可能例如在参考文献[4]中说明。

- 键字词组合识别

为识别键字词组合使用和键字词识别同样的原理，不同之处在于，可以检测在一个任意输入信号ES中预先定义的词链。该词链既可以作为参考数据显式存储，也可以通过其它方法，例如语言模型或者语法说明。

- 字母表识别

如果语音识别模块Ei作为一个字母表识别设备配置的话，则通常字母用特别的声学语音模型说明。作为在语音处理系统的存储器中提供的辞典内容在这种场合基本上使用该字母表的字母。一个字母表识别器可以例如作为为孤立的字母表的单个词识别器或者还作为为流利拼读的连续识别器而实现。在连续字母表识别器中可以通过语言模型或者也通过语法支持实际词序列的查找。

- 声音序列识别

用于声音序列识别的语音识别模块Ei的特征在于，声学单元在语音单元上模型化，以及待识别的声音序列不通过一个辞典限制。声音序列识别器或者音素识别器基于一个语音的声音的声学-语音模型。通过语音目录在声学语音信号中执行查找。假定声音的一个任意链。在声学分析中使用不同的启迪学，以避免在一次发音中假定的声音、音素过快的变化。另外作为待识别的声音序列的限制可以在语言模型的意义上顾及一次发音的语音合法性。

- DTMF识别

DTMF识别在电话语音识别的各种领域公知。

作为语音输出模块Aj，可以使用各种公知原理来实现各种语音输出原理：

- 输出预先给定的、存储的录制语音

如果语音输出模块Aj为输出预先给定的、存储的录制语音而配置的话，则由随便某人说出、录制、并数字化存储的语音发音通过一个任意的声学通道输出。录制的发音在这里可以是为每一特定场合提供的完全要输出的讲话，也可以是其中的段落，它们在运行时重新组成完整的讲话。它的一个典型的例子是数字链的建立，其长度和组成在大多数应用场合事先不可知。然而可以根据各种定音变体的内容存在同一讲述并在一个软件程序中选择相应于它的当前内容。此外可以使用各种方法，这些方法可以以各种形式在单个录制语音级连跨越处采用对所用录制语音的一个所谓的声学平滑。

- 输出存储的音素合成的词

为配置输出存储的音素合成合成词的语音输出模块的可能实现方法在文献[5]中说明。

为选择在一种应用场合每次要应用的语音识别模块Ei或者语音输出模块Aj的设备MA如此配置，使其取决于一个属于设备MA的输入信号ES至少激活一个语音识别模块或者语音输出模块，以及只要需要，供给单个语音识别模块Ei或者语音输出模块Aj在以后的语音识别或者语音输出方法中需要的参数。相应的参数例如可以是分配给语音识别模块Ei或者语音输出模块Aj资源，或者例如是提供的所用数字辞典的存储地址。

在该实施例中将其结果，亦即从语音输出模块Aj输出的语音信号供给设备M A，并例如通过该语音处理系统的一个输出端AS输出给用户B。从一个用户B说出的语音信号通过一个输入端E，例如通过一个麦克风，供给设备MA，并由该设备MA取决于每次被激活的语音识别模块Ei供给该被激活的语音识别模块Ei。

单个模块Ei、Aj通常使用知识源，例如数字辞典，存储在语音处理系统的存储器中的公共数据。知识源还例如包括为每次语音识别任务特定的声学模型，例如具有声音模型的单个词识别器或者具有为任意词的声学模型的单个词识别器。但是知识源也可以是从识别一个对话系统中的一个给定的对话步选择存在的特定词库，或者为规定的期望的输入特定的所谓的语音模型。

语音识别模块使用的词汇表是任意的，既可以在该语音处理系统建立时也可以在运行时间当时通过正字法的-亦即不取决于发音的-或者发音的-亦即取决于发音的-输入扩展，因此可以适应变化的需求。

通过适当的学习方法，知识源在语音处理系统操作期间通过分析运行的输入数据修改而适应特别的使用和应用场合。

此外，供给语音识别模块Ei或者语音输出模块Aj的参数可以考虑，以此参数规定在语音输出期间是否可以处理由用户B说出的语音信号和语音处理系统是否能够接收。

下面根据一个非常简单的对话场合的例子说明配置一个作为语音对话系统的语音处理系统。

下面说明中的一个伪消息流图每次从一行开始，箭头左侧表示一个规定信号的发送者，箭头右侧是该信号的接收者，该行的其余部分给出该信号。

在该例中，不失一般性，从一个下面将说明的改进即对话运行控制DA开始。

DA->MA：输出(″在嘀的一声后说出您的名字″)

MA->A1：放提示文件(在嘀的一声后说出您的名字)

A1->MA：放提示文件结束

MA->DA：输出完成

DA->MA：识别讲话(域＝数字，数目最大＝5)

MA->E1：开始识别(模块＝单个数字，辞典＝数字)

MA->E2：开始识别(模块＝连续数字识别，辞典＝数字)

E1->MA：识别输出(模块＝单个数字，结果＝0)

E2->MA：识别输出(模块＝连续数字，

识别的数字序列：1 2 3 4 5)

MA->DA：输入数字序列：(1 2 3 4 5)

DA->MA：输出(″您的号码是1 2 3 4 5″)

DA->A1：放提示文件(″您的号码是1 2 3 4 5″)

DA->A2：合成(数字序列1 2 3 4 5)

A1->MA：放提示文件结束

A2->MA：合成结束

MA->DA：输出完成

DA->MA：输出(″您想说操作还是用户服务？″)

MA->A1：放提示文件(您想说操作还是用户服务)

A1->MA：提示文件不适用

MA->A2：合成(您想说操作还是用户服务？)

A2->MA：合成完成

MA->DA：输出完成

DA->DM：识别语音(域＝操作或者用户服务)

MA->E3：开始识别(模块＝连续，辞典＝核心词汇表)

DM->E4：开始识别(模块＝键字词识别，

辞典＝操作和用户服务)

E3->MA：识别器输出(模块＝连续，结果＝″请提供操作″)

E4->MA：识别器输出(模块＝键字词识别，结果＝″操作″)

MA->DA：输入字符序列(操作)

DA->MA：输出(″请输入您的生日″)

MA->A1：放提示文件(请输入您的生日)

DA->MA：识别讲话(域＝日期)

DM->E5：开始识别(模块＝连续，辞典＝日期参数)

E5->MA：识别输出(模块＝连续，结果1＝″于1950.1.1″，

结果2＝″于1950.11.1″)

MA->DA：输入字符序列(于1950.1.1)

DA->MA：输出(″您于1950.1.1出生″)

MA->A3：分级(concat)输出(您于1950.1.1出生)

A3->MA：分级放提示文件完成

MA->DA：输出完成

DA->MA：识别讲话(域＝是/否-提问)

MA->E6：开始识别(模块＝单个词，辞典＝是，否)

在这一个简单的例子中，语音识别模块Ei具有下述简单语音识别特征：

语音识别模块E 1作为单个数字识别器配置，E2作为识别连续数字亦即数字链的模块配置。语音识别模块E3作为识别流利讲述的具有有限词汇表，即核心词汇表辞典，的语音识别模块配置。语音识别模块E4作为具有“操作和用户服务”辞典的键字词识别器配置，语音识别模块E5作为识别预定词组合的语音识别模块配置，在该特定场合是识别一个日期表述。

所用语音输出模块Aj在该简单例子中是作为输出预先给定的存储的录制语音的模块(A1)，由示例音素合成语音的模块(A2)以及输出组成的单个预先给定的存储的录制语音的模块(A3)配置的。

如从该简单例子中看出，每一次从语音识别模块Ei供给设备MA语音识别结果或从语音输出模块Aj供给设备MA要输出的语音信号。

另一方面，从设备MA给单个模块Ei、Aj每次供给识别所需要的信息，例如在语音处理系统中录制的语音信号。

用于语音处理的语音处理系统和方法的另一改进在于，语音信号还由多个语音识别模块Ei或者语音输出模块Aj同时处理，以及每次使用涉及任意相似度计量一个最佳结果，或者只使用一个比较结果以提高识别可靠性。

对话运行控制

使用对话运行控制DA根据应用场合执行与语音处理系统的用户B预先给定的对话，并根据各对话场合供给设备MA控制信息，例如还需要的信息。此外，在该改进中例如在该设备中为对话运行控制分析语音识别模块的结果，其例如可以以下述方式实现：

对话运行控制DA至少具有下述部件，它们例如通过一个总线BU(参见图2)彼此连接：

- 输入设备EM，

- 输入存储器ESP，

- 行动确定单元A ，

- 参数分析器PP。

下面结合用于与用户B对话的运行控制的方法详细说明对话运行控制DA的单个部件的工作方式。

行动确定单元AE一方面用于确定一种行动方式，另一方面用于确定至少一个可预先给定由行动提示提示的行动。该行动从任意数目的可预先给定行动中确定。确定要查找的、由行动提示提示的行动的方法已为专业人员熟知。然而结合本方法详细解释一些以实例说明的实现可能。

参数分析器PP用于从在输入存储器ESP中存储的数字行动信息中确定每次明确分配给每一行动的行动参数。

图2表示对用于行动确定的对话运行控制DA进行一些改进的对话运行控制DA。

在一种配置中提供的信息数据库ID包含各特定应用要查找的信息，它们根据规定的行动并随之为该行动确定的行动参数而确定。

一种改进提供一个行动说明单元AKE，用以确定从用户输入的另外的行动提示。该行动说明单元AKE当能从各种行动中确定查找的行动时首先在应用领域获得提升的重要性，。如果由对话运行控制DA的用户B提供的行动提示不足以确定行动，则使用该行动说明单元AKE确定用户B输入的另外的行动方式。现在结合本方法详细说明行动说明单元AKE的配置。然而不需要行动说明单元AKE准确确定一个行动。同样提供以某一任意方式减少预先给定的行动数目，以便只需继续处理较少数目的行动。

一种改进是提供参数说明单元PKE用以确定用户输入的另外的行动参数。当对至少一个已确定的行动并非所有属于各行动的行动参数能够确定时，使用参数说明单元PKE。对该种情况，使用参数说明单元PKE确定用户B输入的错误行动参数是有利的。

此外，对话运行控制DA的一个改进是提供一个第一行动存储器AS1和/或一个第二行动存储器AS2，其十分有利。在第一行动存储器AS 1中那些存储行动及其行动参数，其至少一个行动提示至少与一部分键字概念完全一致(关于键字概念的意义后面说明)，在第二行动存储器AS 2中存储那些行动及其行动参数，其至少一个行动提示至少与一个键字概念一致。

此外一种改进是提供一个对用户B产生问题(提示)以确定另外的行动提示和/或另外的行动参数的设备GF。产生问题的该设备GF的结构例如在文献[3]中公开。

此外该对话运行控制DA的一种改进提供，在使用已经确定的信息下使用一个控制后台应用HA的控制单元STE。控制单元STE的结构完全是应用特定的，并仅为使用已确定的行动来控制该后台应用HA。下面详细说明各种应用可能，从而控制单元STE的各种配置。

此外一种改进是提供一个键字概念编辑器SE，使用该键字概念编辑器一方面可以改变、删除和插入在下面将要说明的键字概念、另一方面可以改变、删除和插入新的行动和/或行动参数。

本方法的单个运行步骤在图3说明。

在第一步骤301由对话运行控制DA的用户B给出行动信息，其至少具有一个行动提示。本方法不必必需与上述应用一起执行，本方法同样可以借助一个计算机执行。

行动信息从用户B交给对话运行控制DA或者语音处理系统。该行动信息被数字化并作为数字化行动信息存储(步骤302)。数字化行动信息可以例如以一种音素表示或者表示字符(例如ASCII码)的一种普通编码存储。

在下一步骤303，从存储的行动信息通过使用参数分析器PP至少确定一个行动提示。参数分析器PP的结构在文献[4]中公开。

通过使用行动提示和行动确定单元AE，至少在步骤304确定一个行动。

可以采用各种方式实现至少一个行动的确定。一个非常简单但是在某些场合仅可应用的方法，是给每一个行动分配一个可预先规定数目的表征各行动的键字概念，以及从行动信息由参数分析器PP确定的行动提示与该键字概念比较。这一比较可以通过一个直接的词比较实现，或者也可以通过任何模型比较实现。模型比较的算法每一专业人员都很熟悉。

如果在步骤304确定了至少一个行动，则对所有行动通过参数分析器PP从数字化行动信息确定明确分配给该行动的行动参数(步骤305)。根据确定的行动以及所属行动参数现在在最后一个步骤306执行该行动。

在本方法的一种改进是从信息数据库ID确定行动信息，并通过输出单元AUS显示给用户。

如果在数字行动信息中包含的行动提示不足以确定至少一个行动的话(步骤401)，则一种改进提供，例如通过与用户B的一次对话确定另外的行动提示(步骤402)。

这一点通过使用说明单元AKE实现，其优选如此配置，对于预先给定的行动每次至少分配一个明确的确定提示。该确定提示例如是分配给各行动和固定存储的问题。该确定提示在不足以确定行动时显示给用户B。用户B对这一确定提示亦即相应的问题给出回答，该回答然后再次被处理，由此确定另外的行动提示。该对话一直执行、循环，直到确定的行动提示和另外的行动提示足够识别可预先给定数目的行动为止。

如果确定了至少一个行动，则对每一行动确定各行动所属的行动参数，步骤305。

然而，如果并非所有必需的行动参数完全能从在输入存储器ESP确定的数字行动信息获得或确定的话，其在另外的运行步骤403中验证，则其余的行动参数例如由参数说明单元PKE确定。

这同样例如通过与用户B的对话实现。对于这一对话，再次使用分配给单个参数的提示，下面称为参数-提示，它在必需确定行动参数时输出给用户B，用户B回答相应问题。

然而，无论是确定另外的行动参数(步骤402)，还是确定其余的行动参数(步骤404)，都可以以其它方式实现。

例如不一定必需给单个行动或者参数分配预先固定给定的确定-提示或者参数-提示，这样虽然在执行本方法和在适应各应用时简单以及行动和参数的扩展也非常简单，然而总是只向用户B提出预先固定给出的问题。

本方法和对话运行控制DA的一种改进提供，使用产生向用户B提出问题的设备GF。实现这一设备GF的一种可能例如在文献[3]中说明。

本方法的一种改进提供，为确定某行动在行动确定单元AE中执行下述步骤。在行动确定单元AE中对于每一行动执行键字概念与行动提示的比较。

首先确定第一数量的行动，这些行动的所有行动提示至少与一部分键字概念一致。这一优选方式明显说明确定所有行动中通过行动提示提示的的一部分。第一数量的行动例如存储在第一行动存储器AS1中。

此外建立第二数量的行动，这些行动中至少一部分行动提示与键字概念一致。这一优选方式明显意味着建立对其可以提示的所有行动的统一数量。第二数量的行动例如存储在第二行动存储器AS2中。

如果第一数量只包含一个单元，则要确定的行动被明确标定。对于这种情况不需要任何另外的说明对话。然而如果第一数量包含多于要确定的行动的数目的话，则该行动不能通过初始用户输入足够准确说明。在这种情况，执行前面叙述的说明对话是有利的。

如果第一数量为空，则初始用户表述包含对对立行动的提示。在这种情况下，由在第二数量中包含的行动控制说明对话是有利的。

如果无论是第一数量还是第二数量均为空，则例如执行为决定所有在该应用中已知行动的一个说明对话。

因此，第一数量和第二数量在这一改进中用作为与用户B对话以确定至少一个行动的基础。

被确定的行动可以在本方法的一种改进中有利地用于控制至少一个后台应用HA。

后台应用HA可理解为本方法的各种应用可能和对话运行控制，其在后面说明。

本方法以及对话运行控制DA可以例如在下述领域有利地使用：

- 电话服务，

- 远程销售和/或远程银行系统，

- 所谓的声音邮件处理系统，

- 用于控制任何机器，例如机床或者机械手，

- 用于控制计算机，

- 远程通信系统的一个小交换机的消息系统。

此外，本方法的一种改进有利的一点是，对在输入存储器ESP中存储的数字行动信息的分析由参数分析器PP关于行动信息的输入以相反的顺序确定。

这意味着，行动信息的分析在行动信息末尾开始，并继续到该行动信息的开始。通过这一优选方式，用户B可以以一句纠正行动信息，这还将在下面详细解释。

为简单地理解对话运行控制DA，下面介绍旅游领域的一个非常简单的例子。在该应用领域中例如可以定义下面的行动：

- 询问火车信息；

- 询问飞机信息；

- 询问轮船信息；

- 询问饭店房间；

- 饭馆信息。

单个行动例如可以通过下述参数表示：

- 火车问讯：<始发地>，<到达地>，<日期>，<时间>

- 飞机问讯：<始发地>，<到达地>，<日期>，<时间>

- 轮船问讯：<始发地>，<到达地>，<日期>，<时间>

- 饭店问讯：<地点>，<房间>，<种类>，<人数>，

<入住日期>，<结算日期>

- 饭馆问讯：<地点>，<风格>，<类别>

下面以伪码方式分列单个行动。这里在各2.1项下给该行动明确分配一个号码，在2.2项下分配各确定-提示，在2.3项下分配单个参数说明，其各自取决于在该种场合为预先给定的参数-提示定义的语法以一种方式表示，在各3.1项下和3.3项下给出各行动参数的各语法，在3.2项下标识各参数-提示。

行动(火车问讯)

(2.1：号码＝1

2.2：确定-提示＝“您想问火车的信息吗？”

2.3：参数说明＝{参数

{3.1：g_出发(X)

3.2：“请说出您的始发地。”

3.3：g_地点(X)

}

参数

{3.1：g_到达(Y)

3.2：“请说出您的到达地。”

3.3：g_地点(Y)

}

参数

{3.1：g_日期(Z)

3.2：“您想哪天出发？”

3.3：g_日期(Z)

}

参数

{3.1：g_时间(W)

3.2：“您想几点出发？”

3.3：g_时间(W)

}

2.4：行动提示＝{从，到，出发，火车问讯，铁路，铁路问讯}

2.5：确认-提示＝“您得到火车在Z日W点从X到Y的问讯的回答。”

}

行动(飞行问讯)

(2.1：号码＝2

2.2：确定-提示＝“您想问飞行的信息吗？”

2.3：参数说明＝{参数

{3.1：g_出发(X)

3.2：“请说出您的始发地。”

3.3：g_地点(X)

}

参数

{3.1：g_到达(Y)

3.2：“请说出您的到达地。”

3.3：g_地点(Y)

}

参数

{3.1：g_日期(Z)

3.2：“您想哪天出发？”

3.3：g_日期(Z)

}

参数

{3.1：g_时间(W)

3.2：“您想几点出发？”

3.3：g_时间(W)

}

2.4：行动提示＝{从，到，出发，飞行，飞行问讯，飞机}

2.5：确认-提示＝“您得到在Z日W点从X到Y的飞机问讯的回答。”

}

行动(轮船问讯)

(2. ：号码＝3

2.2：确定-提示＝“您想问轮船的信息吗？”

2.3：参数说明＝{参数

{3.1：g_出发(X)

3.2：“请说出您的始发地。”

3.3：g_地点(X)

}

参数

{3.1：g_到达(Y)

3.2：“请说出您的到达地。”

3.3：g_地点(Y)

}

参数

{3.1：g_日期(Z)

3.2：“您想哪天出发？”

3.3：g_日期(Z)

}

参数

{3.1：g_时间(W)

3.2：“您想几点出发？”

3.3：g_时间(W)

}

2.4：行动提示＝{从，到，出发，轮船问讯，轮船}

2. 5：确认-提示＝“您得到在Z日W点从X到Y的轮船信息的问讯的回答。”

}

行动(饭店问讯)

(2.1：号码＝4

2.2：确定-提示＝“您想问饭店的信息吗？”

2.3：参数说明＝{参数

{3.1：g_地点项(X)

3.2：“您想在何地找饭店？”

3.3：g_地点项(X)

}

参数

{3.1：g_房间种类(Y)

3.2：“您要单人间还是双人间？”

3.3：g_房间种类(Y)

}

参数

{3.1：g_人数(Z)

3.2：“您一共几个人？”

3.3：g_人数(Z)

}

参数

{3.1：g_从哪日开始(W)

3.2：“您想哪天入住？”

3.3：g_日期(W)

}

参数

{3.1：g_到哪日结束(V)

3.2：“您想哪天离开？”

3.3：g_日期(V)

}

2.4：行动提示＝{饭店，住处，单人间，双人间，房间}

2.5：确认-提示＝“您得到从W日到V日Z人在X的饭店Y房间可用的问讯。”

}

行动(饭馆问讯)

(2.1：号码＝5

2.2：确定-提示＝“您想问饭馆的信息吗？”

2.3：参数说明＝{参数

{3.1：g_地点项(X)

3.2：“您想在哪儿吃饭？”

3.3：g_地点(X)

}

参数

{3.1：g_风格(Y)

3.2：“您要哪种风格？”

3.3：g_风格(Y)

}

参数

{3.1：g_类别(Z)

3.2：“您要哪种类别？”

3.3：g_类别(Z)

}

2.4：行动提示＝{饭馆，吃饭}

2.5：确认-提示＝“您得到X地Y风格饭馆Z类别的问讯的回答。”

}

下表举例列出为由在花括号中相应号码明确标识的单个行动的键字概念。

从 {1，2，3}

到 {1，2，3}

出发 {1，2，3}

火车问讯 {1}

铁路 {1}

飞行 {2}

飞行问讯 {2}

飞机 {2}

轮船问讯 {3}

轮船 {3}

饭店 {4}

住处 {5}

单人房间 {4}

双人房间 {4}

饭馆 {5}

饭 {5}

下面表示用户B与对话运行控制DA一个对话的例子。

用户B准确完整说出他的愿望。

用户B输入下列信息：

“我想于1996年1月1日5点乘火车从幕尼黑到汉堡。”

第一行动存储器AS1通过使用上述键字概念和语法包含有第一数量行动{1}。第二行动存储器AS2包含有第二数量行动{1，2，3}。

因为第一行动存储器AS1只有一个单元，则直接由对话运行控制DA从信息数据库ID确定所查找的信息，并例如通过下述回答显示给用户B：

“您得到于1996年1月1日5点乘飞机从幕尼黑到汉堡的问讯回答：1.飞机，2.飞机，3.飞机等。”

在另一个例子中用户B既不说时间也不说交通工具：

行动信息例如如下：

“我想于1996年1月1日从幕尼黑到汉堡。”

在这种情况下第一行动存储器AS1包含第一数量行动{1，2，3}。第二数量存储器AS2包含第二数量行动{1，2，3}。在对话运行控制D A中启动一个说明对话，在行动{1，2，3}之间决定。

为此，例如上述确定-提示：

“您想问火车信息吗？”

显示给用户B。

用户B例如回答“不”。

在这种情况下从对话运行控制D A例如输出下述确定提示：

“您想问飞行信息？”

如果用户B回答“是”，则执行另外的说明对话以确定为飞行询问其余尚缺的行动参数。这里例如为确定行动参数“时间”给用户B输出“您想几点起飞？”

用户B例如回答：

“5点”。

现在对话运行控制D A具有足够信息来确定所查找的行动。其结果例如以下述方式显示给用户B：“您得到于1996年1月1日5点乘飞机从幕尼黑到汉堡问讯的回答”。

关于对话运行控制DA一个可能配置的其它细节在德国专利申请，申请号为19615693.9中说明。

图4以流程图表示本方法的运行步骤。输入信号ES被分析，这里用输入信号ES说明在后继方法中需要何种语音识别和/或何种语音输出，步骤401。

此外，取决于输入信号ES至少激活一个语音识别模块Ei和/或一个语音输出模块Aj，步骤402。

在最后步骤403，在至少一个语音识别模块和/或语音输出模块中执行各自的语音识别或者语音输出。

此外，一种改进提供，在单独的预处理模块VV中执行在各种语音识别方法中同时共同使用的公共预处理步骤或者还有算法的公共部分。

在公共预处理中例如在至少一个预处理模块VV中例如可以实现一个声学预处理或者语音信号检查部分的一个所谓的间隔计算。

此外，一种改进共同使用资源，例如以由多个语音识别模块Ei公共使用辞典的方式，这是十分有利的。例如下述方式是可能的，由于为识别流利讲述的语音的辞典通常包含词“是”和“不”，由此就概念“是”和“不”执行语音识别的一个键字词-识别器在该种情况下可以访问同一辞典。

同样，无论在方法中还是在语音处理系统中使用一个后处理模块作为一种配置提供在后处理时共同使用资源的可能。

无论是语音处理系统还是语音处理方法都可以既在语音识别和语音输出以及执行与用户B的对话中也能在建立语音对话系统中有利地使用，因为可以根据特定应用非常简单地组合语音识别模块和/或语音输出模块。

在本文献中引用下述出版物：

[1]G.Ruske，自动语音识别，Oldenbourg出版社，第一版，ISBN3-486-20877-2，幕尼黑，106-171页，1988

[2]A.Zell，模拟神经网络，Edison Wesley，第一版，ISBN 3-89319-554-8，137-143页，1994

[3]Caspari，R.1993，从平语义结构从下向上生成，语音处理的说明和过程方面会议录，德国语音处理协会，计算机语言学部，第四次专业会议，1-6页

[4]Naumann，Sven和Hagen Langer，1994：分析，斯图加特，Teubner，第一版，ISBN 3-519-02139-0，155-166页

[5]DE 44 12309 A1

[6]GB 2 119 208 A

Claims

1.语音处理系统，

-具有多个相互独立的语音识别模块(Ei，i＝1..n)，该语音识别模块各自所使用的语音识别方法是不同的，并且它们各自特别为一种规定方式的语音识别而建立，和/或

-具有多个相互独立的语音输出模块(Aj，j＝1..m)，该语音输出模块各自所使用的语音输出方法是不同的，并且它们各自特别为一种规定方式的语音输出而建立，

-具有一个设备(MA)，用于根据一个说明后面需要何种语音识别和/或语音输出的输入信号(ES)为一个以后要执行的语音识别和/或语音输出选择至少一个语音识别模块(Ei)和/或语音输出模块(Aj)。

2.根据权利要求1的语音处理系统，其中如此配置选择语音识别模块(Ei)和/或语音输出模块(Aj)的设备(MA)，语音识别模块(Ei)和/或语音输出模块(Aj)由该设备(MA)控制。

3.根据权利要求1或2的语音处理系统，其中共同使用的部分语音识别模块(Ei)和/或语音输出模块(Aj)在至少一个预处理模块(VV)和/或在至少一个后处理模块中实现。

4.根据权利要求3的语音处理系统，其中多个语音识别模块(Ei)和/或语音输出模块(Aj)使用共同的资源。

5.根据权利要求1或2的语音处理系统，其中提供一个对话运行控制(DA)，用它实现语音处理系统与该语音处理系统的一个用户(B)的对话。

6.根据权利要求5的语音处理系统，其中由对话运行控制(DA)产生输入信号(ES)。

7.根据权利要求1或2的语音处理系统，

-其中语音识别模块(Ei)至少为执行下述语音识别方式之一而配置：

--单个数字识别，

--数字链识别，

--从有限词汇表识别词，

--用无限词汇表识别一个单个词，

--使用一个无限词汇表识别流利讲述的语音，

--识别预先给定的词组合，

--键字词识别，

--字母表识别，

--声音序列识别，

--讲话者识别，

--DTMF识别，

和/或

-其中语音输出模块(Aj)至少为执行下述语音输出方式之一配置：

--输出预先给的、存储的录制语音，

--输出组成的单个预先给定的、存储的录制语音，

--输出由存储的音素合成的词，

--输出DTMF音调。

8.语音处理方法，其中

-分析一个输入信号(ES)(401)，其说明后面需要何种方式的语音识别和/或语音输出，

-取决于该输入信号(ES)，从一个由多个相互独立的语音识别模块(Ei，i＝1..n)组成的集合中，和/或从一个由多个相互独立的语音输出模块(Aj，j＝1..m)组成的集合中，激活至少一个语音识别模块(Ei)和/或至少一个语音输出模块(Aj)(402)，其中该语音识别模块各自所使用的语音识别方法是不同的，并且它们各自特别为一种规定方式的语音识别而建立，以及该语音输出模块各自所使用的语音输出方法是不同的，并且它们各自特别为一种规定方式的语音输出而建立，

-用所选择的语音识别模块和/或语音输出模块执行各自方式的语音识别和/或语音输出(403)。

9.根据权利要求8的方法，其中在语音识别前执行对于待识别语音信号的一个预处理(VV)。

10.根据权利要求8或者9的方法，其中在语音识别后执行对已识别语音信号的一个后处理。