CN1216137A

CN1216137A - 一种训练语音识别系统的方法和实践该方法的装置特别是手提电话设备

Info

Publication number: CN1216137A
Application number: CN97193828A
Authority: CN
Inventors: B·吉尔豪蒙; G·米特
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Serlon
Priority date: 1996-12-24
Filing date: 1997-12-08
Publication date: 1999-05-05
Also published as: KR19990087167A; EP0920692B1; WO1998028733A1; DE69720224D1; JP2000506633A; DE69720224T2; US6078883A; EP0920692A1

Abstract

为对多项编码系统训练语音识别,执行如下步骤:由用户个人提出一语音项,并认定其在编码系统中的特征。在查出的特征的控制下该语音项被插入该编码系统中。这些步骤被重复直到达到编码系统的充分条件为止。特别地,认定确定在实际提出的语音项和所有已在该编码系统中的项之间的相似性,其中与一个别储存项的过度相似性产生一应急过程。这意味着提供给用户个人一种在忽略实际给出的语音项和在删除该个别储存项为大代价情况下交替插入实际给出的语音项之间的选择。

Description

一种训练语音识别系统的方法和实践该方法的装置特别是手提电话设备

发明的背景

本发明涉及对多项编码系统训练一语音识别系统的方法。所说的方法包括下列步骤：

-由用户个人提出一语音项；

-认定在所说编码系统中所说被提出语音项的特征；

-在所查到的特征的控制下，将所说被提出语音项插入该编码系统中；

-重复这些步骤，直到达到该编码系统的充分条件。

语音识别已成为一个商业上的热门的课目。它寻求在高度复杂的专业系统中，也在基本消费装置和装置中都有应用。后者的个别例子是手提电话；某些这样装置是可受语音控制的，而语音代表数字；如像接通、停止、结束、保持这样的标准电话用语，以及进而有关的词和短语。其他可适用的语音项可以是个人的姓名、公司名称，以及如像老板、妻子和秘书这样的词，它们能加快或简化拨号。当然，相同的词汇在其他语言中也有应用。已发现，如此基本不受约束的专用语的使用特别会产生很多混淆。例如，某些名词会有互相类似性。并且，某些名词发音像标准用语，即使拼写时不同。例如，wife(妻子)很难同five(5)相匹别，荷兰语的词Acht或Agt(8)既用作一姓氏也用作一个村庄的名字。此外，混淆也出现交叉语言中。例如，

one(英语，1)-wann(德语，何时?)

sept(法语，7)-set(英语，设置)

huit(法语，8)-wie(德语，如何?)

dix(法语，10)-this(英语，这个)

因此，已认识到一种需要，这种需要就是对一种混淆概率保持为最小的可控方式维持储存的编码系统而言，要给出所讨论的系统的实际性能。欧洲专利申请EP 601876披露了一个系统，其中一个会引起混淆的新短语被阻止储存。

发明的概要

本发明已认识到早期的系统太不灵活，因此本发明的目的之一是以保持灵活性又使混淆的可能性最小的方式来管理储存的数据库。现在相应地，本发明以所说的断然确定实际提出的语言项和所有已在编码系统中的项之间的相似性为特征。其中，同一个别储存项过度的相似性产生一应急过程，该过程提供给所说用户个人一个选择。这个选择就是要不忽略实际的语音项，或要不以删除该个别储存项为代价代之插入实际提出的语音项。

本发明也涉及包括用于对多项编码系统训练语音识别系统的装置的电话设备。该电话设备还包括：

-为接收由用户个人提出的语音项的输入装置；

-在所说的编码系统中对所说的被提出语音项进行特征认定装置；

-为在由所说的特征认定装置查出的特征控制下将所说的语音项插入到编码系统中的插入装置；

-为重复这些步骤直到编码系统的充分条件达到为止的重复装置；

-电话功能装置，具有由所说的语音识别系统的输出馈送的控制输入装置，以在非训练状态下根据已接收到的语音项接收已识别的控制数据。

这种电话设备的特征为，所说的区别性认定装置被安排为确定实际给出项和所有已在编码系统中的项之间的相似性。其中，与一个别储存项的不适当相似性产生一应急过程，该过程提供给用户个人一种，在忽略实际给出的语音项和在删除该个别储存项为大代价情况下交替插入实际给出的语音项之间的选择。

自然而然，声控电话机已寻求到在按钮拨号不方便的状况下的用法，如在照明不充分的条件下；或用户具有仅一只手空间着，或甚至需要两手空间的装置。本发明的其他便利方面被列举在相关的权利要求中。

附图的简要说明

本发明的这些和其他方面以及优点将参考优选实施例的详细披露，特别是参考如下附图再被详细地讨论。这些图表示：

图1手提电话的方框图；

图2本方法的流程图；

图3A-3C例举各种相似性配置。

优选实施例的详细说明

图1是手提电话的方框图，一般如欧洲专利EP 494526B1中所披露的。该图有包括接收路径和发射路径的装置3，两路径都同天线转换器30耦合。接受路径包含级联的可调谐射频滤波器31、混频器32、可转换中频滤波器33、检波器34、时分多路存取(TDMA)控制器35、语音编码译码器36和扬声器37。发射路径包含级联的传声器27、语音编码译码器36、TDMA控制器35、调制器38、偏置振荡器39、混频器40和功率放大器41。微处理器42提供控制电话3的功能。各种通常特性，例如使得调谐到一具体频率通道的综合器43的控制，控制TDMA的控制器35；扫描小键盘22；以及控制直观显示器21，未在这里做更详细地说明，这样的功能本身在本专业中已相当了解。包括非易失存储部分45和易失存储部分46的存储器44被联接到微处理器42。非易失存储部分45包含一电话功能程序。此外，该装置还包括电源引线48和49，它们与可更换电池组51互连，给该装置供电。作为寓意，仅微处理器42的供电被示出。

图2是根据本发明的方法的流程图。在框50，装置的训练过程被开始。例如，在手提电话中，这要求任何进行的呼叫已被终止。接着，包含语音识别程序的训练应用程序，例如通过一相关的控制按钮(未在图1中示出)，被开始。语音识别可以为与用户有关的或与用户无关的应用来训练。在框52，第一语音项被输入，它可以代表单个词或一串分开的词；此外，一手工输入被送入，它表示输入项的含意，例如，这是否是缩位拨号的标志。为简便起见，没考虑用于将语音连接到特定电话功能方面的具体过程。在方框54中，语音项被分析和模型化。例如，装置可以依次请求3个训练例。如果模型化发信号通知非O.K.属性，则系统返回到方框52。如果模型化为O.K.，则在方框58语音项被同所有在装置的语音数据库中的适当储存项比较。这种比较可按照各种在本专业中已知的方法完成。这些方法如在下列文献中所介绍：美国专利序号07/860,199(PHD 89158)、美国专利序号08/425,305(PHD 91136)、美国专利序号08/312,495(PHD 91137)，美国专利序号08/563,853(PHD91138)、美国专利序号08/203,105(PHD 93034)和美国专利序号08/587,190，全部提供给现在的受让人。每次这样的比较将产生一个相似性指示项。这个指示项可以是一标量，或者是以多于一维定义的量。在方框60，这些相似性被评定，并且如果适用，一些临界的相似性被选作进一步考虑。在方框62，任何过度的相似性被估计：某些太接近的相似性被判定为过度的。如果并非过度的，在方框74，新项有足够的特征，并被插入到语音数据库中。因此，根据相继的接收有关的语音项，语音项能够被识别和转换成基础数据。在方框70，检测这是否是最后一个被输入的项。结束由击键、时间推移或任何其他适当的方法来给出信号。如果是这样的话，则系统运行到方框72，并终止训练。换言之，一个新的语音项能够在方框52被输入。

如果在方框62发现任何不适当的相似性，则系统运行到方框64，并给用户个人提供2个或更多个彼此非常相像的语音项间的选择。在方框66，系统提供给用户个人替换或不替换先前的项的选择。如果替换，在方框68中旧的项被替换。如果不替换，在方框76新的项被忽略。在两者的情况下，系统都进行到方框70。

图3A-3C例举各种相似性配置。在所有的3个图中，有2个先前语音项A和B。它们被表示在一虚拟空间中。该空间表示各种距离或相似性，大的距离意指小的相似性，反之亦然。在这里，为教化目的，经常量化距离的复数用2维平面内的几何距离表示。新提出的语音项用C表示。在图3A中，C和A或B之间的距离足以不出现过度的相似性。所以，C可以被插入。在图3B中，C接近A，但离B足够远。这意味着，用户有在库中或是选择A，或是选择C，但不能两者都选择。在图3C中，在C和A、B两者均很相似，所以用户可以在或A和B都保持或两者中择一之间作选择，而对C单独进行选择。在某些情况下，当用于拨号的数字也以语音的形式被输入时，删除被储存语音项的子系统，如在手提电话应用中的“0”到“9”的数字，可以被阻止。注意某个相似性可以依赖另一相似性，所以前者可以以一种隐含的方式被确定。

Claims

1．一种用于对多项编码系统的训练语音识别系统的方法，所说的方法包括下列步骤：

-由用户个人给出一语音项；

-认定所说的给出语音项在所说的编码系统中的区别性；

-在所查到的区别性的控制下，插入所说的提出的语音项到该编码系统中；

-重复这些步骤直到达到编码系统的充分条件为止，

该方法的特征为，所说的认定确定在实际给出的语音项和所有已在编码系统中的项之间的相似性，其中同一个别储存项的过度相似性产生应急过程，其提供给所说的用户个人一种在忽略实际给出的语音项和在删除该个别已储存项为大代价情况下交替插入该实际提出的语音项之间的选择。

2．按权利要求1中的一种方法，进一步地限制所说的编码系统，其中所说的相似性是相对于所有的已储存的项来确定的，但所说的删除对于已储存语音项的特定的一小部分是被阻止的。

3．一种用于对多项编码系统的训练语音识别系统的装置，包括：

-用于接收用户个人给出的语音项的输入装置；

-在所说的编码系统中的所说的给出语音项的区别性认定装置；

-用于在由所说的区别性认定装置发现的区别性的控制下将所说的提出语音项插入到编码系统中的插入装置；

-用于重复这些步骤直到达到编码系统的充分条件为止的重复控制装置，

-该装置的特征为，所说的特征认定装置确定实际提出的语音项和所有已在编码系统中的项之间的相似性，其中与一个别储存项的过度相似产生一应急过程，其提供给用户个人在忽略实际给出的语音项和在删除该个别储存项为大代价情况下交替插入实际给出的项之间的选择。

4．一种包含用于对多项编码系统的训练语音识别系统的装置的电话设备，包括：

-用于接收由用户个人给出的语音项的输入装置；

-电话功能装置，具有由所说的语音识别系统的输出馈送的控制输入装置，以在非训练状态下根据已接收到的语音项接收已识别的控制数据，

该电话设备的特征为，所说的区别性认定装置被安排为确定实际给出的语音项和所有已在编码系统中的项之间的相似性，其中与一个别储存项的过度相似性产生一应急过程，其提供给所说的用户个人一种在忽略实际给出的语音项和在删除该个别储存项为大代价情况下交替插入实际给出的语音项之间的选择。