CN1216137A - 一种训练语音识别系统的方法和实践该方法的装置特别是手提电话设备 - Google Patents

一种训练语音识别系统的方法和实践该方法的装置特别是手提电话设备 Download PDF

Info

Publication number
CN1216137A
CN1216137A CN97193828A CN97193828A CN1216137A CN 1216137 A CN1216137 A CN 1216137A CN 97193828 A CN97193828 A CN 97193828A CN 97193828 A CN97193828 A CN 97193828A CN 1216137 A CN1216137 A CN 1216137A
Authority
CN
China
Prior art keywords
speech
item
speech items
coded system
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN97193828A
Other languages
English (en)
Inventor
B·吉尔豪蒙
G·米特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Serlon
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1216137A publication Critical patent/CN1216137A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

为对多项编码系统训练语音识别,执行如下步骤:由用户个人提出一语音项,并认定其在编码系统中的特征。在查出的特征的控制下该语音项被插入该编码系统中。这些步骤被重复直到达到编码系统的充分条件为止。特别地,认定确定在实际提出的语音项和所有已在该编码系统中的项之间的相似性,其中与一个别储存项的过度相似性产生一应急过程。这意味着提供给用户个人一种在忽略实际给出的语音项和在删除该个别储存项为大代价情况下交替插入实际给出的语音项之间的选择。

Description

一种训练语音识别系统的方法和实践 该方法的装置特别是手提电话设备
发明的背景
本发明涉及对多项编码系统训练一语音识别系统的方法。所说的方法包括下列步骤:
-由用户个人提出一语音项;
-认定在所说编码系统中所说被提出语音项的特征;
-在所查到的特征的控制下,将所说被提出语音项插入该编码系统中;
-重复这些步骤,直到达到该编码系统的充分条件。
语音识别已成为一个商业上的热门的课目。它寻求在高度复杂的专业系统中,也在基本消费装置和装置中都有应用。后者的个别例子是手提电话;某些这样装置是可受语音控制的,而语音代表数字;如像接通、停止、结束、保持这样的标准电话用语,以及进而有关的词和短语。其他可适用的语音项可以是个人的姓名、公司名称,以及如像老板、妻子和秘书这样的词,它们能加快或简化拨号。当然,相同的词汇在其他语言中也有应用。已发现,如此基本不受约束的专用语的使用特别会产生很多混淆。例如,某些名词会有互相类似性。并且,某些名词发音像标准用语,即使拼写时不同。例如,wife(妻子)很难同five(5)相匹别,荷兰语的词Acht或Agt(8)既用作一姓氏也用作一个村庄的名字。此外,混淆也出现交叉语言中。例如,
one(英语,1)-wann(德语,何时?)
sept(法语,7)-set(英语,设置)
huit(法语,8)-wie(德语,如何?)
dix(法语,10)-this(英语,这个)
因此,已认识到一种需要,这种需要就是对一种混淆概率保持为最小的可控方式维持储存的编码系统而言,要给出所讨论的系统的实际性能。欧洲专利申请EP 601876披露了一个系统,其中一个会引起混淆的新短语被阻止储存。
发明的概要
本发明已认识到早期的系统太不灵活,因此本发明的目的之一是以保持灵活性又使混淆的可能性最小的方式来管理储存的数据库。现在相应地,本发明以所说的断然确定实际提出的语言项和所有已在编码系统中的项之间的相似性为特征。其中,同一个别储存项过度的相似性产生一应急过程,该过程提供给所说用户个人一个选择。这个选择就是要不忽略实际的语音项,或要不以删除该个别储存项为代价代之插入实际提出的语音项。
本发明也涉及包括用于对多项编码系统训练语音识别系统的装置的电话设备。该电话设备还包括:
-为接收由用户个人提出的语音项的输入装置;
-在所说的编码系统中对所说的被提出语音项进行特征认定装置;
-为在由所说的特征认定装置查出的特征控制下将所说的语音项插入到编码系统中的插入装置;
-为重复这些步骤直到编码系统的充分条件达到为止的重复装置;
-电话功能装置,具有由所说的语音识别系统的输出馈送的控制输入装置,以在非训练状态下根据已接收到的语音项接收已识别的控制数据。
这种电话设备的特征为,所说的区别性认定装置被安排为确定实际给出项和所有已在编码系统中的项之间的相似性。其中,与一个别储存项的不适当相似性产生一应急过程,该过程提供给用户个人一种,在忽略实际给出的语音项和在删除该个别储存项为大代价情况下交替插入实际给出的语音项之间的选择。
自然而然,声控电话机已寻求到在按钮拨号不方便的状况下的用法,如在照明不充分的条件下;或用户具有仅一只手空间着,或甚至需要两手空间的装置。本发明的其他便利方面被列举在相关的权利要求中。
附图的简要说明
本发明的这些和其他方面以及优点将参考优选实施例的详细披露,特别是参考如下附图再被详细地讨论。这些图表示:
图1手提电话的方框图;
图2本方法的流程图;
图3A-3C例举各种相似性配置。
优选实施例的详细说明
图1是手提电话的方框图,一般如欧洲专利EP 494526B1中所披露的。该图有包括接收路径和发射路径的装置3,两路径都同天线转换器30耦合。接受路径包含级联的可调谐射频滤波器31、混频器32、可转换中频滤波器33、检波器34、时分多路存取(TDMA)控制器35、语音编码译码器36和扬声器37。发射路径包含级联的传声器27、语音编码译码器36、TDMA控制器35、调制器38、偏置振荡器39、混频器40和功率放大器41。微处理器42提供控制电话3的功能。各种通常特性,例如使得调谐到一具体频率通道的综合器43的控制,控制TDMA的控制器35;扫描小键盘22;以及控制直观显示器21,未在这里做更详细地说明,这样的功能本身在本专业中已相当了解。包括非易失存储部分45和易失存储部分46的存储器44被联接到微处理器42。非易失存储部分45包含一电话功能程序。此外,该装置还包括电源引线48和49,它们与可更换电池组51互连,给该装置供电。作为寓意,仅微处理器42的供电被示出。
图2是根据本发明的方法的流程图。在框50,装置的训练过程被开始。例如,在手提电话中,这要求任何进行的呼叫已被终止。接着,包含语音识别程序的训练应用程序,例如通过一相关的控制按钮(未在图1中示出),被开始。语音识别可以为与用户有关的或与用户无关的应用来训练。在框52,第一语音项被输入,它可以代表单个词或一串分开的词;此外,一手工输入被送入,它表示输入项的含意,例如,这是否是缩位拨号的标志。为简便起见,没考虑用于将语音连接到特定电话功能方面的具体过程。在方框54中,语音项被分析和模型化。例如,装置可以依次请求3个训练例。如果模型化发信号通知非O.K.属性,则系统返回到方框52。如果模型化为O.K.,则在方框58语音项被同所有在装置的语音数据库中的适当储存项比较。这种比较可按照各种在本专业中已知的方法完成。这些方法如在下列文献中所介绍:美国专利序号07/860,199(PHD 89158)、美国专利序号08/425,305(PHD 91136)、美国专利序号08/312,495(PHD 91137),美国专利序号08/563,853(PHD91138)、美国专利序号08/203,105(PHD 93034)和美国专利序号08/587,190,全部提供给现在的受让人。每次这样的比较将产生一个相似性指示项。这个指示项可以是一标量,或者是以多于一维定义的量。在方框60,这些相似性被评定,并且如果适用,一些临界的相似性被选作进一步考虑。在方框62,任何过度的相似性被估计:某些太接近的相似性被判定为过度的。如果并非过度的,在方框74,新项有足够的特征,并被插入到语音数据库中。因此,根据相继的接收有关的语音项,语音项能够被识别和转换成基础数据。在方框70,检测这是否是最后一个被输入的项。结束由击键、时间推移或任何其他适当的方法来给出信号。如果是这样的话,则系统运行到方框72,并终止训练。换言之,一个新的语音项能够在方框52被输入。
如果在方框62发现任何不适当的相似性,则系统运行到方框64,并给用户个人提供2个或更多个彼此非常相像的语音项间的选择。在方框66,系统提供给用户个人替换或不替换先前的项的选择。如果替换,在方框68中旧的项被替换。如果不替换,在方框76新的项被忽略。在两者的情况下,系统都进行到方框70。
图3A-3C例举各种相似性配置。在所有的3个图中,有2个先前语音项A和B。它们被表示在一虚拟空间中。该空间表示各种距离或相似性,大的距离意指小的相似性,反之亦然。在这里,为教化目的,经常量化距离的复数用2维平面内的几何距离表示。新提出的语音项用C表示。在图3A中,C和A或B之间的距离足以不出现过度的相似性。所以,C可以被插入。在图3B中,C接近A,但离B足够远。这意味着,用户有在库中或是选择A,或是选择C,但不能两者都选择。在图3C中,在C和A、B两者均很相似,所以用户可以在或A和B都保持或两者中择一之间作选择,而对C单独进行选择。在某些情况下,当用于拨号的数字也以语音的形式被输入时,删除被储存语音项的子系统,如在手提电话应用中的“0”到“9”的数字,可以被阻止。注意某个相似性可以依赖另一相似性,所以前者可以以一种隐含的方式被确定。

Claims (4)

1.一种用于对多项编码系统的训练语音识别系统的方法,所说的方法包括下列步骤:
-由用户个人给出一语音项;
-认定所说的给出语音项在所说的编码系统中的区别性;
-在所查到的区别性的控制下,插入所说的提出的语音项到该编码系统中;
-重复这些步骤直到达到编码系统的充分条件为止,
该方法的特征为,所说的认定确定在实际给出的语音项和所有已在编码系统中的项之间的相似性,其中同一个别储存项的过度相似性产生应急过程,其提供给所说的用户个人一种在忽略实际给出的语音项和在删除该个别已储存项为大代价情况下交替插入该实际提出的语音项之间的选择。
2.按权利要求1中的一种方法,进一步地限制所说的编码系统,其中所说的相似性是相对于所有的已储存的项来确定的,但所说的删除对于已储存语音项的特定的一小部分是被阻止的。
3.一种用于对多项编码系统的训练语音识别系统的装置,包括:
-用于接收用户个人给出的语音项的输入装置;
-在所说的编码系统中的所说的给出语音项的区别性认定装置;
-用于在由所说的区别性认定装置发现的区别性的控制下将所说的提出语音项插入到编码系统中的插入装置;
-用于重复这些步骤直到达到编码系统的充分条件为止的重复控制装置,
-该装置的特征为,所说的特征认定装置确定实际提出的语音项和所有已在编码系统中的项之间的相似性,其中与一个别储存项的过度相似产生一应急过程,其提供给用户个人在忽略实际给出的语音项和在删除该个别储存项为大代价情况下交替插入实际给出的项之间的选择。
4.一种包含用于对多项编码系统的训练语音识别系统的装置的电话设备,包括:
-用于接收由用户个人给出的语音项的输入装置;
-在所说的编码系统中的所说的给出语音项的区别性认定装置;
-用于在由所说的区别性认定装置发现的区别性的控制下将所说的提出语音项插入到编码系统中的插入装置;
-用于重复这些步骤直到达到编码系统的充分条件为止的重复控制装置,
-电话功能装置,具有由所说的语音识别系统的输出馈送的控制输入装置,以在非训练状态下根据已接收到的语音项接收已识别的控制数据,
该电话设备的特征为,所说的区别性认定装置被安排为确定实际给出的语音项和所有已在编码系统中的项之间的相似性,其中与一个别储存项的过度相似性产生一应急过程,其提供给所说的用户个人一种在忽略实际给出的语音项和在删除该个别储存项为大代价情况下交替插入实际给出的语音项之间的选择。
CN97193828A 1996-12-24 1997-12-08 一种训练语音识别系统的方法和实践该方法的装置特别是手提电话设备 Pending CN1216137A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP96402881 1996-12-24
EP96402881.5 1996-12-24

Publications (1)

Publication Number Publication Date
CN1216137A true CN1216137A (zh) 1999-05-05

Family

ID=8225364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN97193828A Pending CN1216137A (zh) 1996-12-24 1997-12-08 一种训练语音识别系统的方法和实践该方法的装置特别是手提电话设备

Country Status (7)

Country Link
US (1) US6078883A (zh)
EP (1) EP0920692B1 (zh)
JP (1) JP2000506633A (zh)
KR (1) KR19990087167A (zh)
CN (1) CN1216137A (zh)
DE (1) DE69720224T2 (zh)
WO (1) WO1998028733A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002029618A1 (en) * 2000-09-30 2002-04-11 Intel Corporation (A Corporation Of Delaware) A method and apparatus for determining text passage similarity

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6374221B1 (en) 1999-06-22 2002-04-16 Lucent Technologies Inc. Automatic retraining of a speech recognizer while using reliable transcripts
DE10011178A1 (de) * 2000-03-08 2001-09-13 Siemens Ag Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US20070055520A1 (en) * 2005-08-31 2007-03-08 Microsoft Corporation Incorporation of speech engine training into interactive user tutorial

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH644246B (fr) * 1981-05-15 1900-01-01 Asulab Sa Dispositif d'introduction de mots a commande par la parole.
US4644107A (en) * 1984-10-26 1987-02-17 Ttc Voice-controlled telephone using visual display
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
GB2251763B (en) * 1991-01-11 1995-06-21 Technophone Ltd Telephone apparatus with calling line identification
AU4678593A (en) * 1992-07-17 1994-02-14 Voice Powered Technology International, Inc. Voice recognition apparatus and method
US5452397A (en) * 1992-12-11 1995-09-19 Texas Instruments Incorporated Method and system for preventing entry of confusingly similar phases in a voice recognition system vocabulary list
JPH09500223A (ja) * 1993-07-13 1997-01-07 ボルドー、テオドール・オースチン 多言語音声認識システム
CA2180392C (en) * 1995-07-31 2001-02-13 Paul Wesley Cohrs User selectable multiple threshold criteria for voice recognition
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
US5842161A (en) * 1996-06-25 1998-11-24 Lucent Technologies Inc. Telecommunications instrument employing variable criteria speech recognition
US5842164A (en) * 1996-10-21 1998-11-24 Batl Software Systems Ltd. Dynamic pattern recognition system
US5960397A (en) * 1997-05-27 1999-09-28 At&T Corp System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
US5963902A (en) * 1997-07-30 1999-10-05 Nynex Science & Technology, Inc. Methods and apparatus for decreasing the size of generated models trained for automatic pattern recognition
US5950158A (en) * 1997-07-30 1999-09-07 Nynex Science And Technology, Inc. Methods and apparatus for decreasing the size of pattern recognition models by pruning low-scoring models from generated sets of models

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002029618A1 (en) * 2000-09-30 2002-04-11 Intel Corporation (A Corporation Of Delaware) A method and apparatus for determining text passage similarity
US8650025B2 (en) 2000-09-30 2014-02-11 Intel Corporation Method and apparatus for determining text passage similarity

Also Published As

Publication number Publication date
KR19990087167A (ko) 1999-12-15
EP0920692B1 (en) 2003-03-26
WO1998028733A1 (en) 1998-07-02
DE69720224D1 (de) 2003-04-30
JP2000506633A (ja) 2000-05-30
DE69720224T2 (de) 2003-12-04
US6078883A (en) 2000-06-20
EP0920692A1 (en) 1999-06-09

Similar Documents

Publication Publication Date Title
US5615296A (en) Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
CN1130688C (zh) 基于新字建模的语音识别方法和装置
Atal et al. Advances in speech coding
CN100524463C (zh) 使用预编程的语音特征的语音转换器
US5530950A (en) Audio data processing
KR100299408B1 (ko) 음성의고속코딩을위한심도우선대수코드북검색
AU758006B2 (en) System and method for developing interactive speech applications
US5983177A (en) Method and apparatus for obtaining transcriptions from multiple training utterances
KR100597110B1 (ko) 사전 데이터 압축 방법
CN1424711A (zh) 基于约束条件的语音识别系统和方法
EP0602296A1 (en) Adaptive method for generating field dependant models for intelligent systems
US6253173B1 (en) Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors
CN1345510A (zh) 产生供便携式电话使用的数字串的系统与方法
CN101686286A (zh) 一种具有全语音服务的自动业务流程实现方法及系统
CN1264468A (zh) 给用户提供声音反馈的可扩展语音识别系统
CN111445903B (zh) 企业名称识别方法及装置
CN100592385C (zh) 用于对多语言的姓名进行语音识别的方法和系统
CN112131359A (zh) 一种基于图形化编排智能策略的意图识别方法及电子设备
CN100562192C (zh) 在带有图像输入单元的便携式终端中识别字符的方法
CN1216137A (zh) 一种训练语音识别系统的方法和实践该方法的装置特别是手提电话设备
EP0680032B1 (en) Quantization of input vectors with and without rearrangement of vector elements of a candidate vector
CN1165889C (zh) 话音拨号的方法和系统
US6728676B1 (en) Using speech recognition to improve efficiency of an inventory task
US5987412A (en) Synthesising speech by converting phonemes to digital waveforms
US20080103775A1 (en) Voice Recognition Method Comprising A Temporal Marker Insertion Step And Corresponding System

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: THIOLON FRANCE CO., LTD.

Free format text: FORMER OWNER: ROYAL PHILIPS ELECTRONICS CO., LTD.

Effective date: 20030709

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20030709

Address after: le mans

Applicant after: Serlon

Address before: Holland Ian Deho Finn

Applicant before: Koninklike Philips Electronics N. V.

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication