CN1294377A - 对输入语音进行语音识别的音程标准化装置 - Google Patents

对输入语音进行语音识别的音程标准化装置 Download PDF

Info

Publication number
CN1294377A
CN1294377A CN00133013A CN00133013A CN1294377A CN 1294377 A CN1294377 A CN 1294377A CN 00133013 A CN00133013 A CN 00133013A CN 00133013 A CN00133013 A CN 00133013A CN 1294377 A CN1294377 A CN 1294377A
Authority
CN
China
Prior art keywords
interval
identifying object
voice
regulation
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN00133013A
Other languages
English (en)
Other versions
CN1141698C (zh
Inventor
小田幹夫
川根友惠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1294377A publication Critical patent/CN1294377A/zh
Application granted granted Critical
Publication of CN1141698C publication Critical patent/CN1141698C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants

Abstract

本发明的输入语音音程标准化装置(Tr)用于对不特定说话者发出的输入语音(Sva)进行识别的语音识别装置(VRAp),将该输入语音标准化为语音识别最佳音程,其中识别对象语音生成器(9、11、3、5)按规定音程(Ni)单位使输入语音(Svd)变化,生成识别对象语音信号(Svc(Ni)),一致概率计算器(15)计算识别对象语音信号与语音识别标准数据(Psf)多个单词(Sr(m))之间的一致概率(P),音程变换器(9、11、3、5)在第1位一致概率(Pmax)达到规定概率以上前,反复使识别对象语音信号的音程变化。

Description

对输入语音进行语音识别的音程标准化装置
本发明涉及识别不特定说话者语音的语音识别装置,该装置能够对男性的低音、女性的高音及孩子的声音在大范围内进行语音识别处理,更详细地说,本发明涉及将识别对象语音的音程与语音识别装置标准语音的音程加以对照并进行标准化处理的输入语音音程标准化装置。
近年来,语音识别技术由于数字信号处理技术的进步、处理用LSI的性能不断提高且价格日益降低,正大量引入民用装置中,有助于提高该装置的操作性能。语音识别装置的基本原理是将输入的语音变换为数字语音信号,再将该数字语音信号与预先准备的语音辞典中登录的标准语音数据进行对照,来识别输入的语音。因此为了便于与标准语音数据进行比较,采用了一些方法,例如对于语音识别对象即特定说话者要求采用特别的发音方法,或者这些特定说话者的语音预先登录在语音认别装置中。
但是,在将语音识别装置用于民用装置中时,如果限定说话者,则方便性大大降低,其商品价值受到影响。因此必须将非特定说话者发出的语音作为输入语音进行识别。当然非特定说话者的发声是各种各样的。对于这样的非特定说话者产生的富于变化的发声,可将有损语音识别精度影响语音识别的主要因素大致分为发声速度及语音音程两种。
关于影响语音识别的第1个因素即发声速度,例如说话说得快的人等,因说话者不同,说话速度就有差别。而语音识别是将输入的语音与预先准备的语音辞典中登录的标准速度语音进行比较,从而来实现识别的。因此,若两者发声速度之差达到一定程度以上,就不能正确进行比较,也不能进行语音识别。
关于影响语音识别的第2个主要因素即语音音程,例如男性低音的语音、女性或孩子发出的高音等,因说话者不同,其语音音程就有差别。这种情况下,若预先准备的语音辞典中登录的语音音程与非特定说话者发声的语音音程之差达到一定程度以上,就不能正确进行比较,也不能进行语音识别。
图7所示为解决上述问题在特开平9-325798号公报中提出的语音识别装置。如该图所示,语音识别装置VRAc包括语音输入部分111、发声速度计算部分112、发声速度变换率决定部分113、发声速度变换部分114及语音识别部分115。
语音输入部分111将取入的非特定说话者发出语音的模拟语音信号经过A/D变换,变换为数字信号,生成语音信号。发声速度计算部分112根据语音信号计算出输入的非特定说话者语音的发声速度。发声速度变换率决定部分113将发声速度计算部分112计算出的发声速度与基准速度进行比较,确定速度变换率。发声速度变换部分114根据该速度变换率将发声速度加以变换。语音识别部分115对发声速度变换部分114进行了速度变换的输入语音信号进行语音识别。
下面说明语音识别装置VRAc的动作。由非特定说话者发出的语音经过语音输入部分111的话筒及放大器取入,再利用A/D变换器,从模拟信号变换为数字信号。发声速度计算部分112从变换的数字语音信号取出输入语音的一个音。然后,发声速度计算部分112根据取出一个音的取出时间,计算一个音的发声速度。
设发声速度计算部分112取出一个音所需要的时间(下面称为“一个音取出时间”)为Ts,非特定说话者一个音发声所需要的基准时间(下面称为“一个音发声基准时间”)为Th。在发声速度变换率决定部分113中,根据一个音取出时间Ts及一个音发声基准时间Th,将一个音发声速度1/Ts与基准一个音发声速度1/Th进行比较,确定速度变换率α。速度变换率α利用下式(1)能够算出。
α=Ts/Th    ……    (1)
由上述式(1)可知,当一个音取出时间Ts比一个音发声基准时间Th要短,即输入语音的发声速度比声音认别装置VRAc能够正确识别的发声速度要快时,速度变换率α小于1。这种情况下,必须要将输入语音的发声速度放慢。反之,当一个音取出时间Ts比一个音发声基准时间Th要长,即输入语音的发声速度比声音识别装置VRAc能够正确识别的发声速度要慢时,速度变换率α大于1。这种情况下,必须要将输入语音的发声速度加快。
在语音识别装置VRAc中,根据速度变换率α,发声速度变换部分114对输入语音信号进行变换,使发声速度成为一定,从而生成速度变换输入语音信号。语音识别部分115对速度变换输入语音信号进行语音识别处理,将得到的识别结果输出。
上述速度变换利用最近的数字技术很容易能够实现。例如要使输入语音的发声速度放慢时,只要在语音信号中增加若干个与输入语音的一个音有相关性的母音波形而使语音信号的发声时间延长即可。另外,要使输入语音的发声速度加快时,只要跳过若干个输入语音一个音的母音波形而从语音信号中抽掉即可。
该处理是不改变输入语音的音程而改变语速的称为语速变换技术。即在语音识别中,对于发声速度因人而有差别的非特定说话者中,特别是对于说得快的说话者所发出的语音,利用语速变换技术能够提高对说得快的说话者发出语音的识别率。
在上述以往的语音识别装置VRAc中,对于与基准一个音发声速度1/Th相比,发声速度不一样的非特定说话者的语音能够提高识别率,即对于影响语音识别的第1个主要因素是有效的。但是,对于相对基准语音有高低差的发声语音,即影响语音识别的第2个主要因素,也就是有高低差的发声语音,不能指望提高识别率。
详细来说,语音识别装置VRAc虽然能够适应男性的低音及女性和孩子的高音等很宽的频率范围,但语音识别率不高。另外,对于说得快的说话者,只要使说话者注意慢慢说就可解决问题,但希望说话者改变音色来发声就比较困难。说话者基准发声频率是取决于说话者喉部形状及大小。也就是说,由于不能改变说话者喉部形状,因此也不能改变其发声音色。
所以,语音识别装置VRAc存在的问题是,为了对于不特定说话者各自发声的音色差也能够提高语音识别率,必须具有多种对男性语音、女性及小孩语音等进行语音识别所需要的不同音程的标准语音数据,再根据说话者的音色,来切换所参照的标准语音数据。
解决该问题可以考虑采用这样的方法,即将输入语音变换为含有标准语音数据的语音识别装置进行语音识别的最佳音程。但是如前所述,由不特定说话者发出的语音有各种各样的音程,因此很难将输入语音一下子变换为与对于语音识别装置的语音识别认为是最佳的所希望的音程相一致的语音。再有,即使一下子变换为所希望的音程,但由于说话者发声的怪习惯或单词,有时也不能正确识别。即根据语音识别装置或标准语音数据即使认为对于语音识别是最佳的音程,但其实未必是最佳。
所以,本发明的目的在于提供一种音程标准化装置,它在语音识别装置中将输入语音音程标准化为能够确认可正确进行语音识别的音程。
本发明第1方面是一种输入语音音程标准化装置,它用于根据多个单词的语音识别标准数据,对不特定说话者发出的输入语音进行识别的语音识别装置,将输入语音标准化为语音识别最佳音程,所述输入语音音程标准化装置具有:按规定音程单位使输入语音变化而生成识别对象语音信号的识别对象语音生成器、计算识别对象语音信号与语音识别标准数据多个单词相互之间的一致概率的一致概率运算器,还具有在一致概率最大值达到规定概率以前反复使识别对象语音信号的音程进行变化的音程变换器。
如上所述,在第1方面中,由于对输入语音音程进行调整,使相对于输入语音与多个单词的语音识别标准数据一致的概率最大值达到规定值以上,因此能够高速且正确地实现输入语音的标准化。
第2方面的特征是,在第1方面中,音程变换器具有调音器,它在一致概率最大值小于规定概率时,按规定的音程单位使识别对象语音向升音或降音的某一方面变化。
如上所述,在第2方面中,也可以适应输入语音相对于语音识别标准数据为低音或高音的情况。
第3方面的特征是,在第2方面中,还具有暂时存储输入语音的存储器及从存储器读出输入语音序列后生成识别对象语音信号的读出控制器;还具有读出时钟控制器,它决定存储器读出时序的时钟频率,然后生成读出时钟信号,以便按规定的音程单位使识别对象语音信号的频率进行变换。
第4方面的特征是,在第2方面中,识别对象语音信号从与输入语音相同音程起按规定音程单位进行升音。
第5方面的特征是,在第4方面中,识别对象语音信号的最高音程规定为第1规定音程,同时在到达最高音程之前,当一致概率最大值未达到规定概率以上时,识别对象语音信号从与输入语音相同音程起按规定音程单位进行降音。
如上所述,在第5方面中,能够在语音识别装置的能力范围内适当设定输入语音的标准化范围。
第6方面的特征是,在第5方面中,识别对象语音信号的最低音程规定为第2规定音程,同时在到达最低音程之前,当一致概率最大值未达到规定概率以上时,结束标准化处理。
如上所述,在第6方面中,能够在语音识别装置的能力范围内适当设定输入语音的标准化范围。
第7方面的特征是,在第2方面中,识别对象语音信号从与输入语音相同音程起按规定音程单位进行降音。
第8方面的特征是,在第7方面中,识别对象语音信号的最低音程规定为第3规定音程,同时在到达最低音程之前,当一致概率最大值未达到规定概率以上时,识别对象语音信号从与输入语音相同音程起按规定音程单位进行升音。
如上所述,在第8方面中,能够在语音识别装置的能力范围内适当设定输入语音的标准化范围。
第9方面的特征是,在第8方面的输入音程标准化装置中,识别对象语音信号的最高音程规定为第4规定音程,同时在到达最高音程之前,当一致概率最大值未达到规定概率以上时,结束标准化处理。
第10方面是一种语音识别装置,它根据多个单词的语音识别标准数据,在将不特定说话者发出的输入语音标准化为语音识别最佳音程的状态下进行识别,所述语音识别装置具有:按规定音程单位使输入语音变化而生成识别对象语音信号的识别对象语音生成器、计算识别对象语音信号与语音识别标准数据多个单词相互之间的一致概率的一致概率运算器、在一致概率最大值达到规定概率以前反复使识别对象语音信号的音程进行变化的音程变换器。
如上所述,在第10方面中,由于对输入语音音程进行调整,使多个单词的语音识别标准数据相对于输入语音的一致概率最大值达到规定值以上,因此能够高速且正确地实现输入语音的标准化。
第11方面的特征是,在第10方面中,识别对象语音生成器具有调音器,它在一致概率最大值小于规定概率时,按规定的音程单位使识别对象语音向升音或降音的某一方向变化。
如上所述,在第11方面中,也可以适应输入语音相对于语音识别标准数据为低音或高音的情况。
第12方面的特征是,在第11方面中,还具有暂时存储输入语音的存储器及从存储器读出输入语音序列后生成识别对象语音信号的读出控制器;还具有读出时钟控制器,它决定存储器读出时序的时钟频率,然后生成读出时钟信号,以便按规定的音程单位使识别对象语音信号的频率进行变换。
第13方面的特征是,在第11方面中,识别对象语音信号从与输入语音相同音程起按规定音程单位进行升音。
如上所述,在第13方面中,能够在语音识别装置的能力范围内适当设定输入语音的标准化范围。
第14方面的特征是,在第13方面中,识别对象语音信号的最高音程规定为第1规定音程,同时在到达最高音程之前,当一致概率最大值未达到规定概率以上时,识别对象语音信号从与输入语音相同音程起按规定音程单位进行降音。
如上所述,在第14方面中,能够在语音识别装置的能力范围内适当设定输入语音的标准化范围。
第15方面的特征是,在第14方面中,识别对象语音信号的最低音程规定为第2规定音程,同时在到达最低音程之前,当一致概率最大值未达到规定概率以上时,结束标准化处理。
第16方面的特征是,在第11方面中,识别对象语音信号从与输入语音相同音程起按规定音程单位进行降音。
第17方面的特征是,在第16方面中,识别对象语音信号的最低音程规定为第3规定音程,同时在到达最低音程之前,当一致概率最大值未达到规定概率以上时,识别对象语音信号从与输入语音相同音程起按规定音程单位进行升音。
如上所述,在第17方面中,能够在语音识别装置的能力范围内适当设定输入语音的标准化范围。
第18方面的特征是,在第17方面中,识别对象语音信号的最高音程规定为第4规定音程,同时在到达最低音程之前,当一致概率最大值未达到规定概率以上时,结束标准化处理。
第19方面是一种输入语音音程标准化方法,它根据多个单词的语音识别标准数据,用于对不特定说话者发出的输入语音进行识别的语音识别装置,将输入语音标准化为语音识别最佳音程,所述语音标准化方法具有下述步骤:按规定音程单位使输入语音变化而生成识别对象语音信号的步骤、计算识别对象语音信号与语音识别标准数据多个单词相互之间的一致概率的步骤、在一致概率最大值达到规定概率以前反复使识别对象语音信号的音程进行变化的步骤。
如上所述,在第19方面中,由于对输入语音音程进行调整,使多个单词的语音识别标准数据相对于输入语音的一致概率最大值达到规定值以上,因此能够高速且正确地实现输入语音的标准化。
第20方面的特征是,在第19方面中,在一致概率最大值小于规定概率时,还具有按规定的音程单位使识别对象语音向升音或降音的某一方向变化的步骤。
如上所述,在第20方面中,也可以适应输入语音相对于语音识别标准数据为低音或高音的情况。
第21方面的特征是,在第20方面中,具有暂时存储输入语音的步骤、根据暂时存储的输入语音序列生成识别对象语音信号的步骤、决定存储器读出时序的时钟频率使识别对象语音信号的频率按规定音程单位变换的步骤。
第22方面是20方面所述的输入语音音程标准化方法中,还具有使识别对象语音信号从与输入语音相同音程起按规定音程单位进行升音的步骤。
第23方面是在第22方面中还具有下述步骤,它是将识别对象信号的最高音程规定为第1规定音程,同时在到达最高音程之前,当一致概率最大值未达到规定概率时,使识别对象语音信号从与输入语音相同音程起按规定音程单位进行降音。
如上所述,在第23方面中,能够在语音识别装置的能力范围内适当设定输入语音的标准化范围。
第24方面是在第23方面中还具有下述步骤:将识别对象语音信号的最低音程规定为第2规定音程,同时在到达最低音程之前,当一致概率最大值未达到规定概率以上时,结束标准化处理。
如上所述,在第24方面中,能够在语音识别装置的能力范围内适当设定输入语音的标准化范围。
第25方面是在第20方面中,还具有使识别对象语音信号从与输入语音相同音程起按规定音程单位进行降音的步骤。
第26方面是在第25方面中还具有下述步骤:将识别对象语音信号的最低音程规定为第3规定音程,同时在到达最低音程之前,当一致概率最大值未达到规定概率以上时,使识别对象语音信号从与输入语音相同音程起按规定音程单位进行升音。
如上所述,在第26方面中,能够在语音识别装置的能力范围内适当设定输入语音的标准化范围。
第27方面是在第26方面中还具有下述步骤:将识别对象语音信号的最高音程规定为第4规定音程,同时在到达最高音程之前,当一致概率最大值未达到规定概率以上时,结束标准化处理。
本发明的这些及其它的目的、特征、形态和效果,从参照附图所作下述详细说明将会更加清楚。
图1所示为本发明实施形态的装有输入语音标准化装置的语音识别装置构成方框图。
图2所示为图1的语音分析器的详细方框图。
图3所示为具有不同音程的语音频谱图。
图4所示为语音波形随时间变化的例子及它们之间进行的音程变换方法说明图。
图5所示为图1所示的输入语音标准化装置的动作流程图。
图6所示为图5所示的第1位一致概率Pmax(Ni)子程序中详细的动作流程图。
图7所示为以往的语音识别装置的构成方框图。
下面参照图1,说明本发明实施形态的装有输入语音音程标准化装置的语音识别装置。语音识别装置VRAp包括A/D变换器1、输入语音标准化装置Tr、标准语音数据存储器13、语音分析器15及控制器17。标准语音数据存储器13存储有作为语音识别基准的多个单词频率模式Psf,按规定的时序将存储的频率模式Psf输出。另外,由不特定说话者发出的语音通过话筒及放大器(未图示)作为模拟语音信号Sva输入至语音识别装置VRAp。
控制器17根据由语音识别装置VRAp构成部分的A/D变换器1、输入语音标准化装置Tr、标准语音数据存储器13及语音分析器15输出的表示它们动作状态的动作状态信号Ss,生成对这些构成部分1、Tr、13及15的动作进行控制的控制信号Sc,对整个语音识别装置VRAp有动作进行控制。另外,关于动作状态信号Ss、控制信号Sc及控制器17,由于是公知的技术,因此为了简化说明,只要不是特别需要,就不再谈到。
A/D变换器1对输入的语音信号Sva进行A/D变换处理,生成数字语音信号Svd,输入至输入语音标准化装置Tr。输入语音标准化装置Tr根据输入的数字语音信号Svd,以语音识别装置VRAp的语音识别最佳音程为目标,生成经过规定量音程变换的音程标准化数字语音信号Svc,输出至语音分析器15。
语音分析器15对音程标准化数字语音信号Svc进行FFT(快速傅里叶变换)处理,求出音程标准化数字语音信号Svc的频率模式Psvc(未图示)。另外,语音分析器15从标准语音数据存储器13读出由一个个单词的频率模式Psf及与该单词对应的代码Sr所构成的标准语音数据。然后,语音分析器15将标准语音数据的一个个单词的频率模式Psf与音程标准化数字语音信号Svc的频率模式Psvc进行比较,求出表示它们一致程度的一致概率P。
另外,一致概率P如后所述利用隐马尔可夫模型(Hidden MarkovModel)法为代表的已有技术求得。将标准语音数据所含的全部单词一致概率P中的最大概率作为第1位一致概率Pmax,将表示该单词的代码Sr作为最大一致概率代码Srp。
输入语音标准化装置Tr根据第1位一致概率Pmax,在标准语音数据的多个单词中,确认其频率模式Psf与音程标准化数字语音信号Svc的频率模式Psvc一致的单词。当第1位一致概率Pmax具有规定阈值的一致认定基准Pth时,输入语音标准化装置Tr将该标准语音数据的单词认定作为与输入语音一致的单词,将一致认定信号Sj输出至语音分析器15,然后从语音分析器15将表示该认定单词(语音识别标准数据)的最大一致概率代码Srp输出。按照这个意思,将一致概率代码Srp称为识别代码Srp。
另外,当第1位一致概率Pmax小于一致认定基准Pth时,输入语音标准化装置Tr将数字语言信号Svd的音程进行规定量的调整,再次生成音程标准化数字语音信号Svc。然后,根据该音程调整过的音程标准化数字语音信号Svc,重复进行上述认定处理。即在与音程调整过的音程标准化数字语音信号Svc对应的标准语音数据的多个单词中,对于每次频率模式比较中具有第1位一致概率Pmax的单词进行一致判断。
另外,如图1所示,输入语音标准化装置Tr包括存储器3、读出控制器5、音程优化器9及读出时钟控制器11。音程优化器9根据从语音分析器15输入的第1位一致概率Pmax,对音程标准化数字语音信号Svc与标准语音数据的特定单词进行一致认定。
即当一致认定基准Pth大于第1位一致概率Pmax时,音程优化器9认定为不一致。然后,为了对输入至语音分析器15的音程标准化数字语音信号Svc的音程进行音程调整量为Ni的修正,输入语音标准化装置Tr将音程调整信号Si送至读出时钟控制器11。
音程调整量Ni及音程调整信号Si所示的i是规定调整音程量的音程调整指数。在本实施形态中,音程调整指数i以正负整数为例加以说明,当然也可以采用任意值。再有,当音程调整指数i为整数时,使它的值与音程标准化数字语音信号Svc的音程调整周期一致,由此在本说明书中,根据需要用音程调整指数i表示音程调整周期来进行说明。
读出时钟控制器11根据音程调整信号Si将使音程标准化数字语音信号Svc的音程改变规定量Ni(升音或降音)的读出时钟Scc输出至存储器3。
读出控制器5监视利用存储器3保存的数字语音信号Svd,并生成读出控制信号Src,控制存储器3,以便将存储器3保存的数字语音信号Svd中与独立发声对应的信号按读出时钟Scc规定的时序读出作为音程标准化数字语音信号Svc。
存储器3按读出时钟Scc规定的时序将保存的数字语音信号Svd读出,由此,将数字语音信号Svd的音程根据音程调整信号Si指示的进行调整音程Ni的音程标准化数字语音信号Svc输出。即音程标准化数字语音信号Svc为根据音程调整信号Si指定的规定音程调整量Ni对数字语音信号Svd的音程进行调整的信号。
该规定的音程不一定必须是固定的,也可以每次采用任意值,当然也可以根据语音识别装置VRAp(特别是语音分析器15及标准语音数据的组合)性能而自然而然决定允许范围。这样将按音程调整量Ni进行了音程调整的音程标准化数字语音信号Svc表示为音程标准化数字语音信号Svc(Ni)。另外,其它信号等也根据需要同样表示。
语音分析器15对于存储器3新输入的音程标准化数字语音信号Svc,就标准语音数据存储器13存储的标准语音数据全部(M个)单词求得一致概率P。M为1以上的任意整数,是作为标准语音数据的包含其语音频率分量模式Psf的单词所对应的代码Sr的总数。按照这个意思,将M称为标准语音数据单词总数。
如图2所示,语音分析器15包括最大一致概率决定器15a与一致认定代码输出器15b。从标准语音数据存储器13每向最大一致概率决定器15a输出一次频率模式Psf(m),就从标准语音数据存储器13向一致认定代码输出器15b输入与该频率模式Psf(m)对应的代码Sr(m)。
一致认定代码输出器15b在下一个代码Sr(m+1)输入之前一直保持该值。m为1以上M以下的任意整数,是表示标准语音数据存储器13存储的标准语音数据所包含的M个单词分别相对应的代码和语音频率分量模式Psf1~Psfm中的任意一个的参数。
最大一致概率决定器15a根据从存储器3输入的音程标准化数字语音信号Svc(Ni)及从标准语音数据存储器13输入的标准语音各单词的频率模式Psf(m),求出与音程标准化数字语音信号Svc(Ni)相关的第1位一致概率Pmax(Ni),输出至音程优化器9,同时将代码保持信号Csr输出至一致认定代码输出器15b。
一致认定代码输出器15b对代码保持信号Csr进行响应,将该时刻输入的代码Sr(m)作为认定候补代码Srp’加以保持。这如后所述,具有第1位一致概率Pmax(Ni)的单词所对应的代码Sr,若其一致概率P(即第1位一致概率Pmax(Ni))在一致认定基准Pth以上,则认定是与输入语音(模拟语音信号Sva)相当的数字语音信号Svd一致的识别代码Srp,因而将具有第1位一致概率Pmax(Ni)的代码Sr(m)识别作为认定候补代码Srp’,另外,将这样认定的识别代码识别作为一致认定代码Srp。
一致认定代码输出器15b根据从最大一致概率决定器15a输入的代码保持信号Csr、从标准语音数据存储器13输入的代码Sr(m)及从音程优化器9输入的一致认定信号Sj,将一致认定代码Srp输出至语音识别装置VRAp外部。更详细来说,最大一致概率决定器15a输入了音程标准化数字语音信号Svc(Ni)后,在再输入经音程调整的音程标准化数字语音信号Svc(N(i+1))之前,一直保持音程标准化数字语音信号Svc(Ni)。
从标准语音数据存储器13陆续将预先存储的全部单词的标准语音数据的频率模式Psf(m)一个一个地输入,每一次输入,求得数字语音信号Svc(Ni)与频率模式Psvc(Ni)的一致概率P(m)。若音程标准化数字语音信号Svc(Ni)与频率模式Psf(m)比较结果所得到的一致概率P(m)大于到现在为止得到的一致概率P(m-β)的最大值,则加以替换,利用这一方法可求得最大一致概率Pmax(Ni)。β为1以上m以下的任意整数。
最大一致概率决定器15a在发生替换时,将表示现在频率模式Psf(m)的一致概率P(m)是到现在为止的最大值的代码保持信号Csr输至一致认定代码输出器15b。对标准语音数据存储器13所包含的全部M个单词频率模式Psf1~PsfM进行上述处理,即可求得第1位一致概率Pmax(Ni)。然后,第1位一致概率Pmax(Ni)输出至音程优化器9,接受上述一致认定处理,同时表示与该第1位一致概率Pmax(Ni)对应的单词的识别信号Sr(m)作为认定候补代码Srp’保存在一致认定代码输出器15b。
当从最大一致概率决定器15a输入代码保持信号Csr时,将具有到现在为止是最大一致概率P的现在的代码Sr(m)作为认定候补代码Srp’加以保持,一直保持到下一个代码保持信号Csr输入为止。当再一次输入代码保持信号Csr时,将这时的新代码Sr(m+γ)作为认定候补代码Srp’。这样一来,始终能够将可能具有最大一致概率Pmax(Ni)的代码Sr作为认定候补代码Srp’加以保持。γ为1以上(M-m)以下的任意整数。
在音程标准化数字语音信号Svc(Ni)与相对应的全部标准语音数据(频率模式Psf(m))的比较结束时,将最大一致概率决定器15a保持的最大一致概率P作为第1位一致概率Pmax(Ni)输出至音程优化器9。在音程优化器9,将该第1位一致概率Pmax(Ni)与一致认定基准Pth进行比较。
当第1位一致概率Pmax(Ni)在一致认定基准Pth以上时,则认定保持在一致认定代码输出器15b中的认定候补代码Srp’是一致认定代码Srp的一致认定信号Sj,从音程优化器9输入至一致认定代码输出器15b。一致认定代码输出器15b对该一致认定信号Sj进行响应,将一致认定代码Srp作为表示对输入语音进行了正确语音识别的单词的代码输出。
换句话说,若没有从音程优化器9输出的一致认定信号Sj,则一致认定代码Srp不会从一致认定代码输出器15b输出,这时的一致认定代码Srp其相对于音程标准化数字语音信号Svc(Ni)的一致概率P(第1位一致概率Pmax)大于一致认定基准Pth。
即音程优化器9根据第1位一致概率Pmax,将与现在(i)的音程标准化数字语音信号Svc(Ni)相对应的代码Sr的第1位一致概率Pmax与一致认定基准Pth进行比较。然后,对具有现在(i)第1位一致概率Pmax的单词(认定候补代码Srp’)的语音识别是否正确进行判断。这种情况下,前一次(i-1)的最高一致概率P、即第1位一致概率Pmax(i-1)的认定候补代码Srp’(i-1),与具有这一次(i)的第1位一致概率Pmax的单词Srp(i)标准语音数据不一定相同。
当第1位一致概率Pmax在一致认定基准Pth以上时,音程优化器9在认定了认定候补代码Srp’与音程标准化数字语音信号Svc一致后,将表示这一情况的一致认定信号Sj输出至语音分析器15。语音分析器15接受了一致认定信号Sj后,将保持的认定候补代码Srp’作为一致认定代码Srp输出。
下面参照图3及图4说明语音识别装置VRAp的基本动作原理。
图3所示为利用语音分析器15对音程标准化数字语音识别信号Svc进行高速傅里叶变换后得到的频谱(频率模式Psvc)之一例,在该图中,横轴表示频率f,纵轴表示强度A。另外,点划线L1表示数字语音信号Svd是男性发出语音的代表性频谱之一例,虚线L2表示数字语音信号Svd是女性或小孩发出语音的代表性频谱之一例。
实线Ls表示作为语音识别用标准语音数据存储在标准语音数据存储器13中的与曲线L1及L2所示输入语音频谱相对应单词(代码Sr)的频谱(频率模式Psf)之一例。一般即使是相同语音(单词),但男性情况下的频谱如点划线L1所示,出现在低于标准语音的低频范围一侧,而女性或小孩情况下的频谱如虚线12所示,出现在高于标准语音的高频范围一侧。
语音分析器15根据这样的频谱,将点划线L1或虚线L2所代表的、因不特定说话者而异的音程标准化数字语音信号Svc的频率模式Psvc与实线Ls所示的标准语音数据各单词(Sr(m))的频率模式Psf(m)进行对照,计算与各单词(Sr(m))的一致度P(m)。另外,该一致概率P(m)的计算如上所述是利用隐马尔可夫模型法那样的传统技术来进行的。
在进行不特定说话者语音识别处理时,多数情况下是将标准语音数据存储器13中登录的标准语音数据(Ls)设定在男声(L1)与女声(L2)的中间。因此,特别低音的男声或特别高音的女声的频率(L1或L2)就远离标准语音数据(Ls),这样即使是对于正确的单词,其一致概率P也低于一致认定基准Pth,而不能正确识别。
所以在本发明中,当标准语音数据的M个单词中其第1位一致概率Pmax(m)不满足一致认定基准Pth时,就认为原因在于音程标准化数字语音信号Svc的音程,应该要调整其音程(升音或者降音)。
即利用语音分析器15检测出的第1位一致概率Pmax(m)由音程优化器9判断为不满足一致认定基准Pth时,将音程调整信号Si输出至读出时钟控制器11,所述音程调整信号Si是使音程标准化数字语音信号Svc调整规定的调整音程Ni而设定的调整信号。
如上所述,存储器3将调整了音程调整量Ni的音程标准化数字语音信号Svc(Ni)输出至语音分析器15。语音分析器15对该调整过的音程标准化数字语音信号Svc(Ni)进行上述的语音分析处理,求得第1位一致概率Pmax。这种情况下,前一次(i-1)语音分析处理时具有第1位一致概率Pmax(i-1)的单词这一次不一定也具有第1位一致概率Pmax(i)。
这是由于如参照图3所示的那样,由曲线L1及L2举例所示的音程标准化数字语音信号Svc(Ni)的频率模式Psvc(Ni)与由曲线Ls举例所示的标准语音的频率模式Psf(m)因近似度不同,而一致概率P(m)有显著改变。即音程近似度低时,会计算出与音程标准化数字语音信号Svc不相同的单词其一致概率P高于正确单词的一致概率,可能产生这样一种错误的计算结果。
音程近似度越高,则该错误计算结果越少,同时正确单词一致概率P本身也越大。在本发明中正是注意到这一点,根据语音识别装置VRAp的语音识别能力,正确设定一致认定基准Pth,由此当第1位一致概率Pmax在一致认定基准Pth以上时,就可以认定该单词的语音识别是正确的。
即在本发明中,将第1位一致概率Pmax满足一致认定基准Pth作为条件反复进行音程调整,对音程标准化数字语音信号Svc的音程进行标准化处理。结果,正确识别的单词对象不是全部单词,而仅仅根据第1位一致概率Pmax来认定,这样可大幅度减少数据处理的工作量,而另一方面到最后是将语音标准数据所包括的全部单词作为识别对象,因此能够实现高速且正确的语音识别。
下面再参照图4说明利用输入语音标准化装置Tr(读出时钟控制器11)的音程变换处理。在该图中,横轴表示时间t,纵轴表示语音强度A。波形WS表示存储在标准语音数据存储器13中的语音波形(频率模式Psf(m))随时间而变化的例子。
波形WL表示音程低于标准语音数据的频率模式Psvc(例如是男性的语音),波形WH表示音程高于标准语音数据的频率模式Psvc(例如是女性或小孩的语音)。在该图中,分别用PL、Ps及PH表示波形WS,WL及WH的1个周期。周期PL及PH相当于上述输入语音基频fi的倒数,周期PS相当于标准语音基频fs的倒数。
为了进行音程变换使得波形WL与波形WS一致,只要用比输入语音波形进行A/D变换时的取样频率更快的读出时钟进行读出,就能够实现。为了将波形WL一下子通过音程变换变成波形WS,只要将读出时钟Scc的频率提高为PL/PS倍即可。这种情况下,变换后的音程也提高为PL/Ps倍,但由于实际音程标准化数字语音信号Svc的周期PL每次都不一样,而且不定,因此最好音程以规定的音程调整量Ni为单位进行调整。即在本发明中,读出时钟Scc设定为与音程调整量Ni相对应的频率。另外,对于进行音程变换使波形WH与波形WS一致的情况,读出时钟Scc也同样进行设定。
这样能得到使数字语音信号Svd的音程与标准语音音程一致而经过变换的音程标准化数字语音信号Svc。但是,在升高音程时,语音波形的时间轴变短,在降低音程时,语音波形的时间轴延长,因此语速改变了。为了解决这一问题,在升高音程时,增加母音波形,在降低音程时,抽掉母音波形,通过这样能够调整语速。由于该技术是公知的,而且不是本发明的目的,因此省略其说明及图示。另外,读出时钟的频率变换也采用至今都知道的主时钟的分频时钟,很容易能够生成。
下面参照图5及图6所示的流程说明语音识别装置VRAp中的输入语音标准化装置Tr的各个动作。语音识别装置VRAp投入运行,开始图5所示的语音识别动作。
首先在步骤S2中,输入语音标准化装置Tr进行初始化。具体来说,是将给定音程标准化数字语音信号Svc的调整音程Ni的音程调整指数i设定为零,同时将表示音程标准化数字语音信号Svc调整后的音程允许最大值的允许最高音程Nmax及表示允许最小值的允许最低音程Nmin分别设定为规定值。这里所谓i=0意味着音程标准化数字语音信号Svc的音程与数字语音信号Svd的音程相同。然后处理进行下一步骤S4。
在步骤S4中,由不特定说话者发出的语音通过话筒等装置作为模拟语音信号Sva输入A/D变换器1。然后处理进入下一步骤S6。
在步骤S6中,A/D变换器1将输入的模拟语音信号Sva依次进行A/D变换,生成数字语音信号Svd,输出至存储器3。然后处理进入步骤S8。
在步骤S8中,存储器3依次将数字语音信号Svd加以存储。然后处理进入下一步骤S10。
在步骤S10中,读出控制器5监视存储器3的输入状态,判断说话者的语音输入(模拟语音信号Sva)是否结束。该判断可例如根据模拟语音信号Sva的输入中断时间是否达到规定阈值来进行。另外也可以有别的构成方法,如利用适当手段将说话者已输入结束这一情况通知语音识别装置VRAp或输入语音标准化装置Tr。
在说话者继续发声的情况下,判断为“否”,处理则返回上述步骤S4,继续步骤S4、S6及S8中的说话者语音输入处理、数字语音信号Svd的生成及输入至存储器3的处理。然后,当由说话者的一个音或若干音组成的独立语音序列的模拟语音信号Sva输入结束时,判断为“是,”则利用存储器3对说话者发出语音的数字语音信号Svd的存储动作结束。因此处理进入下一步骤S12。
在步骤S12中,读出控制器5根据读出时钟Scc将存储器3中存储的数字语音信号Svd读出作为音程标准化数字语音信号Svc(Ni)。该音程标准化数字语音信号Svc(Ni)的音程相对于数字语音信号Svd的音程进行了音程调整量Ni的调整(升音或降音),所述音程调整量Ni是与读出时钟Scc生成的作为基准的音程调整信号Si相当的规定量。
一开始从存储器3读出音程标准化数字语音信号Svc(Ni)时,由于在上述步骤S2中,音程调整指数i初始化为零,因此音程调整量Ni为零。即数字语音信号Svd未经音程调整读出作为音程标准化数字语音信号Svc(Ni)。然后处理进入步骤S14。
在步骤S14中,语音分析器15对用音程调整指数i规定的音程调整量Ni进行了音程调整的音程标准化数字语音信号Svc(Ni)进行傅里叶变换,生成频率模式Psvc(Ni),进行频谱分析,然后处理进入步骤#100的第1位一致概率Pmax(Ni)检测子程序。
在步骤#100中,检测音程标准化数字语音信号Svc(Ni)的频率模式Pvsc(Ni)与从标准语音数据存储器13读出的各个单词(Sr)的标准语音数据即频率模式Psf(m)的一致概率P(m)。另外,关于比较这样的输入语音的数字语音信号与标准语音数据的模式并求得两者的一致概率P的技术,可以采用以隐马尔可夫模型法为代表的公知技术。
下面参照图6说明步骤#100中的详细动作。若步骤#100的第1位一致概率Pmax(Ni)检测子程序开始运行,则
首先在步骤S102中,从存储器3输出的音程标准化数字语音信号Svc(Ni)的频率模式Psvc(Ni)输入至语音分析器15的最大一致概率决定器15a。然后处理进入下一步骤S104。
在步骤S104中,语音分析器15进行初始化。具体来说,在最大一致概率决定器15a中将m设置为1,同时将第1位一致概率Pmax(Ni)设置为零。在一致认定代码输出器15b中,将认定候补代码Srp’设置为零。然后处理进入下一步骤S106。
在步骤S106中,从标准语音数据存储器13分别将频率模式Psf(m)及代码Sr(m)输入至最大一致概率决定器15a及一致认定代码输出器15b,然后处理进入下一步骤S108。
在步骤S108中,最大一致概率决定器15a计算在步骤S106取得的频率模式Psf(m)相对于在步骤S102输入的频率模式Psvc(Ni)的一致概率P(m)。然后处理进入下一步骤S110。
在步骤110中,利用最大一致概率决定器15a判断一致概率P(m)是否在第1位一致概率Pmax以上。当一致概率P(m)在第1位一致概率Pmax以上时,判断为“是”,处理进入步骤S112。
在步骤S112中,在最大一致概率决定器15a中设置当前的一致概率P(m)作为第1位一致概率Pmax(Ni),然后处理进入下一步骤S114。
在步骤A114中,最大一致概率决定器15a将代码保持信号Csr输出至一致认定代码输出器15b。然后处理进入下一步骤S116。
在步骤S116中,一致认定代码输出器15b对代码信号Csr进行响应,将该时刻保持的代码Sr(m)设置作为认定候补代码Srp’。然后处理进入下一步骤S118。
另外在步骤S110中,当判断为“否”、即判断一致概率P(m)小于第1位一致概率Pmax时,处理则跳过上述步骤S112、S114及S116而直接进入步骤S118。
在步骤S118中,判断m是否为M。当m小于M时,判断为“否”,处理进入步骤S120。
在步骤S120中,m加1,处理返回至上述步骤S106。然后重复上述步骤S106~S120的处理。直到在步骤S120中加1,m变为M,在步骤S118判断为“是”为止。
在步骤S118中,若判断为“是”,即求得标准语音数据存储器13中存储的标准语音数据的M个频率模式Psf(1)~Psf(M)各自一致概率P(m)并判断求得的一致概率P(m)是否为第1位一致概率Pmax的处理全部结束。这样将标准语音数据存储器13中存储的全部识别信号Sr作为对象,求得第1位一致概率Pmax及认定候补代码Srp’。然后处理进入步骤S122。
在步骤S122中,最大一致概率决定器15a将在步骤S112中内部保持的第1位一致概率Pmax(Ni)输出至音程优化器9。
这样,语音分析器15仅仅将各标准语音数据(语音频率分量模式Psf)与输入语音(模拟语音信号Sva)的输入语音信号(音程标准化数字语音信号Svc)的一致概率P中最高一致概率的标准语音数据(一致认定代码Srp)的第1位一致概率Pmax(Ni)输出,从而结束步骤#100。然后处理进入图5所示的步骤S18。
在步骤S18中,音程优化器9根据第1位一致概率Pmax(Ni),判断第1位一致概率Pmax(Ni)是否在一致认定基准Pth以上。当第1位一致概率Pmax(Ni)小于一致认定基准Pth,即在该时刻(i)即使是一致概率P最高的标准语音数据,也不能认为语音识别是正确的情况下,判断为“否”,然后处理进入步骤S20。
在步骤S20中,判断表示音程标准化数字语音信号Svc(Ni)的音程调整量Ni是否达到允许最高音程Nmax的最高音程标志FNmax是否为1。在最高音程标志FNmax不为1,即音程调整量Ni未达到最高音程标志FNmax时,判断为“否”,处理进入步骤S22。
在步骤S22中,判断音程调整量Ni是否在允许最高音程Nmax以上。在为“否”时,处理进入步骤S24。
在步骤S24中,音程调整指数i加1。这意味着音程调整量Ni增加(升音)。然后处理进入步骤S26。
在步骤S26中,音程优化器9生成音程调整信号Si,输出至读出时钟控制器11。然后处理返回前述步骤S12。
另外在步骤S22中,当判断为“是”,即音程调整量Ni达到允许最高音程Nmax时,处理进入步骤S28。
在步骤S28中,将最高音程标志FNmax设定为1。然后处理进入步骤S30。
在步骤S30中,将音程调整指数i复位为零。然后处理进入步骤S32。
在步骤S32中,判断音程调整量Ni是否在允许最低音程Nmin以下。在判断为“否”时,处理进入步骤S34。
在步骤S34中,音程调整指数i减1。这意味着音程调整量Ni减少(降音)。即音程标准化数字语音信号Svc(Ni)比数字语音信号Svd的音程降低了音程调整量Ni。然后处理进入前述步骤S26。
另外在步骤S32中,当判断为“是”,即音程调整量Ni达到允许最低音程Nmin以下时,结束处理。这意味着模拟语音信号Sva不能进行语音识别。
另外在步骤S20中,当为“是”,即最高音程标志FNmax为1(在步骤S28中设定)时,处理进入步骤S32。
另外在步骤S18中,当为“是”,即第1位一致概率Pmax(Ni)在一致认定基准Pth以上时,认定相应的单词(Srp)正确。然后处理进入下一步骤S36。
在步骤S36中,最大一致概率决定器15a将一致认定信号Sj输出至认定代码输出器15b。然后处理进入下一步骤S38。
一致认定代码输出器15b对一致认定信号Sj进行响应,将在步骤S116(#100)中设置的认定候补代码Srp’作为一致认定代码Srp从语音识别装置VRAp输出。然后语音识别装置VRAp的处理结束。
下面根据如上说明的流程具体说明语音识别装置VRAp的语音识别动作。语音识别装置VRAp一旦投入运行,开始其语音识别动作,则首先在步骤S2中使输入语音标准化装置Tr进行初始化,将音程调整指数i设定为零,将允许最高音程Nmax及允许最低音程Nmin分别设定为规定值。
然后在步骤S4、S6、S8及S10中,由不特定说话者发出的语音作为数字语音信号Svd存储在存储器3中。
在步骤S12中,数字语音信号Svd以步骤S2初始设定的音程调整指数i(i=0)相对应的读出时钟Scc(i)从存储器3读出,由此音程标准化数字语音信号Svc(Ni)输出至语音分析器5。另外由于是i=0,因此音程调整量Ni=0,音程标准化数字语音信号Svc(Ni)的音程与数字语音信号Svd的音程相同。
语音分析器15对音程标准化数字语音信号Svc(Ni)进行频谱分析(S14)。再分别对音程调整指数i=0的音程标准化数字语音信号Svc(Ni)的频率模式Psvc(Ni)与从标准语音数据存储器13读出的M个标准语音数据的频率模式Psf(1)~Psf(M)检测一致概率P(1)~P(M)。然后求得其中一致概率P最高的标准语音数据(认定候补代码Srp’)及其第1位一致概率Pmax,生成此时音程调整量Ni有关的第1位一致概率Pmax(Ni)(#100)。
若第1位一致概率Pmax在一致认定基准Pth以上,则音程优化器9认定第1位一致概率Pmax的单词语音数据(认定候补代码Srp’)与数字语音信号Svd即说话者发出的语音一致(S18),音程优化器9再输出一致认定信号Sj(S36),将认定候补代码Srp’作为一致认定代码Srp输出至语音分析器(S38)。
另外,在步骤S18中,当第1位一致概率Pmax(Ni)小于一致认定基准Pth,也就是说,即使是此时一致概率P最高的标准语音数据,也认为不能正确进行语音识别。然后,在步骤S20中,根据最高音程标志FNmax,在从数字语音信号Svd读出音程标准数字语音信号Svc(Ni)时,判断升音的音程调整量Ni未达到上限(即升音方向的音程调整尚未结束)的情况下,在步骤S22中确认音程调整量Ni未达到允许最高音程Nmax,然后在步骤S24中将音程调整指数i加1。然后根据表示加1后的音程调整指数i的音程调整信号Si,生成读出时钟Scc,输出至存储器3。
在步骤S12中,存储器3根据读出时钟Scc,将对数字语音信号Svd按音程调整指数i指定的音程调整量Ni进行升音的音程标准化数字语音信号Svc(Ni)输出。接下来重复S20~S34的动作,直到在步骤18判断为“是”,即判断为第1位一致概率Pmax在一致认定基准Pth以上为止。
即在步骤S22中判断为音程调整量Ni达到允许最高音程Nmax之前,只要在步骤S18中不判断为“是”,则重复步骤S20~S26及S12~S18的循环,对于每一次按规定音程调整量Ni升音(S24、S26、S12)的音程标准化数字语音信号Svc(Ni),求得第1位一致概率Pmax(S14、#100)。
这期间,对于按音程调整量Ni升音的音程标准化数字语音信号Svc(Ni)的具有第1位一致概率Pmax的标准语音数据,每次升音可能变为不同的单词。即有时前一次(i-1)具有第1位一致概率Pmax(i-1)的标准数据的单词,而在这一次(i)具有例如第2位以下的一致概率P(i)。这样,每次按规定音程调整量Ni升音,其音程标准化数字语音信号Svc(Ni)的第1位一致概率Pmax在一致认定基准Pth以上时,可以认为语音识别以最高条件进行了识别,因而将表示该第1位一致概率Pmax对应的标准语音数据的代码Sr作为一致认定代码Srp输出。
如上所述,在本发明中,是将最佳语音识别条件的对象仅作为第1位一致概率Pmax,通过这样将全部标准化语音数据不管其一致概率P的值如何,在满足该最佳语音识别条件前不从语音识别对象中去除,对音程标准化数字语音信号Svc进行音程调整。另外,在本实施形态中,将输入的模拟语音信号Sva(数字语音信号Svd)的音程作为基准(i=0),首先使其按规定音程调整量Ni进行升音(S22、S24、S26)。然后,在没有认定为满足最佳音程识别条件(S12、S14、#100)的期间(在S18为“否”),继续向允许最高音程Nmax升音(S22)。
然后,直到允许最高音程Nmax,即使升音(S22)也没有认定为满足最佳音程认别条件时(在S18为“否”),则将最高音程标志FNmax置1(S28),同时将音程调整指数i置0(S30),将音程切换至降音调整模式。
在降音调整模式中,由于最高音程标志FNmax为1(S20),因此跳过上述升音调整模式中的升音过程(S22、S24)。在音程调整量Ni到达允许最低音程Nmin之前(步骤S32中为“否”),将音程调整指数i减1(S34),生成音程调整信号Si(S34)。
结果将输入的模拟语音信号Sva(数字语音信号Svd)的音程作为基准(i=0),首先按规定音程调整量Ni进行降音(S32、S34、S26、S12、S14、#100)。在没有认定为满足最佳音程识别条件的期间(在S18为“否”),进行降音直到允许最低音程Nmin。然后,在升音模式或降音模式中,在没有判断为第1位一致概率Pmax在一致认定基准Pth以上时(在步骤18中为“是”)时,经过降音模式(在S32中为“是”)后结束处理。
另外,在本实施形态中,是使音程标准化数字语音信号Svc从数字语音信号Svd的音程升音至允许最高音程Nmax后,返回到数字语音信号Svd的音程,再使其降音直到允许最低音程Nmin。但是,若构成的实施形态是使音程标准化数字语音信号Svc从数字语音信号Svd的音程降音至允许最低音程Nmin后,返回到数字语音信号Svd的音程,再使其升音直到允许最高音程Nmax,根据上述说明也是很容易实现的。
再有,若构成的实施形态是使音程标准化数字语音信号Svc一下子升音到允许最高音程Nmax,然后再依次降音至允许最低音程Nmin,根据上述说明也是很容易实现的。
另外,若构成的实施形态是在从数字语音信号Svd至允许最低音程Nmin或从数字语音信号Svd至允许最高音程Nmax的范围内进行音程调整,来代替从允许最低音程Nmin至允许最高音程Nmax的范围内进行音程调整,根据上述说明也是很容易实现的。
如上所述,在本发明中,是将第1位一致概率Pmax满足一致认定基准Pth作为条件反复进行音程调整,使音程标准化,由此,将语音标准数据包含的全部单词保持作为识别对象直至最后,正确识别的单词认定不是根据全部单词而仅仅根据第1位一致概率Pmax,通过这样大幅度减少数据处理的工作量,能实现高速且正确的语音识别。
以上详细说明了本发明,但前述说明的所有内容不过是本发明的举例说明,并不是想限定它的范围。当然可以不超出本发明范围而进行各种改进及变形。

Claims (27)

1.一种输入语音音程标准化装置,是用于根据多个单词的语音识别标准数据,对不特定说话者发出的输入语音进行识别的语音识别装置,将该输入语音标准化为语音识别最佳音程,其特征在于,所述输入语音音程标准化装置具有:
按规定音程单位使所述输入语音变化而生成识别对象语音信号的识别对象语音生成手段、
计算所述识别对象语音信号与所述语音识别标准数据多个单词相互之间的一致概率的一致概率计算手段,
还具有在所述一致概率最大值达到规定概率以前反复使所述识别对象语音信号的音程进行变化的音程变换手段。
2.如权利要求1所述的输入语音音程标准化装置,其特征在于,所述音程变换手段具有调音手段,它在所述一致概率最大值小于所述规定概率时,按规定音程单位使所述识别对象语音向升音或降音的某一方向变化。
3.如权利要求2所述的输入语音音程标准化装置,其特征在于,还具有
暂存所述输入语音的存储手段、
从所述存储手段读出所述输入语音序列后生成识别对象语音信号的读出控制手段、
读出时钟控制手段,它决定所述存储手段读出定时时钟频率,然后生成读出时钟信号,以便按所述规定音程单位使所述识别对象语音信号的频率进行变换。
4.如权利要求2所述的输入语音音程标准化装置,其特征在于,所述识别对象语音信号从与所述输入语音相同音程起按所述规定音程单位进行升音。
5.如权利要求4所述的输入语音音程标准化装置,其特征在于,将所述识别对象语音信号的最高音程限定为第1规定音程,同时在到达该最高音程之前,在所述一致概率的所述最大值未到达所述规定概率以上时,所述识别对象语音信号从与所述输入语音相同音程起按所述规定音程单位进行降音。
6.如权利要求5所述的输入语音音程标准化装置,其特征在于,将所述识别对象语音信号的最低音程限定为第2规定音程,同时在到达该最低音程之前,在所述一致概率最大值未到达所述规定概率以上时,结束所述标准化处理。
7.如权利要求2所述的输入语音音程标准化装置,其特征在于,所述识别对象语音信号从与所述输入语音相同音程起按所述规定音程单位进行降音。
8.如权利要求7所述的输入语音音程标准化装置,其特征在于,将所述识别对象语音信号的最低音程限定为第3规定音程,同时在到达该最低音程之前,在所述一致概率的所述最大值未到达所述规定概率以上时,该识别对象语音信号从与所述输入语音相同音程起按所述规定音程单位进行升音。
9.如权利要求8所述的输入语音音程标准化装置,其特征在于,将所述识别对象语音信号的最高音程限定为第4规定音程,同时在到达该最高音程之前,在所述一致概率的所述最大值未达到所述规定概率以上时,结束所述标准化处理。
10.一种语音识别装置,是根据多个单词的语音识别标准数据,将不特定说话者发出的输入语音标准化为语音识别最佳音程,在这样的状态下进行识别,其特征在于,所述语音识别装置具有:
按规定音程单位使所述输入语音变化而生成识别对象语音信号的识别对象语音生成手段、
计算所述识别对象语音信号与所述语音识别标准数据多个单词相互之间的一致概率的一致概率计算手段、
以及在所述一致概率最大值达到规定概率以前反复使所述识别对象语音信号的音程进行变化的音程变换手段。
11.如权利要求10所述的语音识别装置,其特征在于,所述识别对象语音生成手段具有调音手段,它在所述一致概率最大值小于所述规定概率时,按规定音程单位使所述识别对象语音向升音或降音的某一方向变化。
12.如权利要求11所述语音识别装置,其特征在于,还具有:
暂存所述输入语音的存储手段、
从所述存储手段读出所述输入语音序列后生成识别对象语音信号的读出控制手段、
读出时钟控制手段,它决定所述存储手段读出定时时钟频率,然后生成读出时钟信号,以便按所述规定音程单位使所述识别对象语音信号的频率进行变换。
13.如权利要求11所述的语音识别装置,其特征在于,所述识别对象语音信号从与所述输入语音相同音程起按所述规定音程单位进行升音。
14.如权利要求13所述的语音识别装置,其特征在于,将所述识别对象语音信号的最高音程限定为第1规定音程,同时在到达该最高音程之前,在所述一致概率的所述最大值未到达所述规定概率以上时,所述识别对象语音信号从与所述输入语音相同音程起按所述规定音程单位进行降音。
15.如权利要求14所述的语音识别装置,其特征在于,将所述识别对象语音信号的最低音程限定为第2规定音程,同时在到达该最低音程之前,在所述一致概率最大值未到达所述规定概率以上时,结束所述标准化处理。
16.如权利要求11所述的语音识别装置,其特征在于,所述识别对象语音信号从与所述输入语音相同音程起按所述规定音程单位进行降音。
17.如权利要求16所述的语音识别装置,其特征在于,将所述识别对象语音信号的最低音程限定为第3规定音程,同时在到达该最低音程之前,在所述一致概率最大值未到达所述规定概率以上时,该识别对象语音信号从与所述输入语音相同音程起按所述规定音程单位进行升音。
18.如权利要求17所述的语音识别装置,其特征在于,将所述识别对象语音信号的最高音程限定为第4规定音程,同时在到达该最高音程之前,在所述一致概率的所述最大值未到达所述规定概率以上时,结束所述标准化处理。
19.一种输入语音音程标准化方法,其特征在于,是用于根据多个单词的语音识别标准数据,对不特定说话者发出的输入语音进行识别的语音识别装置,将该输入语音标准化为语音识别最佳音程,所述输入语音音程标准化方法具有下述步骤:
按规定音程单位使所述输入语音变化而生成识别对象语音信号的步骤、
计算所述识别对象语音信号与所述语音识别标准数据多个单词相互之间的一致概率的步骤、
以及在所述一致概率最大值达到规定概率以前反复使所述识别对象语音信号的音程进行变化的步骤。
20.如权利要求19所述的输入语音音程标准化方法,其特征在于,还具有在所述一致概率最大值小于所述规定概率时按规定音程单位使所述识别对象语音向升音或降音的某一方向变化的部骤。
21.如权利要求20所述的输入语音音程标准化方法,其特征在于,还具有下述步骤:
暂存所述输入语音的步骤、
根据所述暂存的输入语音序列生成识别对象语音信号的步骤、
以及为了按所述规定音程单位使所述识别对象语音信号的频率进行变换而决定所述存储器读出定时时钟频率的步骤。
22.如权利要求20所述的输入语音音程标准化方法,其特征在于,还具有使所述识别对象语音信号从与所述输入语音相同音程起按所述规定音程单位进行升音的步骤。
23.如权利要求22所述的输入语音音程标准化方法,其特征在于,还具有下述步骤,即将所述识别对象语音信号的最高音程限定为第1规定音程,同时在到达该最高音程之前,在所述一致概率的所述最大值未到达所述规定概率以上时,所述识别对象语音信号从与所述输入语音相同音程起按所述规定音程单位进行降音。
24.如权利要求23所述的输入语音音程标准化方法,其特征在于,还具有下述步骤,即将所述识别对象语音信号的最低音程限定为第2规定音程,同时在到达该最低音程之前,在所述一致概率的所述最大值未到达规定概率以上时,结束所述标准化处理。
25.如权利要求20所述的输入语音音程标准化方法,其特征在于,还具有使所述识别对象语音信号从与所述输入语音相同音程起按所述规定音程单位进行降音的步骤。
26.如权利要求25所述的输入语音音程标准化方法,其特征在于,还具有下述步骤,即将所述识别对象语音信号的最低音程限定为第3规定音程,同时在到达该最低音程之前,在所述一致概率的所述最大值未到达所述规定概率以上时,该识别对象语音信号从与所述输入语音相同音程起按所述规定音程单位进行升音。
27.如权利要求26所述的输入语音音程标准化方法,其特征在于,还具有下述步骤,即将所述识别对象语音信号的最高音程限定为第4规定音程,同时在到达该最高音程之前,在所述一致概率的所述最大值未到达所述规定概率以上时,结束所述标准化处理。
CNB001330136A 1999-10-29 2000-10-27 对输入语音进行语音识别的音程标准化装置 Expired - Fee Related CN1141698C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP30929099 1999-10-29
JP309290/1999 1999-10-29

Publications (2)

Publication Number Publication Date
CN1294377A true CN1294377A (zh) 2001-05-09
CN1141698C CN1141698C (zh) 2004-03-10

Family

ID=17991228

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB001330136A Expired - Fee Related CN1141698C (zh) 1999-10-29 2000-10-27 对输入语音进行语音识别的音程标准化装置

Country Status (5)

Country Link
US (2) US6687665B1 (zh)
EP (1) EP1096470B1 (zh)
KR (1) KR100531549B1 (zh)
CN (1) CN1141698C (zh)
DE (1) DE60019229T2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989839A (zh) * 2015-06-03 2016-10-05 乐视致新电子科技(天津)有限公司 语音识别方法和装置

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100531549B1 (ko) * 1999-10-29 2005-11-28 마쯔시다덴기산교 가부시키가이샤 음성 인식 입력 음성의 음정 정규화 장치
GB2416874B (en) * 2004-08-02 2006-07-26 Louis Augustus George Atteck A translation and transmission system
JP4298672B2 (ja) * 2005-04-11 2009-07-22 キヤノン株式会社 混合分布hmmの状態の出力確率計算方法および装置
JP2009501909A (ja) * 2005-07-18 2009-01-22 トグノラ,ディエゴ,ジュセッペ 信号処理方法およびシステム
AU2006272451B2 (en) * 2005-07-18 2010-10-14 Diego Giuseppe Tognola A signal process and system
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US8332212B2 (en) * 2008-06-18 2012-12-11 Cogi, Inc. Method and system for efficient pacing of speech for transcription
JP5187128B2 (ja) * 2008-10-16 2013-04-24 富士通株式会社 検索装置、検索方法、及び、プログラム
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8326625B2 (en) * 2009-11-10 2012-12-04 Research In Motion Limited System and method for low overhead time domain voice authentication
US8321209B2 (en) 2009-11-10 2012-11-27 Research In Motion Limited System and method for low overhead frequency domain voice authentication
CN102527039A (zh) * 2010-12-30 2012-07-04 德信互动科技(北京)有限公司 声效控制装置及方法
CN113747330A (zh) * 2018-10-15 2021-12-03 奥康科技有限公司 助听器系统和方法
CN109671433B (zh) * 2019-01-10 2023-06-16 腾讯科技(深圳)有限公司 一种关键词的检测方法以及相关装置
CN115344181A (zh) * 2022-05-04 2022-11-15 杭州格沃智能科技有限公司 一种人机交互系统及其实现方法和应用
US20230381643A1 (en) * 2022-05-27 2023-11-30 Sony Interactive Entertainment LLC Method and system for processing gender voice compensation

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4284846A (en) * 1978-05-08 1981-08-18 John Marley System and method for sound recognition
US4489434A (en) * 1981-10-05 1984-12-18 Exxon Corporation Speech recognition method and apparatus
US4783807A (en) * 1984-08-27 1988-11-08 John Marley System and method for sound recognition with feature selection synchronized to voice pitch
WO1987002816A1 (en) * 1985-10-30 1987-05-07 Central Institute For The Deaf Speech processing apparatus and methods
US4803729A (en) * 1987-04-03 1989-02-07 Dragon Systems, Inc. Speech recognition method
IT1263050B (it) * 1993-02-03 1996-07-24 Alcatel Italia Metodo per stimare il pitch di un segnale acustico di parlato e sistema per il riconoscimento del parlato impiegante lo stesso
AU7802194A (en) * 1993-09-30 1995-04-18 Apple Computer, Inc. Continuous reference adaptation in a pattern recognition system
JPH07271392A (ja) 1994-03-29 1995-10-20 Nippon Telegr & Teleph Corp <Ntt> 話者認識用類似度正規化方法及びこの方法を用いた話者認識装置
SE504177C2 (sv) * 1994-06-29 1996-12-02 Telia Ab Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk
US5790754A (en) * 1994-10-21 1998-08-04 Sensory Circuits, Inc. Speech recognition apparatus for consumer electronic applications
CA2180392C (en) * 1995-07-31 2001-02-13 Paul Wesley Cohrs User selectable multiple threshold criteria for voice recognition
JPH09325798A (ja) 1996-06-06 1997-12-16 Matsushita Electric Ind Co Ltd 音声認識装置
US5839099A (en) * 1996-06-11 1998-11-17 Guvolt, Inc. Signal conditioning apparatus
US5966687A (en) * 1996-12-30 1999-10-12 C-Cube Microsystems, Inc. Vocal pitch corrector
KR100531549B1 (ko) * 1999-10-29 2005-11-28 마쯔시다덴기산교 가부시키가이샤 음성 인식 입력 음성의 음정 정규화 장치
US6310833B1 (en) * 1999-11-30 2001-10-30 Salton, Inc. Interactive voice recognition digital clock

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989839A (zh) * 2015-06-03 2016-10-05 乐视致新电子科技(天津)有限公司 语音识别方法和装置
CN105989839B (zh) * 2015-06-03 2019-12-13 乐融致新电子科技(天津)有限公司 语音识别方法和装置

Also Published As

Publication number Publication date
CN1141698C (zh) 2004-03-10
KR100531549B1 (ko) 2005-11-28
EP1096470B1 (en) 2005-04-06
US6687665B1 (en) 2004-02-03
DE60019229D1 (de) 2005-05-12
EP1096470A3 (en) 2001-09-12
DE60019229T2 (de) 2006-03-09
EP1096470A2 (en) 2001-05-02
US20040078195A1 (en) 2004-04-22
KR20010040193A (ko) 2001-05-15
US7107213B2 (en) 2006-09-12

Similar Documents

Publication Publication Date Title
CN1141698C (zh) 对输入语音进行语音识别的音程标准化装置
CN1264138C (zh) 复制语音信号、解码语音、合成语音的方法和装置
CN1168068C (zh) 语音合成系统与语音合成方法
CN1159702C (zh) 具有情感的语音-语音翻译系统和方法
CN1158648C (zh) 语音可变速率编码方法与设备
CN1282155C (zh) 噪声抑制装置和方法
CN1238833C (zh) 语音识别装置以及语音识别方法
CN1461463A (zh) 语音合成设备
CN1192358C (zh) 声音信号加工方法和声音信号加工装置
CN1185621C (zh) 语音识别装置与语音识别方法
CN1200403C (zh) 线性预测编码参数的矢量量化装置
CN1202514C (zh) 编码和解码语音及其参数的方法、编码器、解码器
CN1542735A (zh) 识别有调语言的系统和方法
CN1238058A (zh) 语音处理系统
CN1161751C (zh) 语音分析方法和语音编码方法及其装置
CN1159703C (zh) 声音识别系统
CN1731509A (zh) 移动语音合成方法
CN1534597A (zh) 利用具有转换状态空间模型的变化推理的语音识别方法
CN1155725A (zh) 语音编码方法和装置
CN1870130A (zh) 音调模式生成方法及其装置
CN101057275A (zh) 矢量变换装置以及矢量变换方法
CN1265217A (zh) 在语音通信系统中语音增强的方法和装置
CN1174457A (zh) 语音信号传输方法及语音编码和解码系统
CN1161750C (zh) 语音编码译码方法和装置、电话装置、音调变换方法和介质
CN1112672C (zh) 多脉冲分析语言处理系统及其方法

Legal Events

Date Code Title Description
BB1A Publication of application
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20040310

Termination date: 20091127