CN101390155A - 发言者适配的语音识别和利用基音的注册 - Google Patents

发言者适配的语音识别和利用基音的注册 Download PDF

Info

Publication number
CN101390155A
CN101390155A CNA2007800061003A CN200780006100A CN101390155A CN 101390155 A CN101390155 A CN 101390155A CN A2007800061003 A CNA2007800061003 A CN A2007800061003A CN 200780006100 A CN200780006100 A CN 200780006100A CN 101390155 A CN101390155 A CN 101390155A
Authority
CN
China
Prior art keywords
spokesman
fundamental tone
speech
speech recognition
acoustic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007800061003A
Other languages
English (en)
Other versions
CN101390155B (zh
Inventor
R·陈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Sony Network Entertainment Platform Inc
Original Assignee
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Computer Entertainment Inc filed Critical Sony Computer Entertainment Inc
Publication of CN101390155A publication Critical patent/CN101390155A/zh
Application granted granted Critical
Publication of CN101390155B publication Critical patent/CN101390155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

公开语音识别方法和系统。获取发言者的发言的语音信号。根据发言的语音信号确定运行时基音。基于运行时基音将发言者归类,并基于发言者的类别调整一个或多个声音模型参数。可在所述识别期间的任何时间瞬间进行参数调整。然后基于声音模型来执行对发言的语音识别分析。

Description

发言者适配的语音识别和利用基音的注册
相关申请的交叉引用
本申请涉及与本申请同一日提交的Ruxin Chen的共同转让的美国专利申请11/358,272,标题为“具有并行性别和年龄规范化的语音识别”(VOICE RECOGNITION WITH PARALLEL GENDER ANDAGE NORMALIZATION),其全部公开通过引用结合于本文。
技术领域
本申请涉及语音识别,并且更具体来说涉及适于基于基音的发言者的语音识别系统。
背景技术
语音和语言识别技术使得配备声音输入源(例如麦克风)的计算机和其他电子装置能够解释人的语言,例如用于抄录或作为一种与计算机交互的备选方法。正在开发语言识别软件,以在消费电子装置(例如移动电话、游戏平台、个人计算机和个人数字助理)中使用。在典型的语言识别算法中,表示人语言的时域信号被分成多个时间窗口,每个窗口通过例如快速傅立叶变换(FFT)转换到频域信号。然后通过采用频谱域信号的对数并且再执行另一个FFT来压缩此频域或频谱域信号。根据压缩的频谱(称为倒谱),可以使用统计模型来确定该信号所表示的语言内的音位和上下文。倒谱(cepstrum)可以视为有关语言信号内的不同频带中的速率变化的信息。对于语言识别应用,常常首先使用Mel频带来变换频谱。其结果称为Mel频率倒谱系数或MFCC。可以根据如下公式将以赫兹为单位的频率f(每秒的周期数)转换成mel频率m:m=(1127.01048Hz)loge(1+f/700)。相似地,可以使用f=(700Hz)(em/1127.01048-1)将mel频率m转换成以赫兹为单位的频率f。
在语音识别中,常常使用一组三角形滤波器函数来对频谱滤波。该滤波器函数将频谱分成一组部分重叠的频带,该组频带位于最小频率fmin与最大频率fmax之间。每个滤波器函数以感兴趣的频率范围内的特定频率为中心。当转换到mel频率标度时,每个滤波器函数可以表示为一组mel滤波器组,其中每个mel滤波器组MFBi由如下公式给出:
MFB i = ( mf - mf min mf max - mf max ) i , 其中索引i指代滤波器组的编号,以及mfmin和mfmax是对应于fmin和fmax的mel频率。
fmin和fmax的选择决定语音识别算法所使用的滤波器组。通常,fmin和fmax由正在使用的语音识别模型来固定。语音识别的一个问题在于,不同发言者具有不同的声道长度并产生具有相应不同频率范围的语音信号。为了对此进行补偿,语音识别系统可以在滤波之前执行语音信号的声道规范化。举例来说,规范化可以使用这种类型的函数:
f ′ = f + 1 π arctan α ( sin ( 2 πf ) 1 - α cos ( 2 πf ) )
其中f′是规范化的频率,以及α是调整规范化函数的曲率的参数。
具有N个不同mel频带的语言信号的分量可以表示为具有N个分量的矢量A。矢量A的每个分量是语言信号的mel频率系数。矢量A的规范化通常包括如下类型的矩阵变换:
F′=[M]·F+B,其中[M]是由如下公式给出的N×N矩阵:
[ M ] = M 11 M 12 · · · M 1 N M 21 M 22 · · · M 2 N · · · · · · · · · · · · M N 1 M 21 · · · M NN
以及B是如下公式给出的偏置矢量:
B = B 1 B 2 · · · B N ,
F′和F是如下形式的矢量:
F = F 1 F 2 · · · F N , F ′ = F 1 ′ F 2 ′ · · · F N ′
其中离线计算矩阵系数Mij和矢量分量Bi,以使HMM系统中观察的语言序列的概率最大。通常,对于给定的帧和给定的特征F′,按如下高斯函数计算观察的概率: Gaussian k ( F 0 ′ . . . F n ′ ) = 1 δ k exp ( - Σ i ( F i ′ - μ ki ) 2 2 · σ ki 2 ) . 规范化的矢量F′的每个分量是规范化的语言信号的mel频率分量。
众所周知,男性和女性发言者产生由不同mel频率系数(MFCC)表征的语音信号。在现有技术中,语音识别系统已经使用训练以在发言者是男性还是女性之间进行鉴别,并基于发言者是男性还是女性来调整语音识别中所用的声音模型。通常,通过让多个(例如10个)男性发言者和相等数量的女性发言者说相同的词以产生语音样本来训练声音模型。将基于语音样本的特征分析与用于语音识别的超模型组合在一起。
上面的规范化的主要缺点在于,矢量F可能具有多达40个分量。因此,矩阵[M]可能具有多达1600个系数。这种大量系数的计算可能花费太长时间来调整语音识别算法。
而且,因为现有技术的语音识别系统和方法使用fmin、fmax、mfmin和mfmax的固定值来进行滤波和规范化,所以它们并未充分地考虑到发言者之间声道长度方面的变化。因此,语言识别精确度可能差于最优情况。因此,需要一种克服此类缺点的语音识别系统和方法。
发明内容
通过本发明涉及语音识别方法和系统的实施例克服了与现有技术关联的缺点。根据本发明的实施例,获取发言者的发言的语音信号。根据发言的语音信号确定运行时基音。基于运行时基音将发言者归类,并基于发言者的类别调整一个或多个声音模型参数。然后基于声音模型参数来执行对发言的语音识别分析。
附图说明
通过参考结合附图的下文详细描述可以容易地理解本发明的技术,其中:
图1是图示根据本发明实施例的语音识别算法的流程图。
图2是图示根据本发明实施例的语音识别系统的框图。
具体实施方式
虽然出于说明的目的,下文详细描述包含许多特定细节,但是本领域技术人员将认识到对下文细节的许多变化和备选方案均在本发明的范围内。因此,下文描述的本发明的实施例是在不失一般性且不对要求权利的本发明施加任何限制的前提下提出的。
根据本发明实施例,语音识别方法100可以如图1A所示的进行。在102,获取来自发言者的发言的语音信号。可以采用任何常规方式来获取语音信号,例如使用麦克风,并使用将语音信号制作成数字格式的波形数字转换器。可以通过以大于工作特征分析频率的采样频率对语音信号进行过采样(over-sampling)来获取语音信号。具体来说,采样频率可以大于训练时间语言采样率。通过非限制性实例,如果通过12千赫的工作特征分析频率来表征语音信号,则可以采用例如16-22千赫的采样频率来对该信号采样。
在104,确定发言的运行时基音值prun。有许多方法来确定运行时基音prun。例如,prun可以是按如下公式在包括时间t的给定时间窗口上计算的移动平均基音pavg(t):
(公式1)          p avg ( t ) = 1 NP Σ t i p ( t i ) ,
其中求和是对在基音概率高于预定阈值的时间窗口期间在时间ti={t-(NP-1),t-(NP-2),...,t}处所取的NP个基音测量值进行的。计算基音概率的一种简单方式是
prob ( pitch ) = correlation ( 1 pitch ) correlation ( 0 ) , 其中 correlation ( t ) = Σ i signal ( t + i ) signal ( i ) 是分析语言信号的相关性。或者,可以通过例如如下公式将运行时基音prun与当前基音相关:
(公式2)   prun(t)=c·prun(t-1)+(1-c·p(t)),for t>0
以及prun(0)=p(0),for t=0
其中c是0与1之间的常数,p(t)是时间t处的基音的当前值。常数c的值与窗口大小相关。例如,c=0的值对应于无窗口(其中prun(t)=p(t)),c=1的值对应于无穷窗口(其中prun(t)=prun(t-1))。注意,对于t>0的值,t之前的时间的基音值构成运行时基音prun(t)的值。这可以在c=0.6的情况中以数值示例说明。在此情况中,公式2得到:
prun(0)=p(0)
prun(1)=0.6prun(0)+(1-c)·p(1)=0.6·p(0)+0.4·p(1)
prun(2)=0.6·prun(1)+(1-c)·p(2)=0.6*(0.6·p(0)+0.4·p(1))+0.4·p(2)
在本发明的一些实施例中,如果基音概率高于某个阈值(例如高于约0.4),则可以根据公式2来计算prun(t)。
举例来说,图1A的106处执行的发言者归类可以基于发言者的年龄和/或性别来进行。例如,根据训练数据,可以确定男性、女性和小孩发言者的平均基音落在不同的范围内。可以由语音信号的当前基音所落在的基音范围来将发言者归类。举例来说,成年男性发言者具有约120Hz与约160Hz之间的平均基音,成年女性发言者具有约180Hz与约220Hz之间的平均基音,以及小孩发言者具有大于约220Hz的平均基音。如果当前基音是190Hz,则发言者被归类为女性发言者。在这些情况的任何一种中,可以将发言者的平均基音作为矢量F中的特征来包括。
一旦将发言者归类,则可以按108所指示的相应地选择声音模型的参数。然后在110,在语音识别分析中使用这些参数。参数的选择取决于语音识别分析中所用的声音模型的类型。例如,语音识别分析可以使用一组滤波器函数来对语音信号滤波。滤波器函数(例如,三角形滤波器函数)将频谱分成一组部分重叠的频带。每个语音识别分析使用由不同的最大频率fmax和不同的最小频率fmin定义的滤波器组。fmax和fmin可以是赫兹标度的频率或mel标度的基音。最大频率fmax指滤波器组的频率范围的上限,而最小频率fmin指滤波器组的频率范围的下限。参数fmin和fmax的值可以在语音识别分析期间在任何时间瞬间(例如语音识别分析期间的任何时间窗口)动态地进行调整。语音识别分析产生一个或多个语言单元的识别的识别概率Pr。语言单元可以是短语、词或词的子单元(例如音位)。
举例来说,一旦发言者被归类为男人、女人或小孩,则可以相应地选择用于对发言进行语音识别分析的值fmin和fmax。例如,如果假定发言者是男人,则fmax可以约为70Hz而fmin可以约为3800Hz。如果假定发言者是女人,则fmax可以约为70Hz而fmin可以约为4200Hz。如果假定发言者是小孩,则fmax可以约为90Hz而fmin可以约为4400Hz。
在110,基于调整的模型参数从对发言的语音分析得到识别概率Pr。举例来说且不失一般性地,语音识别分析可以使用隐藏的马尔可夫模型(HMM)来确定给定语音信号中的语言单元。语言单元可以是词、双词组合或子词单元(例如音位等)。HMM可以由如下项来表征:
L,表示系统的多个可能状态;
M,表示系统中存在的高斯的总数;
N,表示给定时间处的不同可观察特征的数量;这些特征可以是语言信号的频谱上的(即频域)或时间上的(时域)特征;
A={aij},状态过渡概率分布,其中每个aij表示如果系统最初在
时间t处于第i状态,则系统将在时间t+1过渡到第j状态的概率;
B={bj(k)},第j个状态的观察特征概率分布,其中每个bj(k)表示当系统处于第j个状态时第k个特征的观察值的概率分布;以及
π={πi},最初状态分布,其中每个分量πi表示系统将在某个最初时间处于第i个状态的概率。
隐藏的马尔可夫模型可以应用于语音信号以解决一个或多个基本问题,包括:(1)从语音信号获得给定观察序列的概率;(2)给定观察序列,什么对应状态序列最好地解释该观察序列;以及(3)如何调整该组模型参数A、Bπ以使得给定观察序列的概率最大化。
将HMM应用于语言识别由例如Lawrence Rabiner在1989年2月IEEE学报第2期卷77的“语言识别中隐藏的马尔可夫模型和选择的应用的教程”(“A Tutorial on Hidden Markov Models and SelectedApplications in Speech Recognition”in Proceedings of the IEEE,Vol.77,No.2,February 1989,其通过引用基于所有目的结合于本文)中进行了详细描述。
在110处实现的语音识别分析可以通过公知为音位(phoneme)的多个可识别模式来表征语言。这些音位的每一个可以分成多个部分,例如开始、中间和结尾部分。注意,中间部分通常是最稳定的,因为开始部分常常受到前一个音位的影响,而结尾部分受到后一个音位的影响。不同部分的音位由频域特征来表征,这些特征可以通过信号的适当统计分析来识别。统计模型常常使用高斯概率分布函数来预测特征的每个不同状态的概率,所述特征构成与不同音位的不同部分对应的信号部分。一个HMM状态可以包含一个或多个高斯。给定可能状态的特定高斯,例如第k个高斯可以由一组N个平均值μki和方差σki表示。在典型的语言识别算法中,确定给定时间窗口的哪个高斯是最大的一个。根据最大高斯,可以推断时间窗口的最大可能音位。
举例来说,在110的语音识别分析可以分析时域信号以获得N个不同可观察信号特征x0、...、xn,其中n=N-1。系统的观察的特征可以表示为具有分量x0、...、xn的矢量。这些分量可以是给定观察的语言信号的频谱上、倒谱上或时间上的特征。
举例来说且不作为本发明实施例的限制,分量x0、...、xn可以是在102处获得的语音信号的mel频率倒谱系数(MFCC)。倒谱是如同作为信号来取分贝频谱的傅立叶变换(FT)的结果。时域语言信号的倒谱可以在言语上定义为该时域信号的傅立叶变换的对数(具有去包裹的相位(unwrapped phase))的傅立叶变换。时域信号S(t)的倒谱可以在数学上表示为FT(log(FT(S(t)))+j2πq),其中q是将复对数函数的角度或虚数部分正确去包裹所需的整数。算法上为:倒谱可以由如下操作序列来生成:信号—>FT—>对数—>相位去包裹—>FT—>倒谱.
有复倒谱和实倒谱。实倒谱使用为实值定义的对数函数,同时复倒谱使用为复值定义的复对数函数。复倒谱具有有关初始频谱的量值和相位的信息,从而能够重构信号。实倒谱仅使用频谱的量值的信息。举例说明且不失一般性地,在110处实现的语音识别分析可以使用实倒谱。
分量x0、...、xn的组合的某些模式对应于语言单元(例如词或短语)或子单元(例如音节、音位或词的其他子单元)。每个单元或子单元可以视为系统的状态。系统的给定高斯(第k个高斯)的概率密度函数fk(x0...xn)可以是任何类型的概率密度函数,例如具有如下形式的高斯函数:
f k ( x 0 . . . x n ) = 1 δ k exp ( - Σ i ( x i - μ ki ) 2 2 · σ ki 2 ) - - - ( 1 )
δ k = Π i ( 2 π · σ ki 2 ) i = 1 . . . . . N , k = 1 . . . . M .
在上面的公式中,“i”是特征的索引,以及“k”是高斯的索引。在公式(1)中,下标k是高斯函数的索引。可能有数百至数十万个高斯为语言识别算法所使用。数量μki是系统的第k个高斯的特征xi的平均值。数量
Figure A200780006100D00132
是第k个高斯中的xi的方差。可以将一个或多个高斯与一个或多个不同的状态关联。例如,可以有L个不同的状态,其包含系统中的总数M个高斯。数量μki是在训练数据的所有时间窗口上属于fk(x0...xN)的xi的所有测量值的平均值,而cki是用于计算μki的对应测量值的方差。
公式(1)可以计算每个高斯的概率以得到对应的识别概率Pr。根据具有最大概率的高斯,可以构建该特定时间窗口的最可能的状态、词、音位、字符等。注意,也可以使用给定时间窗口的最可能的状态来帮助确定较早或较晚时间窗口的最可能的状态,因为它们可以确定其中发生该状态的上下文。
根据本发明的实施例,按如上所述来工作的图1A或1B中所示类型的识别方法(例如,语音识别方法)可以作为信号处理设备200的一部分来实现,如图2所示。系统200可以包括处理器201和存储器202(例如,RAM、DRAM、ROM等)。此外,如果要实现并行处理,则信号处理设备200可以具有多个处理器201。存储器202包括按如上所述来配置的数据和代码。确切地来说,存储器包括表示信号特征204的数据和概率函数206,每个概率函数206可以包括代码、数据或代码与数据的某种组合。
设备200还可以包括公知的支持功能210,例如输入/输出(I/O)部件211、电源(P/S)212、时钟(CLK)213和高速缓存214。设备200可以可选地包括用于存储程序和/或数据的海量存储装置215,例如磁盘驱动器、CD-ROM驱动器、磁带驱动器等。控制器还可以可选地包括用于帮助控制器200与用户之间交互的显示单元216和用户接口单元218。显示单元216可以采用显示文本、数字、图形符号或图像的阴极射线管(CRT)或平板屏幕的形式。用户接口218可以包括键盘、鼠标、游戏杆、光笔或其他装置。此外,用户接口218可以包括用于对待分析信号进行直接捕获的麦克风、视频摄像器或其他信号换能装置。处理器201、存储器202和系统200的其他组件可以经由图2所示的系统总线220彼此交换信号(例如代码指令和数据)。麦克风222可以通过I/O功能211耦合到设备200。
如本文所使用的,术语I/O一般指将数据传输到系统200或从系统200传输数据以及将数据传输到外设或从外设传输数据的任何程序、操作或装置。每次传输是来自一个装置的输出和对另一个装置的输入。外设包括只输入装置,例如键盘和鼠标;只输出装置,例如打印机;以及例如可以用作输入和输出装置的可写CD-ROM的装置。术语“外设”包括外部装置,例如鼠标、键盘、打印机、监视器、麦克风、摄像头、外部Zip驱动器或扫描仪,以及内部装置,例如CD-ROM驱动器、CD-R驱动器或内部调制解调器或如闪速存储器读取器/写入器、硬盘的其他外设。
处理器201可以执行程序204的程序代码指令中的对信号数据206和/或概率的信号识别,程序204由存储器202存储并检索并由处理器模块201执行。程序203的代码部分可以遵循多种不同编程语言(例如汇编、C++、JAVA或多种其他语言)的任何一种。处理器模块201形成在执行例如程序代码204的程序时成为专用计算机的通用计算机。虽然本文中将程序代码204描述为以软件形式实现并在通用计算机上执行,但是本领域技术人员将认识到,作为备选方式,该任务管理方法可以使用硬件、例如专用集成电路(ASIC)或其他硬件电路来实现。同样地,应该理解本发明实施例可以全部或部分地以软件、硬件或二者的某种组合来实现。
在一个实施例中,其中程序代码204可以包括一组处理器可读指令,该组处理器可读指令实现与图1A的方法100或图1B的方法110具有共有特征的方法。程序204一般可以包括一个或多个指令,该一个或多个指令指示处理器201获取发言者发言的语音信号;根据发言的语音信号确定运行时基音(runtime pitch);基于运行时基音将发言者归类;基于发言者的类别调整一个或多个声音模型参数;以及基于声音模型参数来执行对发言的语音识别分析。
举例来说,程序204可以是较大的整体程序(例如计算机游戏的程序)的一部分。在本发明的某些实施例中,程序代码204可以在提供语言样本的初始化阶段(例如在游戏开始时)提示发言者说某个词或短语(例如发言者的姓名)。根据此样本,程序204可以按参考图1所描述的进行,以查找该发言者的最佳参数(例如fmin和fmax),并使用这些参数来运行110的语音识别。可以在程序得出结果之后保存这些参数,并在发言者再次使用该程序时使用。
本发明的实施例提供更鲁棒且更精确的语言识别。在采用声音模型参数选择的语言识别的一个示例中,对单个女性发言者使用基于基音的发言者归类产生了94.8%的词精确度。不采用声音模型参数选择的常规语言识别算法,对于同一个女性发言者使用基于基音的发言者归类仅达到86.3%的词精确度。
虽然上文是对本发明优选实施例的完整描述,但是还可以使用多种备选方案、修改和等效物。因此,本发明的范围应该不是参照上文描述来确定的,而是应该参照所附权利要求连同其等效物的完整范围来确定。可以将本文描述的任何特征(无论是否是优选的)与本文描述的任何其他特征(无论是否是优选的)组合。在下文的权利要求中,除非另行明确指示,否则不定冠词“一个”指该冠词后面为一个或多个项目的数量。所附权利要求不应解释为包括部件加功能的限制,除非在给定的权利要求中使用短语“用于...的部件”来明确指出此类限制。

Claims (14)

1.一种用于语音识别的方法,所述方法包括:
获取发言者的发言的语音信号;
根据所述发言的语音信号确定运行时基音;
基于所述运行时基音将所述发言者归类;
基于所述发言者的类别调整一个或多个声音模型参数;以及
基于所述声音模型参数来执行对所述发言的语音识别分析。
2.如权利要求1所述的方法,其中确定所述运行时基音包括通过如下公式确定时间t处的移动平均基音pavg(t):
p avg ( t ) = 1 NP Σ t i p ( t i ) , 其中求和是对在时间窗口期间在时间ti处所取的NP个基音测量值进行的。
3.如权利要求2所述的方法,其中所述基音p(ti)中的每一个基音都高于预定阈值。
4.如权利要求2所述的方法,其中确定所述运行时基音包括如下类型的计算:
prun(t)=c·prun(t-1)+(1-c·p(t)),其中c是0与1之间的常数,p(t)是时间t处的当前基音值。
5.如权利要求1所述的方法,其中将所述发言者归类包括确定所述发言者的年龄和/或性别。
6.如权利要求5所述的方法,其中确定所述发言者的年龄和/或性别包括:确定所述运行时基音是否落在一个范围内,其中所述范围取决于发言者的年龄和/或性别。
7.如权利要求5所述的方法,其中确定所述发言者的年龄和/或性别包括:根据所述基音确定所述发言者是男性、女性还是小孩发言者。
8.如权利要求1所述的方法,其中所述一个或多个声音模型参数包括执行所述语音识别分析时所用的滤波器组的最大频率fmax和最小频率fmin
9.如权利要求8所述的方法,其中fmax和fmin的值是基于在基于所述运行时基音将所述发言者归类期间确定的发言者的性别和/或年龄来选择的。
10.如权利要求8所述的方法,其中fmax和fmin的值是基于在基于所述运行时基音将所述发言者归类期间,所述发言者是男性、女性还是小孩发言者来选择的。
11.如权利要求8所述的方法,其中在所述识别期间的任何时间瞬间动态地调整所述fmin和fmax
12.如权利要求1所述的方法,还包括:存储所述发言者类别和/或基于所述发言者的类别的一个或多个声音模型参数,并将所述发言者的所述发言者类别和/或基于所述发言者的类别的一个或多个声音模型参数与特定发言者关联。
13.如权利要求11所述的方法,还包括:在对发言者进行后续语音识别分析期间,使用所存储的发言者类别和/或基于所述发言者的类别的所述一个或多个声音模型参数。
14.一种语音识别系统,包括:
适于获取语音信号的接口;
耦合到所述接口的一个或多个处理器;以及
耦合到所述接口和所述处理器的存储器,所述存储器中包含配置成实现语音识别的方法的一组处理器可读指令,所述处理器可读指令包括:
用于获取发言者的发言的语音信号的指令;
用于根据所述发言的语音信号确定运行时基音的指令;
基于所述运行时基音将所述发言者归类;
用于基于所述发言者的类别来调整一个或多个声音模型参数的指令;以及
用于基于所述声音模型参数来执行对所述发言的语音识别分析的指令。
CN2007800061003A 2006-02-21 2007-02-06 发言者适配的语音识别和利用基音的注册 Active CN101390155B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/358,001 US7778831B2 (en) 2006-02-21 2006-02-21 Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US11/358,001 2006-02-21
PCT/US2007/061707 WO2007098316A1 (en) 2006-02-21 2007-02-06 Voice recognition with speaker adaptation and registration with pitch

Publications (2)

Publication Number Publication Date
CN101390155A true CN101390155A (zh) 2009-03-18
CN101390155B CN101390155B (zh) 2012-08-15

Family

ID=38043008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800061003A Active CN101390155B (zh) 2006-02-21 2007-02-06 发言者适配的语音识别和利用基音的注册

Country Status (8)

Country Link
US (2) US7778831B2 (zh)
EP (1) EP1979894B1 (zh)
JP (1) JP4959727B2 (zh)
CN (1) CN101390155B (zh)
AT (1) ATE434252T1 (zh)
DE (1) DE602007001338D1 (zh)
ES (1) ES2327468T3 (zh)
WO (1) WO2007098316A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103236259A (zh) * 2013-03-22 2013-08-07 乐金电子研发中心(上海)有限公司 语音识别处理及反馈系统、语音回复方法
CN103714812A (zh) * 2013-12-23 2014-04-09 百度在线网络技术(北京)有限公司 一种语音识别方法及装置
CN104424952A (zh) * 2013-08-20 2015-03-18 索尼公司 语音处理设备、语音处理方法以及程序
CN104795067A (zh) * 2014-01-20 2015-07-22 华为技术有限公司 语音交互方法及装置
CN105895105A (zh) * 2016-06-06 2016-08-24 北京云知声信息技术有限公司 语音处理方法及装置

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US8938390B2 (en) 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US8078465B2 (en) * 2007-01-23 2011-12-13 Lena Foundation System and method for detection and analysis of speech
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
CN101051464A (zh) * 2006-04-06 2007-10-10 株式会社东芝 说话人认证的注册和验证方法及装置
EP2126901B1 (en) 2007-01-23 2015-07-01 Infoture, Inc. System for analysis of speech
JP2009020291A (ja) * 2007-07-11 2009-01-29 Yamaha Corp 音声処理装置および通信端末装置
US20090287489A1 (en) * 2008-05-15 2009-11-19 Palm, Inc. Speech processing for plurality of users
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
JP2011101110A (ja) * 2009-11-04 2011-05-19 Ricoh Co Ltd 撮像装置
US8831942B1 (en) * 2010-03-19 2014-09-09 Narus, Inc. System and method for pitch based gender identification with suspicious speaker detection
US9208799B2 (en) * 2010-11-10 2015-12-08 Koninklijke Philips N.V. Method and device for estimating a pattern in a signal
US8756062B2 (en) * 2010-12-10 2014-06-17 General Motors Llc Male acoustic model adaptation based on language-independent female speech data
CN103282960B (zh) * 2011-01-04 2016-01-06 富士通株式会社 声音控制装置、声音控制方法以及声音控制程序
US8639508B2 (en) * 2011-02-14 2014-01-28 General Motors Llc User-specific confidence thresholds for speech recognition
US20120226500A1 (en) * 2011-03-02 2012-09-06 Sony Corporation System and method for content rendering including synthetic narration
US9224384B2 (en) 2012-06-06 2015-12-29 Cypress Semiconductor Corporation Histogram based pre-pruning scheme for active HMMS
US9514739B2 (en) * 2012-06-06 2016-12-06 Cypress Semiconductor Corporation Phoneme score accelerator
US9105268B2 (en) 2012-09-19 2015-08-11 24/7 Customer, Inc. Method and apparatus for predicting intent in IVR using natural language queries
US9319816B1 (en) * 2012-09-26 2016-04-19 Amazon Technologies, Inc. Characterizing environment using ultrasound pilot tones
GB2508417B (en) * 2012-11-30 2017-02-08 Toshiba Res Europe Ltd A speech processing system
KR20140079092A (ko) * 2012-12-18 2014-06-26 한국전자통신연구원 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치
US20150154002A1 (en) * 2013-12-04 2015-06-04 Google Inc. User interface customization based on speaker characteristics
US9412358B2 (en) 2014-05-13 2016-08-09 At&T Intellectual Property I, L.P. System and method for data-driven socially customized models for language generation
US10127927B2 (en) 2014-07-28 2018-11-13 Sony Interactive Entertainment Inc. Emotional speech processing
CN105895078A (zh) * 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 动态选择语音模型的语音识别方法及装置
WO2017187712A1 (ja) * 2016-04-26 2017-11-02 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
US9818406B1 (en) * 2016-06-23 2017-11-14 Intuit Inc. Adjusting user experience based on paralinguistic information
US10135989B1 (en) 2016-10-27 2018-11-20 Intuit Inc. Personalized support routing based on paralinguistic information
US10515632B2 (en) * 2016-11-15 2019-12-24 At&T Intellectual Property I, L.P. Asynchronous virtual assistant
US10431236B2 (en) * 2016-11-15 2019-10-01 Sphero, Inc. Dynamic pitch adjustment of inbound audio to improve speech recognition
WO2018164699A1 (en) * 2017-03-10 2018-09-13 James Jordan Rosenberg System and method for relative enhancement of vocal utterances in an acoustically cluttered environment
US10468032B2 (en) * 2017-04-10 2019-11-05 Intel Corporation Method and system of speaker recognition using context aware confidence modeling
US10331402B1 (en) * 2017-05-30 2019-06-25 Amazon Technologies, Inc. Search and knowledge base question answering for a voice user interface
US10529357B2 (en) 2017-12-07 2020-01-07 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
US10818296B2 (en) 2018-06-21 2020-10-27 Intel Corporation Method and system of robust speaker recognition activation
KR20210001529A (ko) * 2019-06-28 2021-01-06 엘지전자 주식회사 로봇, 그와 연결되는 서버, 및 로봇을 이용한 음성 인식 방법
CN110808052A (zh) * 2019-11-12 2020-02-18 深圳市瑞讯云技术有限公司 语音识别方法、装置及电子设备
US11664033B2 (en) * 2020-06-15 2023-05-30 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Family Cites Families (131)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE33597E (en) * 1982-10-15 1991-05-28 Hidden Markov model speech recognition arrangement
JPS6075898A (ja) * 1983-09-30 1985-04-30 三菱電機株式会社 単語音声認識装置
JPH0646359B2 (ja) * 1984-02-10 1994-06-15 三菱電機株式会社 単語音声認識装置
US4956865A (en) * 1985-01-30 1990-09-11 Northern Telecom Limited Speech recognition
JPH01102599A (ja) * 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
US5129002A (en) * 1987-12-16 1992-07-07 Matsushita Electric Industrial Co., Ltd. Pattern recognition apparatus
JPH0293597A (ja) * 1988-09-30 1990-04-04 Nippon I B M Kk 音声認識装置
JPH02273798A (ja) * 1989-04-14 1990-11-08 Sekisui Chem Co Ltd 話者認識方式
US5228087A (en) * 1989-04-12 1993-07-13 Smiths Industries Public Limited Company Speech recognition apparatus and methods
US4977598A (en) * 1989-04-13 1990-12-11 Texas Instruments Incorporated Efficient pruning algorithm for hidden markov model speech recognition
CA2015410C (en) * 1989-05-17 1996-04-02 Chin H. Lee Speech recognition employing key word modeling and non-key word modeling
US5509104A (en) * 1989-05-17 1996-04-16 At&T Corp. Speech recognition employing key word modeling and non-key word modeling
US5148489A (en) * 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
US5794190A (en) * 1990-04-26 1998-08-11 British Telecommunications Public Limited Company Speech pattern recognition using pattern recognizers and classifiers
US5345536A (en) * 1990-12-21 1994-09-06 Matsushita Electric Industrial Co., Ltd. Method of speech recognition
US5268990A (en) * 1991-01-31 1993-12-07 Sri International Method for recognizing speech using linguistically-motivated hidden Markov models
JP3050934B2 (ja) * 1991-03-22 2000-06-12 株式会社東芝 音声認識方式
US5222190A (en) * 1991-06-11 1993-06-22 Texas Instruments Incorporated Apparatus and method for identifying a speech pattern
JP2662120B2 (ja) * 1991-10-01 1997-10-08 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置および音声認識用処理ユニット
US5502790A (en) * 1991-12-24 1996-03-26 Oki Electric Industry Co., Ltd. Speech recognition method and system using triphones, diphones, and phonemes
JPH05257492A (ja) * 1992-03-13 1993-10-08 Toshiba Corp 音声認識方式
JPH0782348B2 (ja) * 1992-03-21 1995-09-06 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識用サブワードモデル生成方法
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
US5438630A (en) * 1992-12-17 1995-08-01 Xerox Corporation Word spotting in bitmap images using word bounding boxes and hidden Markov models
JP3272842B2 (ja) * 1992-12-17 2002-04-08 ゼロックス・コーポレーション プロセッサベースの判定方法
US5535305A (en) * 1992-12-31 1996-07-09 Apple Computer, Inc. Sub-partitioned vector quantization of probability density functions
US5473728A (en) * 1993-02-24 1995-12-05 The United States Of America As Represented By The Secretary Of The Navy Training of homoscedastic hidden Markov models for automatic speech recognition
US5459798A (en) * 1993-03-19 1995-10-17 Intel Corporation System and method of pattern recognition employing a multiprocessing pipelined apparatus with private pattern memory
JPH0728487A (ja) * 1993-03-26 1995-01-31 Texas Instr Inc <Ti> 音声認識方法
JPH09500223A (ja) * 1993-07-13 1997-01-07 ボルドー、テオドール・オースチン 多言語音声認識システム
US5627939A (en) * 1993-09-03 1997-05-06 Microsoft Corporation Speech recognition system and method employing data compression
AU7802194A (en) * 1993-09-30 1995-04-18 Apple Computer, Inc. Continuous reference adaptation in a pattern recognition system
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
ZA948426B (en) * 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
JP2737624B2 (ja) * 1993-12-27 1998-04-08 日本電気株式会社 音声認識装置
FI98162C (fi) * 1994-05-30 1997-04-25 Tecnomen Oy HMM-malliin perustuva puheentunnistusmenetelmä
KR100324988B1 (ko) * 1994-06-13 2002-08-27 마츠시타 덴끼 산교 가부시키가이샤 신호해석장치
US5825978A (en) * 1994-07-18 1998-10-20 Sri International Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions
US5602960A (en) * 1994-09-30 1997-02-11 Apple Computer, Inc. Continuous mandarin chinese speech recognition system having an integrated tone classifier
JP3581401B2 (ja) * 1994-10-07 2004-10-27 キヤノン株式会社 音声認識方法
US5680506A (en) * 1994-12-29 1997-10-21 Lucent Technologies Inc. Apparatus and method for speech signal analysis
DE19501599C1 (de) * 1995-01-20 1996-05-02 Daimler Benz Ag Verfahren zur Spracherkennung
US5680510A (en) * 1995-01-26 1997-10-21 Apple Computer, Inc. System and method for generating and using context dependent sub-syllable models to recognize a tonal language
US5751905A (en) * 1995-03-15 1998-05-12 International Business Machines Corporation Statistical acoustic processing method and apparatus for speech recognition using a toned phoneme system
US5617509A (en) * 1995-03-29 1997-04-01 Motorola, Inc. Method, apparatus, and radio optimizing Hidden Markov Model speech recognition
US5719996A (en) * 1995-06-30 1998-02-17 Motorola, Inc. Speech recognition in selective call systems
KR19990043998A (ko) * 1995-08-24 1999-06-25 세모스 로버트 어니스트 빅커스 패턴인식시스템
JPH0981183A (ja) * 1995-09-14 1997-03-28 Pioneer Electron Corp 音声モデルの作成方法およびこれを用いた音声認識装置
GB2305288A (en) * 1995-09-15 1997-04-02 Ibm Speech recognition system
US6067520A (en) * 1995-12-29 2000-05-23 Lee And Li System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
GB9602691D0 (en) * 1996-02-09 1996-04-10 Canon Kk Word model generation
US5696873A (en) * 1996-03-18 1997-12-09 Advanced Micro Devices, Inc. Vocoder system and method for performing pitch estimation using an adaptive correlation sample window
US5880788A (en) * 1996-03-25 1999-03-09 Interval Research Corporation Automated synchronization of video image sequences to new soundtracks
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US5937384A (en) * 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US5860062A (en) * 1996-06-21 1999-01-12 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus and speech recognition method
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
JP3302266B2 (ja) * 1996-07-23 2002-07-15 沖電気工業株式会社 ヒドン・マルコフ・モデルの学習方法
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
JPH10149187A (ja) * 1996-11-19 1998-06-02 Yamaha Corp 音声情報抽出装置
JP3501199B2 (ja) * 1997-02-17 2004-03-02 日本電信電話株式会社 音響信号分離方法
US5930753A (en) 1997-03-20 1999-07-27 At&T Corp Combining frequency warping and spectral shaping in HMM based speech recognition
GB9706174D0 (en) 1997-03-25 1997-11-19 Secr Defence Recognition system
JP3033514B2 (ja) * 1997-03-31 2000-04-17 日本電気株式会社 大語彙音声認識方法及び装置
US5893059A (en) * 1997-04-17 1999-04-06 Nynex Science And Technology, Inc. Speech recoginition methods and apparatus
US5963906A (en) * 1997-05-20 1999-10-05 At & T Corp Speech recognition training
US6456965B1 (en) * 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US6032116A (en) 1997-06-27 2000-02-29 Advanced Micro Devices, Inc. Distance measure in a speech recognition system for speech recognition using frequency shifting factors to compensate for input signal frequency shifts
US6009390A (en) * 1997-09-11 1999-12-28 Lucent Technologies Inc. Technique for selective use of Gaussian kernels and mixture component weights of tied-mixture hidden Markov models for speech recognition
US6151573A (en) * 1997-09-17 2000-11-21 Texas Instruments Incorporated Source normalization training for HMM modeling of speech
FR2769117B1 (fr) * 1997-09-29 2000-11-10 Matra Comm Procede d'apprentissage dans un systeme de reconnaissance de parole
FR2769118B1 (fr) * 1997-09-29 1999-12-03 Matra Communication Procede de reconnaissance de parole
US5983180A (en) * 1997-10-23 1999-11-09 Softsound Limited Recognition of sequential data using finite state sequence models organized in a tree structure
US6188982B1 (en) * 1997-12-01 2001-02-13 Industrial Technology Research Institute On-line background noise adaptation of parallel model combination HMM with discriminative learning using weighted HMM for noisy speech recognition
US6151574A (en) * 1997-12-05 2000-11-21 Lucent Technologies Inc. Technique for adaptation of hidden markov models for speech recognition
JP2965537B2 (ja) * 1997-12-10 1999-10-18 株式会社エイ・ティ・アール音声翻訳通信研究所 話者クラスタリング処理装置及び音声認識装置
US6226612B1 (en) * 1998-01-30 2001-05-01 Motorola, Inc. Method of evaluating an utterance in a speech recognition system
US6148284A (en) * 1998-02-23 2000-11-14 At&T Corporation Method and apparatus for automatic speech recognition using Markov processes on curves
JP3412496B2 (ja) * 1998-02-25 2003-06-03 三菱電機株式会社 話者適応化装置と音声認識装置
US6112175A (en) * 1998-03-02 2000-08-29 Lucent Technologies Inc. Speaker adaptation using discriminative linear regression on time-varying mean parameters in trended HMM
JP2986792B2 (ja) * 1998-03-16 1999-12-06 株式会社エイ・ティ・アール音声翻訳通信研究所 話者正規化処理装置及び音声認識装置
WO1999059135A2 (de) * 1998-05-11 1999-11-18 Siemens Aktiengesellschaft Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
DE59902946D1 (de) 1998-05-11 2002-11-07 Siemens Ag Verfahren und anordnung zur einführung zeitlicher abhängigkeit in hidden-markov-modellen für die spracherkennung
JP3156668B2 (ja) * 1998-06-19 2001-04-16 日本電気株式会社 音声認識装置
US6980952B1 (en) 1998-08-15 2005-12-27 Texas Instruments Incorporated Source normalization training for HMM modeling of speech
US6138095A (en) * 1998-09-03 2000-10-24 Lucent Technologies Inc. Speech recognition
JP3000999B1 (ja) * 1998-09-08 2000-01-17 セイコーエプソン株式会社 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体
RU2223554C2 (ru) * 1998-09-09 2004-02-10 Асахи Касеи Кабусики Кайся Устройство распознавания речи
US6766288B1 (en) * 1998-10-29 2004-07-20 Paul Reed Smith Guitars Fast find fundamental method
US6292776B1 (en) * 1999-03-12 2001-09-18 Lucent Technologies Inc. Hierarchial subband linear predictive cepstral features for HMM-based speech recognition
GB2348035B (en) 1999-03-19 2003-05-28 Ibm Speech recognition system
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US7058573B1 (en) * 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
US6405168B1 (en) * 1999-09-30 2002-06-11 Conexant Systems, Inc. Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection
JP3632529B2 (ja) * 1999-10-26 2005-03-23 日本電気株式会社 音声認識装置及び方法ならびに記録媒体
CN1141698C (zh) * 1999-10-29 2004-03-10 松下电器产业株式会社 对输入语音进行语音识别的音程标准化装置
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
JP2003514260A (ja) * 1999-11-11 2003-04-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ スピーチ認識のための音調特徴
JP3814459B2 (ja) * 2000-03-31 2006-08-30 キヤノン株式会社 音声認識方法及び装置と記憶媒体
US6629073B1 (en) * 2000-04-27 2003-09-30 Microsoft Corporation Speech recognition method and apparatus utilizing multi-unit models
AU2001269521A1 (en) * 2000-07-13 2002-01-30 Asahi Kasei Kabushiki Kaisha Speech recognition device and speech recognition method
US6671669B1 (en) 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
TW473704B (en) 2000-08-30 2002-01-21 Ind Tech Res Inst Adaptive voice recognition method with noise compensation
DE10043946C2 (de) * 2000-09-06 2002-12-12 Siemens Ag Komprimieren von HMM-Prototypen
JP3932789B2 (ja) * 2000-09-20 2007-06-20 セイコーエプソン株式会社 Hmmの出力確率計算方法および音声認識装置
US6681207B2 (en) * 2001-01-12 2004-01-20 Qualcomm Incorporated System and method for lossy compression of voice recognition models
US20020169604A1 (en) 2001-03-09 2002-11-14 Damiba Bertrand A. System, method and computer program product for genre-based grammars and acoustic models in a speech recognition framework
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
US6701293B2 (en) 2001-06-13 2004-03-02 Intel Corporation Combining N-best lists from multiple speech recognizers
US6493668B1 (en) * 2001-06-15 2002-12-10 Yigal Brandman Speech feature extraction system
JP2003066991A (ja) * 2001-08-22 2003-03-05 Seiko Epson Corp 音声認識結果出力方法および音声認識結果出力装置ならびに音声認識結果出力処理プログラムを記録した記録媒体
CA2359544A1 (en) * 2001-10-22 2003-04-22 Dspfactory Ltd. Low-resource real-time speech recognition system using an oversampled filterbank
US6721699B2 (en) * 2001-11-12 2004-04-13 Intel Corporation Method and system of Chinese speech pitch extraction
US20030220788A1 (en) * 2001-12-17 2003-11-27 Xl8 Systems, Inc. System and method for speech recognition and transcription
JP2005227794A (ja) * 2002-11-21 2005-08-25 Matsushita Electric Ind Co Ltd 標準モデル作成装置及び標準モデル作成方法
US7133535B2 (en) * 2002-12-21 2006-11-07 Microsoft Corp. System and method for real time lip synchronization
JP2004297273A (ja) * 2003-03-26 2004-10-21 Kenwood Corp 音声信号雑音除去装置、音声信号雑音除去方法及びプログラム
US7389230B1 (en) * 2003-04-22 2008-06-17 International Business Machines Corporation System and method for classification of voice signals
US7499857B2 (en) * 2003-05-15 2009-03-03 Microsoft Corporation Adaptation of compressed acoustic models
KR100511248B1 (ko) * 2003-06-13 2005-08-31 홍광석 음성인식에서 화자 내 정규화를 위한 진폭 변경 방법
US7328154B2 (en) * 2003-08-13 2008-02-05 Matsushita Electrical Industrial Co., Ltd. Bubble splitting for compact acoustic modeling
US20050065789A1 (en) * 2003-09-23 2005-03-24 Sherif Yacoub System and method with automated speech recognition engines
JP2005164988A (ja) * 2003-12-03 2005-06-23 Xanavi Informatics Corp 周波数切替装置および情報処理装置
JP2005173008A (ja) * 2003-12-09 2005-06-30 Canon Inc 音声解析処理およびそれを用いた音声処理装置および媒体
JP2005215888A (ja) * 2004-01-28 2005-08-11 Yasunori Kobori テキスト文の表示装置
WO2005088607A1 (de) 2004-03-12 2005-09-22 Siemens Aktiengesellschaft Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen
US7844045B2 (en) 2004-06-16 2010-11-30 Panasonic Corporation Intelligent call routing and call supervision method for call centers
KR100655491B1 (ko) 2004-12-21 2006-12-11 한국전자통신연구원 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
US7970613B2 (en) * 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US7778831B2 (en) 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103236259A (zh) * 2013-03-22 2013-08-07 乐金电子研发中心(上海)有限公司 语音识别处理及反馈系统、语音回复方法
CN103236259B (zh) * 2013-03-22 2016-06-29 乐金电子研发中心(上海)有限公司 语音识别处理及反馈系统、语音回复方法
CN104424952A (zh) * 2013-08-20 2015-03-18 索尼公司 语音处理设备、语音处理方法以及程序
CN104424952B (zh) * 2013-08-20 2020-04-10 索尼公司 语音处理设备、语音处理方法以及程序
CN103714812A (zh) * 2013-12-23 2014-04-09 百度在线网络技术(北京)有限公司 一种语音识别方法及装置
US9990924B2 (en) 2014-01-20 2018-06-05 Huawei Technologies Co., Ltd. Speech interaction method and apparatus
CN104795067B (zh) * 2014-01-20 2019-08-06 华为技术有限公司 语音交互方法及装置
US10468025B2 (en) 2014-01-20 2019-11-05 Huawei Technologies Co., Ltd. Speech interaction method and apparatus
CN110459214A (zh) * 2014-01-20 2019-11-15 华为技术有限公司 语音交互方法及装置
CN104795067A (zh) * 2014-01-20 2015-07-22 华为技术有限公司 语音交互方法及装置
CN110459214B (zh) * 2014-01-20 2022-05-13 华为技术有限公司 语音交互方法及装置
US11380316B2 (en) 2014-01-20 2022-07-05 Huawei Technologies Co., Ltd. Speech interaction method and apparatus
CN105895105A (zh) * 2016-06-06 2016-08-24 北京云知声信息技术有限公司 语音处理方法及装置
CN105895105B (zh) * 2016-06-06 2020-05-05 北京云知声信息技术有限公司 语音处理方法及装置

Also Published As

Publication number Publication date
WO2007098316A1 (en) 2007-08-30
US8050922B2 (en) 2011-11-01
EP1979894B1 (en) 2009-06-17
CN101390155B (zh) 2012-08-15
US20070198263A1 (en) 2007-08-23
JP4959727B2 (ja) 2012-06-27
DE602007001338D1 (de) 2009-07-30
US7778831B2 (en) 2010-08-17
US20100324898A1 (en) 2010-12-23
ATE434252T1 (de) 2009-07-15
ES2327468T3 (es) 2009-10-29
JP2009527801A (ja) 2009-07-30
EP1979894A1 (en) 2008-10-15

Similar Documents

Publication Publication Date Title
CN101390155B (zh) 发言者适配的语音识别和利用基音的注册
US9792897B1 (en) Phoneme-expert assisted speech recognition and re-synthesis
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
WO2019037205A1 (zh) 语音欺诈识别方法、装置、终端设备及存储介质
CN109036381A (zh) 语音处理方法及装置、计算机装置及可读存储介质
Fukuda et al. Detecting breathing sounds in realistic Japanese telephone conversations and its application to automatic speech recognition
CN110970036A (zh) 声纹识别方法及装置、计算机存储介质、电子设备
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
Deb et al. Detection of common cold from speech signals using deep neural network
Rahman et al. Dynamic time warping assisted svm classifier for bangla speech recognition
Chakroun et al. Efficient text-independent speaker recognition with short utterances in both clean and uncontrolled environments
Grewal et al. Isolated word recognition system for English language
Kumar et al. Hybrid of wavelet and MFCC features for speaker verification
Nandi et al. Implicit excitation source features for robust language identification
Fachrie et al. Robust Indonesian digit speech recognition using Elman recurrent neural network
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
Sahoo et al. Analyzing the vocal tract characteristics for out-of-breath speech
Xu et al. Voiceprint recognition of Parkinson patients based on deep learning
Sailor et al. Fusion of magnitude and phase-based features for objective evaluation of TTS voice
US20070219796A1 (en) Weighted likelihood ratio for pattern recognition
Karpov Efficient speaker recognition for mobile devices
Bhable et al. Automatic speech recognition (ASR) of isolated words in Hindi low resource language
Chakraborty et al. An automatic speaker recognition system
Angadi et al. Text-Dependent Speaker Recognition System Using Symbolic Modelling of Voiceprint
Sherly et al. ASR Models from Conventional Statistical Models to Transformers and Transfer Learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SONY COMPUTER ENTERTAINMENT, INC.

Free format text: FORMER OWNER: SNE PLATFORM INC.

Effective date: 20120828

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee

Owner name: SNE PLATFORM INC.

Free format text: FORMER NAME: SONY COMPUTER ENTERTAINMENT, INC.

CP01 Change in the name or title of a patent holder

Address after: Tokyo, Japan

Patentee after: SNE platform Limited by Share Ltd.

Address before: Tokyo, Japan

Patentee before: SONY COMPUTER ENTERTAINMENT Inc.

TR01 Transfer of patent right

Effective date of registration: 20120828

Address after: Tokyo, Japan

Patentee after: SONY COMPUTER ENTERTAINMENT Inc.

Address before: Tokyo, Japan

Patentee before: SNE platform Limited by Share Ltd.