CN1552060A - 通过降低前噪声改善低比特速率音频编码系统的瞬时性能 - Google Patents

通过降低前噪声改善低比特速率音频编码系统的瞬时性能 Download PDF

Info

Publication number
CN1552060A
CN1552060A CNA028095421A CN02809542A CN1552060A CN 1552060 A CN1552060 A CN 1552060A CN A028095421 A CNA028095421 A CN A028095421A CN 02809542 A CN02809542 A CN 02809542A CN 1552060 A CN1552060 A CN 1552060A
Authority
CN
China
Prior art keywords
time
signal
scaling
momentary
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA028095421A
Other languages
English (en)
Other versions
CN1312662C (zh
Inventor
���ء����߸�
布莱特·克罗克特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN1552060A publication Critical patent/CN1552060A/zh
Application granted granted Critical
Publication of CN1312662C publication Critical patent/CN1312662C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching

Abstract

本发明通过检测音频信号流中的瞬时信号并改变瞬时信号相对于编码块的时域关系来减小音频信号流中瞬时信号之前的失真成分,所述的音频信号流经过一个使用编码块的基于变换的低比特率音频编码系统处理,而所述的改变瞬时信号的时域位置可以缩短失真成分的持续时间。对音频数据的时间缩放应该能在基于变换的低比特率音频编码器进行量化处理之前将瞬时信号重新定位,以便减小解码音频信号中的前噪声总量。作为替代、或是额外的处理技术,在一个基于变换的低比特率音频编码系统中,检测音频信号流中的瞬时信号,并对失真成分的一部分进行时间压缩,从而缩短失真成分的持续时间。

Description

通过降低前噪声改善低比特 速率音频编码系统的瞬时性能
技术领域
本发明主要涉及信息的高质量、低比特率数字变换编码与解码,所述的信息代表了音乐之类的音频信号或是语音信号。更具体的说,本发明涉及消除由这样一种编解码系统所产生的音频信号流中的瞬时信号之前的失真分量(“前噪声”)。
背景技术
时间缩放
时间缩放指的是改变一个音频信号的时间进度或持续时间,同时又不改变其频谱内容(感知到的音色)或感知到的音调(其中音调是与周期音频信号相关的特性)。音调缩放指的是修改一个音频信号的频谱内容或感知到的音调,同时又不影响其时间进度或持续时间。时间缩放与音调缩放彼此互为对偶的方法。例如,将一个数字化音频信号的音调提高5%,再对其进行5%的时间缩放(也就是延长信号的持续时间),接着以高出5%的采样率读出采样值(比如,通过重新采样),就可以不影响信号的持续时间,从而维持其最初的持续时间。结果得到的信号与原始信号具有相同的持续时间,但却有着经过修改的音调或频谱特性。重新采样并不是时间缩放或音调缩放所必需的步骤,除非要通过重新采样来保持固定的输出采样率或维持输入和输出采样率相同。
在本发明的各方面内容中,都使用了音频流的时间缩放处理。但是,正如上面所提到的那样,也可以用音调缩放技术来实现时间缩放,  因为它们彼此互为对偶方法。因此,尽管这里用了“时间缩放”这种说法,但使用音调缩放来实现时间缩放的技术也可以被采用。
低比特率音频编码
信号处理领域内的人们都很希望将表示一个信号所需的信息量最小化,而又不对信号质量造成可感知的损失。通过减少信息量需求,信号就能对通信信道及存储媒质提出较低的信息容量需求。对于数字编码技术来说,最小信息量需求等价于最小二进制比特需求。
某些用于编码音频信号以便为人类听觉服务的现有技术尝试通过充分利用心理声学的影响来减少信息量需求,同时又不造成任何能听见的质量退化。人耳所表现出的频率分析特性类似于具有可变中心频率的高度非对称可调谐滤波器。人耳检测不同音调的能力会随着音调间频率差别的增大而提高;但是,耳朵的分辨能力对小于上述滤波器带宽的频率差会大致保持固定。因此,人耳的频率分辨能力会随着这些滤波器的带宽在整个音频频谱上变化。这样一种听觉滤波器的有效带宽被称为关键频带。关键频带内的优势信号比关键频带之外频率上的其他信号更可能掩盖掉那个关键频带内任何位置上的其他信号的可听性。优势信号不但能掩盖与掩盖信号同时出现的信号,还能掩盖掉出现在掩盖信号之前或之后的信号。关键频带内的前掩盖与后掩盖效应的持续时间取决于掩盖信号的幅度,但是前掩盖效应的持续时间往往远短于后掩盖效应的持续时间。请参见“the Audio EngieeringHandbook,K.Blair Benson ed.,McGraw-Hill,San Francisco,1988,pages 1.40-1.42 and 4.8-4.10”。
将有用信号带宽分割成具有接近耳朵的关键频带带宽的频率带的信号记录与传输技术比更宽频带的技术更能充分利用心理声学效应。充分利用了心理声学掩盖效应的技术能够使用低于PCM编码所需比特速率编码并再生一个信号,该信号与原始输入信号没有区别。
关键频带技术包括将信号带宽划分成多个频带、处理各个频带内的信号,并由各个频带内经过处理的信号重建原始信号的复本。有两种这样的技术分别是子带编码和变换编码。子带和变换编码能减少特定频带内的传输信息量需求,而结果产生的编码不准确度(噪声)会在心理听觉上被临近的频谱成分掩盖,从而不会降低编码信号的主观质量。
用一组数字带通滤波器即可实现子带编码。变换编码可以由若干种时域到频域的离散变换中的任何一种来实现,所述的这些变换就能实现一组数字带通滤波器。余下的讨论更主要地涉及变换编码器,因此这里所说的“子带”是用来表示总信号带宽中被选取的部分,而不论是用子带编码器还是变换编码器实现的。由变换编码器实现的子带是由一组一个或多个相近的变换系数定义的;因此,子带带宽是变换系数带宽的倍数。变换系数的带宽与输入信号采样率成正比,而与变换所产生的代表输入信号的系数数量成反比。
如果整个可听见的频谱上的子带带宽大致为人耳在频谱同样部分中的临界带宽的一半,那么心理声学掩盖就更容易由变换编码器实现。这是因为人耳的临界带宽具有可变的中心频率,该中心频率能自行调整以适应听觉激励,而子带和变换编码器通常都具有固定的子带中心频率。为了最好的利用心理声学掩盖效应,由于优势信号的存在而引起的任何失真分量都应被限制在包含了优势信号的子带中。如果子带带宽大致为关键频带的一半或小于关键频带的一半,而且滤波器的选择性足够高,那么对于频率处在子带通带带宽边沿附近的信号都有可能对其中不需要的失真成分产生有效的掩盖。如果子带带宽大于关键频带的一半,那么优势信号就有可能使耳朵的关键频带偏离编码器的子带,从而某些偏出耳朵的关键频带之外的失真分量就不会被掩盖掉。这种效应在低频中是非常有害的,因为在低频中耳朵的关键频带相对较窄。
优势信号可能导致耳朵的关键频带偏离编码器子带、从而不能掩盖同一个编码器子带中的其他信号,这种情况的发生概率通常在低频上更大,因为在低频上耳朵的关键频带更窄。在变换编码器中,可能出现的最窄子带是一个变换系数,因此当变换系数带宽不超过耳朵的最窄临近频带的一半时,心理听觉遮蔽会更容易实现。提高变换的长度可以降低变换系数带宽。提高变换长度的一个缺点是会提高计算变换的处理复杂度,而且需要对更大数量的较窄子带进行编码。下面讨论了其他的缺点。
当然,如果这些子带的中心频率能够像耳朵的关键频带中心频率那样跟随优势信号分量移动的话,也可以使用较宽的子带来实现心理声学掩盖。
变换编码器利用心理声学掩盖效应的能力还取决于该变换所实现的滤波器组的选择性。这里所用的滤波器“选择性”这种说法,指的是子带带通滤波器的两种特性。第一种特性是滤波器通带和阻带之间区域的带宽(过渡带的宽度)。第二种特性是阻带内的衰减水平。因此,滤波器选择性表示了滤波器响应曲线在过渡带内的陡度(过渡带下降陡度),以及阻带内的衰减水平(阻带抑制深度)。
滤波器选择性受到许多因素的直接影响,其中包括下面所要讨论的三种因素:块长度、窗加权函数和变换。一般的说,块长度影响编码器的时域和频域分辨率,而加窗和变换则影响编码增益。
低比特率音频编码/块长度
在子带滤波之前,有待编码的输入信号被采样并划分成“信号采样块”。信号采样块中采样值的数目称为信号采样块长度。
变换滤波器组所产生的系数数量(变换长度)与信号采样块长度相等是很正常的情况,但是这并非必要。也可以使用重叠块变换,这种变换在本技术领域中有时会被描述成长度为N的变换,该变换对具有2N采样值的信号采样块进行变换。这种变换也可以被描述为2N长度的只产生N个不同的系数的变换。因为这里所讨论的所有变换都可以被认为具有与信号采样块长度相等的长度,因此这里一般会将两种长度作为同义词使用。
信号采样块长度影响变换编码器的时域和频域分辨率。使用较短块长度的变换编码器的频域分辨率较差,因为离散变换系数带宽较宽而滤波器选择性则较差(减小的过渡带下降速率和减弱的阻带抑制水平)。滤波器性能的退化会导致单频谱成分的能量扩散到相邻的变换系数中。这种频谱能量的扩散是退化的滤波器性能造成的结果,称为“旁瓣泄漏”。
使用较长块长度的变换编码器具有较差的时域分辨率,因为量化误差会造成变换编码器/解码器系统在信号采样块的整个长度上“沾污”采样信号的频率分量。经过反变换恢复出来的信号中的失真分量多数是可以听到的,这是由于信号幅度发生巨大变化的结果,这种变化发生在远远短于信号采样块长度的时间间隔内。这种幅度变化在这里被称为“瞬时信号”。这种失真表现为瞬时信号之前(前瞬时信号噪声,或“前噪声”)及瞬时信号之后(后瞬时信号噪声)的回声或振铃形式。前噪声特别值得关注,因为它很容易被听到,而且不像后瞬时信号噪声,前瞬时信号噪声只能被很少地掩盖(一个瞬时信号只能提供很小的前瞬时掩盖)。当瞬时音频材料的高频分量在它出现的音频编码器块的整个长度上被在时域上沾污时,就产生了前噪声。本发明即涉及前噪声的最小化。后瞬时信号噪声往往大部分会被掩盖掉,它不是本发明的主题。
固定块长度变换编码器使用折衷的块长度,它在时间分辨率和频率分辨率之间作出了折衷。短的块长度会降低子带滤波器的选择性,它会造成一个额定带通滤波器带宽,该带宽在较低的频率或所有频率上超过耳朵的关键频带。即使该额定子带带宽比耳朵的临界带宽窄,退化的滤波器特性也会表现为宽过渡带和/或弱阻带抑制度,从而在耳朵的临界带宽之外引起严重的信号分量。另一方面,长块长度会改善滤波器选择性,但是降低时间分辨率,这会导致可听见的信号失真出现在耳朵的时间心理声学掩盖间隔外。
窗加权函数
离散变换不能产生完全精确的频率系数组,因为它们只对有限长度的信号片段一也就是信号采样块一起作用。严格地讲,离散变换产生一个输入时域信号的时-频表示,而不是真正的频域表示,因为后者需要无限的信号采样块长度。但是为了这里讨论方便,离散变换的输出被称为频域表示。结果,离散变换就假定了采样信号仅有那些周期是信号采样块长度的因数的频率分量。这等于假定了有限长度信号是周期性的。当然,这种假设往往是不正确的。这种假设的周期性在信号采样块的边沿处制造了不连续点,这些不连续点会使变换产生虚构频谱分量。
减小该效应的一种技术是在进行变换前通过对信号样值进行加权来降低不连续性,加权会使接近信号采样块边沿的采样值变成零或接近零。处在信号采样块中心的采样值通常会被保持不变,也就是以因数1加权。这种加权函数被称为“分析窗”。窗的形状直接影响滤波器的选择性。
这里所说的“分析窗”仅指在进行前向变换之前所执行的加窗函数。分析窗是一个时域函数。如果不对加窗效应提供补偿,那么恢复或“合成”的信号就会由于分析窗产生失真。一种称为“重叠相加”的补偿方法在本技术中广为人知。该方法需要解码器对输入信号样值的重叠块进行变换。通过谨慎地设计分析窗以使得两个相邻窗口在重叠部分相加得1,就可以准确地补偿加窗效应。
窗口形状会显著影响滤波器的选择性。主要内容可参见Harris所著的“On the Use of Windows for Harmonic Analysis with theDiscrete Fourier Transform”,Proc IEEE,vol.66,January,1978,pp.51-83。一条通用法则是,形状较“平滑”的窗口和较大的重叠区间能提供较好的选择性。例如,Kaiser-Bessel窗能提供比正弦衰减的矩形窗所能提供的更好的滤波器选择性。
在与某些类型的变换-如离散傅立叶变换(DFT)共同使用时,重叠相加会提高表示信号所需的比特数,这是因为重叠区间内的部分信号必须被变换并传输两次,对两个重叠的信号采样块各要进行一次。对于使用这种重叠相加变换的系统来说,信号分析/合成不需要被严格采样。“严格采样”指的是一种信号分析/合成,它在一个时间段上产生的频率系数的数量与它接收到的输入信号采样值的数量相等。因此,对于非严格采样系统来说,希望设计窗口的重叠区间尽可能小,以便将编码信号的信息量需求降至最低。
某些变换还需要对反变换后的合成输出进行加窗。合成窗被用来对各个合成后的信号块整形。因此,合成后的信号同时被分析窗和合成窗加权。这种两步加权在数学上类似于用一个窗口对原始信号加权一次,而该窗口的形状等于分析和合成窗逐个样值的乘积。因此,为了利用重叠相加来补偿加窗失真,必须将两个窗口设计成在重叠相加区间上两者的乘积相加得1。
尽管没有一条标准可以被用来评价窗口的最优性,但是如果与窗口一同使用的滤波器的选择性被认为是“好的”,那么该窗口往往就会被认为是“好的”。因此,一个设计良好的分析窗(用于仅用分析窗的变换)或分析/合成窗对(用于使用分析和合成窗的变换)可以减小旁瓣泄漏。
块转换
针对固定块长度变换编码器中时间与频率分辨率之间折衷的一种常用的解决方案是使用瞬时信号检测和块长度切换。在该解决方案中,使用各种瞬时信号检测方法来检测音频信号的存在和位置。当瞬时音频信号被检测到在使用较长的音频编码器块长度进行编码时可能引入前噪声时,低比特率编码器就会从比较高效的长块长度切换到效率较低的较短块长度上。尽管这样会降低编码音频信号的频率分辨率以及编码效率,但也能减小编码过程所引入的前瞬时信号噪声的长度,从而改善较低比特率解码上音频的接收质量。在美国专利5394473、5848391和6226608B1中公开了用于块长度切换的技术,在这里通过引用将它们完整地包括进来。尽管本发明在没有块切换的复杂性和缺点的前提下减小了前噪声,但它可能与块转换共同使用或对块转换起补充作用。
发明内容
根据本发明的第一方面内容,一种能够减少音频信号流中瞬时信号之前的失真分量的方法包括检测音频信号流中的瞬时信号,以及改变瞬时信号相对于编码块的时间关系,从而缩短失真分量的持续时间;其中所述的音频信号流被一个基于变换的低比特率音频编码系统利用编码块技术来处理。
一个音频信号被分析,并将瞬时信号的位置确定下来。再以某种方式对音频数据进行时间缩放,使得瞬时信号在基于变换的低比特率音频编码器中被量化之前在时域上被重新放置,从而减小解码后的音频信号中的前噪声总量。这种编码和解码之前的处理在这里被称为“预处理”。
这样,在编码器中量化之前,因为量化过程会沾污整个编码块中的瞬时信号,从而产生不需要的前噪声分量,因此要使用时间缩放(时间压缩或时间扩展)来将瞬时信号移动到对着块一端的较好位置。这种预处理也可以被称为“瞬时信号时域移动”。瞬时信号时域移动需要对瞬时信号进行辨认,还需要它们相对于块一端的时间位置信息。原则上,可以在进行前向变换之前在时域中完成瞬时信号时域移动,或是进行前向变换之后量化之前在频域完成瞬时信号时域移动。实际应用中,瞬时信号时域移动往往更容易在进行前向变换之前在时域中完成,特别是在如下进行补偿时间缩放的情况下。
瞬时信号时域移动的结果可以被听到,是因为瞬时信号和音频流都不再位于它们最初的相对时间位置上-由于对瞬时信号之前的音频流进行了时间压缩或时间扩展,音频流的时间进度被改变了。例如,听者可能会感觉到音乐篇章中发生了旋律变化。
有若干种补偿技术可以减小音频流时间进度中的这种变化,这些技术构成了本发明的几方面内容。这些补偿技术是可选择的,因为大部分听众都不能辨别出音频信号时间进度中的微小变化。在完成以下对本发明第二方面内容的说明之后,将讨论补偿技术。
根据本发明的第二方面内容,在一个基于变换的低比特率音频编码系统的编码器中,一种能够在反变换后减小音频信号流中的瞬时信号之前的失真分量的方法,包括检测音频信号流中的瞬时信号,并对失真分量中的至少一部分进行时间压缩,从而缩短失真分量的持续时间。
通过这样的处理,即“后处理”,就能实现对经过低比特率音频编码的任何音频信号的音质改善,而不论是否已经使用了预处理;并且,如果使用了预处理,就不必考虑编码器是否发送了对后处理有用的元数据。任何经过低比特率音频编码和解码的音频信号都可以被分析来确定瞬时信号的位置,并估算瞬时前噪声成分的持续时间。然后,就可以对音频进行时间缩放后处理以便去除瞬时信号前噪声或者缩短它的持续时间。
如上所述,有若干种补偿技术可以用来减小音频流时间进度上的变化。这些时间缩放补偿技术还有保持音频采样值数量恒定的优点。
第一种时间缩放补偿技术要与预处理一同使用,它是在前向变换之前进行的。该技术对瞬时信号之后的音频流进行补偿时间缩放,这里的时间缩放与用来移动瞬时信号位置的时间缩放含义相反,并且基本上和瞬时信号移动时间缩放具有大致相同的持续时间。为了讨论方便,这里将这类补偿称为“采样数补偿”,因为它能保持音频采样点数量不变,但不能完全恢复音频信号流的原始时间进度(它会让瞬时信号和瞬时信号附近的部分信号流在时域上偏离原位)。提供采样数补偿的时间缩放最好能紧随瞬时信号,从而就可以在时域上被瞬时信号后掩盖。
尽管采样数补偿会使瞬时信号偏离它原来的时间位置,但它的确将补偿时间缩放之后的音频流恢复到了它初始的相对时间位置上。这样,尽管瞬时信号时域移动没有被完全消除,因为瞬时信号仍然偏离了它的初始位置,但它被听到的可能性降低了。尽管如此,这种技术还是能够提供对可听性的足够减少,并且它具有在低比特率音频编码之前就被完成的优点,从而允许使用一种标准的、未经改进的解码器。正如下面将要说明的那样,音频信号流时间进度的完整恢复只能通过在解码器中进行处理或是在解码器之后进行处理来实现。除了减小瞬时信号时域移动被听见的概率之外,前向变换之前的时间缩放补偿还具有保持音频采样数不变的优点,这一优点对于处理和/或实现处理的硬件工作都很重要。
为了在前向变换之前提供最优的时间缩放补偿,补偿过程应该利用与瞬时信号的位置以及瞬时信号时域移动的时间长度相关的信息。
如果瞬时信号时域移动在块之后进行(但在进行前向变换之前),就必须在完成了瞬时信号时域移动的相同块内使用采样数补偿,以保持块长度相同。因此,最好在块之前进行瞬时信号时域移动和采样数补偿。
采样数补偿也可以在反变换之后(在解码器中或在解码之后)与后处理一起进行。在这种情况下,实现补偿所需的信息可以由解码器发送给补偿程序(这些信息可能是在编码器和/或解码器中产生的)。
对音频信号流时间进度更为完整的恢复、同时又恢复音频采样值的原始数量,可以在反变换之后(在解码器中或在解码之后),通过对瞬时信号之前的音频流施加补偿时间缩放来实现,这里所用的补偿时间缩放与用来移动瞬时信号位置的时间缩放相反,并且基本具有与瞬时信号移动时间缩放大致相同的持续时间。为了讨论方便,这里将这类补偿称为“时间进度补偿”。这种时间缩放补偿有一个非常重要的优点,就是将整个音频流、包括瞬时信号恢复到了它最初的相对时间位置上。因此,尽管时间缩放过程被听见的可能性并未完全被消除,因为两个时间缩放过程本身都会引起能被听见的成分,但是时间缩放过程被听见的可能性大大降低了。
为了提供最优的时间进度补偿,各种信息-如瞬时信号的位置、块一端的位置、瞬时信号时域移动的长度以及前噪声的长度-都是有用的。前噪声的长度可用于保证时间进度补偿的时间缩放不会出现在前噪声期间,从而可能扩展前噪声的时间长度。如果想要将音频流恢复到它初始的相对时间位置上,同时还要保持采样数量不变,就要用到瞬时信号时域移动的长度。瞬时信号的位置有用是因为前噪声的长度可以根据瞬时信号相对于编码块一端的初始位置来确定。前噪声的长度可以通过测量一个信号参数-如高频成分-来估算,也可以采用默认值。如果补偿是在解码器中或解码之后进行的,那么编码器就会将有用信息作为元数据与经过编码的音频一同发送。如果补偿过程是在解码之后进行的,那么元数据就会由解码器发送给补偿程序(这些信息可能是在编码器与/或解码器中产生的)。
如上所述,用以缩短前噪声成分的长度的后处理也可以作为音频编码器的一个附加步骤来使用,该音频编码器实现时间缩放预处理并选择性地提供元数据信息。这种后处理通过减少前噪声而起到了额外质量改善机制的作用,其中所述的前噪声在预处理之后仍然可能存在。
预处理最好被应用在使用专业编码器的编码器系统中,在这种系统中,进行预处理的成本、复杂度及延时相对与解码器一同使用的后处理来讲都是微不足道的,所述的解码器通常是复杂度较低的消费设备。
本发明的低比特率音频编码系统质量改善技术可以使用任何合适的时间缩放技术来实现,同样也可以用未来即将出现的任何合适技术来实现。在2002年2月12日提交的国际专利申请PCT/US02/04317中介绍了一种合适的技术,题为“High QualityTime-Scaling and Pitch-Scaling of Audio Signals(音频信号的高质量时间缩放和音调缩放)”。所述的申请指定了美国与其他。这里通过引用将该申请完全包括进来。如上所述,由于时间缩放和音调变换彼此互为对偶方法,因此也可以用任何合适的音调缩放技术来实现时间缩放,同样也可以用未来即将出现的任何合适技术来实现。在音调变换后,以合适的不同于输入采样速率的速率读出音频采样值,就能产生经过时间缩放的与原始音频具有相同频谱内容或音调的音频版本,这种方法可以被应用在本发明中。
正如在低比特率编码背景总结中所述的那样,音频编码系统中块长度的选择是频域与时域分辨率之间的折衷。一般来说,最好选用较长的块长度,因为相对于较短的块长度,较长的块能提供较高的编码器效率(一般可以用较少数量的数据比特提供较高的接收音频质量)。但是,它们产生的瞬时信号和前噪声信号会引入可听见的损失,从而抵消了较长块长度带来的质量改善。正是由于这个原因,才在低比特率音频编码器的实际应用中使用块切换或固定的较小块长度。但是,对将要接受低比特率音频编码和/或已经经过后处理的音频数据进行符合本发明的时间缩放预处理可以缩短瞬时前噪声的持续时间。这样就允许使用较长的音频编码块长度,从而提高了编码效率并改善了接收音频的质量,而又不需自适应地切换块长度。但是,在使用块长度切换的编码系统中同样可以使用符合本发明的前噪声降低方法。在这种系统中,对于最小的窗口尺寸仍然可能有一些前噪声存在。窗口越大,前噪声就越长,也越容易被听到。典型的瞬时信号能提供大约5毫秒的前掩盖,这等于48kHz采样率下的240个采样点。如果窗口大于256个采样点(这种情况在块转换结构中很常见),这时本发明就能提供一些益处。
音频编码的瞬时信号前噪声成分
图1a-1e示出了固定块长度音频编码器系统所产生的瞬时信号前噪声成分的例子。图1a示出了6个固定长度的音频编码加窗块1至6,各块之间有50%的重叠。在该图和这里所有的其他附图中,每个窗口都与一个音频编码块相接,它们被称为“加窗块”、“窗口”或“块”。在该图中-当然在这里的其他附图中也一样,窗口通常都被示为Kaiser-Bessel窗的形状。其他附图示出半圆形的窗口是为了表述的简化。窗口形状对本发明并不关键。尽管图1a和其他附图中加窗块的长度对本发明并不关键,但固定长度加窗块的长度通常都在256至2048采样点范围内。图1b至1e中的四个音频信号实例分别示出了音频编码加窗块和瞬时前噪声成分之间的时间关系效果。
图1b示出了一个要被编码的输入音频流中瞬时信号的位置和50%重叠的加窗块的边界之间的相对关系。尽管这里示出的是50%重叠的固定块长度,但本发明可以应用于具有固定和可变块长度的编码系统,也可应用于非50%重叠的块,包括下面将要结合图2a至5b讨论的无重叠情况。
图1c示出了音频编码系统的音频信号流输出,该输出对应于图1b所示的音频信号流输入的情况。如图1b和1c中所示,瞬时信号位于加窗块3的一端和加窗块4的一端之间。图1c示出了低比特率音频编码过程所引入的瞬时前噪声相对于瞬时信号位置及加窗块2一端的位置和长度。注意,前噪声位于瞬时信号之前,并局限于加窗块4和5中,即瞬时信号所在的采样值块内。因此,前噪声会向回延伸到加窗块4的开始处。
与图1b和1c相似,图1d和1e分别示出了一个输入音频信号流与音频编码系统引入到输出音频信号流中的前噪声之间的关系,所述的输入音频信号流中包含一个瞬时信号,位于加窗块2的一端和加窗块3的一端之间。因为前噪声局限在加窗块3和4中-即瞬时信号所在的块内,因此前噪声会向回延伸到加窗块3的开始处。在这种情况下,前噪声就具有较长的持续时间,因为这里的瞬时信号离加窗块3一端的距离要比图1b和1c中所示的瞬时信号离加窗块4一端的距离近。理想的瞬时信号位置应该是紧随最后一个块的一端,这样前噪声就只能向回延伸到前一个块的一端(在50%块重叠的例子中,大约为块长度的一半)。
应该注意的是,图1a-1e中的例子并未明显地考虑编码窗口边界处的交叉衰落效应。一般来说,随着音频编码窗口衰落,前噪声成分会被随之缩放,并且它们的可听性被降低。为了表述简洁,此处并未在附图的理想化波形中示出前噪声成分的缩放。
如图1a-1e中简单示出、并在图2A、2B、3A、3B、4A、4B、5A及5B中详细展示的那样,如果瞬时信号的位置被明智地放在音频编码之前,就能将一个音频编码器的瞬时前噪声成分最小化。
在图2a、2b、3a、3b、4a、4b、5a和5b中示出了重置瞬时信号的位置以降低前噪声的例子,分别对应无重叠块(图2a和2b)、低于50%的块重叠(图3a和3b)、50%的块重叠(图4a和4b)以及高于50%的块重叠(图5a和5b)。在各个例子中,除非瞬时信号的初始位置与两个连续的块一端等距离(在这种情况下无更好的选择),否则就最好将瞬时信号移动到紧接着最近的块一端的位置上。不论是移动到前一个块一端还是移动到下一个块一端,也不论是否移动到了最近的块一端,结果得到的前噪声都大致相同。但是,通过将瞬时信号临时移动到一个紧随着最近块一端的位置上,就能把对音频流时间进度的破坏降低到最小,从而将瞬时信号移动的可听见性降到最低。然而,在某些例子中,移动到较远的块一端也可能是听不到的。另外,即使移动到较远的块一端能被听到,也可以用下面将要说到的时间进度补偿来降低或消除这种可听见性。
图2a和2b示出了一系列理想化的非重叠加窗块。在图2a中,用实线箭头示出了一个瞬时信号的初始位置,它离前一个窗口一端的距离要小于离后一个窗口一端的距离。对应于瞬时信号初始位置的前噪声在时域上向回延伸到窗口起始处一端,如图所示。如果希望尽可能减小瞬时信号的时间移动程度,就应该将瞬时信号左移(时间上向回)到紧跟着上个加窗块一端的位置上,如图所示。尽管结果得到的前噪声仍然会向后延伸到加窗块的开始处,但是与初始瞬时信号位置所引起的前噪声相比,这个长度是非常短的。在该图和其他附图中,经过移动的瞬时信号离加窗块一端的距离被夸大以便表述清楚。在图2b中,瞬时信号的初始位置离下一个窗口一端的距离比离前一个窗口一端的距离近。因此,如果希望尽可能减小瞬时信号的时间移动程度,就应该将瞬时信号右移(时间上向前)到紧跟着下个加窗块一端的位置上,如图所示。需要注意的是,前噪声降低的改善会随着初始瞬时信号位置在加窗块中变得更靠后而提高。
图3a和3b示出了一系列理想化的加窗块,它们之间有小于50%的重叠。在图3a中,用实线箭头示出了瞬时信号的初始位置,它离前一个窗口一端的距离要小于离后一个窗口一端的距离。对应于瞬时信号初始位置的前噪声在时域上向回延伸到窗口起始处一端,如图所示。如果希望尽可能减小瞬时信号的时间移动程度,就应该将瞬时信号左移到紧跟着上个加窗块一端的位置上,如图所示。尽管结果得到的前噪声仍然会向后延伸到加窗块的开始处,但是与初始瞬时信号位置所引起的前噪声相比,这个长度是非常短的。在图3b中,瞬时信号的初始位置离下一个窗口一端的距离比离前一个窗口一端的距离近。因此,如果希望尽可能减小瞬时信号的时间移动程度,就应该将瞬时信号右移到紧跟着下个加窗块一端的位置上,如图所示。需要注意的是,前噪声降低的改善会随着初始瞬时信号位置在两个连续加窗块之间的区域中变得更靠后而提高。
图4a和4b示出了一系列理想化的加窗块,它们之间有50%的重叠。在图4a中,用实线箭头示出了瞬时信号的初始位置,它离前一个窗口一端的距离要小于离后一个窗口一端的距离。对应于瞬时信号初始位置的前噪声在时域上向回延伸到窗口起始处一端,如图所示。如果希望尽可能减小瞬时信号的时间移动程度,就应该将瞬时信号左移到紧跟着上个加窗块一端的位置上,如图所示。尽管结果得到的前噪声仍然会向后延伸到加窗块的开始处,但是与初始瞬时信号位置所引起的前噪声相比,这个长度是非常短的。在图4b中,瞬时信号的初始位置离下一个窗口一端的距离比离前一个窗口一端的距离近。因此,如果希望尽可能减小瞬时信号的时间移动程度,就应该将瞬时信号右移到紧跟着下个加窗块一端的位置上,如图所示。需要注意的是,前噪声降低的改善会随着初始瞬时信号位置在两个连续加窗块之间的区域中变得更靠后而提高,这和小于50%重叠的块情况相同。
图5a和5b示出了一系列理想化的加窗块,它们之间有大于50%的重叠。在图5a中,用实线箭头示出了瞬时信号的初始位置,它离前一个窗口一端的距离要小于离后一个窗口一端的距离。对应于瞬时信号初始位置的前噪声在时域上向回延伸到窗口起始处的一端,如图所示。如果希望尽可能减小瞬时信号的时间移动程度,就应该将瞬时信号左移到紧跟着上个加窗块一端的位置上,如图所示。尽管结果得到的前噪声仍然会向后延伸到加窗块的开始处,但是与初始瞬时信号位置所引起的前噪声相比,这个长度还是要短一些。在图5b中,瞬时信号的初始位置离下一个窗口一端的距离比离前一个窗口一端的距离近。因此,如果希望尽可能减小瞬时信号的时间移动程度,就应该将瞬时信号右移到紧跟着下个加窗块一端的位置上,如图所示。需要注意的是,前噪声降低上的改善会随着初始瞬时信号位置在两个连续加窗块之间的区域中变得更靠后而提高,这和50%重叠的块情况相同。
应该注意到,前噪声降低上的改善对于非重叠块情况是最大的,并且会随着块重叠程度的提高而下降。
附图说明
图1a-1e示出了一系列理想化的波形,它们展示了由一个固定块长度音频编码器系统产生的瞬时前噪声的例子,分别对应两种输入信号的情况。
图2a和2b示出了一系列理想化的非重叠加窗块,它们展示了初始和移动后瞬时信号的时域位置,以及对应于这些位置的前噪声,它们分别对应于初始位置离上一个窗口一端的距离小于离下一个窗口一端的距离的情况和初始位置离下一个窗口一端的距离小于离前一个窗口一端的距离的情况。
图3a和3b示出了一系列理想化的有小于50%重叠的加窗块,它们展示了初始和移动后瞬时信号的时域位置,以及对应于这些位置的前噪声,它们分别对应于初始位置离上一个窗口一端的距离小于离下一个窗口一端的距离的情况和初始位置离下一个窗口一端的距离小于离前一个窗口一端的距离的情况。
图4a和4b示出了一系列理想化的有50%重叠的加窗块,它们展示了初始和移动后瞬时信号的时域位置,以及对应于这些位置的前噪声,它们分别对应于初始位置离上一个窗口一端的距离小于离下一个窗口一端的距离的情况和初始位置离下一个窗口一端的距离小于离前一个窗口一端的距离的情况。
图5a和5b示出了一系列理想化的有大于50%重叠的加窗块,它们展示了初始和移动后瞬时信号的时域位置,以及对应于这些位置的前噪声,它们分别对应于初始位置离上一个窗口一端的距离小于离下一个窗口一端的距离的情况和初始位置离下一个窗口一端的距离小于离前一个窗口一端的距离的情况。
图6示出了一幅流程图,它展示了通过在低比特率编码之前进行时间缩放来降低瞬时前噪声成分的步骤。
图7示出了用于瞬时信号检测的输入数据缓存器的原理表示图。
图8a-8e示出了一系列理想化的波形图,它们展示了一个符合本发明某些方面内容的音频时间缩放预处理的例子,在音频编码块中存在一个瞬时信号,它距离上一个加窗块一端的距离要小于它离下一个加窗块一端的距离。
图9a-9e示出了一系列理想化的波形图,它们展示了一个音频时间缩放处理的例子,在加窗音频编码块中存在一个瞬时信号,它位于块一端前大约T个采样点的位置上。
图10a-10d示出了一系列理想化的波形图,它们展示了对应于多种瞬时信号情况的时间缩放。
图11a-11f示出了一系列理想化的波形图,它们展示了时间缩放的智能时间进度补偿,所述的时间缩放使用了音频流中带来的元数据。
图12示出了与一个低比特率音频解码器协同工作的时间缩放后处理的流程图。
图13a-13c示出了一系列理想化的波形图,它们展示了对单个瞬时信号进行后处理以减小解码后存在的前噪声分量的例子。
图14示出了用于改善音频接收质量的后处理程序的流程图,所述的音频经过低比特率编码,并且没有经过时间缩放预处理。
图15a-15c示出了一系列理想化的波形图,它们展示了使用一个默认值来对各个瞬时信号前的音频进行时间缩放的技术,该技术可以在不进行采样数补偿的前提下降低前噪声。
图16a-16c示出了一系列理想化的波形图,它们展示了利用算得的前噪声持续时间对各个瞬时信号之前的音频进行时间缩放的技术,该技术可以通过采样数和时间进度补偿来降低前噪声持续时间。
具体实施方式
时间缩放预处理概述
图6示出了一幅流程图,它展示了在低比特率音频编码之前对音频进行时间缩放来降低瞬时前噪声的方法(即“预处理”)。该方法在N采样点的块内处理输入音频,其中N可能对应于一个大于或等于音频编码块中所用的音频采样数的数字。人们可能更希望采用N大于音频编码块长度的处理长度,以便在音频编码块之外提供额外的音频数据用于时间缩放处理。这种额外数据可以被用来对用来改善瞬时信号的位置的时间缩放处理进行采样数补偿。
图6所示过程中的第一步骤202先检查是否存在N个音频数据采样值可供时间缩放处理。这些音频数据采样值可能来自例如基于PC的硬盘上的一个文件或是硬件设备中的数据缓存器。音频数据也可以由低比特率音频编码过程来提供,该编码过程在音频编码之前先启动时间缩放处理器。如果存在N个音频数据采样值,那么它们就会被发送(步骤204)给时间缩放预处理程序,并被该程序按下列步骤处理。
预处理程序中的第三步骤206检测有可能引入前噪声成分的音频数据瞬时信号的位置。有许多不同的程序都可以被用来实现该项功能,只要能对可能引入前噪声成分的瞬时信号进行精确的检测,具体的实施方式并不重要。许多音频编码程序都会执行音频瞬时信号检测,如果音频编码程序将瞬时信息连同输入音频数据一同提供给后续的时间缩放处理模块210,那么该步骤(206)就可能被跳过。
瞬时信号检测
进行音频信号瞬时信号检测的一种合适的方法如下。瞬时信号检测分析的第一步是对输入数据进行滤波(将数据采样值当作一个时间函数)。可以用例如3dB截止带宽大约为8kHz的2阶IIR高通滤波器对输入数据进行滤波。滤波器特性并不重要。经过滤波的数据接着就被用在瞬时分析中。对输入数据滤波可以将高频的瞬时信号分离出来,从而使得它们容易被辨认。接下来就要在64个大约为1.5毫秒(44.1kHz下的64个采样点)的子块(在这种情况下是4096个采样信号采样块)中对经过滤波的输入数据进行处理,如图7中所示。尽管处理子块的实际大小并不仅限于1.5毫秒而是可以变化的,但是这个大小能够在实时处理要求(较大的块尺寸需要较少的处理开销)和瞬时信号位置分辨率(较小的块提供较详细的关于瞬时信号位置的信息)之间提供比较好的折衷。使用4096采样信号采样块和64采样点子块仅仅是一个示例,而对本发明并不重要。
瞬时信号检测处理的下一个步骤是要对各个64采样点子块中所包含的最大绝对数据值进行低通滤波。该处理步骤用来平滑最大绝对数据,并提供关于输入缓存器中平均峰值的一个大致指标,实际的子缓存器峰值可以与之进行对比。下面所述的方法是实现平滑的一种方法。
要平滑数据,就要对每个64采样点子块进行扫描来寻找最大的绝对数据信号值。最大绝对数据信号值接着就被用来计算一个经过平滑的、移动的平均峰值。分别利用方程1和2来计算对应于第k个子缓存器的经过滤波的高频移动平均值hi_mavg(k)。
for buffer k=1∶1∶64
hi_mavg(k)=hi_mavg(k-1)+((hi freq peak val in buffer k)-hi_mavg(k-1))×AVG_WHT)(1)
end
其中hi_mavg(0)被设为等于来自前一个输入缓存器的hi_mavg(64),以便进行连续处理。在当前实施例中,参数AVG_WHT被设为等于0.25。该值是根据下列实验性分析确定的,这种分析使用了大量的通用音频材料。
接着,瞬时信号检测处理将各个子块中的峰值与经过平滑的移动平均峰值阵列进行比较,以判定是否存在瞬时信号。尽管有多种方法可以比较这两组数值,但是这里将采用下面概述的方法,因为它允许通过使用缩放因子来对上述比较过程进行调节,所述的缩放因子是通过分析大量音频信号而得到的,用以实现最优处理。
至于经过滤波的数据,将其第k个子块中的峰值与高频缩放值HI_FREQ_SCALE相乘,并与计算得到的对应于每个k的经过平滑的移动平均峰值做比较。如果一个子块的缩放峰值大于移动平均值,那么就标志出存在一个瞬时信号。下面用方程3和4概括了上述比较过程。
for buffer k=1∶1∶64
if(((hi freq peak value in buffer k)×HI_FREQ_SCALE)>hi_mavg(k))  (2)
flag high frequency transient in sub-block k=TRUE
end
end
在下列瞬时信号检测中,进行了若干校正检验来判定64采样点子块的瞬时信号标志是否应该被取消(从TRUE重置为FALSE)。这些检验被执行来减少错误的瞬时信号检测结果。首先,如果高频峰值落在一个最小峰值之下,那么瞬时信号标志就会被取消(以处理低电平瞬时信号)。第二,如果子块中的峰值触发了一个瞬时信号,但是该峰值并不明显大于前一个子块,而前一个子块中的峰值也应该触发一个瞬时信号标志,那么当前子块中的瞬时信号标志就会被取消。这样做能减少信息对瞬时信号所在位置的沾污。
再次参见图6,处理程序中的下一个步骤208是要判断在当前的N采样点输入数据序列中是否存在瞬时信号。如果没有瞬时信号存在,那么就可以在不执行时间缩放处理的情况下输出输入数据(或者将输入数据送回低比特率音频编码器)。如果存在瞬时信号,那么存在于当前N采样点音频数据中的瞬时信号的数量以及它们的位置就会被发送给处理程序的音频时间缩放处理部分210,以便对输入音频数据进行时域的改变。本文中结合图8a-8e的说明给出了适当的时间缩放处理得到的结果。注意,处理过程需要来自于编码器的信息,比如关于加窗采样块相对于音频数据流的位置的信息。如果时间缩放元数据信息被输出(如图6中所示),对于没有瞬时信号的情况来说,将指示没有执行过预处理。时间缩放元数据可以包括,例如时间缩放参数-比如执行过的时间缩放的位置及数量;如果时间缩放技术中利用了重叠音频段的交叉衰落,元数据中还可以包括交叉衰落长度。编码音频比特流中的元数据还可以包括关于瞬时信号的信息,包括它们在时域移动之后及/或之前的位置。在步骤212中输出了音频数据。
音频预处理
图8a-8e示出了一个符合本发明某些方面内容的音频时间缩放预处理的例子,在音频编码块中存在一个瞬时信号,并且它离上一个加窗块一端的距离要小于它离下一个加窗块一端的距离。对于本例来说,假定使用50%的块重叠,与图1a-1e和图4a及4b中所示的方式相同。如前所述,为了减少低比特率音频编码所引入的瞬时前噪声总量,就需要调整输入音频信号的时间进度,以使音频瞬时信号紧接着上一个加窗块的一端。这种瞬时信号位置上的移动是优选的,因为它把对信号流时间进度的破坏减小到最低,同时又最大程度地限制了瞬时前噪声的长度。但是,如上所述,移动到紧随着下一个加窗块一端的位置上也可以最优化地限制瞬时前噪声的长度,但是不能将对信号流时间进度的破坏降至最小。在某些例子中,上述的差别在于对时间进度的破坏不容易被听到,特别是在使用了时间进度补偿的情况下。因此,在本例以及这里的其他例子中,本发明考虑将瞬时信号移动到最近的块的任一端处。如上所述,瞬时信号时移的时间缩放不必在单一的块内完成,除非处理过程是在音频信号流被编码器划分成若干块之后才进行的。
图8a示出了3个连续的有50%重叠的加窗编码块。图8b示出了原始输入音频数据流与加窗音频编码块之间的关系,该数据流中包含一个瞬时信号。瞬时信号的开端离上一个块一端距离为T个采样点。因为瞬时信号距上一个块一端的距离比它离下一个块一端的距离近,因此最好通过时域压缩将瞬时信号向左移动到紧接着上一个块一端的位置上,时域压缩的效果是删除了瞬时信号之前的T个采样点。图8c示出了音频流中的两个区域,在这两个区域中可以进行音频时间缩放。第一个区域对应于瞬时信号之前的音频采样点,将音频的持续时间缩短T个采样点就能使瞬时信号的位置“滑动”或“移动”到紧接着前一个块一端的理想位置上。如图2A至5B以及其他将要被说明的附图中所示的那样,图8d与8e中瞬时信号到块一端的距离被夸大,以便表现的更清楚。第二个区域示出了可以在瞬时信号之后进行时间缩放的区域,这种缩放是通过提供时间扩展将音频的持续时间延长T个采样点,从而使得音频数据的整个长度保持N个采样点。尽管这里删除T个采样点和可选择的采样数补偿增加T个采样点同时出现在一个加窗音频编码样值块内,但这并不是必需的-补偿性时间缩放处理不必出现在单个音频编码块内,除非瞬时信号时域移动是在编码器将音频信号流划分成若干块之后才进行的。对应于这种时间缩放处理的最佳位置可以由所使用的时间缩放程序来决定。因为瞬时信号可以提供有效的后掩盖,因此最好在靠近瞬时信号的地方完成采样数补偿时间缩放。
图8d展示了通过将输入数据流的持续时间缩短T个采样点来对输入音频数据流进行时间缩放处理时所得到的信号流,这种时间缩放是在瞬时信号之前的区域内进行的,而且在瞬时信号之后没有进行采样数补偿时间尺度扩展。如前所述,大多数听众都不能辨别出音频信号时间进度中的微小变化。因此,如果经过时间缩放的音频数据流的采样数不必等于输入采样数N,那么仅对瞬时信号前的音频流进行处理就足够了。图8e示出了这样一种情况,即瞬时信号之前的音频数据流持续时间被缩短了T个采样点,而瞬时信号之后的音频数据流则被延长了T个采样点,从而保持了时间缩放模块内外都有N个音频采样值,并且恢复了除瞬时信号和瞬时信号附近部分信号流之外的音频信号流的时间进度。图8a-8e中信号波形长度上的变化是为了简要展示音频数据流中的采样数随所述条件变化的情况。当音频采样数被减少时-如图8d中所示,可能需要在进行额外音频编码之前获得额外的采样值。这意味着从一个文件中读取更多的样值,而在实时系统中则意味着等待更多的音频被缓存进来。
图9a-9e示出了进行音频时间缩放处理的一个例子,其中在一个加窗音频编码块中存在一个瞬时信号,该信号位于一个块一端之前大约T个采样点的位置处。要减少低比特率音频编码引入的瞬时前噪声总量,同时又要使瞬时信号移动降至最小,最好暂时调整输入音频信号以使音频瞬时信号紧接着下一个块一端。在50%重叠的块情况下,将瞬时信号移动到下一个块一端(或是上一个块一端)的一端,就能将瞬时前噪声限制在一个音频编码块的前一半中,而不会使瞬时前噪声扩散到整个块及前一个音频块中。
图9a示出了3个连续的有50%重叠的加窗编码块。图9b示出了原始输入音频数据和音频块之间的关系,该数据中包含一个单个瞬时信号。瞬时信号的开端离下一个块一端距离为T个采样点。因为瞬时信号距下一个块一端的距离比它离上一个块一端的距离近,因此最好通过时域扩展将瞬时信号向右移动到紧接着下一个块一端的位置上,时域扩展的效果是在瞬时信号之前添加了T个采样点。图9c示出可以进行音频时间缩放的两个区域。第一个区域对应于瞬时信号之前的音频采样点,将音频的持续时间延长T个采样点就能使瞬时信号的位置滑动到紧接着下一个块一端的理想位置上。图9c还示出了可以在瞬时信号之后进行时间缩放的区域,这种缩放将音频的持续时间缩短T个采样点,从而使得整个音频数据流的长度保持N个采样点不变。图9d展示了通过将音频输入数据流的持续时间延长T个采样点来对输入音频数据流进行时间缩放处理时所得到的结果,这种时间缩放是在瞬时信号之前的时间区域内进行的,而且在瞬时信号之后没有进行采样数补偿时间尺度扩展。如前所述,大多数听众都不能辨别出音频信号时间进度中的微小变化。因此,如果经过时间缩放的音频数据流的采样数不必等于输入采样数N,那么仅对瞬时信号前的音频流进行处理就足够了。
图9e示出了这样一种情况,即瞬时信号之前的音频持续时间被延长了T个采样点,而瞬时信号之后的音频则被缩短了T个采样点,从而保证了时间缩放前后的音频采样数固定。与其他附图中一样,图9d与9e中瞬时信号离块一端的距离被夸大以便表达的更清楚。
对于多个瞬时信号的音频时间缩放处理
根据音频编码块尺寸的长度和有待编码的音频数据的内容,在音频数据有待处理的N个采样值中,可能包含一个以上的瞬时信号,它们都可能引入前噪声成分。如上所述,接收处理的N个采样值中可能包括一个以上的音频编码块。
图10a-10d示出了音频编码块中出现两个瞬时信号时的处理方案。通常来讲,处理两个或更多瞬时信号的方式与处理单个瞬时信号相同,即把音频数据流中最早的瞬时信号当作感兴趣的瞬时信号来处理。
图10a示出了3个连续的有50%重叠的加窗编码块。图10b示出了输入音频中的两个瞬时信号横跨一个音频编码块一端的情况。对于这种情况,最早出现的瞬时信号会引入最容易被感觉到的前噪声,因为由第二个瞬时信号所引起的前噪声会被第一个瞬时信号后掩盖。为了减小前噪声成分,可以对输入音频信号进行时间缩放以便将第一个瞬时信号向右移动,缩放的方式是将第一个瞬时信号之前的音频的时间尺度扩展T个采样点,其中T是能够将第一个瞬时信号移动到紧接着下一个块端处的采样数。
为了对图10b中第一个瞬时信号之前的时间尺度扩展处理进行采样数补偿,并对第二个瞬时信号所引起的前噪声的后掩盖效应进行优化,可以通过将两个瞬时信号在时域上移的更靠近来实现,只要对第一个瞬时信号之后第二个瞬时信号之前的音频进行时间缩放以将其持续时间缩短T个采样点即可。如图10b所示,在第一和第二个瞬时信号之间有足够多的音频处理数据来完成时间缩放处理。但是在某些情况下,第二个瞬时信号非常接近第一个瞬时信号,以至于它们之间没有足够的音频数据可供进行时间缩放。瞬时信号之间所需的音频数据量取决于用来进行处理的时间缩放程序。如果两个瞬时信号之间没有足够的音频数据,那么就必须对第二个瞬时信号之后的音频数据进行时间尺度扩展以提供采样数补偿。为了完成对第二个瞬时信号之后的音频数据的扩展,时间缩放处理程序就必须能够访问比音频编码过程中使用的一个块中的采样数目更大的音频数据段,如上所述。
在图10c所示的例子中,第一个瞬时信号离前一个块一端的距离小于它离下一个块一端的距离,并且所有的瞬时信号(本例中为2个)足够接近,这样后面的瞬时信号引起的前噪声大部分会被第一个瞬时信号后掩盖。因此,第一个瞬时信号之前的音频流最好在时间尺度上被压缩T个采样点,从而使第一个瞬时信号被移动到恰好位于前一个块一端之后的位置上。可以对第二个瞬时信号之后的音频数据流进行时间尺度扩展,以此形式实现采样数补偿来恢复最初的采样数。
在图10d所示的例子中,第一个瞬时信号离下一个块一端的距离小于它离上一个块一端的距离,并且所有的瞬时信号(本例中为2个)足够接近,这样第二个瞬时信号引起的前噪声大部分会被第一个瞬时信号后掩盖。因此,第一个瞬时信号之前的音频流最好在时间尺度上被扩展T个采样点,从而使第一个瞬时信号被移动到恰好位于下一个块一端之后的位置上。可以对第二个瞬时信号之后的音频数据流进行时间尺度压缩,以此形式实现采样数补偿。
对于多个瞬时信号的情况来说,如果希望以更完美的方式对预处理进行时间进度补偿,可以按照与单个瞬时信号情况相似的形式将元数据信息与各个编码后的音频块一同传送。
时间缩放预处理的元数据受控时间进度补偿
如上所述,人们可能希望在解码器进行反变换之后对瞬时信号之后的音频信号流进行补偿时间缩放,从而使经过处理的音频信号流的时间进度与初始音频信号流的时间进度大致相同,这样就能恢复出信号流的原始时间进度。但是,实验研究表明,大多数听众不能辨别出音频中微小的时间变化,因此,时间进度补偿并不是必须的。另外,平均起来看,瞬时信号被提前和滞后的量是相等的,因此,在足够长的时间区域内,没有经过时间进度补偿的累积效应是可以忽略的。另一个需要考虑的问题是,附加的时间进度补偿处理可能会向音频中引入能被听到的成分,这取决于预处理所采用的时间缩放的类型。这种成分会出现,是因为在许多情况下,时间缩放处理并不是一个完全可逆的过程。换句话说,使用时间缩放程序将音频缩短一个固定的量,之后再对同样的音频进行时间扩展会引入能被听到的成分。
通过时间缩放对含有瞬时成份的音频进行处理的一个好处在于时间缩放的产物会被瞬时信号的时域掩盖特性所遮掩。一个音频瞬时信号能同时提供前向和后向的时域掩盖。瞬时音频成份能把瞬时信号之前和之后能被听到的素材都“掩盖”起来,从而使得听众不能感觉到紧靠瞬时信号之前和之后的音频。前掩盖已经经过测定,它相对较短,只能持续几毫秒时间,而后掩盖则能持续超过100毫秒。这样,时间缩放时间进度补偿处理就会因时域后掩盖效应而不能被听到。因此,如果需要进行时间进度补偿,在被时域掩盖的区域内进行会比较有利。
图11a-11f所示的例子中,在解码器进行反变换之后利用元数据信息进行了智能时间进度补偿。元数据极大地减少了执行时间进度补偿所需的分析量,因为它指示了应该在哪里进行时间缩放处理以及所需时间缩放的持续时间。如上所述,时间进度补偿处理可以使经过解码的音频信号恢复它最初的时间进度,在这种时间进度中,信号流-包括瞬时信号在内,在音频流中都处在它们最初的位置上。图11a示出了三个连续的有50%重叠的加窗编码块。图11b示出了预处理前的一个输入音频流,该音频流在一个块一端之后T采样点处有一个瞬时信号。图11c示出了从瞬时信号之前的输入音频流删去T个采样点而将瞬时信号移动到一个较靠前的位置上。在瞬时信号之后加入了T个采样点以便保持音频数据采样数不变(采样数补偿)。图11d示出了经过改变的音频流,其中瞬时信号已经被移动到一个较靠前的位置上,并且瞬时信号之后的音频被移回到它最初的位置上。图11e示出了所需的时间进度补偿时间缩放区域,其中删除的T个采样点(时间压缩)通过添加T个采样点(时间扩展)来补偿,而添加的T个采样点(时间扩展)则通过删除T个采样点(时间压缩)来补偿。结果就得到了一个经过补偿的“接近完美”的输出信号,如图11f所示,它的时间进度与图11a所示的输入信号相同(主要受时间缩放程序中的不完善性的影响)。
用以减小瞬时信号前噪声的时间缩放后处理
正如在前面的多个例子中所描述的那样,即使对音频编码块中的瞬时信号进行了最优位移,低比特率音频编码系统仍然会引入一些前噪声。如上所述,较长的音频编码块比较短的编码块更可取,因为它们能提供更高的频率分辨率和更大的编码增益。然而,即使瞬时信号被音频编码前的时间缩放(预处理)移动到一个最佳的位置上,由于音频编码块的长度提高了,前噪声也会增加。对瞬时信号前噪声的前掩盖在5毫秒量级上,这对应于48kHz采样率下的240个采样点。这意味着对于使用大于512采样点的块长度的编码器来说,即使有最佳位移,瞬时信号前噪声也开始能被听到了(在50%重叠的块情况下仅有一半被掩盖)。(这里不考虑编码器块中加窗边沿效应对瞬时信号前噪声的减少。)
尽管瞬时信号前噪声不能被完全从低比特率编码系统中消除,但是可以对音频数据执行时间缩放后处理(单独进行或是和预处理一同进行)来降低瞬时信号前噪声总量,不论是否实施了预处理,所述的音频数据在一个基于变换的低比特率音频解码器中经过了反变换。时间缩放后处理可以与低比特率音频解码器一起实现(也就是作为解码器的一部分并/或通过从解码器和/或通过解码器从编码器接收元数据),也可以作为一个独立的后处理程序。最好使用元数据,因为有用的信息都已存在并且可以通过元数据传送给后处理程序,比如瞬时信号相对于音频编码块的位置,以及音频编码块长度。但是,也可以不使用低比特率音频解码器进行后处理。这两种方法都将讨论。
与低比特率音频解码器一同实现的时间缩放后处理(接收元数据)
图12示出了一个程序的流程图,该程序与一个低比特率音频解码器一同实现时间缩放后处理以减少瞬时信号前噪声成分。图12中所示的程序假设输入数据是低比特率编码音频数据(步骤802)。在将压缩数据解码成音频之后(步骤804),对应于一个块(或多个块)的音频就与元数据信息一起被送入时间缩放器806,所述的元数据信息可用于缩短瞬时信号前噪声的持续时间。该信息中可以包括例如瞬时信号的位置、音频编码器块的长度、编码器块边界与音频数据之间的关系,以及瞬时信号前噪声的理想长度。如果能够得到瞬时信号相对于音频编码器块边界的位置,那么就可以对前噪声成分的长度和位置进行估算并通过后处理准确地将其减小。由于瞬时信号确实能在时域上提供一定的前掩盖,因此可能没必要完全消除瞬时信号前噪声。通过向时间缩放后处理程序提供一个理想的前噪声长度,就可以实现对残留在步骤808所输出的输出音频中的前噪声总量的控制。下面将结合对图13a-13c的描述来说明对应步骤806的时间缩放处理的结果。
注意,不论在编码前是否进行过预处理,后处理都是有用的。不管瞬时信号的位置相对于块一端是怎样的,都会有一些瞬时信号前噪声存在。例如,对于50%重叠的情况来说,前噪声最少是音频编码窗口的一半长度。大的窗口尺寸仍然会引入能被听见的成分。通过执行后处理,可以缩短前噪声的长度,和在编码器进行量化前将瞬时信号放置到相对于块一端最优的位置上相比,后处理能将前噪声的长度缩至更短。
图13a-13c示出了一个对应于单个瞬时信号的后处理的例子,用以减少反变换后仍然存在的前噪声成分。如图13a所示,单个瞬时信号会引入一个前噪声成分。即使在进行了预处理之后,前噪声-如果存在的话-的时间长度仍可能超过瞬时信号时域前掩盖效应所能掩盖的长度,这取决于编码块长度。但是,如图13b所示,通过利用来自解码器的瞬时信号位置元数据信息,我们可以辨认出一个包含前噪声的音频区域,在该区域中,可以通过对音频进行时间缩放将前噪声缩短T个采样点来降低前噪声。对T的选择可以是使前噪声长度最小化以便利用前掩盖效应,也可以是完全或接近完全地消除前噪声。如果希望维持采样数与初始信号的采样数相等,可以对瞬时信号之后的音频进行T个采样点的时间尺度扩展。或者,就像与图16A中的例子一同展示的那样,可以在前噪声之前进行这种采样数补偿,这样做的好处就是能同时提供时间进度补偿。
应该注意的是,如果后处理与时间缩放预处理一起进行,我们就可以把对输出音频流时间进度的进一步破坏量降至最低。由于先前讨论的时间缩放预处理在50%块重叠的情况下能将前噪声的长度减至N/2采样点(其中N是音频编码块的长度),因此可以保证只向输出音频中引入少于N/2采样点的额外时间进度破坏量,这是与初始输入音频相比较而言的。在没有预处理的情况下,对于50%块重叠来说,前噪声可能长达N个采样点,即编码块长度。
在某些低比特率音频编码系统中,如果编码器不传送位置信息,就不能得到瞬时信号的位置。如果发生这种情况,解码器或时间缩放程序就会使用任意数量的瞬时信号检测程序或前述的有效方法来完成瞬时信号检测。
对于多个瞬时信号情况来说,对应于预处理的间题同样适用,如上所述。
未经预处理情况下的时间缩放后处理
如上所述,在某些情况下,可能希望改善接收音频的质量,所述的音频经过低比特率编码,这种编码是用不进行瞬时信号前噪声时间缩放处理(预处理)的压缩系统来实现的。图14概述了整个处理过程。
第一步骤1402先检查是否存在N个已经经过低比特率音频编码和解码的音频数据采样值。这些音频数据采样值可能来自基于PC的硬盘上的一个文件或是硬件设备中的数据缓存器。如果存在N个音频数据采样值,就由步骤1404将它们发送给时间缩放后处理程序。
时间缩放后处理程序中的第三步骤1406检测有可能引入前噪声成分的音频数据瞬时信号的位置。有许多不同的程序都可以被用来实现该项功能,只要能对可能引入前噪声成分的瞬时信号进行精确的检测,具体的实施方式并不重要。但是,上述程序是一个可以被采用的高效且准确的方法。
第四步骤1408是要确定步骤1406所检测出来的瞬时信号是否存在于当前的N个采样输入信号队列中。如果没有瞬时信号存在,那么步骤1414就会将输入数据直接输出而不进行时间缩放处理。如果瞬时信号存在,那么瞬时信号的数量以及它们的位置就会被发送给处理程序的前噪声估算处理步骤1410,以确定瞬时信号前噪声的位置和持续时间。
处理中的第五和第六步骤1410包括估算瞬时信号前噪声成分的位置和持续时间,以及通过时间缩放处理1412缩短它们的长度。因为从定义上看来,前噪声成分在音频数据中仅限于瞬时信号前的区域内,因此可以利用瞬时信号检测处理所提供的信息来限制搜索区域。如图1中所示,前噪声的长度被限制在最小值N/2个采样点到最大值N个采样点之间,其中N是一个50%重叠的音频编码块中的音频采样数。因此,如果N是1024个采样点且以48kHz对音频采样,那么瞬时信号前噪声可能在瞬时信号开端处之前延伸10.7毫秒至21.3毫秒,这取决于瞬时信号在音频流中的位置,上述的前噪声长度远远超过了瞬时信号所能提供的任何时域掩盖效应。可采用的另一种方式是,步骤1410不估算瞬时信号前的前噪声成分的长度,而是直接假设前噪声成分具有默认长度。
可以实现两种降低瞬时信号前噪声的方法。第一种方法假设所有的瞬时信号都包含前噪声,因此每个瞬时信号前的音频都会以预定(默认)的量进行时间缩放(时域压缩),所述的预定量取决于每个瞬时信号的前噪声量的期望值。如果使用了该项技术,就要对前噪声之前的音频进行时间尺度扩展,以便为用于缩短前噪声长度的时间压缩时间缩放处理提供采样数补偿,以及提供时间进度补偿(在前噪声之前进行时间扩展能对前噪声内的时间压缩进行补偿,从而使瞬时信号保持或接近它的初始时域位置)。但是,如果不知道前噪声开端的准确位置,这种采样数补偿处理就会无意间提高前噪声成分中部分的持续时间。
图15a-15c展示了一种使用默认值对各个瞬时信号之前的音频进行时间缩放的技术,该技术能缩短前噪声的持续时间,但是不能实现采样数补偿。如图15a所示,从低比特率音频解码器中输出的一个音频信号流中有一个瞬时信号,瞬时信号之前有前噪声。图15b示出了被当作时间压缩量的默认处理长度,所述的时间压缩会由时间缩放处理程序完成。图15c示出了得到的音频信号流,该音频信号流带有被缩短的前噪声。在该例中,并未执行时间进度补偿来将瞬时信号回复到它在音频数据流中最初的位置上。但是,与前面的处理实例相似,如果要让输出采样数等于输入采样数,可以在瞬时信号之后执行时间尺度扩展,这与图13b所示的例子相似;或者在前噪声之前进行时间尺度扩展,下面将结合图16a-16c中的实例对这种情况进行说明。但是,在使用默认处理长度时,如果前噪声的实际长度超过了默认长度,那么在前噪声之前提供这种补偿就会冒风险,即可能在前噪声内执行时间尺度扩展处理(从而不必要地增加了前噪声的长度)。另外,在某些情况下,后处理程序可能不能读取前噪声之前的音频流-音频可能已经被输出以减小延时。
在图16a-16c中示出了第二种后处理的前噪声降低技术,其中包括对瞬时信号所引起的前噪声进行分析以确定它的长度,以及对音频进行处理,并且只对前噪声部分进行处理。正如上面所注明的那样,当瞬时音频素材的高频分量在时域上沾污了整个块时,就产生了瞬时信号前噪声,所述的沾污是编码器中量化过程的产物。因此一种直接的检测方法就是对瞬时信号之前的音频进行高通滤波,并测量高频能量。当与瞬时信号有关并且是由它引起的类噪声高频前噪声超过一个预定的门限值时,就能确定瞬时信号前噪声的开始。如果已知瞬时信号前噪声的大小和位置,那么就可以在对前噪声进行时间尺度缩减之前对音频进行补偿性时间尺度扩展,以便将音频回复到它最初的时间位置上,并将音频流的时间进度大致恢复到它最初的状态。本发明并不局限于使用高频检测。还可以使用其他技术来对前噪声的长度进行检测或估算。
在图16a中,从低比特率音频解码器中输出的一个音频信号流中有一个瞬时信号,在瞬时信号之前有前噪声。图16b示出了被当作时间尺度缩减量的时间压缩处理长度,所述的时间尺度缩减会由一个基于估算前噪声长度的时间缩放处理程序完成,所述的前噪声长度是根据块中高频音频内容测得的。图16b还示出了使用T采样点时间扩展来恢复信号流最初的时间进度以及恢复最初的采样数。图16c示出了结果得到的音频信号流,该音频信号流带有被缩短的前噪声,并且它具有最初的时间进度以及与最初的信号流相同的采样数。
本发明以及它的各方面内容可以被实现为软件函数,在数字信号处理器、可编程通用数字计算机、和/或专用数字计算机中执行。模拟和数字信号流之间的接口可以被实现在合适的硬件中,或是作为函数实现在软件和/或固件中。
权利要求书
(按照条约第19条的修改)
1.一种用来降低音频信号流中一个瞬时信号之前的失真成分的方法,所述的音频信号流由一种使用编码块技术的基于变换的低比特率音频编码系统处理,所述的方法包括:
在所述的编码系统进行处理前检测音频信号流中的一个瞬时信号,以及
通过对所述瞬时信号之前的一段所述音频信号流进行时间缩放来移动所述瞬时信号相对于所述编码块的时域关系,从而缩短所述失真成分的持续时间。
2.根据权利要求1所述的方法,其中所述的移动步骤在所述编码系统的编码器进行前向变换之前移动所述瞬时信号相对于所述编码块的时域关系。
3.根据权利要求2所述的方法,其中所述的瞬时信号被移动到紧接着下一个块一端或紧接着上一个块一端的时域位置上。
4.根据权利要求3所述的方法,其中所述的瞬时信号被移动到紧接着下一个块一端或紧接着上一个块一端的时域位置上,从而导致较短的时间位置移动。
5.根据权利要求1-4中任意一条所述的方法,还包括在所述编码系统的解码器进行反变换之后,将剩下的失真成分至少消除一部分。
6.根据权利要求5所述的方法,其中所述的部分剩余失真成分至少部分地是由元数据信息决定的,该元数据信息在所述的编码系统中传送。
7.根据权利要求5所述的方法,其中所述的部分剩余失真成分至少部分地是由一个缺省参数决定的。
8.根据权利要求5所述的方法,其中所述的部分剩余失真成分至少部分地是通过测量所述音频信号流中的高频音频分量而决定的。
9.根据权利要求1所述的方法,还包括在所述编码系统的解码器完成反变换之后对音频信号流进行补偿时间缩放,从而使得经过处理的音频信号流的时间进度基本与进行所述移动之前的音频信号流的时间进度相同。
10.根据权利要求9所述的方法,其中所述的补偿时间缩放是对所述瞬时信号之前的所述音频信号流的一段进行的。
11.根据权利要求9所述的方法,其中所述的编码系统包括一个编码器和一个解码器,所述的编码器将元数据连同所述音频信号流的编码版本一起发送给所述的解码器,所述的元数据中包括可用于进行所述的补偿时间缩放的信息。
12.根据权利要求1所述的方法,其中所述的时间缩放是对紧靠所述瞬时信号之前的一段所述音频流执行的。
13.根据权利要求12所述的方法,其中被执行了所述的时间缩放的一段所述音频流至少部分地被瞬时信号在时域上前掩盖。
14.根据权利要求1所述的方法,其中所述的时间缩放具有从音频信号流中删除信号分量或者向音频信号流中添加信号分量的效果,所述的音频信号流是被输入到编码系统中的。
15.根据权利要求14所述的方法,其中在所述的瞬时信号之后执行了另一次时间缩放,所述的另一次时间缩放的作用方式与所述的第一次时间缩放相反。
16.根据权利要求15所述的方法,其中所述的另一次时间缩放是在所述编码系统的编码器进行前向变换之前完成的。
17.根据权利要求15所述的方法,其中所述的另一次时间缩放是在所述编码系统的解码器进行反变换之后完成的。
18.根据权利要求15所述的方法,其中所述的另一次时间缩放所添加或删除的信号分量的持续时间基本分别与所述的第一次时间缩放所删除或添加的信号分量的持续时间相同,从而使所述音频信号流的持续时间基本保持不变。
19.根据权利要求14所述的方法,还包括对所述失真成分之前的音频信号流,其中所述的失真成分位于所述瞬时信号之前,在所述编码系统的解码器完成反变换之后进行补偿时间缩放,从而使经过处理的音频信号流的时间进度基本与进行所述移动前的音频信号流的时间进度相同,并且所述音频信号流的持续时间基本保持不变。
20.根据权利要求19所述的方法,其中所述的编码系统包括一个编码器和一个解码器,所述的编码器向所述的解码器发送元数据,所述的元数据中包括可用于进行所述的补偿时间缩放的信息。
21.根据权利要求1所述的方法,其中所述的输入到编码系统中的音频信号流是一个数字信号流,其中音频信息是由采样来表示的,所述采样的顺序代表时间,并且其中所述的时间缩放具有从输入到编码系统的数字信号流中删除或向其中添加采样的效果。
22.根据权利要求1所述的方法,其中在所述的瞬时信号之后又执行了另一次时间缩放,所述的另一次时间缩放的作用方式与所述的第一次时间缩放相反。
23.根据权利要求22所述的方法,其中所述的另一次时间缩放是对紧接着所述瞬时信号之后的一段所述音频流进行的。
24.根据权利要求23所述的方法,其中执行了所述的时间缩放的一段所述的音频流至少部分地被瞬时信号在时域上后掩盖。
25.根据权利要求22所述的方法,其中所述的第一次时间缩放具有从输入到编码系统的音频信号流中删除或者向其中添加信号分量的效果,而所述的另一次时间缩放在所述的第一次时间缩放删除信号分量时具有向音频信号流添加信号分量的效果,并且所述的另一次时间缩放在所述的第一次时间缩放添加信号分量时具有从音频信号流中删除信号分量的效果。
26.根据权利要求25所述的方法,其中所述的另一次时间缩放所添加或删除的信号分量的持续时间基本分别与所述的第一次时间缩放所删除或添加的信号分量的持续时间相同,从而使所述音频信号流的持续时间基本保持不变。
27.根据权利要求22所述的方法,其中所述的输入到编码系统中的音频信号流是一个数字信号流,其中音频信息是由采样来表示的,所述采样的顺序代表时间,并且其中所述的第一次时间缩放具有从输入到编码系统的数字信号流中删除或向其中添加采样的效果,并且所述的另一次时间缩放在所述的第一次时间缩放删除采样时具有向音频信号流添加采样的效果,并且所述的另一次时间缩放在所述的第一次时间缩放向数字信号流添加采样时具有从音频信号流中删除采样的效果。
28.根据权利要求1所述的方法,其中所述的检测步骤要检测多个瞬时信号,而所述的移动步骤则要移动所述多个瞬时信号中的第一个瞬时信号的时域位置以减小第一个所述瞬时信号之前的失真成分。
29.根据权利要求28所述的方法,其中通过对所述多个瞬时信号中的第一个瞬时信号之前的所述音频信号流进行时间缩放而改变所述多个瞬时信号中的第一个瞬时信号相对于所述编码块的时域位置。
30.根据权利要求29所述的方法,其中所述的另一次时间缩放是在所述多个瞬时信号中的第一个瞬时信号之后、一个或多个其他所述瞬时信号之前进行的,所述的另一次时间缩放与所述的第一次时间缩放效果相反。
31.根据权利要求29所述的方法,其中在所述的瞬时信号之后进行了另一次时间缩放,所述的另一次时间缩放与所述的第一次时间缩放效果相反。
32.在使用编码块技术的基于变换的低比特率音频编码系统的解码器中,用来在反变换之后减小音频信号流中一个瞬时信号之前的失真成分的方法,包括
检测音频信号流中的一个瞬时信号,以及
对所述失真成分的至少一部分进行时间压缩,从而使所述失真成分的持续时间缩短。
33.根据权利要求32所述的方法,其中所述的部分失真成分中至少部分地是由检测到的瞬时信号的位置和一个缺省参数决定的。
34.根据权利要求32所述的方法,其中所述的部分失真成分中至少部分地是由检测到的瞬时信号的位置和所述瞬时信号之前的信号特性决定的。
35.根据权利要求34所述的方法,其中所述的信号特性包括音频信号流中高频分量的测量值。
36.根据权利要求33或34所述的方法,还包括在所述的时间压缩之前进行时间扩展,从而使得音频信号流的时间进度和长度基本保持不变。
37.根据权利要求33或34所述的方法,还包括在所述的时间压缩之后进行时间扩展,从而使得音频信号流的长度基本保持不变。

Claims (38)

1.一种用来降低音频信号流中一个瞬时信号之前的失真成分的方法,所述的音频信号流由一种使用编码块技术的基于变换的低比特率音频编码系统处理,所述的方法包括:
在所述的编码系统进行处理前检测音频信号流中的一个瞬时信号,以及
移动所述瞬时信号相对于所述编码块的时域关系,从而缩短所述失真成分的持续时间。
2.根据权利要求1所述的方法,其中所述的移动步骤在所述编码系统的编码器进行前向变换之前移动所述瞬时信号相对于所述编码块的时域关系。
3.根据权利要求2所述的方法,其中所述的瞬时信号被移动到紧接着下一个块一端或紧接着上一个块一端的时域位置上。
4.根据权利要求3所述的方法,其中所述的瞬时信号被移动到紧接着下一个块一端或紧接着上一个块一端的时域位置上,从而导致较短的时间位置移动。
5.根据权利要求1或权利要求3所述的方法,还包括在所述编码系统的解码器进行反变换之后,将剩下的失真成分至少消除一部分。
6.根据权利要求5所述的方法,其中所述的部分剩余失真成分至少部分地是由元数据信息决定的,该元数据信息在所述的编码系统中传送。
7.根据权利要求5所述的方法,其中所述的部分剩余失真成分至少部分地是由一个缺省参数决定的。
8.根据权利要求5所述的方法,其中所述的部分剩余失真成分至少部分地是通过测量所述音频信号流中的高频音频分量而决定的。
9.根据权利要求2或权利要求3所述的方法,其中所述瞬时信号相对于所述编码块的时域关系是通过对所述瞬时信号之前的一段所述音频信号流进行时间缩放而移动的。
10.根据权利要求9所述的方法,还包括在所述编码系统的解码器完成反变换之后对音频信号流进行补偿时间缩放,从而使得经过处理的音频信号流的时间进度基本与进行所述移动之前的音频信号流的时间进度相同。
11.根据权利要求10所述的方法,其中所述的补偿时间缩放是对所述瞬时信号之前的一段所述音频信号流进行的。
12.根据权利要求10所述的方法,其中所述的编码系统包括一个编码器和一个解码器,所述的编码器将元数据连同所述音频信号流的编码版本一起发送给所述的解码器,所述的元数据中包括可用于进行所述的补偿时间缩放的信息。
13.根据权利要求9所述的方法,其中所述的时间缩放是对紧靠所述瞬时信号之前的一段所述音频流执行的。
14.根据权利要求13所述的方法,其中被执行了所述的时间缩放的一段所述音频流至少部分地被瞬时信号在时域上前掩盖。
15.根据权利要求9所述的方法,其中所述的时间缩放具有从音频信号流中删除信号分量或者向音频信号流中添加信号分量的效果,所述的音频信号流是被输入到编码系统中的。
16.根据权利要求15所述的方法,其中在所述的瞬时信号之后又执行了另一次时间缩放,所述的另一次时间缩放的作用方式与所述的第一次时间缩放相反。
17.根据权利要求16所述的方法,其中所述的另一次时间缩放是在所述编码系统的编码器进行前向变换之前完成的。
18.根据权利要求16所述的方法,其中所述的另一次时间缩放是在所述编码系统的解码器进行反变换之后完成的。
19.根据权利要求16所述的方法,其中所述的另一次时间缩放所添加或删除的信号分量的持续时间基本分别与所述的第一次时间缩放所删除或添加的信号分量的持续时间相同,从而使所述音频信号流的持续时间基本保持不变。
20.根据权利要求15所述的方法,还包括对所述失真成分之前的音频信号流,其中所述的失真成分位于所述瞬时信号之前,在所述编码系统的解码器完成反变换之后进行补偿时间缩放,从而使经过处理的音频信号流的时间进度基本与进行所述移动前的音频信号流的时间进度相同,并且所述音频信号流的持续时间基本保持不变。
21.根据权利要求20所述的方法,其中所述的编码系统包括一个编码器和一个解码器,所述的编码器向所述的解码器发送元数据,所述的元数据中包括进行所述的补偿时间缩放所需的信息。
22.根据权利要求9所述的方法,其中所述的输入到编码系统中的音频信号流是一个数字信号流,其中音频信息都是由采样来表示的,所述采样值的顺序代表时间,并且其中所述的时间缩放具有从输入到编码系统的数字信号流中删除或向其中添加采样的效果。
23.根据权利要求9所述的方法,其中在所述的瞬时信号之后执行了另一次时间缩放,所述的另一次时间缩放的作用方式与所述的第一次时间缩放相反。
24.根据权利要求23所述的方法,其中所述的另一次时间缩放是对紧接着所述瞬时信号的一段所述音频流进行的。
25.根据权利要求24所述的方法,其中进行了所述的时间缩放的一段所述的音频流至少有一部分被瞬时信号在时域上后掩盖。
26.根据权利要求23所述的方法,其中所述的第一次时间缩放具有从输入到编码系统的音频信号流中删除或者向其中添加信号分量的效果,而所述的另一次时间缩放在所述的第一次时间缩放删除信号分量时具有向音频信号流添加信号分量的效果,并且所述的另一次时间缩放在所述的第一次时间缩放添加信号分量时具有从音频信号流中删除信号分量的效果。
27.根据权利要求26所述的方法,其中所述的另一次时间缩放所添加或删除的信号分量的持续时间基本分别与所述的第一次时间缩放所删除或添加的信号分量的持续时间相同,从而使所述音频信号流的持续时间基本保持不变。
28.根据权利要求23所述的方法,其中所述的输入到编码系统中的音频信号流是一个数字信号流,其中音频信息都是由采样来表示,所述采样的顺序代表时间,并且其中所述的第一次时间缩放具有从输入到编码系统的数字信号流中删除或向其中添加采样的效果,并且所述的另一次时间缩放在所述的第一次时间缩放删除信号分量时具有向音频信号流添加信号分量的效果,并且所述的另一次时间缩放在所述的第一次时间缩放向数字信号流添加信号分量时具有从音频信号流中删除信号分量的效果。
29.根据权利要求1所述的方法,其中所述的检测步骤要检测多个瞬时信号,而所述的移动步骤则要改变所述瞬时信号中第一个瞬时信号的时域位置以减小第一个所述瞬时信号之前的失真成分。
30.根据权利要求29所述的方法,其中通过对所述瞬时信号中第一个瞬时信号之前的所述音频信号流进行时间缩放而移动第一个所述的瞬时信号相对于所述编码块的时域位置。
31.根据权利要求30所述的方法,其中所述的另一次时间缩放是在第一个所述的瞬时信号之后、一个或多个其他所述瞬时信号之前进行的,所述的另一次时间缩放与所述的第一次时间缩放效果相反。
32.根据权利要求30所述的方法,其中在所述多个瞬时信号之后进行了另一次时间缩放,所述的另一次时间变换与所述的第一次时间变换效果相反。
33.在使用编码块的基于变换的低比特率音频编码系统的解码器中,用来在反变换之后减小音频信号流中瞬时信号之前的失真成分的方法,包括
检测音频信号流中的一个瞬时信号,以及
对所述失真成分的至少一部分进行时间压缩,从而使所述失真成分的持续时间缩短。
34.根据权利要求33所述的方法,其中所述的部分失真成分中至少部分地由检测到的瞬时信号的位置和一个缺省参数决定的。
35.根据权利要求33所述的方法,其中所述的部分失真成分中至少部分地由检测到的瞬时信号的位置和所述瞬时信号之前的信号特性决定的。
36.根据权利要求35所述的方法,其中所述的信号特性包括音频信号流中高频分量的测量值。
37.根据权利要求34或35所述的方法,还包括在所述的时间压缩之前进行时间扩展,从而使得音频信号流的时间进度和长度基本保持不变。
38.根据权利要求34或35所述的方法,还包括在所述的时间压缩之后进行时间扩展,从而使得音频信号流的长度基本保持不变。
CNB028095421A 2001-05-10 2002-04-25 通过降低前噪声改善音频编码系统的瞬时性能的方法 Expired - Lifetime CN1312662C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US29028601P 2001-05-10 2001-05-10
US60/290,286 2001-05-10

Publications (2)

Publication Number Publication Date
CN1552060A true CN1552060A (zh) 2004-12-01
CN1312662C CN1312662C (zh) 2007-04-25

Family

ID=23115313

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028095421A Expired - Lifetime CN1312662C (zh) 2001-05-10 2002-04-25 通过降低前噪声改善音频编码系统的瞬时性能的方法

Country Status (14)

Country Link
US (1) US7313519B2 (zh)
EP (1) EP1386312B1 (zh)
JP (1) JP4290997B2 (zh)
KR (1) KR100945673B1 (zh)
CN (1) CN1312662C (zh)
AT (1) ATE387000T1 (zh)
AU (1) AU2002307533B2 (zh)
CA (1) CA2445480C (zh)
DE (1) DE60225130T2 (zh)
DK (1) DK1386312T3 (zh)
ES (1) ES2298394T3 (zh)
HK (1) HK1070457A1 (zh)
MX (1) MXPA03010237A (zh)
WO (1) WO2002093560A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008141579A1 (fr) * 2007-05-17 2008-11-27 Spreadtrum Communications (Shanghai) Co., Ltd. Procédé de codage et de décodage de signal audio transitoire
WO2009092309A1 (zh) * 2008-01-16 2009-07-30 Huawei Technologies Co., Ltd. 一种量化噪声泄漏控制方法及装置
CN101308655B (zh) * 2007-05-16 2011-07-06 展讯通信(上海)有限公司 一种音频编解码方法与装置

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4134297A1 (de) * 1991-10-17 1993-04-22 Behringwerke Ag Monoclonale antikoerper gegen mycoplasma pneumoniae, diese produzierende hybridome, verfahren zu deren herstellung sowie deren verwendung
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
WO2002093560A1 (en) 2001-05-10 2002-11-21 Dolby Laboratories Licensing Corporation Improving transient performance of low bit rate audio coding systems by reducing pre-noise
US7171367B2 (en) 2001-12-05 2007-01-30 Ssi Corporation Digital audio with parameters for real-time time scaling
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US20030182106A1 (en) * 2002-03-13 2003-09-25 Spectral Design Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal
JP4076887B2 (ja) * 2003-03-24 2008-04-16 ローランド株式会社 ボコーダ装置
ES2354427T3 (es) * 2003-06-30 2011-03-14 Koninklijke Philips Electronics N.V. Mejora de la calidad de audio decodificado mediante la adición de ruido.
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
ATE527654T1 (de) 2004-03-01 2011-10-15 Dolby Lab Licensing Corp Mehrkanal-audiodecodierung
EP1771855B1 (en) * 2004-07-30 2007-12-19 Thomson Licensing Method for buffering audio data in optical disc systems in case of mechanical shocks or vibrations
US7508947B2 (en) * 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
JP2006084754A (ja) * 2004-09-16 2006-03-30 Oki Electric Ind Co Ltd 音声録音再生装置
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
KR100750115B1 (ko) * 2004-10-26 2007-08-21 삼성전자주식회사 오디오 신호 부호화 및 복호화 방법 및 그 장치
AU2006255662B2 (en) * 2005-06-03 2012-08-23 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
US7546240B2 (en) 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US7562021B2 (en) 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
US7917358B2 (en) * 2005-09-30 2011-03-29 Apple Inc. Transient detection by power weighted average
DE102006049154B4 (de) * 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
WO2008153944A1 (en) * 2007-06-08 2008-12-18 Dolby Laboratories Licensing Corporation Hybrid derivation of surround sound audio channels by controllably combining ambience and matrix-decoded signal components
US7761290B2 (en) * 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US8046214B2 (en) 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
CN101790756B (zh) * 2007-08-27 2012-09-05 爱立信电话股份有限公司 瞬态检测器以及用于支持音频信号的编码的方法
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
JP5328804B2 (ja) * 2007-12-21 2013-10-30 フランス・テレコム 適応型ウィンドウを有する変換ベースの符号化/復号化
ES2739667T3 (es) * 2008-03-10 2020-02-03 Fraunhofer Ges Forschung Dispositivo y método para manipular una señal de audio que tiene un evento transitorio
JP2010017216A (ja) * 2008-07-08 2010-01-28 Ge Medical Systems Global Technology Co Llc 音声データ処理装置,音声データ処理方法、および、イメージング装置
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2410522B1 (en) 2008-07-11 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, method for encoding an audio signal and computer program
US8380498B2 (en) * 2008-09-06 2013-02-19 GH Innovation, Inc. Temporal envelope coding of energy attack signal by using attack point location
US9384748B2 (en) * 2008-11-26 2016-07-05 Electronics And Telecommunications Research Institute Unified Speech/Audio Codec (USAC) processing windows sequence based mode switching
CN101770776B (zh) * 2008-12-29 2011-06-08 华为技术有限公司 瞬态信号的编码方法和装置、解码方法和装置及处理系统
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
US8554348B2 (en) * 2009-07-20 2013-10-08 Apple Inc. Transient detection using a digital audio workstation
US8153882B2 (en) * 2009-07-20 2012-04-10 Apple Inc. Time compression/expansion of selected audio segments in an audio file
KR100940532B1 (ko) 2009-09-28 2010-02-10 삼성전자주식회사 저비트율 복호화방법 및 장치
TWI557723B (zh) 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
EP2372703A1 (en) * 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
FR2961938B1 (fr) * 2010-06-25 2013-03-01 Inst Nat Rech Inf Automat Synthetiseur numerique audio ameliore
EP2612321B1 (en) 2010-09-28 2016-01-06 Huawei Technologies Co., Ltd. Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal
WO2012040897A1 (en) 2010-09-28 2012-04-05 Huawei Technologies Co., Ltd. Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal
WO2013075753A1 (en) * 2011-11-25 2013-05-30 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
EP2828854B1 (en) 2012-03-23 2016-03-16 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
CA2900437C (en) 2013-02-20 2020-07-21 Christian Helmrich Apparatus and method for encoding or decoding an audio signal using a transient-location dependent overlap
US20150179181A1 (en) * 2013-12-20 2015-06-25 Microsoft Corporation Adapting audio based upon detected environmental accoustics
US10200134B2 (en) * 2014-02-10 2019-02-05 Audimax, Llc Communications systems, methods and devices having improved noise immunity
PL232466B1 (pl) * 2015-01-19 2019-06-28 Zylia Spolka Z Ograniczona Odpowiedzialnoscia Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
US10726851B2 (en) * 2017-08-31 2020-07-28 Sony Interactive Entertainment Inc. Low latency audio stream acceleration by selectively dropping and blending audio blocks

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4624009A (en) * 1980-05-02 1986-11-18 Figgie International, Inc. Signal pattern encoder and classifier
US4464784A (en) * 1981-04-30 1984-08-07 Eventide Clockworks, Inc. Pitch changer with glitch minimizer
US4723290A (en) * 1983-05-16 1988-02-02 Kabushiki Kaisha Toshiba Speech recognition apparatus
US4792975A (en) * 1983-06-03 1988-12-20 The Variable Speech Control ("Vsc") Digital speech signal processing for pitch change with jump control in accordance with pitch period
US4700391A (en) * 1983-06-03 1987-10-13 The Variable Speech Control Company ("Vsc") Method and apparatus for pitch controlled voice signal processing
US5202761A (en) * 1984-11-26 1993-04-13 Cooper J Carl Audio synchronization apparatus
USRE33535E (en) * 1985-09-16 1991-02-12 Audio to video timing equalizer method and apparatus
US4703355A (en) * 1985-09-16 1987-10-27 Cooper J Carl Audio to video timing equalizer method and apparatus
US5040081A (en) * 1986-09-23 1991-08-13 Mccutchen David Audiovisual synchronization signal generator using audio signature comparison
US4852170A (en) * 1986-12-18 1989-07-25 R & D Associates Real time computer speech recognition system
JPS63225300A (ja) * 1987-03-16 1988-09-20 株式会社東芝 パタ−ン認識装置
GB8720527D0 (en) * 1987-09-01 1987-10-07 King R A Voice recognition
US5055939A (en) 1987-12-15 1991-10-08 Karamon John J Method system & apparatus for synchronizing an auxiliary sound source containing multiple language channels with motion picture film video tape or other picture source containing a sound track
IL84902A (en) * 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
JP2739950B2 (ja) * 1988-03-31 1998-04-15 株式会社東芝 パターン認識装置
WO1991019989A1 (en) 1990-06-21 1991-12-26 Reynolds Software, Inc. Method and apparatus for wave analysis and event recognition
US5313531A (en) * 1990-11-05 1994-05-17 International Business Machines Corporation Method and apparatus for speech analysis and speech recognition
US5216744A (en) * 1991-03-21 1993-06-01 Dictaphone Corporation Time scale modification of speech signals
FR2674710B1 (fr) * 1991-03-27 1994-11-04 France Telecom Procede et systeme de traitement des preechos d'un signal audio-numerique code par transformee frequentielle.
JP3134338B2 (ja) * 1991-03-30 2001-02-13 ソニー株式会社 ディジタル音声信号符号化方法
US5175769A (en) 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech
US5621857A (en) * 1991-12-20 1997-04-15 Oregon Graduate Institute Of Science And Technology Method and system for identifying and recognizing speech
JP3104400B2 (ja) * 1992-04-27 2000-10-30 ソニー株式会社 オーディオ信号符号化装置及び方法
US5630013A (en) 1993-01-25 1997-05-13 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for performing time-scale modification of speech signals
KR100372208B1 (ko) * 1993-09-09 2003-04-07 산요 덴키 가부시키가이샤 음성신호의시간축압축/신장방법
JP3186412B2 (ja) * 1994-04-01 2001-07-11 ソニー株式会社 情報符号化方法、情報復号化方法、及び情報伝送方法
JPH0863194A (ja) * 1994-08-23 1996-03-08 Hitachi Denshi Ltd 残差駆動形線形予測方式ボコーダ
JP3307138B2 (ja) * 1995-02-27 2002-07-24 ソニー株式会社 信号符号化方法及び装置、並びに信号復号化方法及び装置
US5920840A (en) 1995-02-28 1999-07-06 Motorola, Inc. Communication system and method using a speaker dependent time-scaling technique
US5730140A (en) * 1995-04-28 1998-03-24 Fitch; William Tecumseh S. Sonification system using synthesized realistic body sounds modified by other medically-important variables for physiological monitoring
US5699404A (en) 1995-06-26 1997-12-16 Motorola, Inc. Apparatus for time-scaling in communication products
US6002776A (en) * 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
FR2739736B1 (fr) * 1995-10-05 1997-12-05 Jean Laroche Procede de reduction des pre-echos ou post-echos affectant des enregistrements audio
US5960390A (en) * 1995-10-05 1999-09-28 Sony Corporation Coding method for using multi channel audio signals
DE69612958T2 (de) * 1995-11-22 2001-11-29 Koninkl Philips Electronics Nv Verfahren und vorrichtung zur resynthetisierung eines sprachsignals
US5749073A (en) * 1996-03-15 1998-05-05 Interval Research Corporation System for automatically morphing audio information
US5828994A (en) * 1996-06-05 1998-10-27 Interval Research Corporation Non-uniform time scale modification of recorded audio
JPH1074097A (ja) 1996-07-26 1998-03-17 Ind Technol Res Inst オーディオ信号のパラメータを変更する方法及び装置
US6049766A (en) 1996-11-07 2000-04-11 Creative Technology Ltd. Time-domain time/pitch scaling of speech or audio signals with transient handling
US5893062A (en) * 1996-12-05 1999-04-06 Interval Research Corporation Variable rate video playback with synchronized audio
DE19710545C1 (de) 1997-03-14 1997-12-04 Grundig Ag Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen
US6211919B1 (en) * 1997-03-28 2001-04-03 Tektronix, Inc. Transparent embedment of data in a video signal
TW357335B (en) * 1997-10-08 1999-05-01 Winbond Electronics Corp Apparatus and method for variation of tone of digital audio signals
EP0976125B1 (en) 1997-12-19 2004-03-24 Koninklijke Philips Electronics N.V. Removing periodicity from a lengthened audio signal
US6266003B1 (en) * 1998-08-28 2001-07-24 Sigma Audio Research Limited Method and apparatus for signal processing for time-scale and/or pitch modification of audio signals
US6266644B1 (en) * 1998-09-26 2001-07-24 Liquid Audio, Inc. Audio encoding apparatus and methods
US6374225B1 (en) * 1998-10-09 2002-04-16 Enounce, Incorporated Method and apparatus to prepare listener-interest-filtered works
SE9903552D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Efficient spectral envelope coding using dynamic scalefactor grouping and time/frequency switching
JP3430968B2 (ja) * 1999-05-06 2003-07-28 ヤマハ株式会社 ディジタル信号の時間軸圧伸方法及び装置
JP3430974B2 (ja) * 1999-06-22 2003-07-28 ヤマハ株式会社 ステレオ信号の時間軸圧伸方法及び装置
US6505153B1 (en) * 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
JP2004513557A (ja) * 2000-11-03 2004-04-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号のパラメトリック符号化方法及び装置
US20020116178A1 (en) * 2001-04-13 2002-08-22 Crockett Brett G. High quality time-scaling and pitch-scaling of audio signals
CN1279511C (zh) 2001-04-13 2006-10-11 多尔拜实验特许公司 一种时间标度和/或音调偏移一个音频信号的方法
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7283954B2 (en) * 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
WO2002093560A1 (en) 2001-05-10 2002-11-21 Dolby Laboratories Licensing Corporation Improving transient performance of low bit rate audio coding systems by reducing pre-noise
MXPA03010749A (es) 2001-05-25 2004-07-01 Dolby Lab Licensing Corp Comparacion de audio usando caracterizaciones basadas en eventos auditivos.
MXPA03010750A (es) 2001-05-25 2004-07-01 Dolby Lab Licensing Corp Metodo para la alineacion temporal de senales de audio usando caracterizaciones basadas en eventos auditivos.
US7346667B2 (en) 2001-05-31 2008-03-18 Ubs Ag System for delivering dynamic content
US20040122772A1 (en) * 2002-12-18 2004-06-24 International Business Machines Corporation Method, system and program product for protecting privacy

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308655B (zh) * 2007-05-16 2011-07-06 展讯通信(上海)有限公司 一种音频编解码方法与装置
WO2008141579A1 (fr) * 2007-05-17 2008-11-27 Spreadtrum Communications (Shanghai) Co., Ltd. Procédé de codage et de décodage de signal audio transitoire
WO2009092309A1 (zh) * 2008-01-16 2009-07-30 Huawei Technologies Co., Ltd. 一种量化噪声泄漏控制方法及装置

Also Published As

Publication number Publication date
HK1070457A1 (en) 2005-06-17
AU2002307533B2 (en) 2008-01-31
US20040133423A1 (en) 2004-07-08
JP2004528597A (ja) 2004-09-16
ES2298394T3 (es) 2008-05-16
US7313519B2 (en) 2007-12-25
JP4290997B2 (ja) 2009-07-08
ATE387000T1 (de) 2008-03-15
DE60225130D1 (de) 2008-04-03
CN1312662C (zh) 2007-04-25
DE60225130T2 (de) 2009-02-26
WO2002093560A1 (en) 2002-11-21
EP1386312B1 (en) 2008-02-20
KR100945673B1 (ko) 2010-03-05
KR20040034604A (ko) 2004-04-28
EP1386312A1 (en) 2004-02-04
CA2445480A1 (en) 2002-11-21
MXPA03010237A (es) 2004-03-16
DK1386312T3 (da) 2008-06-09
CA2445480C (en) 2011-04-12

Similar Documents

Publication Publication Date Title
CN1552060A (zh) 通过降低前噪声改善低比特速率音频编码系统的瞬时性能
CN1199179C (zh) 在帧边界处衰减频谱邻频干扰的音频编码
US7610205B2 (en) High quality time-scaling and pitch-scaling of audio signals
RU2393552C2 (ru) Комбинированное аудиокодирование, минимизирующее воспринимаемое искажение
RU2262748C2 (ru) Многорежимное устройство кодирования
EP1377967B1 (en) High quality time-scaling and pitch-scaling of audio signals
CN1153191C (zh) 高质量音频的可缩放编码方法
CN1055585C (zh) 代码激励线性预测编码器和译码器
CN1030129C (zh) 高效数字数据编码和译码装置
CN1099777C (zh) 数字信号的编码装置、解码装置和编码方法
CN1113492C (zh) 发送接收装置
CN1256715C (zh) 编码方法、编码装置、解码方法、和解码装置
CN1281006C (zh) 信息编码/译码方法和装置和信息传输方法
CN1144179C (zh) 声音信号解码方法和装置、声音信号编码方法和装置
CN1992533A (zh) 信号编码设备和方法、信号译码设备和方法、程序及介质
CN1708787A (zh) 用于使用高级心理声学模型来对数字音频编码的方法及其设备
CN1152164A (zh) 码激励线性预测编码装置
CN1312977A (zh) 可升级的音频编码器和解码器
CN1276903A (zh) 采用附加的滤波器阵列在帧边界处衰减混叠伪差的基于帧的音频编码
FI118704B (fi) Menetelmä ja laite lähdekoodauksen tekemiseksi
CN1249669C (zh) 使用时间频率相关编码和/或解码数字音频的方法及装置
Atal et al. Code-excited linear prediction (CELP): high quality speech at very low bit rates
CN1193159A (zh) 语音编码译码方法和装置、电话装置、音调变换方法和介质
CN1201492C (zh) 编码、解码装置及方法,记录、再现装置及方法,记录媒体
CN1139805A (zh) 数据记录方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1070457

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Assignee: Guangzhou Panyu Juda Car Audio Equipment Co., Ltd.

Assignor: Dolby Lab Licensing Corp.

Contract record no.: 2010990000986

Denomination of invention: Improving transient performance of low bit rate audio coding systems by reducing pre-noise

Granted publication date: 20070425

License type: Common License

Open date: 20041201

Record date: 20101216

EE01 Entry into force of recordation of patent licensing contract

Assignee: Zhejiang BeresonTechnology Co., Ltd.

Assignor: Dolby Lab Licensing Corp.

Contract record no.: 2011990000044

Denomination of invention: Improving transient performance of low bit rate audio coding systems by reducing pre-noise

Granted publication date: 20070425

License type: Common License

Open date: 20041201

Record date: 20110117

EE01 Entry into force of recordation of patent licensing contract

Assignee: Guangzhou Panyu Juda Car Audio Equipment Co., Ltd.

Assignor: Dolby Lab Licensing Corp.

Contract record no.: 2011990000899

Denomination of invention: Improving transient performance of low bit rate audio coding systems by reducing pre-noise

Granted publication date: 20070425

License type: Common License

Open date: 20041201

Record date: 20110915

EE01 Entry into force of recordation of patent licensing contract

Assignee: Desai Video-Audio Science & Technology Co., Ltd., Huizhou City

Assignor: Dolby Lab Licensing Corp.

Contract record no.: 2011990000968

Denomination of invention: Improving transient performance of low bit rate audio coding systems by reducing pre-noise

Granted publication date: 20070425

License type: Common License

Open date: 20041201

Record date: 20111012

EE01 Entry into force of recordation of patent licensing contract

Assignee: Guangdong OPPO Mobile Communications Co., Ltd.

Assignor: Dolby Lab Licensing Corp.

Contract record no.: 2012990000215

Denomination of invention: Improving transient performance of low bit rate audio coding systems by reducing pre-noise

Granted publication date: 20070425

License type: Common License

Open date: 20041201

Record date: 20120411

EE01 Entry into force of recordation of patent licensing contract

Assignee: Qingdao Haier Electric Appliance Co., Ltd.

Assignor: Dolby Laboratories Licensing Corp,|Dolby International AB

Contract record no.: 2012990000481

Denomination of invention: Improving transient performance of low bit rate audio coding systems by reducing pre-noise

Granted publication date: 20070425

License type: Common License

Open date: 20041201

Record date: 20120706

EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20041201

Assignee: Sony (China) Co., Ltd.

Assignor: Sony Corp.

Contract record no.: 2012990000568

Denomination of invention: Improving transient performance of low bit rate audio coding systems by reducing pre-noise

Granted publication date: 20070425

License type: Common License

Record date: 20120806

EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20041201

Assignee: Lenovo Mobile Communication Technology Ltd.

Assignor: Dolby Laboratories Licensing Corp,|Dolby International AB

Contract record no.: 2012990000858

Denomination of invention: Improving transient performance of low bit rate audio coding systems by reducing pre-noise

Granted publication date: 20070425

License type: Common License

Record date: 20121129

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20041201

Assignee: Lenovo (Beijing) Co., Ltd.

Assignor: Dolby Laboratories Licensing Corp,|Dolby International AB

Contract record no.: 2013990000005

Denomination of invention: Improving transient performance of low bit rate audio coding systems by reducing pre-noise

Granted publication date: 20070425

License type: Common License

Record date: 20130106

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20041201

Assignee: Beijing millet Communication Technology Co., Ltd.

Assignor: Dolby Laboratories Licensing Corp,|Dolby International AB

Contract record no.: 2013990000048

Denomination of invention: Improving transient performance of low bit rate audio coding systems by reducing pre-noise

Granted publication date: 20070425

License type: Common License

Record date: 20130206

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20041201

Assignee: Shenzhen Maxmade Technology Co.,Ltd.

Assignor: Dolby Lab Licensing Corp.

Contract record no.: 2013990000353

Denomination of invention: Improving transient performance of low bit rate audio coding systems by reducing pre-noise

Granted publication date: 20070425

License type: Common License

Record date: 20130627

Application publication date: 20041201

Assignee: Beijing Chaoge Digital Technology Co., Ltd.

Assignor: Dolby Lab Licensing Corp.

Contract record no.: 2013990000354

Denomination of invention: Improving transient performance of low bit rate audio coding systems by reducing pre-noise

Granted publication date: 20070425

License type: Common License

Record date: 20130627

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20041201

Assignee: Sony (China) Co., Ltd.

Assignor: Sony Corp.

Contract record no.: 2012990000568

Denomination of invention: Improving transient performance of low bit rate audio coding systems by reducing pre-noise

Granted publication date: 20070425

License type: Common License

Record date: 20120806

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
CX01 Expiry of patent term

Granted publication date: 20070425

CX01 Expiry of patent term