CN101189610B

CN101189610B - 用于确定内容项特性的方法和电子设备

Info

Publication number: CN101189610B
Application number: CN2006800195982A
Authority: CN
Inventors: J·斯科维罗尼克; M·F·麦克金尼
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2005-06-01
Filing date: 2006-05-30
Publication date: 2011-12-14
Anticipated expiration: 2026-05-30
Also published as: US20080202320A1; EP1891548B1; JP5112300B2; KR101249024B1; EP1891548A1; CN101189610A; RU2007144711A; US7718881B2; JP2008542835A; RU2419859C2; WO2006129274A1; KR20080019031A

Abstract

确定内容项特性的方法包括步骤：从该内容项中选择(1)代表多个声音的数据；通过分析所述数据确定(3)该多个声音中的每个声音的特性，每个特性代表该多个声音中的一个声音的幅度的时间形态；根据该多个所确定的特性确定(5)该内容项的特性。该内容项的特性和/或基于该内容项特性的类别和/或基调可以作为属性值与该内容项关联。如果该内容项是内容项集合中的一部分，那么可将该属性值用于在该内容项集合中搜索内容项的方法中。本发明的电子设备包括电子电路。该电子电路可用于执行本发明的一种或两种方法。

Description

用于确定内容项特性的方法和电子设备

技术领域

本发明涉及确定内容项特性的方法。

本发明还涉及在多个内容项中搜索一个内容项的方法。

本发明还涉及用于使可编程设备执行确定内容项特性的方法和/或在多个内容项中搜索一个内容项的方法的软件。

本发明还涉及包括电子电路的电子设备，该电子电路可用来确定内容项特性。

本发明还涉及包括电子电路的电子设备，该电子电路可用来在多个内容项中搜索一个内容项。

本发明还涉及用于电子设备中的电子电路，该电子电路可用来确定内容项特性或者在多个内容项中搜索一个内容项。

背景技术

US 5918223记载了这种方法的一个示例。在该专利中描述的这种方法测量选自某个组的声音文件的多个声学特征，所述组由响度、音高(pitch)、亮度、带宽以及其MFCC系数中的至少一个组成。基于这些特征计算的度量被用来对声音文件进行分组。这种方法的一个缺点是，其低级特征不足以允许用户搜索和找出匹配其偏好的所有歌曲。

文献US 6476308 B1公开了一种用来分类音乐片断的方法，该方法依据的是对应该片断内包含的多个音符中的每个音符的确定特性。示例包含了这样的事实，即在连续的音乐片断中，音符的起始和终止点可能与前面的音符、下一个音符或者一个或多个乐器并行演奏的音符重叠。不同的乐器产生具有截然不同特性的音符，这个附加的事实使情况复杂化了。例如，带维持阶段的音符(如由小号或长笛产生的音符)在维持阶段的中部具有高的能量，而不带维持阶段的音符(如由钢琴或吉他产生的音符)当音符初次产生时在起音阶段具有高的能量。

发明内容

本发明的第一目标是提供一种如开篇段落所描述类型的方法，它确定可用来搜索和找出匹配用户偏好的更多歌曲的特性。

本发明的第二目标是提供一种如开篇段落所描述类型的电子设备，它能够确定可用来搜索和找出匹配用户偏好的更多歌曲的特性。

依照本发明，第一目标被实现为，所述方法包括如下步骤：从内容项中选择代表多个声音的数据；通过分析所述数据确定该多个声音中的每个声音的特性，每个特性代表该多个声音之一的时间包络的形态(aspect)；根据该多个确定的特性来确定该内容项的打击性度量；以及，通过从其它音乐类别和/或基调中检测出一个音乐类别和/或基调，或者通过区分两个音乐类别和/或基调，基于所述内容项的打击性度量来确定该内容项的类别和/或基调。该方法确定内容项(如MP3文件、音乐视频或电影音轨)的打击性(percussiveness)度量。发明人认识到，消费者不仅能够辨认乐器是否是打击乐器，而且能够识别对应整个内容项的打击性度量。由于打击性度量是一种高级特征，它非常适合用来代替其他特征或者与其他特征一起搜索和找出匹配用户偏好的歌曲，所述其他特征例如节拍。此外，这种打击性度量可以用来根据种子歌曲找出相似的音乐和/或自动设置音频动力学操控算法(例如限制器/压缩器/音量控制)的参数。

在本发明的该方法的一个实施例中，确定内容项打击性度量的步骤包括确定百分比。例如，内容项可能有75％是打击性的，25％是非打击性的，或者50％是打击性且非和声的，30％是打击性且和声的，20％是非打击性的。当这种百分比用于查询时，起初，用户可能并不知道打击性与具有这种打击性度量的内容项之间的关系。但是，当用户使用这种搜索准则进行试验时，他很快就可以学会这种关系。

可替换地或者附加地，确定内容项打击性度量的步骤包括确定主乐器。用户选择的主乐器可以被转化为打击性音域，该音域可以用于在多个内容项中搜索一个内容项。尽管搜索在该音域中具有打击性的内容项很可能不会找出具有指定主乐器的所有内容项，并且在找出的内容项中很可能会列出具有另一种主乐器的内容项，但是对于用户来说，选择主乐器可能比选择百分比更容易理解。

该方法还可以包括根据内容项打击性度量确定内容项类别和/或基调的步骤。实验证明，这种打击性度量可以用于类别检测，当从其他音乐类别之中检测出一种音乐类别以及区分两种音乐类别时，具有良好的结果。由于确定基调的方法与确定类别的方法类似，这种打击性度量用于基调检测时还有望得到良好的结果。内容项的其他特性也可以附加地用于类别和/或基调检测，但是并不需要。

确定内容项特性的步骤可以包括确定内容项的第一特性和第二特性，确定内容项的类别和/或基调的步骤可以包括将第一特性与第一类别或基调的特性比较以及将第二特性与第二类别或基调的特性比较。内容项的打击性度量可以基于一个或多个打击性特征。一些打击性特征更适合于从其他音乐类别之中检测出第一音乐类别或者区分第一音乐类别和第二音乐类别，而其他打击性特征更适合于从其他音乐类别之中检测出第二音乐类别或者区别第二音乐类别和第三音乐类别。

确定所述多个声音的每个声音的特性的步骤可以包括确定所述多个声音的每个声音的第一阶段的特性和所述多个声音的每个声音的第二阶段的特性。实验证明，将声音分割成至少一个起音(attack)阶段和一个或多个其他阶段并且为每个单独的阶段确定打击性特征得到了更好的打击性特征，所述阶段类似于合成器技术中使用的阶段(起音、衰减、维持和释音)。

依照本发明，第二目标被实现为，所述电子设备包括电子电路，该电子电路可用来：从内容项中选择代表多个声音的数据；通过分析所述数据确定该多个声音中的每个声音的特性，每个特性代表该多个声音中的一个声音的时间包络的形态；根据该多个确定的特性确定该内容项的打击性度量；以及，通过从其它音乐类别和/或基调中检测出一个音乐类别和/或基调，或者通过区分两个音乐类别和/或基调，基于所述内容项的打击性度量来确定该内容项的类别和/或基调。

附图说明

本发明的方法和电子设备的这些和其他方面将参照附图进一步阐述和说明，其中：

图1是确定内容项特性的方法的流程图；

图2是图1的方法的实施例的流程图；

图3显示了分割成三阶段的声音的示例；

图4显示了为图3中一个声音确定的特性的示例；

图5显示了用于图2的实施例中的方程；

图6显示了区分两个类别的结果；

图7是本发明的电子设备的方框图。

这些附图中的对应元素用相同的附图标记加以标识。

具体实施方式

参照图1和2，本发明的方法包括：从内容项中选择代表多个声音的数据的步骤1；通过分析所述数据，确定该多个声音中的每个声音的特性的步骤3，每个特性代表该多个声音中的一个声音的幅度的时间形态；根据该多个所确定的特性来确定该内容项的特性的步骤5。该方法还可以包括根据该内容项的特性确定内容项的类别和/或基调的步骤7。

可以将所确定的内容项特性和/或所确定的类别和/或基调作为属性值与内容项关联起来。可以将这个属性值例如存储在播放列表中、文件描述中或者服务提供者数据库中。可以将这个属性值用于在多个内容项中搜索一个内容项的方法中，其中该多个内容项中的每个内容项都与一个属性值关联。该方法找出与类似于所期望属性值的属性值关联的内容项。该多个内容项可以是更大的内容项集合的一部分，在所述内容项集合中，有些内容项并不与属性值关联。该方法可以由例如服务提供者或者消费电子设备来实现。

所确定的声音特性是该声音音色的度量，尤其是该声音打击性的度量。美国国家标准化研究所(ANSI)给音色(timbre)下的定义是：......听者据以判断类似呈现并具有相同响度和音高的两个声音不同的听觉属性。该定义的通常解释是：音色有助于区分来自在同一声级上播放同一音符的两种类型乐器的声音。

上述定义和解释都指出，用单个特性描述音色是十分困难的。在音色研究中至少有两种主要的活动证实了这一点：

1.音色感知：通过利用知觉实验，许多研究都发现了那些对音色感知起作用的信号性质。一些谱特性(例如谱分量的数量和构成)以及时间参数(例如起音时间)是其中最重要的性质。

2.声音建模：从音频信号中提取出上述研究中发现的参数，然后用于建模目的。这些模型通常或者用于(重新)合成声音，或者用于对声音进行分类和识别。

有一些研究根据音色参数进行声音的自动分类和识别。但是大部分出版物涉及单和声或打击乐声的分类。此外，存在一些初步的尝试，试图将这些方法用于简单多音色短句。但是，目前尚未解决复调音乐音频流中乐器的自动识别问题。其原因在于，在复调音乐中面临的是重叠的乐器，在现代音乐中则还要面临合成或操控的声音，这些声音在播放期间音色发生变化。已知的音色特征典型地指的是单独的单声道乐器，不容易应用到这种声音上。这意味着有必要采用更为一般的特征，这些特征描述任意声音纹理的音色而无需确定本身的声源类型(例如乐器)。本发明的方法采用声音的打击性来描述该声音的音色。打击性(percussiveness)并不意味着一定是来自打击乐器的声音。它只是用于具有陡峭起音-衰减特性的短暂声音的术语。术语打击性的术语含义可以用下列四个示例进行说明：

1.长笛声：人们会将它归类为典型的非打击性声音。

2.小军鼓：人们会将它归类为典型的打击性声音。

3.持续演奏的大提琴(琴弦由乐弓激励)：人们会将它归类为典型的非打击性声音。

4.拨奏的同一大提琴(琴弦用手指拨动)：人们会同意现在的这个声音比上一个声音更具打击性。原因在于，现在的这个声音具有不同的时间特性，而其谱结构基本上保持相同。信号理论指出，时域调制影响平稳音调的谱。因此，这个陈述在某种程度上意味着两个信号(持续演奏和弹拨的琴弦)具有相同的谱分量内在结构(例如正则性)。

这些示例表明，可以将打击性定义成对于信号包络的一般化描述。因而它纯粹是个时域特征。在这个定义中，打击性指的是声音的包络，因此期望的特征应当构成该包络的参数描述。在该方法的一个实施例中，首先应用合成器技术中已知的信号包络四阶段逼近(起音、衰减、维持和释音)。但是为了计算方面的原因，将包络的衰减和维持部分结合起来，得到三阶段：起音(A)、衰减-维持(D&S)和释音(R：release)。其次，计算几个特征，它们是这些阶段的时程、级差和曲线形状。图3示意性地显示了用于两种不同声音的包络的这个原理。

确定所期望的A-D&S-R逼近的第一步骤是确定这些阶段的起始和终止点。这些时刻可以用与Jensen提出的方法(Timbre Models ofMusical Sounds(乐音的音色模型)，PhD.Dissertation，Departmentof Datalogy，University of Copenhagen，DIKU Report 99/7，1999)相似的方法来检测。其基本思想是个二阶段过程：首先，计算过平滑包络并且确定所期望的起始和终止点；其次，利用平滑性越来越小的包络版本逐步调节这些点，直到达到不平滑的情况。

Jensen检测过平滑包络的时刻的过程是针对声音的单个和声分量而设计的。他计算了平滑包络的一阶导数，并且采用了不同的导数阈值以便找出对应所期望的起始和终止点的良好候选点。Jensen证明了这种导数方法允许比采用水平阈值(最大值的10％是起音阶段的起始点，90％是起音阶段的终止点，等等)的更简单方法能更好地检测出对应衰减乐器(如钢琴)的实际R阶段。但是，需要对Jensen的方法进行改进以便适用于宽带信号：首先需要通过计算信号的绝对值(可以采用半波和全波整流)来导出平滑的包络，接着用低截止频率进行低通滤波。此外，需要对用于检测所期望时刻的方法进行扩展，因为包络的残余细微结构导致了错误的检测。因此，需要采用对应一阶导数和对应包络的阈值的组合(参见图4)：

1.搜索A阶段的时刻：

(a)搜索“起音的中点”(moa)：

“起音的中点”是包络env(t)陡峭水平上升的那个点，即在该点处，一阶导数d/dt env(t)具有局部极大值，包络具有合理的值。该合理的值被定义为：包络的局部极大值第一次超过特定阈值之前的最后一个候选值：local_max(env(t))≥env_crit_moa＝0.25*max(env(t))。

(b)搜索起音的起始点(soa)：

从moa开始往后搜索，直到满足一定的导数和包络准则。导数条件是：d/dt env(t)≤d_crit_soa＝0.1*max(d/dt env(t)。包络条件是：env(t)≤env_crit_soa＝0.25*max(env(t))。

(c)搜索起音的终止点(eoa)：

从moa开始往前搜索，直到满足一定的导数和包络准则。导数条件是：d/dt env(t)≤d_crit_eoa＝0.1*max(d/dt env(t))。包络条件是：env(t)≥env_crit_eoa＝0.75*max(env(t))。

2.搜索R阶段的时刻：

(a)搜索“释音的中点”(mor)：

“释音的中点”是包络陡峭下降的那个点，即在该点处，一阶导数具有小于零的局部极小值，包络具有合理的值。该合理的包络值被定义为：包络的局部极大值最后一次超过特定阈值之后的第一个候选值：local_max(env(t))≥env_crit_mor＝0.3*max(env(t))。

(b)搜索释音的起始点(sor)：

从mor开始往后搜索，直到满足一定的导数和包络准则。导数条件是：d/dt env(t)≥d_crit_sor＝0.2*min(d/dt env(t))。包络条件是：env(t)≥env_crit_sor＝0.25*max(env(t))。

(c)搜索释音阶段的终止点(eor)：

从moa开始往前搜索，直到满足一定的导数和包络准则。导数条件是：d/dt env(t)≥d_crit_eor＝0.1*max(d/dt env(t))。包络条件是：env(t)≤env_crit_eor＝0.1*min(env(t))。

3.定义D&S阶段的时刻：

D&S的起始点是起音的终止点(eoa)，D&S的终止点是释音的起始点(sor)。

注意到该准则的值是通过用大约40种不同的乐器声音测试所述算法来找到的。但是，利用附加的测试材料，可以找到可能导致甚至更佳检测性能的用于准则的值。

在第二步骤，即调节找到的时刻使其符合不平滑情况，采用迭代过程。每次迭代中，通过在计算包络期间使用不同的低通滤波器截止频率来计算平滑性更小的包络(为了避免因滤波器不同而引起包络的时延不同，采用了防止滤波器造成的延迟的非因果滤波)。然后，利用一定的时间和声级(level)准则来调节这些时刻(soa、eoa、sor、eor)：新的候选值不应该离前一时刻太远(|tnew-toldj|≤1024个样本≈23ms)，它的新包络值不应该离前一包络值太远(0.9*env_old≤en v_new＜1.5*en v_old)。这些准则再次通过用上述乐器声音测试所述算法而得到，并且也可以找到可能获得甚至更佳检测性能的用于准则的值。

一旦找到了上述起始和终止点，就可以应用信号包络的三阶段逼近。为了找到包络的有效参数描述，对于每个阶段应用Jensen提出的曲线形状逼近，它可以用一个单个参数n进行描述，参见图5的方程2.1。

边界条件v0和v1是该阶段的起始和终止点的包络值。变量x是归一化到0和1之间的时间(t＝start→x＝0，t＝end→x＝1)。标量参数n决定曲线的形状：如果n等于1，那么曲线形状是线性的；如果n小于1，那么曲线形状呈指数特征；如果n大于1，那么曲线形状呈对数形式。通过最小化所得曲线形状和包络之间的最小二乘误差可以找到最优曲线形状参数n_opt，参见图5的方程2.2和2.3。

结果是具有11个参数的包络的三阶段参数描述：

●时刻：soa、eoa、sor、eor

●声级值：env(soa)、env(eoa)、env(sor)、env(eor)

●对应每个阶段的最优曲线形状参数：nA、nD&S、nR

上述A-D&S-R逼近被设计用于在整个频率范围的一个频带内计算参数包络描述，但是这个方法也可用于多频带分析中。

在Jensen的方法中，参数包络描述是针对信号的单个谱分量来计算的。针对他的任务对该方法进行了最优化，因为他关注的是例如钢琴、长笛、小提琴等的(准)和声乐器。但当还遇到非和声或者和声与非和声混合的声音时，就应该采用使用了更宽频带的多频带分析，其中所有频带一起覆盖从0到22050Hz的整个频率范围。为此目的，该算法利用滤波器组(具有ERB-率缩放的带宽和近似矩形频带的线性相位FIR滤波器)对信号进行滤波，并且针对每个滤波器输出单独计算A-D&S-R参数。

所实现的特征提取算法在一些初步的实验中用单一乐器声音进行了测试，并且获得了良好的结果。为了将所实施的特征提取算法用于复调音乐中，需要执行下列步骤：

1.将连续的音乐或音频流切分成起始于发端终止于下一开端的片断。

2.应用A-D&S-R逼近，并计算用于估计每个音频片断的打击性的特征。

为了将连续的音频切分成有用的片断，该扩展算法必须检测音频流中的开端，然后以使得所述逼近能适当工作的方式在这些开端附近进行剪切。为了进行开端检测，它使用了由Schrader实现的可用方法(Detecting and interpreting musical note onsets in polyphonicmusic(检测和解释复调音乐中的音乐音符开端)，masters thesis，department of electrical engineering，TU Eindhoven，2003)，该方法给出了开端的时刻。由于所检测的时刻经常更多地指向开端的中部，因此该算法必须在更早的合适点处剪切音频流。为此目的，它计算感兴趣信号区的平滑包络，并且将下一个极小值选作所期望的剪切点。

除了实现上述切分功能之外，还必须对该逼近算法进行修改，因为其用于单个乐器的第一版本难于处理所提取的音频片断。原因在于，用于检测soa和eoa的包络准则并不适用于音频片断。考虑这些准则借助于具有“暂停-声音-暂停”结构的音频文件而导出。那么，在soa和eor点处的包络声级相对于最大声级就相当低了。但是对于所提取的音频片断而言，在soa和eor点处的声级要高得多，因为至少如果对于整个频率范围而言只使用了一个频带，那么在复调音乐中在两个相邻的开端之间几乎不存在信号暂停。因此，用考虑了音频片断的最小包络声级的修正项来对这些包络准则进行扩展。

根据所导出的A-D&S-R参数，计算出那些看起来适合本发明分类任务的特征的扩展列表：

●分组1：每A-D&S-R阶段的低级特征(单个频带计算)：

-阶段的时程(“t”)

-阶段的起始和终止点之间的级差(“d”)

-阶段的陡峭度(“d/t”)

●分组2：每A-D&S-R阶段的曲线形状描述(单个频带计算)：

-阶段的曲线形状参数n

-描述逼近曲线和实际信号包络之间误差的附加参数：它是基于图5的方程2.3中的误差函数的自相关函数(ACF)的参数。该参数是ACF的零位延迟点旁第一峰的高度。它描述了误差函数的周期性的“强度”，因而称作“误差正则性(errorregularity)”。

●分组3：描述这些阶段在每频带上的起始和终止点的异步性的特征(多频带计算)：异步性被定义为一个频带内的时刻sao、eoa、sor和eor与它们在所有频带上的平均值的偏差(滤波器组的所有滤波器都是具有相同阶次的线性相位FIR滤波器，这意味着它们都引起相同的恒定延迟。因此，此处测量的异步性实际上是信号分量的异步性)。对于这样计算的每频带的异步性值，计算两个标量特征：

-频带上的异步性平均

-频带上的异步性方差

●分组4：分组1特征的频带上的平均值，事先对每频带计算这些平均值(多频带计算)

●分组5：分组2特征的频带上的平均值，事先对每频带计算这些平均值(多频带计算)

●分组6：分组1特征的频带上的方差值，事先对每频带计算这些方差值(多频带计算)

●分组7：分组2特征的频带上的方差值，事先对每频带计算这些方差值(多频带计算)

●分组8：描述所有频带上分组1特征值的“形状”的特征：当每频带特征值被绘成听觉频带的函数时，形状表示每频带特征值的分布。该形状由类似于上述曲线形状参数和误差正则性参数的两个参数来描述：

-描述利用线性曲线逼近该形状的一个参数。该参数是所述线性逼近的梯度m。

-描述形状和线性逼近之间误差的正则性的一个参数。它的计算类似于误差正则性参数；它依据的是线性逼近和实际形状之间的ACF。

●对应分组2特征的形状参数。

除了前述可以有效处理允许在D&S阶段和R阶段之间有明显区别的声音(例如长笛声)的三阶段逼近之外，还可以使用二阶段逼近。该逼近对于这样的声音是有利的：所述声音只有一个衰减包络，这意味着D&S阶段和R阶段不能被有效地分开(例如鼓声)。因此，如果D&S阶段和R阶段合并成一个阶段，那么了解所述特征提取将如何工作是有意义的。有一种合并十分简单：所得的阶段起始于起音的终止点eoa，并且终止于释音的终止点eor。由于这个阶段描述了信号在A阶段之后的其余部分，因而将这个阶段称为起音-残余阶段(AR)。

当应用该二阶段逼近时，得到上述9个特征分组的变体。这样，涉及D&S和R阶段的所有特征都用AR阶段的相应特征替换。为了将它们与原始的三阶段逼近区分开来，这些分组用星号表示：“分组1^*”、“分组2^*”等等。注意到这些新分组中与A阶段有关的特征与原分组相同，因此不必再次进行计算。

此外，对于三个不同的频带数4、12和24，利用两种逼近方法计算了所有的多频带特征(分组3、分组4-9、分组4^*-9^*)。为了指明哪个频带数属于提到的特征分组，每个分组按照下列方式标记：“分组X.1”对应4频带；“分组X.2”对应12频带；“分组X.3”对应24频带。

在本发明的方法的一个实施例中，使用了一个两级过程以便确定内容项的类别和/或基调：

1.从音频流中提取声音事件(图2的步骤21)并且利用充分训练的分类器估计其打击性(图2的步骤23和25)。

2.在考虑的音频文件中计算这些打击性估计的辅助特征(如统计特征)(图2的步骤27)并且将这些辅助特征用于音频文件的最终分类(图2的步骤29)。

例如，如果一个音频流由大约80％的打击声音组成，另一个音频流由大约30％的打击声音组成，那么第一个音频流可能是拉丁音乐，而第二个音频流可能是古典音乐。

注意到该二级过程实际上是一种由两个分类级(预测打击性和预测音频类)组成的层级分类算法。当然，可以越过第一步骤，并将打击性特征直接用于对音频类进行分类。但是，这将导致所提取的声音事件的打击性的抽象表示。由于要将打击性作为用于音频分类的一种感性的特征，因而忽略了这种备选的一步分类方法。

下表列出了14种打击性预测器，即预测单一提取的声音的打击性的分类器：

这14种预测器使用了预选特征集合的不同组合和所述两种不同的分类标记方式。根据每音频文件的打击性预测，需要计算辅助特征以确定最终的音频分类。图2的两级过程可以由如下步骤来实现：

1.从音频文件的近似6秒长的片断中提取声音事件。

2.使用上述预测器预测每个提取的声音的打击性。

3.计算每音频文件的百分比，即声音分配给不同打击性分类的频度，例如，50％的打击性和非和声，30％的打击性和和声，20％的非打击性。

4.将这三个百分比中的两个用作辅助特征，因为第三个是选择的两个的线性组合(特征1+特征2+特征3＝1总成立)。

实验表明，如果使用了下列方法中的一个，那么就可将这些辅助特征用于确定内容项的类别，并得到良好的结果：

1.从其他音乐类别之中检测出一种音乐类别。

这意味着将一种音乐类别的音频文件分配给分类1，而将其余13种类别的音频文件分配给分类2。对于这些实验中考虑的所有14种类别可以重复该方法。

2.区分两种音乐类别。

这意味着对两种音乐类别进行分类，而排除其他音频文件。对于所有的音乐类别组合，可以重复该方法。

下表显示了从其他音乐类别之中检测出一种音乐类别的精度：

音乐类别	最佳预测器	平均性能
			古典	11	86.00±6.17％
爵士	11	68.86±8.28％
			流行	8	65.23±6.87％
乡村	3	63.24±13.83％
			民间	13	65.75±10.32％
新时代	6	77.29±12.07％
			电子	13	70.73±8.69％
拉丁	12	71.86±10.95％
			R&B	6	74.44±7.94％
摇滚	3	64.72±9.97％
			说唱	7	77.76±8.85％
雷盖	3	79.81±9.78％
			声乐	8	84.29±8.34％
随身听	8	74.18±13.48％

这个表表明，检测古典音乐和声乐的精度可达85％左右，接下来是雷盖(Reggae)音乐，其检测精度近乎80％。相比较而言，不能用所描述的打击性算法来合理地检测出流行、乡村、民间和摇滚音乐，因为它们的检测精度60-65％稍稍大于或然概率。

图6显示了一个含区分性能的矩阵。主对角线下方绘出的数字是每个分类对的平均区分精度，而主对角线上方的数字表示对应每个分类对的最佳预测器。得到的区分精度截然不同。对于一些音乐类别组合，几乎不可能进行区分(60％)，例如古典音乐对新时代音乐或者声乐，说唱音乐对电子音乐、拉丁音乐或R&B音乐。但是对于其他分类对，则得到了非常好的结果(90-99％)，例如古典音乐或新时代音乐对说唱音乐、雷盖音乐或电子音乐。

由于古典音乐或声乐之类的音乐类别通常仅由一些打击声音组成，而快板音乐或电子音乐之类的类别非常富于节奏(含许多打击乐器)，因而所述检测和区分结果是合理的。因此，所描述的打击性算法能够检测和区分至少一些音乐类别。为了保持清晰性和可见性，只列出/显示了每种情况中的最佳性能预测器的结果。

参照图7，本发明的电子设备51包括电子电路53。电子电路53可用于：从内容项中选择代表多个声音的数据；通过分析所述数据确定该多个声音中的每个声音的特性，每个特性代表了该多个声音之一的幅度的时间形态；根据该多个确定的特性确定该内容项的特性。

附加地或者可替换地，电子电路53可用于在多个内容项中搜索一个内容项，该多个内容项中的每个内容项与一个属性值关联，并且找出的内容项的关联属性值与所期望的属性值相似。所述每个内容项的属性值是所述每个内容项的特性或者基于所述每个内容项的特性。所述每个内容项的所述特性通过以下步骤来确定：从内容项中选择代表多个声音的数据；通过分析所述数据来确定该多个声音中的每个声音的特性，每个特性代表该多个声音中的一个声音的幅度的时间形态；根据该多个确定的特性确定该内容项的特性。

尽管在收到搜索查询后分析该多个内容项是可能的，但是通过保证在收到搜索查询前已经确定了特性可以使搜索执行得更快。如果所述搜索在个人集合中执行，以及所述搜索在服务提供者(例如网上商店)集合中执行，这是比较方便的。第一服务提供者提供了允许用户搜索多个内容项的服务，他可以请求第二服务提供者(或内容提供者)确定这些内容项的特性。

电子设备51可以是服务器PC、家用PC、媒体服务器、音频/视频(例如基于硬盘的)记录器或者便携式媒体播放器。电子电路53可以是通用处理器(例如Intel Pentium或AMD Athlon)或者专用处理器(例如Philips Nexperia IC)。电子设备51还可以包括存储装置55、输入端57和输出端57。存储装置55可以包括例如易失性或非易失性RAM、硬盘、光盘和/或全息存储介质。其特性被确定的内容项和/或内容项所被确定的特性本身可以存储在存储装置55上。输入端57可以是光或电(数字或模拟)输入端，可能用于接收视频以及音频。输出端57可以是光或电(数字或模拟)输出端，可能用于发送视频以及音频。输出端57还可以是用于再现所选择的内容项的再现装置。输入端57和/或输出端59可以包括一个或多个连接到家用网络和/或因特网的网络适配器。例如，服务器PC的输出端59可用来将歌曲(例如MP3文件)发送到消费电子设备(如家用PC)的输入端57。

虽然结合了优选实施例来对本发明进行描述，但应当理解的是，在上述原理内对其做出的修改对于本领域技术人员而言是显而易见的，因此，本发明并不限于这些优选实施例，而应当涵盖这种修改。本发明存在于每个新颖的特性特征以及这些特性特征的每种组合之中。权利要求中的附图标记并没有限制其保护范围。动词“包括”及其变体的使用并没有排除权利要求中没有列出的元素的存在。元素前冠词“一”或“一个”的使用并不排除存在多个这种元素。

对于本领域技术人员显而易见的是，“装置”是用来包括工作中执行或被设计来执行特定功能的任何硬件(例如分立或集成电路或者电子元件)或软件(例如程序或部分程序)，不管它独立起作用还是与其他功能结合，也不管它是孤立的还是与其他元件协作。本发明可以通过包括几个不同元件的硬件来实现，以及通过适当编程的计算机来实现。“软件”应当理解为指的是存储在计算机可读介质(如软盘)上、可经由网络(如因特网)下载或者可以任何其他方式销售的任何软件产品。

Claims

1.一种确定内容项的打击性度量的方法，包括步骤：

-从该内容项中选择(1)代表多个声音的数据；

-通过分析所述数据确定(3)该多个声音中的每个声音的多个阶段中的多个特性，每个特性代表该多个声音中的一个声音的时间包络的形态；

-根据多个所确定的特性来确定(5)该内容项的打击性度量，其中所述打击性度量基于所述多个声音在时间域的时间包络的参数描述；以及

-基于所述内容项的打击性度量来确定该内容项的类别和/或基调；

其中，确定(5)该内容项的打击性度量的步骤包括确定该内容项的第一打击性特征和第二打击性特征，确定(7)该内容项的类别和/或基调的步骤包括将该第一打击性特征与第一类别或基调的特性比较以及将第二打击性特征与第二类别或基调的特性比较。

2.如权利要求1所述的方法，其中确定(5)该内容项的打击性度量的步骤包括确定百分比。

3.如权利要求1所述的方法，其中确定(5)该内容项的打击性度量的步骤包括确定主乐器。

4.如权利要求1所述的方法，其中确定(3)该多个声音中的每个声音的特性的步骤包括确定该多个声音中的每个声音的第一阶段(A)的特性和该多个声音中的每个声音的第二阶段(D&S、R)的特性。

5.一种在多个内容项中搜索一个内容项的方法，该多个内容项中的每个内容项与一个属性值关联，找到的内容项和一个与期望的属性值相似的属性值关联，所述每个内容项的属性值是所述每个内容项的类别和/或基调，或者基于所述每个内容项的类别和/或基调，所述每个内容项的所述类别和/或基调是由权利要求1-4中任一项所述的方法确定的。

6.包括电路处理器(53)的电子设备(51)，该处理器包括(53)：

-用于从内容项中选择代表多个声音的数据的装置；

-用于通过分析所述数据确定该多个声音中的每个声音的多个阶段中的多个特性的装置，每个特性代表该多个声音中的一个声音的时间包络的形态；

-用于根据该多个所确定的特性确定该内容项的打击性度量的装置，其中所述打击性度量基于所述多个声音在时间域的时间包络的参数描述；以及

-用于基于所述内容项的打击性度量来确定该内容项的类别和/或基调的装置；

其中用于确定(5)该内容项的打击性度量的装置能够确定该内容项的第一打击性特征和第二打击性特征，用于确定(7)该内容项的类别和/或基调的装置能够将该第一打击性特征与第一类别或基调的特性比较以及将第二打击性特征与第二类别或基调的特性比较。

7.权利要求6所述的电子设备(51)，其中，该电路处理器(53)还包括：

-用于在多个内容项中搜索一个内容项的装置，该多个内容项中的每个内容项与一个属性值关联，找到的内容项和一个与期望的属性值相似的属性值关联，所述每个内容项的属性值是所述每个内容项的类别和/或基调或者基于所述每个内容项的类别和/或基调。

8.权利要求6或权利要求7的处理器(53)。