WO1995034884A1 - Analyseur de signaux - Google Patents

Analyseur de signaux Download PDF

Info

Publication number
WO1995034884A1
WO1995034884A1 PCT/JP1995/001154 JP9501154W WO9534884A1 WO 1995034884 A1 WO1995034884 A1 WO 1995034884A1 JP 9501154 W JP9501154 W JP 9501154W WO 9534884 A1 WO9534884 A1 WO 9534884A1
Authority
WO
WIPO (PCT)
Prior art keywords
cluster
membership
degree
vector
similarity
Prior art date
Application number
PCT/JP1995/001154
Other languages
English (en)
French (fr)
Inventor
Eiichi Tsuboka
Junichi Nakahashi
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US08/596,305 priority Critical patent/US6061652A/en
Priority to KR1019960700535A priority patent/KR100324988B1/ko
Publication of WO1995034884A1 publication Critical patent/WO1995034884A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Definitions

  • the present invention relates to a sound device.
  • HMM Hidden Markov Model
  • p matching a method using p matching. All of these methods are widely used as basic techniques of speech, but in these methods, the ability to reduce the amount of computation without deteriorating performance is important in creating large vocabularies and continuous sounds m ⁇ . For important issues
  • is considered to be one of the models that generate a time-series signal according to a certain stochastic property. ⁇ is used for recognition of words to be recognized ⁇ clauses, etc.
  • WM- ⁇ L hereinafter referred to as words
  • the recognition result is the word corresponding to the HMM with the highest degree.
  • FIG. 1 shows an example of an HMM.
  • represents the state of the system to be modeled by the HMM, ⁇ represents the direction of state transition, and Q i represents state i.
  • the state transition probability and the vector occurrence probability of the HMM are determined so that the behavior of the object to be modeled by the HMM (speech patterns such as words when used for speech recognition) can be explained as faithfully as possible. Is done.
  • Figure 2 shows an example of the configuration of an HMM that is often used in speech recognition.
  • the model L ( ⁇ I ⁇ ) generated by a model (named ⁇ ) with the observed vector sequence Y can be calculated as follows.
  • the occurrence probability bi m of the label me ⁇ 1,2, ..., M ⁇ for which y t is to be transformed by vector quantization is stored as a table for each state i.
  • Vector quantization is performed using a codebook.
  • X m (also known as the mean vector, centroid, or code vector) is stored in a form that can be used by Ravenore m.
  • a well-known clustering method is the LBG algorithm.
  • y t stated vector quantization is carried out by converting the y t to the nearest centroid of the label to it. Therefore, the degree of occurrence of y t in state i is mathematically expressed as
  • d (y t , Atm) is the distance between y t and m, and various things can be considered including the Euclidean distance.
  • FIG. 3 is a block diagram of a speech recognition apparatus using the separation ⁇ .
  • Numeral 301 denotes a feature extraction unit, which converts an input audio signal at a fixed time interval (called a frame) by a well-known method such as filter puncture, Fourier transform, or LPC analysis, for example, every 10 msec.
  • the input audio signal is a sequence of feature vectors.
  • T is the number of frames.
  • 302 is called a codebook, and holds a representative vector corresponding to each label in a form possible by the label.
  • Reference numeral 303 denotes a vector quantization unit that replaces each vector of the vector series Y with a label corresponding to a representative vector registered in the codebook that is closest to the vector sequence (encodes )
  • Reference numeral 304 denotes a parameter estimating unit for estimating HMM parameters corresponding to each word, which is a recognized vocabulary, from a learning sample.
  • HMM the structure of the HMM (the number of states and its transition rules) is determined appropriately, and then the label sequence obtained by uttering word r many times is The purpose is to determine the state transition probability in the lirta model and the occurrence probability of labels that occur with the state so that the degree of label sequence generation is as high as possible.
  • Reference numeral 30 denotes an HMM storage unit which stores the HMM obtained in this way for each word HI ".
  • Reference numeral 30 denotes a likelihood calculation unit, which is an unknown input to be recognized.
  • ⁇ ⁇ calculates the likelihood of each of the models stored in the storage unit 305 with respect to the label sequence.
  • a judgment unit and a likelihood calculation unit 30 The word corresponding to the model that gives the maximum value of the likelihood of each una model obtained in step 6 is determined as the recognition result.
  • the dashed line indicates the signal flow during HMM creation. is there.
  • the estimation error is, for example, as follows. Now, in the recognition vocabulary,
  • the word "The label sequence of the training sample corresponding to Osaka J does not necessarily include all the labels that exist in the codebook. Labels that do not appear in the label sequence of this training sample The probability of occurrence is estimated to be "0" in the learning process for the model corresponding to "Osaka". Therefore, in the label sequence corresponding to the word speech "Osaka J" uttered during recognition, there is a label that happens to be not included in the label sequence used to create the model of "Osaka". If (if the number of learning samples is small, this is likely to be sufficient),
  • FIG. 4 is a block diagram illustrating the general principle of the FV QZHMM.
  • the broken line indicates the signal flow when creating the HMM.
  • Reference numeral 401 denotes a feature extraction unit, which is the same as 301 in FIG.
  • Reference numeral 402 denotes a codepock, which is similar to 302 in FIG. 403 is a membership calculation unit, and ⁇ the feature vector is converted into a membership vector.
  • the vector is a vertical vector
  • T on the right shoulder indicates transposition.
  • u There are various possible types of u. For example,
  • Te V ⁇ , d (y t, m) is calculated for a minimum cluster force et K-th small ⁇ cluster (K-nearest neighbor). That is, the membership degree vector
  • the elements that form the le u t are the values calculated by (Equation 4) for the top K clusters with a high degree of membership, and 0 for the others.
  • 404 is a parameter estimation unit.
  • Reference numeral 405 denotes an HMM storage unit, which stores an HMM corresponding to each recognition unit such as a word or a syllable to be recognized.
  • Reference numeral 406 denotes a likelihood calculation unit that calculates the likelihood that the input speech of each tiffs ⁇ 3 ⁇ 4 3 ⁇ 4 ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ !
  • the phase ⁇ FVQZHMM discussed here defines ⁇ i (y t ) in principle as follows.
  • the reason why the FVQ type shows a higher recognition rate than ⁇ is because of the complementation effect of the learning sample at the time of parameter estimation.
  • This complementary effect works, for example, in the following manner. For example, consider the case where the probabilities that clusters ⁇ and ⁇ occur in state i are estimated from a training sample. In the case of defoaming, the vector to be quantized is classified as A if it is on the A side even if it is close to B even if it is a little smaller than the boundary, and it is classified as B if it is on the B side. Therefore, even though A and B were included in the same proportion as the group, there was a bias in the training sample, and especially in the vector near the boundary between A and B, A happened to be included in A.
  • the probability of occurrence of A is estimated to be larger than the probability of occurrence of B. If the number of training data in the codebook size is small, such a bias in the training data is likely to occur, and when the training sample and the evaluation data are independent, this bias does not always match the tendency in the evaluation data. , The recognition rate becomes worse.
  • Equation 9 can be efficiently calculated by dynamic programming. That is,
  • FIG. 5 is an example.
  • Reference numeral 51 denotes a feature extraction unit, which is the same as 301 in FIG. 53 is the mark.
  • the turn storage unit stores markers ⁇ and ⁇ corresponding to words. These markers ⁇ and ⁇ - turns are registered in the marker storage in advance as those converted to the characteristic vector sequence by the characteristic extracting unit 51 corresponding to the word to be recognized.
  • FIG. 5 indicates the connection used at the time of this registration, and at the time of recognition, the connection of this part is released.
  • Reference numeral 52 denotes a pattern matching unit.
  • Reference numeral 54 denotes a judgment unit which finds a word corresponding to a ° turn, which is a target that gives a minimum value (maximum value) of the distance (or similarity) between the ⁇
  • r * argmin [Di (r> / 2: w (x * (k))]
  • r * argmin [(D 2 (r) ) w ⁇ w * ") + ⁇ ' + w (K))) ]
  • x (k) ( t (k), j (k)) is the k-th grid point on the matching of Y and Y (r) in the grid graph (t, j).
  • the minimum value of the cumulative weighted distance between vectors with respect to X (l, K) is called the distance D (r) between Y and Y (r) . If the weighting factor w (x (k)) is properly selected, the calculation of (Equation 13) can be performed efficiently using dynamic programming (Dynamic Programming), and is called DP matching.
  • ⁇ (x (k)) min (x (k-1)) + w (x (k)) d (r) (x (k))]
  • the weighting factor is (Equation 17)
  • the principle of M property holds, and dynamic programming can be applied.
  • (1) is when the sum of the weighting factors is equal to the length of the input pattern (the number of frames)
  • (2) is when the sum of the weighting factors is equal to the length of the standard pattern
  • (3) is when the sum of the weighting factors is equal to the length of the standard pattern.
  • the sum is the input pattern and the target ⁇ . This is the case when it is equal to the sum of the turn lengths.
  • Equation 18 can be considered as one specific example of the recurrence equation in (Equation 16).
  • w (x (l)) + '"+ w (x (K)) is equal to the number of input frames T. Therefore, in this case, ⁇ in (Equation 14) is related to the target ⁇ and the turn. If you want to calculate which input pattern is closest to the turn, then normalize it with w (x (l)) + '"+ 0). In this case, as the d ( r ) (t, j), the Euclidean distance or, as a more simplified one, the city area distance is often used.
  • FIG. 7 is a block diagram showing a conventional example.
  • the feature extraction unit 71 is the same as that in FIG.
  • Reference numeral 73 denotes a codebook in which M labeled representative vectors are stored in a form possible by the label.
  • 74 is a vector quantization unit.
  • Reference numeral 7 denotes a word dictionary, which stores a standard pattern of a word voice to be recognized, which is converted into a label sequence by the above-described operation. This label is also known as onomatopoeia. Assuming that the pseudophoneme of the kth frame of the target rturn word r is s, a word to be recognized in the form shown in FIG. J (r) is the last frame (and thus the number of frames) of the standard pattern for word r.
  • 3 ⁇ 43 ⁇ 4 indicates a connection that is used only at the time of the authentication operation of the authentication word.
  • Numeral 7 2 is a distance matrix calculator, which calculates the distance of each output vector of the feature extractor 7 1 to the centroid of each cluster, and converts the distance into a vector having the distance as an element.
  • the feature vector sequence is converted into a distance vector sequence, that is, a distance matrix.
  • the distance matrix is as shown in 75, and the cluster of feature vector y t of frame t
  • y is the k-th element of the vector y t and the k-th element of the centroid vector / x m of / xm> 3 ⁇ 4C m .
  • FIG. 7 differs from FIG. 5 in that d (r t , m ) calculated in advance by referring to the distance matrix is used instead of d (r) (t, j) in the example of FIG. It can be calculated using DP exactly in the same way.
  • Reference numeral 78 denotes a judgment unit that calculates (Equation 14) and finally obtains a recognition result.
  • the calculation of the distance between y t and yw; in the example of FIG. 5 increases as the number of words increases.
  • the distance matrix 75 is calculated and calculated.
  • the amount of computation of d (r) (t, j) is invariant regardless of the number of words.
  • target should be done if you think the case of recognizing a 100 word 1 word mean 50 frames, characterized base vector as 10-dimensional, in the case of FIG. 5, the y t and distance calculation.
  • the number of clusters is M-256, it does not matter the number of words. 256 calculations are required, and the number of power calculations is 2560, which means that the latter requires about 1/20 of the former.
  • the input feature vector sequence has been described as being converted into a distance matrix.
  • the distance vector (d tl , ..., d tM ) T is a standard pattern onomatopoeia.
  • a second invention relates to an improvement of the SP LIT method, and applies the concept of FVQ to DP matching.
  • the third invention relates to a reduction in the amount of storage and computation in lif! SHMM and DP.
  • the fourth invention is to further reduce the amount of calculation at the time of recognition, particularly in the HMM.
  • the first invention assumes that the system to be analyzed has multiple states, clusters the feature vector space, and records each cluster's surrogate in a form that can be represented by the label.
  • a membership calculation means for calculating the posterior probability of the observed vector of each cluster, and a logarithmic value of the calculated membership of the itna observed vector to each cluster and a ⁇ cluster occurrence probability record Means for calculating the sum of products of the occurrence probabilities of each cluster stored in the memory means or an equivalent amount thereof, and calculating the degree of occurrence of the observation vector in each state of the system, and calculating the degree of occurrence of the observation vector.
  • the second invention clusters the feature vector space, and stores a codebook in which each cluster's proxy vector is stored in a form that can be ⁇ by its label, and a ⁇ ⁇ ⁇ ⁇ 1 ⁇ 2 cluster of the observation vector.
  • calculateate the degree of membership or the probability of each cluster in the lifia observation vector both will be referred to as the degree of membership
  • Standard pattern storage means for storing turns; and matching means for matching an input pattern consisting of the membership vector converted from the observation vector obtained as an output of the membership calculation means with the ttfia standard pattern. .
  • the feature vector space is clustered, and a codebook in which the representative vector of each cluster is recorded in a form that can be labeled with its label, and a cluster m in the state i of the HMM, the degree of belonging to the cluster m feature base vector of the i-th frame of reference pattern base vector in the probability or DP matching b, when the number of clusters and M, b, ⁇ . ⁇ , from the b iM size of turn ToTsuta the n b i. e (i. i ), b i. e (i. 2), ..., b i. e (i. M) (g (i, n) is greater in the n-th
  • the label of the cluster is the raw value or the logarithmic value of each log b K ⁇ i. I),
  • Replacement paper rules 26 And a memory for storing the information.
  • the fourth invention clusters the feature vector space, and stores a codebook in which the representative vector of each cluster is stored in a form that can be ⁇ in the label, and the probability of occurrence of each label in each state
  • the cluster occurrence probability storage means that stores the cluster occurrence probability (that is, the occurrence probability of each cluster), and the degree of membership of the observed vector to each t & IB cluster (the probability that each cluster has m "in the observed vector)
  • Means for calculating the degree of membership which calculates ⁇ , the calculated sum of ⁇ the degree of attribution of the observed vector to each cluster, and ⁇ the logarithmic value of the probability of occurrence of each cluster stored in the means for storing cluster occurrence probability.
  • an observation vector occurrence degree calculating means for calculating an equivalent amount thereof and calculating the occurrence degree of the observation vector in each state of the system, and in each state of tifiB line
  • the probability of occurrence of each cluster is estimated by using the tins observation vector occurrence degree calculation means, and at the time of recognition, the tins observation vector membership is set to 1, the maximum membership is set to 1, and the other memberships are set to Includes means to calculate so that all become zero.
  • the system targeted by » takes a plurality of states, clusters the characteristic vector space, and stores the representative vector of each cluster in a form that allows ⁇ with its label
  • the occurrence probability of each label ttna in each state is stored by the cluster occurrence probability storage means
  • the membership degree calculation means uses the ttiia codepook.
  • the degree of belonging of the observation vector to each cluster of lirfB (the probability of each cluster of ttria to the observation vector) is calculated, and the logarithmic value of the degree of belonging of the observation vector to each calculated cluster and the generation of the liflB cluster are calculated.
  • the product sum with the occurrence probability of each cluster stored in the probability storage means or an equivalent amount is calculated by the observation vector occurrence degree calculation means.
  • the input signal is converted into a sequence of feature vectors by the feature extraction unit, and the vector of the vector sequence is stored in the cluster storage unit by the membership calculation unit.
  • the degree of membership to each cluster to which the vector is to be classified is calculated, and the degree of membership of the Itfia vector to each cluster is calculated by the pattern storage means, and each recognition to be recognized is calculated.
  • Each of the marks represented by the vector sequence is stored by a matching means, and the matching means matches the input pattern composed of the vector pattern of the degree of membership obtained as an output of the means for calculating the degree of membership with the target turn. is there.
  • the HMM includes a cluster occurrence probability storage unit, and the cluster occurrence probability storage unit sets the occurrence probability of cluster m in state i to bi m and the number of clusters to M, B i. E (i , i), b i. «(I. 2) b i .. (i. R) (g (i, r) is the r-th largest cluster ) Is the value as is or the logarithmic value of log b i. ⁇ (,. I), log b i., (I. 2), ⁇ , log b i. E (i.
  • a feature vector space is clustered, and a representative vector of each cluster is provided with a label; a codebook stored in a form that can be used is provided.
  • 3 Occurrence probability of each label in the state (accordingly, the occurrence probability of each cluster) is stored, and the membership degree calculation means uses the codebook to ⁇ ⁇ the degree of membership of the observed vector to each cluster (3 ⁇ 4 ⁇ 2 The posterior probability for the observed vector) is calculated, and the observed vector occurrence degree calculating means is stored in the calculated degree of belonging of the observed vector to each cluster and the cluster occurrence probability storage means.
  • FIG. 1 is an explanatory diagram of an HMM.
  • FIG. 2 is an exemplary diagram of an HMM that is often used in speech recognition.
  • FIG. 3 is a block diagram showing a conventional example of a speech recognition apparatus using the separation ⁇ .
  • FIG. 4 is a block diagram showing a conventional example of a speech recognition apparatus based on ⁇ based on fuzzy vector quantization and an embodiment of the present invention.
  • FIG. 5 is a block diagram of an example of a voice recognition device using pattern matching.
  • FIG. 6 is an explanatory diagram showing an example of a constraint condition of a matching path of 0 P matching depending on an input pattern axis.
  • FIG. 7 is a block diagram illustrating an example of a sound recognition device using vector quantization.
  • FIG. 8 is an explanatory diagram of one method of word spotting.
  • FIG. 9 is a block diagram showing an embodiment of a speech recognition device based on DP matching according to the present invention based on fuzzy vector quantization.
  • FIG. 10 is an explanatory diagram showing an example of a constraint condition of a matching path in the input pattern axis-dependent DP matching.
  • FIG. 11 is an explanatory diagram showing an example of a constraint condition of a matching path of the DP matching of the input pattern axis dependent type.
  • FIG. 12 is an explanatory diagram showing an example of a constraint condition of a matching path of the DP matching of the input pattern axis type.
  • FIG. 13 is an explanatory diagram showing an example of a constraint condition of a matching path in DP matching depending on an input pattern axis.
  • FIG. 14 is an explanatory diagram showing an example of a constraint condition of a matching path in an input pattern axis-dependent DP matching. .
  • FIG. 15 is an explanatory diagram showing an example of a constraint condition of a matching path in the standard pattern axis-dependent DP matching.
  • FIG. 16 is an explanatory diagram showing an example of a constraint condition of a matching path of DP matching depending on a standard pattern axis.
  • FIG. 17 is an explanatory diagram showing an example of the constraint condition of the matching path of the mark turn axis-dependent DP matching.
  • FIG. 18 is an explanatory diagram showing an example of a constraint condition of the matching path of the target axis-dependent DP matching.
  • FIG. 19 is an explanatory diagram showing an example of a constraint condition of a matching path in the standard pattern axis-dependent DP matching.
  • FIG. 20 is an explanatory diagram showing an example of a frequently used standard pattern axis-dependent DP matching matching crane.
  • FIG. 21 is an explanatory diagram for explaining a method of storing the occurrence probability of a cluster in each state in the HMM according to the present invention or the degree of belonging of a feature vector to a cluster in a standard pattern in DP matching according to the present invention.
  • FIG. 22 is an explanatory diagram illustrating a method of storing the probability of occurrence of a cluster in each state in the HMM according to the present invention or the degree of membership of a feature vector in a standard pattern in a DP pattern according to the present invention.
  • FIG. 23 is an explanatory diagram for explaining a method of storing the degree of belonging to a cluster of feature vectors in an input pattern in the HMM according to the present invention or the DP matching according to the present invention.
  • FIG. 24 is an explanatory diagram illustrating a method of storing the degree of membership of a feature vector to a cluster in an input pattern in an HMM according to the present invention or in DP matching according to the present invention.
  • Equation 7 can be derived in this way. This is the principle of the synergistic FVQZHMM.
  • t-S calculates t-S (X) for every X
  • the maximum * 51 state sequences are obtained by dynamic programming. That is, by moving the end frame t within an appropriate range, and further selecting from among the ends, the end of ft3 ⁇ 4 starting from s is obtained.
  • the end range is set in advance based on, for example, the average length of the vector sequence in which the HMM to be compared with the start s is generated.
  • ⁇ J + 1 (m (J + 1)) obtained in the range is the end frame 1 when the starting frame of the input pattern is s; . That is, in this way, the result for one end frame s and the end frame for soil V are obtained at a time.
  • the starting point must be changed for each frame, and ⁇ calculation must be performed for the range of ria diagonal lines ⁇ , and the amount of calculation is extremely large.
  • the starting frame may be automatically determined by dynamic programming. To do so, we transform the recurrence equation (Equation 10) as follows.
  • the parent state sequence corresponding to...: is ⁇ +! , ...,
  • x * m- j (j ⁇ i)
  • the partial pattern y s ".., y m - the state series of the corresponding a is, X * s, ⁇ ⁇ ⁇ , X" be said to match the must e words. That is, ⁇ ; ( ⁇ ') is the degree to which the partial pattern y s , ..., y m .
  • W i , W i , + w di , + w ai , + ⁇ Wbi (k) '
  • Wi Wi , Wdi, wai, w bi (k), w di '
  • W i is the state sequence X, ⁇ ⁇ ⁇ , of xz (i) to along weighting factor ⁇ Ro, Wi, state series xs is ', ..., x m -, stomach)'..
  • ⁇ i (t) max [ ⁇ i (t— z) + log dur ⁇ (z) + iog a u
  • ⁇ , + 1 (includes the right-hand 3 ⁇ 4 final term and the second term from the right term, regardless of the state sequence, Is an amount that is determined when the model to be matched is determined, irrespective of the input pattern, and is not related to the problem of maximizing this equation, so it is unnecessary when finding the optimal section of the input pattern.
  • WiCyt can be redefined as follows:
  • FIG. 9 is a block diagram showing the principle of the present invention.
  • 91 and 93 operate in the same manner as 71 and 73 in FIG.
  • Reference numeral 92 denotes a membership matrix calculation unit, which corresponds to the distance matrix calculation unit 72 in FIG. 7.
  • the membership matrix is calculated. That is, ⁇ Ru degree of membership to a cluster Cm feature vector y t u tm (m Is calculated.
  • a membership function used in fuzzy theory or the like can be used. In this case, the same one as used in liftaFVQZHMM, such as (Equation 4), is used.
  • Reference numeral 95 denotes a word dictionary, which consists of membership matrices registered in advance for each word to be recognized. That is, the mark 3 ⁇ 4p ⁇ e- turn of the r-th word is used as the membership matrix obtained by the membership matrix calculation unit 92 for the utterance.
  • the degree of belonging of the j-th frame to the cluster m in the standard pattern of the word r is represented by b (r) im .
  • 96 is a membership matrix for words 1, ..., R.
  • the similarity is It can be given by the Kullback-Letbler divergence known as the distance between probability distributions. That is, the divergence between the distribution (QI, ..., QM) and (P..., PM) is
  • Equation 45 (1) is a useful distance definition when the weighting coefficients of (Equation 17) and (1) are adopted, and (Equation 45) and (2) adopt the weighting coefficients of (Equation 17) and (2) (45) (3) is a useful distance ⁇ when considering the nature of distance.
  • a constant signal can be used in the case of the addition form, and a fixed ⁇ ⁇ can be used in the multiplication form.
  • a matching unit 94 performs DP matching between each of the membership matrices corresponding to each word registered in the word dictionary 95 and the membership matrix obtained from the input pattern. That is, based on the inter-frame distance dw (t, j) shown in (Equation 45), the recurrence equation (Equation 18) is calculated, and the cumulative distance D ( r ) Is calculated. 97 is a judgment unit, which calculates (Equation 14) and calculates the recognition result.
  • the distance between frames is the distance between frames
  • the numerical values attached to the side of the path in each figure are examples of weighting factors along the path in each case.
  • Equation 48 The first term on the right side is the method of selecting, the target ⁇ ,. It is independent of any of the turns, and is determined only by the input pattern. Therefore, it can be omitted when only the magnitude relation between the results of each target ip ⁇ turn and the input pattern is considered. Therefore, if this section is omitted and the sign is changed,
  • the matching unit 94 calculates the similarity between frames s (r) (t, j) shown in (Equation 50).
  • the distance between frames is the distance between frames
  • x (k—m) (t—m, j)
  • Equation 56 the first term on the right-hand side of (Equation 56) is independent of how to choose and any section of the input pattern.
  • the amount is determined only by the turn (marker, this amount at turn r is C (f) ). Therefore, a certain target,. This can be omitted when only the magnitude of the comparison result between the turn and various sections of the input continuous word voice pattern or the various input patterns is considered. Therefore, omitting this section and changing the sign,.
  • the matching unit 94 calculates the inter-frame similarity s w (t, j) shown in (Equation 58).
  • the basic idea is that when reducing the amount of memory, the degree of belonging of the standard pattern is stored in the top N and M, and when reducing the amount of calculation, the degree of belonging of the input pattern is top K ⁇
  • ⁇ (r) i (y), for u tm and b (r) im the following methods can be considered to reduce the storage amount.
  • subscript g (r, j, n) means the cluster name (number) of the HMM r that has the nth occurrence probability of the cluster in the i-th state, and b (r) j.
  • the probability of occurrence of the cluster g (r, j, n) in the j-th state, and h (t, k) means the name of the cluster whose feature vector of the t-th frame of the input pattern has the k-th degree.
  • t. h. refers to the degree of membership of y t for the cluster h (t, k).
  • ⁇ (r> j (yt) ⁇ U t, z (r. j .n) lOg b ( ⁇ ) j, e (r. j, n )
  • ⁇ (r) j (yt) ⁇ u t. h (t. k) log b (r) h ( [, k)
  • the first method, the second method, the (3.2) of the third method, and (4.2) of the fourth method calculate the probability of cluster occurrence in each state of the HMM (the degree of membership as a word standard pattern in the DP). ) For each state of the HMM (each frame of the standard pattern of the DP), instead of writing HI for all clusters, give the probabilities of the clusters with the highest probability (attribution degree) up to the Nth rank. Labels and probabilities for clusters
  • FIG. 21 an HMM (standard pattern) corresponding to the r-th word is shown in FIG. 21 or FIG. Fig. 21 can be used when the similarity is defined by (Equation 67) (Equation 70), and Fig. 22 can be used when the similarity is defined by (Equation 64) (Equation 73).
  • the first method (1.2), the second method (2, 2), the third method, and the fourth method are The first method (1.2), the second method (2, 2), the third method, and the fourth method
  • Equation 78 requires the fraction calculation of: ⁇ M times, but the order of the size of u tm and the order of the size of d (y t , m) are the same. All clusters for d (y t, / i m ) is calculated and the calculation of u tm (several 79) i) is, d (y t, may be performed with respect to the cluster of the lower K of Am). Or, for simplicity, one way is to: For example,
  • the degree of membership calculation means calculates the degree of membership from the distance between the observation vector for which the degree of membership is to be calculated and each cluster's proxy vector. Sorted in order of magnitude, clusters below the K + 1 rank are assumed to be a fixed value of 1ZK or less, and for clusters of K in order of decreasing distance, the sum of the degree of membership from the individual distances and ⁇ —constant values for clusters of K Is calculated to be 1.
  • the amount of computation be as small as possible in the case of recognition, regardless of whether a model is created;
  • the meaning of the FV Q type is to reduce the insufficient number of training samples when learning the parameter of ⁇ , rather than to reduce the quantization distortion due to vector quantization by interpolation. The effect of increasing the parameter estimation accuracy is greater.
  • the input pattern and the mark ⁇ , ⁇ , ⁇ , ⁇ , ⁇ ⁇ , ⁇ ⁇ are compared based on the comparison of the membership vectors. Turn comparisons can be made. In this case, too, the number of frames of the standard pattern is adjusted to the number of frames of the input pattern.
  • the similarity definition in (Equation 7) can be used. If it expands and contracts linearly to match, you can use the altar of (Expression 4 3).
  • the first aspect of the present invention it is possible to provide an HMM device capable of performing accurate code spotting with a small amount of calculation using a distance measure called Kullbach-Leibler Divergence.
  • a feature vector belongs to only one cluster.
  • a feature vector belongs to a plurality of clusters in an ffl combination corresponding to the degree of belonging to each cluster, or the feature vector of each cluster. It is assumed that they belong at a ratio corresponding to the posterior probability for the vector, and the similarity between frames is a probabilistic distance scale based on the degree of membership. This makes it possible to realize a pattern comparison device that requires only a small increase in comparison with the above.
  • the N-th order is stored in the order of the probability, and the rest are equal. By storing one common value as a probability, the required storage capacity can be greatly reduced.
  • the model is created as a phase FVQZHMM, and the recognition is performed as a discrete HMM. Can realize a device that requires only a small amount of calculation.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

明 細 書
技術分野
本発明は、 音^:識装 の信" 装置に関するものである。 背景技術
音 ^識を行う方法として、 HMM (Hi dden Markov Model) を用いる方 pマッチングを用いる方法が知られている。 何れも音 識の基本技術として多 用されているが、 これらの方式において、 性能を落とすことなく如何に計算量を 減ずる力と言うことは、 大語彙化や連続音 m ^を魏する上で重要な問題の
3である。 この問題の解決法の一^ 5としてべクトル量子化を用いるものが既に 提案されている。 本願発明は、 この改良に関わるものである。 そこで、 本題には いる前に、 先ず、 HMMと D Pマッチングの一般的な説明と、 HUBベクトル量子 化の技術が如何なる形で用いられているかと言うことを説明する。
ΗΜΜは、 ある確率的性質に従って時系列信号を発生するモデルの 1つである と考えられる。 ΗΜΜを用いた音^^識は、 認識すべき単語^^節、 等の認 WM-^L (以後代表的に単語とする) r (= 1,.. .,R)に対応して HMM rを設け ておき、 ベクトル系列 Y Cy y ^ . - ^ y T) ( y t:時点 tで観測されるべクト ル) が観測されたとき ItflB各 HMM rから Yの発生する度合を計算し、 その度合 が最大の HMMに対応する単語を認識結果とするものである。
図 1は、 HMMの一例を示すものである。 〇はその HMMでモデル化しようと するシステムの状態、 →は状態の遷移の方向、 Q iは状態 iを表す。 状態 i力ゝら状
差替 え 用紙(規則 26) 態 jへの遷移は確率 a i jで生じるとする。 状態とその遷移確率のみが^ ¾されて いる はマルコフ と呼ばれるが、 HMMではさらに、 各状態遷移にともな つてベクトルが発生するとし、 状態遷移 Q i—cijに伴って、 ベクトル yが発生す る度合 ωϋ(3τ)が定義されている。 yが状態の遷移に伴ってではなく、 状態に伴 って発生するとして0> ; 3 = 0) )=(^ )、 または0> 1』 )=0)』』 )= o> j(y)とする場合も多い。 本願では、 状態にともなって yが発生するものとして 説明する。 ここで、 HMMの構 状態遷移確率、 ベクトルの発生確率は、 その HMMでモデル化しようとする対象 (音声認識に用いる場合は単語などの音声パ ターン) の挙動をできるだけ忠実に説明できるように決定される。 図 2は音声認 識でよく用いられる HMMの構成の 1例である。
ある HMMが されると、 観測ベクトル系列 Yがあるモデル (λと名付ける) 力ら発生する度合 L (Υ I λ)は次のようにして計算できる。
(数 1)
L(Y\ l)=∑ πΧι II a xtxt+1 o)Xt(yt)
X t-1 t-=l
ここで、 !, …, て")は状態系列、 は t =lで状態 iである確率 である。 このモデノレでは、 xte{l,2 J,J + 1}であって、 xT+1=J + l は; ft 状態であるとしている。 最終状態では、 そこへの遷移のみ起こり、 そこで はべクトルの発生はないものとする。
HMMには大きく分けて連顧と離 βがある。 連顧は ω i (y)は確率密度関 数等の yの連続関数であつて、 y tの発生度合は y = ytのときの o) i(y)の値とし て与えられる。 状態 i毎に o> i(y)を規定するパラメータが^されており、 yt を o> i(y)に代入することによって、 状態 iでの ytの発生度合が計算される。 例
¾替 え 用 ¾ (規則 26) えば、 ω i (y)を多次元の正規分布で与えるものとすれば、
(数 2)
ω i
Figure imgf000005_0001
y; β i ,∑ i)
であって、 状態 iで規定される ttfia関数のパラメータは iと∑ iである。
離觀は、 べクトル量子化により y tが変換されるべきラベル me {1,2,..., M}の発生確率 b i mが状態 i毎にテーブルとして記憶されており、 状態 iでの y【 の発 合は、 ytの変換されたラベルが mであるときは、 bimとするものである。 ベクトル量子化はコードブックを用いて行われる。 コードブックは、 そのサイ ズを Mとするとき、 学習サンプルとして集められた特徴べクトルを 1, 2,…,M のクラスタにクラスタリングし、 クラスタ m (=1 , 2,...,M) の代表べクトル
(平均ベクトル、 セントロイド、 コードべクトノ とも呼ばれる) xmをラベノレ m で職可能な形で記憶したものである。 クラスタリング法としては L. B.G.アル ゴリズムと呼ばれる方法がよく知られている。 y tのべクトル量子化はそれに最も 近いセントロイドのラベルに ytを変換することによって行われる。 従って、 yt の状態 iにおける発生度合は、 数式的には
(数 3)
o> i(y t) [d y t, z m)]
Figure imgf000005_0002
で与えられる。 d(y t,Atm)は y tと mとの距離であって、 ユークリッド距離を始 めとして種々のものが考えられる。
図 3は、 離 βΗΜΜを用いた音 識装置のブロック図である。 301は特 徴抽出部であって、 入力音声信号をフィルタパンク、 フーリエ変換、 LPC分析 等の周知の方法により、 一定時間間隔 (フレームと呼ぶ) 例えば 10msec毎に特
差替 え 用紙 (規則 26) 徴べクトルに変換する。 従って、 入力音声信号は特徴べクトルの系列
y 2,' ' ',yT)に変換される。 Tはフレーム数である。 3 0 2はコードブックと呼 ばれるもので、 ラベルにより 可能な形で各ラベルに対応した代表べクトルを 保持している。 3 0 3はベクトル量子化部であって、 前記ベクトル系列 Yのそれ ぞれのべクトルをそれに最も近い、 前記コードブックに登録されている代表べク トルに対応するラベルに置き換える (符号化する) ものである。 3 0 4はパラメ ータ推定部であって、 学習サンプルから認識語彙たる各単語に対応する HMMの パラメータを推定するものである。 即ち、 単語 rに対応する HMMを作るには、 先ず、 HMMの構造 (状態数やその遷移規則) を適当に定め、 然る後に単語 rを 多数回発声して得られたラベル系列から、 それらラベル系列の発生度合が出来る だけ高くなるように、 lirtaモデルにおける状態遷移確率や状態に伴って発生する ラベルの発生確率を求めるものである。 3 0 5は HMM記憶部であって、 このよ うにして得られた HMMを各単語毎に記 HI"るものである。 3 0 6は尤度計算部 であって、 認識すべき未知入力音声のラベル系列に対し、 ΙίίΙΒΗΜΜ記憶部 3 0 5に記憶されているそれぞれのモデルの前記ラベル系列に対する尤度を計算する ものである。 3 0 7は判定部であって尤度計算部 3 0 6で得られた unaそれぞれ のモデルの尤度の最大値を与えるモデルに対応する単語を認識結果として判定す るものである。 図 3において、 破線は HMM作成時の信号の流れを示すものであ る。
連 ΗΜΜは、 各状態における観測べクトルの発^ S合はそこに定義された 確率密度関数によって与えられ、 離 tfcMより精度は高いが多量の計算を必要とす ると言う問題がある。 一方、 離 t^HMMは、 観測ラベル系列に対するモデルの 尤度の計算において、 各状態でのラベル m (= 1 , · · · ,Μ) の発生確率 b i mはラベ
差替 え 用紙 (規則 26) ルに関連して予め記憶されている記 置から読み出すことで実行できるから計 算量が非常に少ないと言う利点があるが、 量子化に伴う誤差のため、 認»度が 連 より悪くなると言う欠点がある。 これを避けるためにはラベル数 Mを多く する (コードブックサイズを大きくする) 必要があるが、 その増加に伴ってモデ ルを学習するために必要となる学習サンプル数が膨大になる。 学習サンプル数が 不十分な は、 itriEb i mの推定値が頻繁に 0になることがあり、 正しい推定が 出来なくなる。
この推定誤差は、 例えば、 次のようなものである。 いま、 前記認識語彙の中に、
Γ大阪 J と言う単語音声があつたとして、 これに対応するモデルを作る場合を考 える。 多数話者が発声した単語 「大阪 J に対応する音声サンプルが特徴べクトル 系列に変換され、 各々の特徴べクトルが itiiaのようにしてラベルに変換される。 このようにして、 前記 r大阪」 に対する各々の音声サンプルは、 それぞれに対応 したラベル系列に変換される。 得られたラベル系列から、 それらラベル系列に対 する尤度が最大になるように HMMのパラメータ { a u , b i m} を推定すること により、 単語 Γ大阪 j に対応する離散型 HMMが出来上がる。 この推定には周知 の Baum-Wel ch法等を用いることが出来る。
この;^、 単語 「大阪 J に対応する学習サンプルのラベル系列の中には、 コ一 ドブックに存在する全てのラベルが含まれるとは必ずしも言えない。 この学習サ ンプルのラベル系列に現れないラベルの発生確率は 「大阪」 に対応するモデルに おいては学習の過程で " 0 " と推定される。 従って、 認識の時に発声される 「大 阪 J と言う単語音声に対応するラベル系列の中に、 たまたま前記 「大阪」 のモデ ルの作成に用いたラベル系列には含まれていないラベルが存在する場合 (学習サ ンプル数が少ないときはこのことは十分有り得る) 、 この認識時に発声された
差替 え 用紙(規則 26) Γ大阪 J のラベル系列が難学習された Γ大阪 j のモデルから発生する度合は " 0" になってしまう。 ところが、 このような場合でも、 ラベ Λとしては異なって いても、 ラベルに変換される前の特徴べクトルの段階ではモデルの学習に用いた 音声サンプルとかなり近く、 ベクトルの段階で見れば十分 Γ大阪」 と認識されて しかるべき場合がある。 もともと同じ単語を発声しているのであるからべクトル の段階では似通っているはずであるが、 それらのベクトルが、 変換されるべきラ ベルのクラスタの境界付近にある場合は、 べクトルの段階では僅かの差でも、 全 く異なったラベルに変換されてしまうということは十分起こり得る。 このような ことが認 度に悪影響を及ぼすことは容易に想像がつく。 コードプックサイズ Mが大きくなる程、 学習サンプル数が少ない程このような問題は頻繁に生じるこ とになる。
この欠点を除去する方法の 1つとしてフアジィべクトル量子化に基づく HMM (FVQ/HMM) がある。 中でも電 報通信学会技術報告 S P 9 3— 2 7 · ( 1 9 9 3年 6月) に されている相 ^ F VQ/HMMは優れた性能を示す ものとして注目に値する。
図 4は F V QZHMMの一般的な原理を説明するプロック図である。 同図にお いて破線は HMMの作成時の信号の流れを示す。 4 0 1は特徴抽出部であって、 図 3の 3 0 1と同様なものである。 4 0 2はコードプックであって図 3の 3 0 2 と同様のものである。 4 0 3は帰属度算出部であって、 ΙίΤΐΒ特徴べクトルは帰属 度べクトルに変換される。 帰属度べクトルは、 各時点における特徴べクトルの、 各クラスタに る帰属度を要素とするべクトルであって、 時点 tにおける特徴 ベクトルを y t、 !^クラスタを。 ...,。!^ y tの Cmに る帰属度を u t mと すれば、 y tは帰属度ベクトル u t = (u t l , . . .,u t M) Tに変換される。 以後本願に
え 用 紙 (規則 26) おいてはべクトルは縦べクトルとし、 右肩の Tは転置を表すこととする。 u の 錢としては種々考えられるが、 例えば
(数 4)
[d(yt, m)/d(yt,/in)] 2/ (p一 " と^ ¾でさ o (J. G. Bezdek: 'Pattern Recognition with Fuzzy Objective Function Algorithm", Plenum Press, New York (1981).) 。 この式において、 F 〉 1はファジネスと呼ばれるものであって、 (数 5)
(1) F→l → u tm→ δ。 Lo
Figure imgf000009_0001
[d (y t , /i κ)] )
k
(2) F→∞ → u tm
M である。 ここに、 δ uはクロネッカーのデルタで、 i =jのとき S u=l、 i≠ 3のとき δ u = 0である。 F→lのとき ytはそれに最も近いセントロイドに対応 するクラスタのラベルを otとすると、 そのクラスタへの帰属度は 1、 他のクラス タへの帰属度は 0となるから、 これは通常のベクトル量子化となり、 F→∞とな ると、 何れのクラスタに対しても ytの帰属度は 1ZMで、 曖昧性が最大になると いうことを (数 5) は意味している。 他に帰属度の^ ϋとして、 ニューラルネッ ト他の手段を用いて y tに対する Cmの事後確率が算出できるときは、 その事後確 率とすることが出来る (以後は、 Γ 確率」 および 「帰属度 j は共に 「帰属度」 と呼ぶことにする) 。
後に述べる理由のために、 実際には、 una帰属度 u は、 全てのクラスタにつ
Vヽて計算されるものではなく、 d ( y t, m)が最小のクラスタ力ら K番目に小さ ヽ クラスタ (K-nearest neighbor) について計算される。 即ち、 前記帰属度べクト
差替 え 用紙(規則 26) ル utを形成する要素は、 帰属度の大きい上位 Kのクラスタに関しては (数 4) で 計算された値であり、 他は 0とされる。 404はパラメータ推定部である。 40 5は HMM記憶部であって、 認識すべき単語や音節等の各認識単位に対応した H MMを記旨るものである。 406は尤度計算部であって、 |ίί|2ベクトル量子化 部の出力に得られる帰属度べクトル系列から、 tiffs各 ΗΜΜの入力音声に ¾ "る 尤度、 即ち、 !!^特徵べクトルの系列 …, 丁が !!匪 r (r = l,..., R) それぞれから発生する度合 を計算するものである。 407は判定部であつ て、
(数 6)
r '= argmax [L r] を計算し、 を認難果とするものである。
尤度計算部 406は、 認 位 rに対応する尤度 L rを r = 1, ..., Rにつ ヽて (数 1) に従って計算するものであるが、 前記 o> i(y t)の定義の仕方によって種 々の HMMが ^される。 ここで取り上げている相 ^ FVQZHMMは、 ω i (y t)を原理的には次のように定義したものである。
(数 7)
10g <O i (y t) = _∑ U tm lOg b im
m
乗算形式で書けば ω,(γ t) = IT b imU tm
m
前記のように実際には (数 7) における mに関する加算または乗算は帰属度の上 位 Kクラスタのみで行われるものであり、 この場合は、 (数 7) は (数 8) のよ
. (規則 26) うになる (以後、 加算形式で説明する。 )
(数 8)
K
log ω Υ tj= ∑ u t ,h (k) log b i. h (k)
k-l
ただし、 h(k)は ytが k番目に帰属度の高いクラスタ名である。 帰属度を (数 4) で錢するときは、 小さい順に k番目までの d(yt,/zm)に関して (数 4) を計算 すれ ヽ。 この;^^、 u t ,h in H hut,h (K) = l、 u t , h (κ+1) =· · · = u h となる。 (数 8) のように (数 7) における加算は帰属度の上位 K クラスタのみで行われるのは、 計算量の削減も勿論であるが次のような理由にも よる。
FVQ型が離 βに比べて高い認識率を示すのは、 バラメータ推定時における 学習サンプルの補完効果のためである。 この補完効果は例えば次のような形で効 いて来る。 例えば、 クラスタ Αとクラスタ Βが状態 iで発生する確率を学習サン プルから推定する場合を考える。 離霞の場合は、 量子化されるべきべクトルは いかに Bに近くてもその境界より少しでも A側にあれば Aに類別され、 少しでも B側にあれば Bに^^される。 従って、 団としては A, Bが同じ位の割合で 含まれていても、 学習サンプルでは偏りがあって、 特に A, Bの境界付近のべク トルでたまたま Aに含まれるものが多かったために、 Aの生じる確率が Bの生じ る確率よりも大きく推定されてしまうと言うようなことが起こり得る。 コードブ ックサイズに る学習データ数が小さいとこのような学習データの偏りが起こ り易くなり、 学習サンプルと評価データが独立である場合は、 この偏りは評価デ ータの傾向とは必ずしも一致しな 、から認識率は悪くなる。
—方、 FVQ型の場合は、 ベクトルの帰属度に応じて Aばかりでなく Bも発生
差替 え 用紙(規則 26) しているとしてそれらの出現確率を計算することになるから、 上のような学習サ ンプルに対しては、 Aの発生確率の方が 高く推定されるにしても、 Bの発生 確率もその帰属度に応じて推定されることになり、 離 βほどには極端な推定誤 差は生じない。 これは、 FVQ型とすることにより学習サンプルに対して補完が 行われる、 言い換えれば近似的に学習サンプルを増やしていると言える。 このこ とが、 特にコ一ドプックサイズの大きいところで F V Q型の認識率が離 βの認 識率を上回る理由である。
ところが、 FVQ型は学習サンプル数の不足を補完すると言っても、 これは飽 くまで与えられた学習サンプルそのものから見かけ上近似的に学習サンプル数を 増やすと言うことであって、 実際の学習サンプル数を増やすと言うこととは些か 異なる。 従って、 コードプックサイズが小さくなつて各クラスタに る学習サ ンプル数が相対的に増加し、 b i mの推定精度が十分に上がって来ると、 補完の仕 方によっては、 下手に補完をするよりも補完をしない離散型の方が F VQ型より も認識率が高くなる、 もしくは同程度になるということは十分有り得る。
この補完の程度は、 コードブックサイズゃフアジイネスと共に Kの値如何によ つて影響を受ける。 K= lに近づくにつれて、 即ち、 離画に近づくにつれて補 完の影響は小さくなり、 Κが増加するにつれて補完の影響は大きくなる。 従って、 フアジイネスを固定したとき、 Κによつて補完の程度をコントロールすることが 出来る。 即ち、 Κは無闇に大きくすることはかえつて良くなく、 離匿に る、 F V Q型による認識率の改善量を最大にすると言う意味で、 コ一ドプックサイズ に応じて Kには 値 K。が存在する。 実験によれば、 不特定話者による 1 0 0都 市名の認識にお Vヽて、 コ一ドブックサイズ 2 5 6に対しては K = 6が最適値、 コ 一ドブックサイズ 1 6に対しては K = 3が最適値であった。
差替 え ffi紙 (規則 26) このように、 FVQ型は、離觀に比べれば、認識時に (数 8) を計算する必 要があるから K回の帰属度の計算と K回の積和演算が増加するが、 認識率は離散 型より向上し、 ¾βの場合と同等以上となり、連 βの場合に比べて計算量は かなり減る。
(数 1) を計算する方法として Forward-Backward法と呼ばれる方法が用いら れるが、計算量の肖 U減のため (数 1) の近似解として Xに関する最大値を計算す る Viterbi法がよく用いられ、対数化して加算の形で用いられるのが普通である。 即ち、
(数 9)
L'= max [log Χι+∑ log a xt¾t+1+∑ log a>xt (y t)]
x t t
を計算し、 じを尤度とする。 (数 9) は動的計画法によって効率的に計算するこ とができる。 即ち、 じは
(数 10)
Φ ί)= max i ( t— 1 ) +log au+log ω j (y t-i)] を (l)=log πίとして、 t = 2 Tについて漸化的に計算し、
(数 11)
L'= max [ (T+l)] として求められる。 これを Viterbi法という。 認 果としては Lを用いても L ' を用いても大差がないということから、 モデルの作成においては Bauffl-Welch法
(Forward-Backward法) を用い、 認識においては Viterbi法を用いることがよく 行われる。 相 «FVQZHMMの場合、認識において Viterbi法を用いる場合は、 b imは lOg b imの形でし力用いないから、 b imをそのまま記像するのではなく、
Π'· r ' log bimを記憶しておけば、 (数 7) あるいは (数 8) の計算は、 対数演算は不 要で積和のみで実行できる。
次に DPマッチングについて説明する。 最も基本的には特徴べクトル列同士の パターンマッチングによる方法がある。 図 5はその 例である。 51は特徴抽 出部であって、 図 3の 301と同様のものである。 53は標 ヽ。ターン記憶部で あって、 単語に対応した標^、 βターンが記憶されている。 この標^、 βターンは、 認識すべき単語に対応して、 特徴抽出部 51で特徴べクトル系列に変換されたも のとして標 ターン記憶部に予め登録されるものである。 図 5における,は この登録のとき用いられる接続を示すものであり、 認識時には、 この 部分の 示^続は解除される。 52はパターンマッチング部であって、 標^、。ターン記 憶部 53に記憶されているそれぞれの標¾ ^ターンと入力パターンとのマツチン グ計算を行い、 入力パターンとそれぞれの標¾^ ^ターンとの距離 (または類似度) を計算する。 54は判定部であって、 Ιϋ|2入力パターンとそれぞれの標準パター ンとの距離 (または類似度) の最小値 (最大値) を与える標 、°ターンに対応す る単語を見出す。
もう少し具体的に説明すれば次のようになる。 本例では、 パターン間の 「距離」 を求めるとして説明する。 ( 「類似度」 に基づく;^は 「距離 j を 「類似度 j に、 「最小値」 を 「駄値 j に置き換えれば良い)。 いま、 特徴抽出部 51において時 点 tに出力される特徴ベクトルを yt、 その系列たる入力パターンを Y= (yi, y2, ·.., yT) 、 単語 rに対応する標準パターンを
(数 12)
Y(r)=(y (r) 2, ···, y (Γ) ; (Γ) )
差替 え 用紙 (規則 26) とし、 Yの Y(r)に财る距離を D (r)、 3^と との距離を(1 ) (1: , 1))とす るとき (ただし、乗算形式で表すときはそれぞれを D 2 w、 d 2 ( ( t, j )、 加算 形式で表すときは (r)、 d '^tj)とする) 、
(数 13)
X*= argmin [∑ w(x (k)) d! (r (x (k))] (a)
Di (r) =∑ w(x*(k)) d ! (r) (x*(k))
k
または
X*= argmin [II d2 (r) (x(k))w (x (k) } ] D2 (r) =∑ d2 (r) (x*(k))w *(k))
k
ただし、
X=(x(l),x(2) x(K)),
X*=(x*(l),x*(2), ·.·, x*(K))
を計算し、
(数 14)
r*=argmin [Di (r> / 2: w(x*(k))]
r k
または r *=argmin [(D2 (r) ) w {w * ") +· · '+w (K)))] を認 果とする。 ただし、 (数 13) において x(k) = (t (k), j (k))は格子 グラフ (t,j) における Yと Y(r)とのマッチング 上の第 k番の格子点で
差替 え用紙(規則 26) あり、 w ( x ( k ) )は格子点 x ( k )における ItrlB距離に重み付けられる重み係数で ある。
以後、 乗算形式でも加算形式でも並行的な議論が成り立ち、 必要とあれば乗算 形式の表現に変換するのは容易であり ( (') (1;,3)=1(^ d2(r) (t,j)、 Di (r) =log D2 ( 等) 、 加算形式で用いられるのが一般的であるから、 ここで は主として加算形式で説明することにし (従って、 添え字 1, 2は省略) 、 必要 に応じて乗算形式も表記する。
(1^)から (1^)までの点列 (1^),''', (1^2)を (1^,1^2)とし、 x(K) = (t (K), j (K)) = (T, J)とすれば、 (数 13 ) の意味は、 点列 X ( 1, K)に沿 つて対応付けられる、 入力パターン Yと標 、°ターン Y )それぞれの特徴べクト ル間の重み付き距離の累積の、 X(l,K)に関する最小値を Yと Y (r)の距離 D (r) とすると言うことである。 (数 13) の計算は、 重み係数 w(x(k))をうまく選 ベば動的計面法 (Dynamic Programming)を用いて効率的に実行することが出来、 D Pマッチングと呼ばれる。
DPが行えるためには最適性の原理が成り立つ必要がある。 即ち、 Γ¾5Ι方策 の部分方策はその部分方策でまた: ¾ 方策である」 と言うことが言えなければな らない。 これが言えれば、
(数 15)
k
"x(k))= min [∑ w(x(n)) d (r) (x(n))]
x (1) .. . x (k) n-1 に対して、
(数 16)
^(x(k))= min (x (k - 1 )) +w (x (k)) d (r) (x(k))]
x (k-1)
差替 え ffi ¾ (規則 26) なる漸化式が成り立ち、計算量が大幅に削減されることになる。
点 x(l)から、点 p。=x(k)までの 方策は、 点列 X(l , k) = (x(l) (1 = 0。)に沿ぅ重み付き累積距離を 0, (1,1 )とするとき、 ( p0,X(l,k))を最小にする点列 (髓点列)を見出すことである。 この髓点列 を X*(l , k) = (x*(l),...,x*(k— l),x*(k) = p0;^ L、 ^ '(po,X*(l , k))を (Po)とすれば、 lifiaftM性の原理が成り立つと言うことは、 点 x(l)か ら点 x*(k— 1)までの; ¾1点列は、 点列 X*(l , k)上の、 点 x*(l)から点 X*
(k一 1)までの点列に一¾rrるということである。 言い換えれば、 χ(ι)を始端、 x(k— 1)を終端とする 点列の中で、 (x(k— l))+w(p。)d (r) (po)が 最小になる点列を *(1, ー1)= *(1) ,... , * ー1))とするとき、 X (1)から x(k) = p。までの; ¾Μ列における x(k— 1)までの点列は、 Χ*(1 , k一 1)に一 ¾T る。 故に、種々の x(l)を始端とし、種々の x(k— 1)を終端と する ¾1点列が 、従って種々の X (k— 1 )について (X (k— 1 ))が既知で あれば、種々の X ( 1 )から特定の X ( k ) = p 0までの *51点列とそれに沿う重み付 き累積距離は (数 1 6) によって計算できる。 即ち、 点 x(l)から点 x(k)迄の 重み付き最小累積距離 4 (x(k))は、重み付き最小累積距離^) (x(k— 1))を用 いてその続きとして (数 1 6) に従って求められると言うことであって、 X (l))=w(x(l)) d (r (x(l))を初期値として D w=4(x(K))が漸ィ匕的に求 められるカゝら、 全ての許される径路における累積距離を総当たりで計算するより ははるカゝに少な 、計算量で重み付き最小累積距離が求められる。
ここで、 (数 1 6) を成立させることが出来る重み係数の例として
(数 1 7)
差替 え 用紙 (規則 26) (1) 正 »l≤n<kに対して
∑ w(x(k-p + l))= t (k)- t (k-n)
P- 1
(2) 正 »:l≤n<kに対して
∑ w(x(k-p+ 1))= j (k)一 j (k-n)
(3) 正整数 l≤n<kに対して
∑ w(x(k-p+l))= t (k)-t (k-n)
+ j (k)-j (k-n)
等の何れかを満足する場合が考えられる。 即ち、重み係数を (数 17) 等とすれ ば、; M性の原理が成立し、動的計画法が適用できる。 (1) は重み係数の総和 が入力パターンの長さ (フレーム数) に等しくなる場合、 (2) は重み係数の総 和が標準パターンの長さに等しくなる場合、 (3) は重み係数の総和が入力パタ —ンと標^、。ターンの長さの和に等しくなる場合である。
(数 17) の式 (1) を用いれば、 (数 16) の漸化式の具体例の 1つとして (数 18) が考えられる。
(数 18)
( t , 3 + d (r) (t , j)
Figure imgf000018_0001
ただし 4(l, l) = d w (l,l)
替 え 用 ¾ (規則 26) D(r)=^(x(K)) = ^(I,J
(数 18) を t = l,...,T, j =1,···, Jについて逐次計算することによって (数 13) 即ち D(r)を計算することが出来る。 この^ 1ま x(k)につながり得る «は、 図 6のように拘束していることになる。 即ち、 点 (t,j) に至る径路は、 点 (t— 2,j—l) →点 (t-1, j)→点 ( t , j ) 、 点 (t— 1, j—1) → 点 (t, j) 、 点 (t— l,j—l) →点 (t, j) の 3通りの何れかのみを通るも のであって、 上の数値はそれぞれの が選ばれたときの重み係数を示す。 この場合は、 w(x(l)) + '"+w(x(K))は入力フレーム数 Tに等しくなる。 従 つて、 この場合は (数 14) の^ は標^、ターンと関係なく一定になるので、 入力パターンがどの標^、。ターンに最も近いかを計算する場合は、 w(x(l)) + '"+ 0 )で正規化する はなぃ。 この場合、 d (r)(t,j)としては、 ュ ークリッド距離またはより簡 匕されたものとして市街地距離等がよく用いられ る。
|ίΠ2マッチング計算において最も計算量が多いのは、 特徴べクトル間の距離計 算あるいは類似度計算である。 特に単語数が多くなって来るとこの計算量がそれ に比例して多くなり応答に時間がかかり、 実用上問題となって来る。 これを減ら すために考え出されたものにベタトル量子化を用いるいわゆる "SPL I Τ法" がある (SPL IT: Word Recognition system Using strings oi Phoneme- Like Templates) 0 (菅村、 古井 "擬音韻標準パタンによる大語彙単語音声認識 ", 信学論 (D) , J65-D, 8, pp.1041-1048 (昭 57-08)。)
図 7はその従来例を示すブロック図である。 特徴抽出部 71は図 3のものと同 様である。 73はコードブックであって、 M個のラベル付けされた代表ベクトル がラベルによって 可能な形で記憶されている。 74はべクトル量子化部であ
差替 え 用紙 (規則 26) つて、 特徴抽出部 7 1の出力特徵ぺクトル y tをコードプック 73を用いて y に最も近いセントロイドを持つクラスタのラベルに変換するものである。 7 7は 単語辞書であって、 認識すベき単語音声の標準パタ一ンが上記の tlき操作によつ てラベル系列に変換されたものとして記憶されている。 このラベルは別名擬音韻 とも呼ばれる。 標¾ ^ターンたる単語 rの第 k番フレームの擬音韻を s とす れば、 同図に示すような形で認識すべき単語が擬音韻列の形で登録される。 J (r) は単語 rの標準パターンの最終フレーム (従ってフレーム数) である。 同図にお ける¾¾は認 ^語の登録動作の時にのみ用いられる接続を示す。 7 2は距離行 列算出部であって、 特徴抽出部 7 1のそれぞれの出力べクトルの、 それぞれのク ラスタのセントロイドに る距離を求め、 それら距離を要素とするべクトルに 変換し、 特徴べクトル系列を距離べクトル系列即ち距離行列に変換する。 例えば、 距離行列は 75に示すようなもので、 フレーム tの特徴ベクトル y tの、 クラスタ
Cmのセントロイド Amとの距離 d (y t,/im) (図 7では d TMと表記されている) を 要素とする距離ベクトル ((1( /^)、 d (y t,/x 2),... , d (y , , /iM)) τに y t は変換される。 距離は例えば市街: 離を用いる場合は
(数 1 9)
Figure imgf000020_0001
k
と できる。 ここに、 y "はベクトル y tの第 k要素、 /xm> ¾Cmのセントロイ ドべクトル/ xmの第 k要素である。 76はマッチング部であって距離行列算出部 6 2の出力たる距離行列と単語辞書のそれぞれの単語とのマッチングをとり、 その 間の距離を計算するものである。 具体的には、 s w i = Cmとするとき、 y tと s ( との距離(1 ") ,: を
曰 え 用 〈^! 26) (数 20)
d (r) (t, j) = d(yt,/xm)
として、 (数 18) を計算することになる。 即ち、 図 7は図 5の «例における d (r) (t, j )の代わりに、距離行列を参照することによって前以て計算されてい る d (y t , m)を用いる点が異なるのみであって全く同様に D Pを用いて計算でき る。 78は判定部であって、 (数 14) を計算し、最終的に認識結果を得るもの である。 この^、 (数 14) の:^ は図 1の;^と同じ値を持ち、 図 5の実施 例で説明したことと同じ理由で w(x(l)) + '*'+w(x(K))=Tであるからこれ で正規化する必要はない。
図 5の«例の; ^は、 y tと y w;の距 »算は認 ^語数が増えるとそれに ともなって増加するが、 図 7の 例の場合は、距離行列 75をー且計算してし まえば、 ytと擬 との距離は距離行列 75を参照するのみでよいので、 単語が いくら增えても d (r) (t, j )の計算量は不変である。
例えば、 1単語平均 50フレーム、特徴べクトルを 10次元として 100単語 を認識する場合を考えてみれば、 図 5の場合、 ytと距 算を行うべき標 、。タ 一ンべクトルの数は 50X 100 = 5000のオーダーであり、 距離をユークリ ッド距離とすればかけ算の回数はこれを 10倍して 50000回となる。 図 7の 場合は、 y tと距 ^算を行うのは、 コードブックの各セントロイドベクトルのそ れぞれとであるから、 クラスタ数を M-256とすれば、認 語数に関わりな く 256回の距 算で済み、 力け算の回数は 2560となり、 後者は前者の約 1/20で済むと言うことになる。
なお、 ここでは、入力特徴べクトル系列は距離マトリクスに変換されるとして 説明したが、 実際には、距離ベクトル(dtl, …, dtM)Tは標準パターンの擬音
差替 え 用紙 (規則 26) 韻 s ") j (r = l, …, R ; j =l, ···, J )) それぞれとの一通りの照合が 終わると不要になるから、 入力のフレーム毎に距離べクトルの算出と累積距離の 漸化式の計算を全ての標^、。ターンに対して行えば、 (1(3^,/^)はマトリクスと して記情する必要はなく、 例えば (数 18) を用いる場合は、 現フレームと直前 のフレームの 2フレーム分についての距離べクトルを記億しておけば良く、記憶 量は実際にはもつと少なくなる。
liffSFVQZHMMは、 連纖 HMMと同等 の認識率を示し、 計算量は連 続型に比べればはるかに少ないが、 ヮードスポッティングを行う場合は、
a>i(y の^を lir|2F V Q/HMMと同じにすると言うわけには行かな V、。 また、 IlESPL I T法は、 スぺクトルを直接マッチングする方法に比べれば 格段に少な V、計算量ですむが、 認,度に劣化をきたす問題がある。 発明の開示
本願の第 1の発明はこの問題点を解決したものである。 第 2の発明は前記 S P L I T法の改良に関するものであり、 前記 FVQの考え方を DPマッチングに適 用することである。 第 3の発明は、 lif!SHMMおよび DPにおける記憶量、 計算 量の削減に関するものである。 第 4の発明は、 特に前記 HMMにおいて、 認識時 における計算量をさらに削減するものである。
(1) 第 1の発明は、 解析の対象とするシステムは複数の状態をとるとし、 特徴 べクトル空間をクラスタリングし、 それぞれのクラスタの代 ^クトルがそのラ ベルで^^可能な形で記億されたコードブックと、 各状態における 各ラベル の発生確率 (従って各クラスタの発生確率) を記像するクラスタ発生確率記憶手 段と、 前記コードブックを用いて観測ベクトルの 各クラスタへの帰属度 (前
差替 え 用 ¾\ v !]26) 記各クラスタの該観測べクトルに¾*1 "る事後確率) を算出する帰属度算出手段と、 該算出された各クラスタへの itna観測べクトルの帰属度の対数値と ΐίίΐΒクラスタ 発生確率記億手段に記憶されている各クラスタの発生確率との積和またはそれに 等価な量を算出し、 観測べクトルの前記システムの各状態における発生度合とす る観測べクトル発生度合算出手段とを含む。
(2) 第 2の発明は、 特徴ベクトル空間をクラスタリングし、 それぞれのクラス タの代 クトルがそのラベルで ^^可能な形で記憶されたコードブックと、 観 測べクトルの ΐίη½·クラスタへの帰属度あるいは itna各クラスタの lifia観測べク トルに る 確率 (両方含めて以後帰属度と呼ぶことにする) を算出し、 前 記観測べクトルの各クラスタに る帰属度を要素とする帰属度べクトルを算出 する帰属度算出手段と、 帰属度べクトルで表現した標^、。ターンを記憶する標準 パターン記憶手段と、 ΙίίΙΒ帰属度算出手段の出力として得られる前記観測べクト ルから変換された帰属度べクトルからなる入力パターンと ttfia標準パターンとの マッチングを行うマツチング手段を含む。
(3) 第 3の発明は、 特徴ベクトル空間をクラスタリングし、 それぞれのクラス タの代表べクトルがそのラベルで髓可能な形で記億されたコードブックと、 H MMの状態 iにおけるクラスタ mの発生確率または DPマッチングにおける標準 パターンべクトルの第 iフレームの特徴べクトルのクラスタ mへの帰属度を b 、 クラスタ数を Mとするとき、 b ,·.·, b iMの中から大きさの順にとつた N個 b i. e (i. i) ,b i. e (i. 2) ,...,b i. e (i. M) (g(i ,n)は n番目に大きいクラスタの ラベル) はそのままの値またはそれぞれの対数値 log b K <i. i) ,
log b i. g (i. 2) , ... , log b e (" N)の形で記憶し、 残りの bし e N+i) ,·· ·, b « (i. M)は一定値を記 m "るクラスタ発生確率記億手段または帰属度標 タ
差替 え 用紙 規 26 ーン記憶手段を含む。
(4) 第 4の発明は、 特徴ベクトル空間をクラスタリングし、 それぞれのクラス タの代表べクトルがそのラベルで ^^可能な形で記憶されたコードブックと、 各 状態における ile各ラベルの発生確率 (従って各クラスタの発生確率) を記憶す るクラスタ発生確率記億手段と、 tinsコードプックを用いて観測べクトルの t&IB 各クラスタへの帰属度 (line各クラスタの該観測ベクトルに m "る 確率) を 算出する帰属度算出手段と、 該算出された各クラスタへの ΙίΠΒ観測べクトルの帰 属度と、 ΙίίΙΒクラスタ発生確率記憶手段に記憶されている各クラスタの発生確率 の対数値との積和またはそれに等価な量を算出し、 観測べクトルの前記システム の各状態における発生度合を算出する観測べクトル発生度合算出手段とを含み、 tifiB各状態における line各クラスタの発生確率の推定は、 tins観測べクトル発生 度合算出手段を用いて計算し、 認識時は、 tins観測べクトルの帰属度を、 最大の 帰属度は 1とし、 他の帰属度はすべて 0になるように算出する手段を含む。
本願発明の作用を次ぎに説明する。
( 1) 第 1の発明では、 »の対象とするシステムは複数の状態をとるとし、 特徴べクトル空間をクラスタリングし、 それぞれのクラスタの代表べクトルがそ のラベルで ^^可能な形で記憶されたコ一ドブックを備え、 クラスタ発生確率記 憶手段によって各状態における ttna各ラベルの発生確率 (従って各クラスタの発 生確率) を記憶しておき、 帰属度算出手段によって、 ttiiaコードプックを用いて 観測べクトルの lirfB各クラスタへの帰属度 (ttria各クラスタの該観測べクトルに 対する 確率) を算出し、 該算出された各クラスタへの前記観測ベクトルの帰 属度の対数値と liflBクラスタ発生確率記憶手段に記憶されている各クラスタの発 生確率との積和またはそれに等価な量を観測べクトル発生度合算出手段により算
差替 え 用 抵 (規則 2( · 出し、 前記観測べクトルの前記システムの各状態における発生度合を算出する。
(2)第 2の発明では、 特徴抽出手段により入力信号を特徴ベクトルの系列に 変換し、 帰属度算出手段により、 ΙίΠΒべクトル系列の^ クトルを、 クラスタ記 憶手段に記憶されている該べクトルが分類されるべき各クラスタへの帰属度を算 出し、 標 ターン記憶手段により、 Itfiaべクトルの各クラスタに対する帰属度 を要素とする帰属度べクトルを算出し、 認識すべき各認 位をそれぞれ帰属度 ベクトル列で表現した標 ^ターン記憶し、 マッチング手段により、 前記帰属度 算出手段の出力として得られる帰属度べクトル列からなる入力パターンと前記標 ¾ ?ターンとのマッチングを行うものである。
(3) 第 3の発明では、 HMMは、 クラスタ発生確率記憶手段を備え、 クラス タ発生確率記憶手段は、 状態 iにおけるクラスタ mの発生確率を b i m、 クラスタ 数を Mとするとき、 b
Figure imgf000025_0001
ら大きさの順にとつた R個 b i. e (i, i), b i. « (i. 2) b i.. (i. R) (g(i, r)は r番目に大きいクラスタのラベル) は そのままの値またはそれぞれの対数値 log b i. κ (,. i), log b i. , ( i. 2) , · · ·, log b i. e (i. R)の形で記憶し、 残りの b i. s R+i) , b i. , (i. )は—定値を 記憶し、 特徴抽出手段は、 入力信号を特徴ベクトルの系列に変換し、 クラスタ記 憶手段は、 ΙίΠΒベクトルが分類されるべきクラスタを記憶し、 帰属度算出手段は、 una特徴べクトル系列の各べクトルの前記各クラスタへの帰属度を算出し、 特徴 べクトル発生手段は、 tiflS特徴べクトルの各クラスタに る該帰属度と ΙΙΒΗ
MMの各状態における itiia各クラスタの発生確率とから itnaHMMの各状態にお ける ΙΐίΐΒ特徴べクトルの発生度合を算出し、 べクトル系列発生度合算出手段は、 ttflS特徴べクトノレ発生度合算出手段の出力を用 ^、て tiflaHMMから tiilB特徴べク トル系列の発生する度合を算出し、 tifia特徴ベクトル発生度合算出手段は、 t
差替 え—用紙 (規則 26) 帰属度の上位 K個のクラスタとそれぞれに対応する請求項 1記載のクラスタの発 生確率とから |ίί|2ΗΜΜの各状態における ItflB特徴べクトルの発生度合を算出す る。
(4) 第 4の発明では、 特徴ベクトル空間をクラスタリングし、 それぞれのク ラスタの代表べクトルがそのラベルで; ^可能な形で記憶されたコードブックを 備え、 クラスタ発生確率記憶手段は、 各状態における ¾|3各ラベルの発生確率 (従って各クラスタの発生確率) を記憶し、 帰属度算出手段によって、 前記コー ドブックを用いて観測べクトルの ΙίΠΒ各クラスタへの帰属度 (¾ΐΠ2各クラスタの 該観測べクトルに対する事後確率) を算出し、 観測べクトル発生度合算出手段は、 該算出された各クラスタへの ΙίίΐΒ観測べクトルの帰属度と、 ΙίΤΐΒクラスタ発生確 率記憶手段に記憶されている各クラスタの発生確率の対数値との積和またはそれ に等価な量を算出し、 前記観測べクトルの前記システムの各状態における発生度 合を算出し、 tiria各状態における iiia各クラスタの発生確率の推定は、 前記観測 ぺクトル発生度合算出手段を用いて計算し、 認識時は、 una観測べクトルの帰属 度を、 最大の帰属度は 1とし、 他の帰属度はすべて 0になるように算出する。 図面の簡単な説明
図 1は、 HMMの説明図である。
図 2は、 音声認識の際によく用いられる HMMの例示図である。
図 3は、 離 βΗΜΜによる音 識装置の従来例を示すプロック図である。 図 4は、 フアジィべクトル量子化に基づく ΗΜΜによる音声認識装置の従来例 および本願発明の一実施例を示すプロック図である。
図 5は、 パターンマッチングによる音声認識装置の ¾έ¾例のプロック図である。
差替 え ¾ 紙 (規則 26) 図 6は、 入力パターン軸依 «の0 Pマッチングのマツチング径路の拘束条件 の一例を示す説明図である。
図 7は、 べクトル量子ィ匕を用いた音^:識装置の 例を^ Tブロック図であ る。
図 8は、 ワードスポッティングの一つの方法の説明図である。
図 9は、 フアジィべクトル量子化に基づく本願発明による D Pマッチングによ る音声認識装置の一実施例を示すプロック図である。
図 1 0は、 入力パターン軸依存型の D Pマッチングのマッチング径路の拘束条 件の一例を示す説明図である。
図 1 1は、 入力パターン軸依存型の D Pマッチングのマッチング径路の拘束条 件の一例を示す説明図である。
図 1 2は、 入力パターン軸依存型の D Pマッチングのマッチング径路の拘束条 件の一例を示す説明図である。
図 1 3は、 入力パターン軸依^^の D Pマッチングのマッチング径路の拘束条 件の一例を示す説明図である。
図 1 4は、 入力パターン軸依存型の D Pマッチングのマッチング径路の拘束条 件の一例を示す説明図である。 .
図 1 5は、 標準パターン軸依存型の D Pマッチングのマッチング径路の拘束条 件の一例を示す説明図である。
図 1 6は、 標準パターン軸依存型の D Pマッチングのマッチング径路の拘束条 件の一例を示す説明図である。
図 1 7は、 標^^ターン軸依存型の D Pマッチングのマッチング径路の拘束条 件の一例を示す説明図である。
差替 え 図 1 8は、 標^ ターン軸依存型の DPマッチングのマッチング径路の拘束条 件の一例を示す説明図である。
図 1 9は、 標準パターン軸依存型の DPマッチングのマッチング径路の拘束条 件の一例を示す説明図である。
図 20は、 よく用いられる標準パターン軸依存型の D Pマッチングのマッチン グ鶴の拘棘件の一例を示す説明図である。
図 2 1は、 本願発明による HMMにおける各状態におけるクラスタの発生確率、 または、 本願発明による DPマッチングにおける標準パターンにおける特徴べ クトルのクラスタに対する帰属度の記憶方法を説明する説明図である。
図 22は、 本願発明による HMMにおける各状態におけるクラスタの発生確率、 または、 本願発明による DPマッチングにおける標準パターンにおける特徴べ クトルのクラスタに対する帰属度の記憶方法を説明する説明図である。
図 23は、 本願発明による HMM、 または、 本願発明による DPマッチングに おける入力パターンにおける特徴べクトルのクラスタに 卜する帰属度の記憶方 法を説明する説明図である。
図 24は、 本願発明による HMM、 または、 本願発明による DPマッチングに おける入力パターンにおける特徴べクトルのクラスタに対する帰属度の記憶方 法を説明する説明図である。 発明を実施するための最良の形態
以下、 本発明の実施例について図面を参照して説明する。
(数 7) は分布 u t= {u ti,... , u tM} と分布 b i= {b ",·.·, b iM} の Kull back-Leibler divergence (以後 KLDと略記) から導かれるものである (文献:
差 ^ え ^ ^ (¾¾26) 電 ^報通信学会技術報告 SP 93— 27 (1 993年 6月) ) 。 即ち、 u tの biからの乖離度を D(ut II bi)とすれば、 KLDは
(数 21)
M U t
D(u t II b i)= 2: u tm log一 ~~
m一 1 D im で与えられる。 これは 団 biから utの生じ難さ、 言い換えれば、 状態 iにお ける utの生じ難さを表すものである。 従って、 log 4
Figure imgf000029_0001
II tn)と おけば、 ^ i(y «)は状態 iにおける u tの生じ易さを表すことになり ω i (y t)とし て用いることが出来る。 そこで、 (数 1) の o) i(yt)を (yt)とすれば、
(数 22)
τ τ
=∑ n a t +l ΣΙ (yt)
X
=∑ χ, U a t +l ITexp[-D(u t II bxt)]
=∑ 71 TL a t + l
― u
u
x rr n
t = 1 m=l b
T
=∑ TI a t t + l
T
X II U (b im)U tI (U tm)
Figure imgf000029_0002
T X IT IT (U tm) '
'ΐ替 え 用紙 であって、
(数 23)
II II (U tm)" はモデルとは関係なく入力のみで決まる量であるから、 入力パターンがどのモデ ルから発生する可能性が高いかを (数 22) の値によって比較する場合は省略で きる。 そこで新しく
(数 24)
L(Y )=∑ TI axtxt+1 IT IT (b と することが出来る。 即ち、 (数 24) は (数 1) において
(数 25)
M
Figure imgf000030_0001
と^ ¾したことになる。 (数 7) はこのようにして導くことができる。 これが相 乗型 FVQZHMMの原理である。
ところが、 このようなことが言えるのは、 各 HMMにおいて任意の状態系列 X に対して、 入力パターン Yを形成する全てのベクトルは、 1度だけ、 しかも必ず 1度は発生するとしているからである。 一方、 入力パターンがいくつかのモデル の発生するべクトル系列の連結であると考えたとき、 何れの部分区間がある特定 のモデルから発生する度合が高いかを探索する場合は事情が異なって来る。 この 場合は、 照合しょうとするモデルの状態系列 Xの最初の状態 1を対応させる入力 パターンフレームを S(X)、 最終の状態 Jを対応させる入力パターンフレームを
替 え 用紙 (規則 26 E(X)とすれば、 原理的には
(数 26)
1
Ε は) E (X) E (X)一 S (X) +1
Lx(Y ) = π:
S (X) II a t +1 (y t)
t-S は) t-S (X) をあらゆる Xについて計算し
(数 27)
X*= argmax [Lx(Y| λ)]
X
を求め、 S (Χ*)〜Ε(Χ*)を求めるべき入力音声パターンの部分区間とすること が出来る。
これをまともに計算するとなると、 E(X)、 S(X)のあらゆる組^:に対して 計算することになり、 計算量が膨大になる。 しかも、 この場合は (数 23) は X によって変わるから、 それを省略するわけには行かない。 そこで、 (数 27) の 化問題を動的計画法で解くことを考える。 フレーム sを始端フレームと仮定 して、 士 Vの範囲で終端フレーム tを変化させ、 入力部分パターン ys,..., ytが ΗΜΜλから発生する度合を動的計画法で計算する。 この場合は (数 10) が でき、 入力パターン(ys,..., y - v),... ,(ys,..., y t'+v)のそれぞれに ついて発生度合が最大になる *51の状態系列が動的計画法により得られる。 即ち、 終端フレーム tを適当な範囲で動かし、 それぞれの終端の中からさらに: のも のを選べば、 sを始端とする ft¾の終端が求められる。 終端の範囲は、 例えば始 端 sに対して照合すべき HMMが発生するべクトル系列の平均長などから予め設
差替 え 用紙 規則 26 定した値が用いら: ^る。 この^は、 tが変わる毎に t一 s + 1で正規化する 必要がある。 sを変化させ同様な操作を行えば、結局、 親の始端終端、即ち、 所望の部分区間が求められることになる。 この;^、 ある sに対して、 tを変化 させる毎に (数 10) を計算する必要はない。 即ち、 図 2のモデルを用いるとき は、 ある sに対して、入力特徴ベクトルと HMMの状態との対応は、 図 8の斜線 の範囲に限定され、 同斜線內の状態 iに対応する入力フレーム m( i )の範囲は、 (数 28)
t ~~ s
mm ί s + 1— 1 ,— ― (1ー丄ゾ +s一 v} ≥m(i)
J"ー丄
' t S (i -l)+s + v
一 J一 1
であって、 m(i + l)の範囲は
(数 29)
一 s
ηιη {s + + s— v} ≤m(i +1)
― s 1. + S + V であり、 (数 10) に従えば、 (数 29) の範囲に亘る i+1(m(i + l))は、 (数 28) の m(i)の範囲に亘る (m(i))の続きとして計算される。 従って、
0 i =l J + 1のそれぞれにおいて、 《^i(m(i))を (数 28) の範囲で計 算して行けば、 i =J + lに対して
差替 え 用紙 (規則 26) (数 30)
, min {s + J, ~S J + s-v} ≤m(J + l) 一 s
J + s + v
一 J一]
の範囲で得られたそれぞれの ^ J+1 (m( J + 1 ))は、 入力パターンの始端フレーム が sのときの、 終端フレーム 1; '土 Vに m~るそれぞれの照合結果となる。 即ち、 このようにすれば、 一つの始端フレーム sに対して終端フレーム 土 Vに対する 結果が一度に求められる。 しかしこの方法であっても、 フレーム毎に始端を変え て、 ria斜線內の範囲について ΙίΠΒ計算を行わねばならず、 計算量は甚だ多い。 この計算量をさらに減ずるには、 始端フレームも動的計画法により自動的に決ま るようにすればよい。 それには、 漸化式 (数 10) を次のように変形する。
いま、 … :に対応する親状態系列を ^+!,…, とす る。 動的計面法を適用するためには、 X*において入力フレーム m,に対し、 s< m,<tで x -! i , x*m- = j (j≠ i) であるとすれば、 部分パターン ys" ..,ym-が対応する A の状態系列は、 X * s, · · ·, X " に一致すると言うことが言 えなければならない。 即ち、 Φ;(πι')を、 状態系列 x*s,...,x に対して部分 パターン ys,...,ym.が発生する度合で、 そのときの状態 iの区間長 (フレーム 数) が Z ( i )であって、 (1111^
Figure imgf000033_0001
(2( )を状態 iが zフレーム続く度合 であるとすると (数 31)
差替 え 用紙 (規則 26) Φ j (πι,)=Φ i (m'— z ( i )) +Wdilog dur i ( z ( i ))
+wa ilog a i j + ^ Wb i ^k) ω i ( m' -z c -ι+κ)
k-l
Ψ』
Figure imgf000034_0001
(m'— z ( i)')+Wdi'log dur i (z ( i),)
(i) '
+Wa i 'log a■ j + ∑ Wb i (k) ' ω■ (ym- -zい) ' - i+k) k-=l ただし、 j≠ i
とすれば、
(数 32)
(m') 、 Ψί Cm')
(i) (Ο
Wi+Wdi+Wai+ ∑. Wbi (k) Wi'+Wdi'+Wai'+ ∑ Wb i (k) k-l k-l
であって、 m,<m< tなる mに対して、
Figure imgf000034_0002
であるとき、 (数 33)
ζ =Φ j (m— z ( j ))+Wdilog durj (z ( j ))
ί (j)
+Wailog a j h+ Wb j (k) ω i (ym-z w-i+k)
k-l
ζ '=¥i (m— z ( j ))+Wdilog durj (z ( j ))
z (j)
+Wajlog a +ム Wbj (k) o>i (y m-z ( -ι+κ)
k-l
た 7"こし、 h≠ j
とおけば、
差替 え ^ (規刖 26; (数 34) ζ 、 C
(i) (i)
Wj+Wdj+Waj+∑ Wb j (k) Wi '+Wd j +wa i + ∑ Wbi (k)
k-l
ただし、
(i)
Figure imgf000035_0001
k-l
(i)
Wi,=Wi,+wdi,+wai ,+∑ Wbi(k)'
k-l
が成り立たねばならない。 ここに、 Wi, Wi,, Wdi, wai, wbi(k), wd i',
Wai', Wbi(k)' (i=l,.., J) 等は状態系列に伴う重み係数、 またはその和、 Ψ ΠΙ)は、 状態系列 XS' ". Xn-z W (≠X*s,...,xVz (i)) に対応して入 力部分バターン y s ' , · · ·, y m- , ( i )が発生する度合である。 W iは状態系列 X , · · · ,x z (i)に沿う重み係数の麟ロ、 Wi,は状態系列 xs' ,...,xm -,い)'に沿う.重 み係数の総口である。 ここで、 これらの重み係数をうまく選べば、 状態系列の如 何に関わらず (数 31) 〜 (数 34) が常に成立するようにできる。 例えば、 明 らカ こ、 Wi=Wi , Wdi =Wd i, Wai =Wa i, Wb i ( 1 ) Ή H
wbi(z(i),),=wbi(l) + '"+wbi(z (i))になるようにすれば上の条件は満 足される。 即ち、 入力フレーム mで他の状態から状態 iになる状態系列に関し、 mゃ始端フレーム s、 点 (m, i) までの状態のとり方に関わりなくそこまでの状 態系列に沿う重み係数の和が一定になるようにすればよい。 具体的な数値として は、 i = 1 ,···, Jについて、 wdi=wai=l, wbi (k)= lZz ( i)とすること ができる。 以上の議論から、 いま、 入力フレーム tにおいて状態が jに変化したとすると、
差替 え 用紙(規則 26) 点 ( t , j ) までの最適の部分区間の発生度合は、 状態 iに対応する入力の部分区 間のフレーム数を zとすれば、 次の漸化式から得られる。
(数 35)
Φ i ( t)= max [Φ i ( t— z)+log dur■ ( z) + iog a u
+― ∑ log W i( t-,-ι+κ)] ただし、 j≠ i
Z k-i このとき、 (数 35) を満足する i, Zを i *, z*とし、
(数 36)
Figure imgf000036_0001
を同時に記憶して行けば、 次のステップによりヮ一ドスポッティングが行える。
(1) 初期化
ί) = for t =l ,.,.,Τ (πι=1, m≠0\/ i≠ 1)
Figure imgf000036_0002
(2) t = l,...,T+lについて (3) (4) を実行
(3) j =1,···, J +lについて
(数 26) (数 27) を実行
(4) Φ(ί)= ;+ι(ΐ), B(t) = BJ+1(t-z*)
(5) 部分パターン検出
終端フレーム:
(数 37)
t *= argmax ί ( t)] ― 1
差替 え ¾ ¾ (規則 26) 始端フレーム: B(1;*) このようにすれば、 (数 35) における Kt)の計算は、 各 (t,j) について 1回行うだけで済み、 log a> i(y t - 1+k)の k=l zにわたる加算も zが変わ る毎に計算しなくても、 k = 1から z (m)までの和を s (m)とすれば、 z (m)ま での和は s (m+l)=s (m)+log ω i (y t ω )の計算で済むから、 計算量は 大幅に少なくなる。
ここで、 本発明においては、
(数 38) ω i (y t) =— 2^ b im log
m t m
=- ∑ b im log b in, + ∑ b im log u tm
m m
とおくものである。 このとき、 (数 35) に対応して
(数 39)
Φ: ( t)= max [Φ i、 t一 zソ +log du z)+log au
+― { b im lOg U t-i-l+k,m
Z k-l m
Figure imgf000037_0001
m
= max匸 Φ i ( t—: z) +log dur; (z)+log a u
Figure imgf000037_0002
差替え max [Φ ί(ί— z)+log duri(z)+log a >;
+ , ∑ b im log U t-»- 1+ k ,ι
1
—∑ im lOg b im]
m
なる漸化式が される。 図 2のモデルを用いるときは、
(数 40) j ( t ) =max [Φト i ( t— z)+log dun- i(z)+log a j -i. i 1 1
H ∑ ^-, b j-l. mlOg U t-z-l + k ,m
Z k-1 m
一 b j-l. m lOg b j-l, m]
m
=max匸 - 1 ( t一 z)+log durj-i(z)
H ∑ ∑ b j -l. mlOg U t-Z-l + k , Cm]
Z k-l m
∑ b j-i. m log b j -i, m+log a i - 1. j となる。 いま、 «状態系列が求められたとして、 そのときの状態 iの長さが z(i)*であるとし、 簡単のために次のようにおく。
(数 41)
1 (i) *
F ,=log dur, (z )*)H— T ∑ ∑ b i. mlog u t_¾ (i) *_1 +k Cm)]
Z (. 1 k-l m
差替 え m ¾ (規則 2(3) ∑ b j-i. m log b j-i. m -flog a j- 1. i
,このとき、 次式が成り立つ。
Figure imgf000039_0001
;(ί-ζ(Ι)*) = Φ;-ι(ΐ-ζ (J)*-Z (J-1)*) + FJ-I+GJ
Φ2"— z (J)* ζ(2)*) = ι(ΐ-ζ(Ι)* z(l)*) + Fi+Gi
Figure imgf000039_0002
辺々総 をとれば、
Φ;+ι(ΐ)=Ρι + Ρ2+··· + Ρ;+Οι+02 + ···+0;
であって、
(数 42)
Figure imgf000039_0003
J M J
=∑ ∑ b im lOg b im+∑ lOg a i. i+l
i = 1 m*51 i一 1
である。 従って、 (数 31) の漸化式を用いるときは、 Φ, + 1( は、 状態系列に 関わりなく、 右 ®¾終項および右 項から 2番目の項の、 状態に関する 口 を含み、 これは入力パターンとは関係なく、 照合されるモデルが決まれば決まる 量であり、 この式の最大化問題には無関係な量であるから、 入力パターンの最適 区間を見出す際には不要である。 従って、 wiCyt)としては、 次式のように定義 し直したものを採用することが出来る。
(数 43)
coi y t) = b i m log u tm
差替 え 用紙 次に本願第 2の発明である前記 FVQの考え方を DPマッチングに適用する方 法について説明する。 図 9は本発明の原理を示すブロック図である。 9 1、 93 は図 7の 7 1、 73と同様な動作をする。 92は帰属度行列算出部であって、 図 7の 72における距離行列算出部に相当するものであるが、 本実施例では帰属度 行列を算出する。 即ち、 特徴ベクトル y tのクラスタ Cmに财る帰属度 u tm (m
Figure imgf000040_0001
を算出する。 帰属度としては、 ファ ジィ理論などで用いられるメンバ一シップ関数等を用いることが出来、 この場合 も (数 4) 等 liftaFVQZHMMで用いたものと同様のものが用いられる。 95 は単語辞書であって、 認識すべき各単語に対応して予め登録された帰属度行列か らなる。 即ち、 第 rの単語の標 ¾p^eターンは、 その発声に対して帰属度行列算出 部 92で得られた帰属度行列として魏される。 図 9においては、 単語 rの標準 パターンにおける第 jフレームのクラスタ mに対する帰属度は b (r) imで表してい る。 96は単語 1 ,...,Rに ¾ ~る帰属度行列である。
このとき、 認識時における入力パターンのフレーム tと標準パターン rのフレ ーム j との類似度は帰属度べクトル ut = (ut l,ut2"..,utM)^ b (r) i = (b (r) ,わ(r) j 2,..., b (r) )Tの類似度として与えられる。 ここで、 u tm≥0、 U ti + - -- + u
Figure imgf000040_0002
であるから、 前 記両ベクトルを確率分布ベクトルと見なすことができ (utm、 ゎ ^を^確率 とするときはまさに確率分布そのものである) 、 miSHMMの場合と同様に、 前 記類似度は確率分布間の距離として知られている Kullback-Letbler divergence で与えることが出来る。 即ち、 分布 (Q I,... , QM) と (P …, PM) との乖離 度は
差替 え J¾ 紙 (規則 25) (数 44)
0 ^ L^ Q m log
P.
で与えられる。 これを用いれば、 d (r) ( t, j )として次の 3つの が可能である《
(数 45)
u
(1) d (r) (t, j) =∑ utm log
bb ,
b (r)
(2) d (r) (t, j) (r)
=∑ b log
u
(r) u (r)
(3) d ,j) = U tm lOg (r) + b (r) b
log
2 b U
(数 45) ( 1 ) は (数 17) ( 1 ) の重み係数を採用したとき有用な距離定義 であり、 (数 45) (2) は (数 17) (2) の重み係数を採用したとき有用な 距離錢であり、 (数 45) (3) は距離の鄉性を問題にするとき有用な距離 ^である。 勿論、 これらの において、 加算形式の場合は定数信、 乗算形式 の^は定^ ^したものを用いることが出来る。
94はマッチング部であって、 単語辞書 95に登録されている各単語に対応し た帰属度行列のそれぞれと、 入力パターンから得られた帰属度行列との D Pマツ チングを行うものである。 即ち、 (数 45) に示されたフレーム間距離 d w (t, j)に基づいて、 漸化式 (数 18) を計算し、 (数 13) (a) で錢される累積 距離 D (r)を計算する。 97は判定部であって、 (数 14) を計算し、 認識結果を
差替え用紙(規則 26) 得るものである。
このように、 照合すべき単語辞書を構成するために発声した特徴べクトル系列 の各特徴べクトルを唯一つの擬音韻に置き換えてしまうのではなく、 帰属度付き で各フレームに複数個の擬 を対応させたので、 従来例のもつ量子化誤差の悪 影饗を緩和できる。 また、 前記説明から明らかなように、 本願発明においては、 これら帰属度の算出、 標^、。ターンの各フレームと入カフレームとの距離の算出 は、 数学的に明確な ^¾に基づいて決められるという特徴がある。
次に本発明のさらなる改良について説明する。
先ず、 (数 45) (1) を距離尺度として用いる場合について説明する。
このときは、 フレーム間距離は
(数 46)
Figure imgf000042_0001
= U cmlog U tm—∑ U tmlOg b ) jm
m m
であって、 これを重み係数を (数 1 7) (1) として (数 1 3) に代入すれば (数 47)
D(r = min [∑ w(x(k))d (r) (x(k))]
x (1) .. . (K) k
= min [∑ w(x (k))∑ u t (k) , mlog u t o . m x (1) ... (K) k m
— S W(X (k)) ∑ U t (k) , mlog b <r) j (k) . m] k m
= W(X (k)) ∑ U t (k) . mlOg U t (k) . m
k m
― max [∑ w(x (k)) ∑ u t (k) , mlog b (r) i ) . m] x (1) . .. < ) k m
差替 え m紙 (規則 26) となるが、 t (k)一 t(k一 n)=lとなる l≤n≤k— 1が存在し (マッチング 飽络において、入力パターンフレームに対する飛び越しはない) 、 この nに対し、 x(k— n)から x(k)に至る «に沿う重み係数の和が 1、即ち、 w(k— n+1) +w(k— n + 2) + '"+w(k)=lの;^、例えば、 図 10〜14のような場合、 (数 47) は
(数 48)
Ό ίΓ) =∑ ∑ U tmlog U tm
t m
― max [∑ w(x (k)) ∑ ut M . mlog b r) >■ M , M] x (1) . .. x (K) k m
となる。 図 10〜: 14の例は、 x(k) = (t,j), k一 l≥n≥lに対して、 図 1 0は、 x(k—l) = (t— l,j) or (t-1 , j— n);図 11、 14は、 x(k- l) = (t-l , j ) or (t一 l,j—l)、 m=2,...,nに対しては、 x(k— m) =(t一 1 , j一 m);図 12、 13は、 (k-l) = (t-l , j ),(t-l , j -1) or (t , j - 1),
Figure imgf000043_0001
( t , j— m), x (k-n) = (t-l, j一 n)の場合である。 それぞれの図の径路の側に付した数値 は、 それぞれの場合についての径路に沿う重み係数の一例である。
このとき、 (数 48) 右辺の最初の項は、 の選ばれ方、標^、。ターンの何 れとも独立であって、入力パターンによってのみ決まる量となる。 従って、 各標 ip^ターンと入力パターンとの比 果の大小関係のみを問題にするときは省略 できる。 そこで、 この項を省略し、符号を変えれば、
(数 49)
S lr = max [∑ w(x (k)) ·∑ u t ) . mlog b (r) . m」
x (1) .. . (K) k m
をパターン間の類似度とすることが出来る。 この場合入力フレーム tと、 標 、。
差替 え 用紙(規則 26) ターン rのフレーム j とのフレーム間類似度を
(数 50)
S (r> (t, j )=∑ U tmlOg (Γ) im
m とすることが出来る。
ここで、 さらに t (k)—t (k—l)=l (マッチング ^^において、 入力パタ ーンフレームに対する飛び越しはないと同時に、 重複もない… (図 6) あるいは (図 10の場合が該当) とすれば、
(数 51)
S (r) = max [ u t (k) , miog b lr j (k) . m」
x (1) . . . x (K) k m
= max [∑ ∑ u tm log b (r) j (t) . m
j -j (t) t m となる。 ただし、 j = j ( t)は t一 i平面におけるマッチング径路を表す関数で あって、 t-t (k)、 j = j (k)から kを消去して得られる。 図 6の径路を用い る場合は、 マッチング部 94は、 (数 50) に示されたフレーム間類似度 s (r) (t,j)に基づいて、
例えば
(数 52)
f ( t , j ) + s w (t,j)
Figure imgf000044_0001
差替 え ^ ¾ (規則 26) ただし ί (l,l)=s (r>(l,l)
S (r) = f (x(K))=f (I,J ( )
なる漸化式を計算し、 (数 51) で される累積類似度 S (r)を計算することに なる。 判定部 97は
(数 53)
r =argmax [S (r' J を計算し、 認離果を得る。
t (k)- t (k-n)=lとなる l^n≤k— 1が存在し (マッチング径路にお いて、 入力パターンフレームに する飛び越しはない) 、 この nに対し、 x(k— n)から x(k)に至る鶴に沿う重み係数の和を 1、 即ち、 w(k— n+l)+w (k— n + 2) + '"+w(k) = lとする上記方法は、 連続単語音声認識等に有用で ある。 即ち、 このようにすることによって、 発声された入力単語音声パター ンに対し、 それに最もよく類似する、個々に登録された認 語標 ターンの ¾31の連結パターンを見出すという問題を、 の 2段 D P等を用いて効率的に 計算できるからである。 ここで提案したフレーム間類似度は、 このような場合に、 適用できるものであって、簡単な計算で高い認識性能を与えることができるもの である。
次に、 (数 45) (2) を距離/^として用いる場合について説明する。
このときは、 フレーム間距離は
差替 え 用紙(規則 26) (数 54)
(r) b ( ,
d (r) (t , j )=∑ b log
U
(r)
=∑ b lr jm log b (r) ∑ b (r> j m log u であって、 これを重み係数を (数 17) (2) として (数 13) に代入すれば (数 55)
D (r)= min [2: w(x(k))d (r) (x(k))]
x (1) . . . x (K) k
= min C∑ w(x(k)):∑ b (r)』 · m log b (r) j (k) . m x (1) . . . x (K) k m
—∑ W(x(k)) ∑ b <r> i (k) . m lOg U t (k) . m] k m
=∑ w(x(k))∑ b ir) i w. m log b (r) j (k) . m
k m
― max [∑ w(x(k))∑ b (r) i (k) . m log u t ( ) . m] x (1) . . . x (K) k m
となるが、 j (k)- j (k— n)=lとなる l≤n≤k— 1が存在し (マッチング において、 標 ターンフレームに対する飛び越しはない) 、 この nに対し、 x(k— n)から x(k)に至る ^j^に沿う重み係数の和が 1、 即ち、 w(k— n+1) + ー11 + 2) + '"+ (1 =1の場合、 例えば、 図 15〜17のような場合、 (数 55) は
(数 56)
Ό Μ = Σ ∑ b (r) i m log b (r) in,
j m
― max [∑ w(k)∑ b ir) i (k) . m log u t ) . m] x (1) . . . x (K) k m
差替 え 5 (規^ 26) となる。 図 15〜: I 9の例は、 x(k) = (t, j ), k— l≥n≥lに対して、 図 1 5は x(k— l) = (t , j一 1) or (t— n, j—1);図 16、 19は、 x(k- 1)
=(t , j -1) or (t - 1 , j -1), m=2 nに対しては、 x(k— m)=
(t-m, j一 1);図 17、 18は、 x(k— l) = (t , j一 l),(t一 1 , j— 1) or (t-1 , j ), m=2 n— 1に対しては、 x(k— m) = ( t— m, j ), x
(k一 n) = (t— n, j— 1)の場合である。 それぞれの図の径路の側に付した数値 は、 それぞれの場合についての径路に沿う重み係数の一例である。
このとき、 (数 56) 右辺の最初の項は、 の選ばれ方、 入力パターンの何 れの区間とも独立であって、 標^、。ターンによってのみ決まる量となる (標^、 ターン rに^るこの量を C (f)とする) 。 従って、 ある標 、。ターンと、 入力連 続単語音声パターンの種々の区間、 あるいは種々の入力パターンとの比較結果の 大小関係のみを問題にするときは省略できる。 そこでこの項を省略し、 符号を変 えれば、 .
(数 57)
S lr) = max [∑ w(x (k))∑ b kr) i M , mlog u t . mj
x (1) . . . (K) k m
をパターン間の類似度とすることが出来る。 この場合は入力フレーム tと、 標準 パターン rのフレーム j とのフレーム問類似度を
(数 58)
s ( (t , j )=:∑ b (r) i n, log utm
m とすることができる。
このフレーム間類似度の を用いて、 入力パターンが何れの標準パターンに 近いかを判定するときは、 (S (r)一 C (r ) /J Cr)を比較し、 その最大のものを
差替 え 用紙 (規則 26) 見出すことになる。
ここで、 さらに j (k)一 j (k-l)-l ( ツチング鶴において、標 ^ヽ。タ ーンフレームに ^ "る飛び越しはないと同時に、重複もない… (図 20) ある V' は (図 15の場佘が該当) とすれば、
(数 59)
S (r) = max ί∑ 2: b (r) i (k) . n, log u t (k> . m]
x (1) .. . (K) k m
= max C∑ ∑ b (r im log u t。) . m]
t (j) i m
j -1. 2, · · ·· J となる。 ただし、 t = t(j)は t一 j平面におけるマッチング径路を表す関数で あって、 t==t (k), j = j (k)から kを消去して得られる。 図 15〜19の径 路を用いる は、 マッチング部 94は、 (数 58) に示されたフレーム間類似 度 s w (t,j)に基づいて、
(数 60) f (t-2,j -l)
(t, j) =max f (t-l, j -l) + s (r) (t, j) f (t-1, j -2)+s (r) (t, j -1) ただし f (l, l)=s (r (l, l)
S (r)"f (x(K))=f (I , J (r))
なる漸化式を計算し、 (数 59) で錢される累積類似度 S wを計算することに なる。
差替え ¾紙(規則 25) j (k)一 j (k一 n)=lとなる l≤n≤k— 1が存在し (マッチング径路にお いて、標準パターンフレームに対する飛び越しはない) 、 この nに対し、 x(k— n)から x(k)に至る鶴に沿う重み係数の和を 1、 即ち、 w(k— n+l)+w (k一 n + 2) +— +w(k) = lとする上記方法は、 単語を連続して発声した連続 単語音声の入力パターンから、 ある標 、。ターンと最もよく整合する部分区間を 同定するいわゆるワードスポッティングを行う際に有用である。 この場合は、 入 力パターンの区間の長さに関係なく、 比較すべき標^、。ターンを rとすれば、 各 区間における S wを比較するのみでよい。 即ち、 このようにすれば、次のステツ プによって、 ヮードスポッティングの問題を動的計画法を適用して効率的に計算 できる。 ここで提案したフレーム間類似度は、 このような場合に、適用できるも のであって、簡単な計算で高い認識性能を与えることができるものである。 例え ば、 図 20の «制!!^件を用いて、 ある単語に財るワードスポッティングを 行う場合は次のようになる。
(1) 初期化
f (0, j )= f (- 1 , j )=-∞ for i=-l,0, 1,..., J f (0,0) = 0
(2) t = l,,..,T+lについて (3) 〜 (6) を実行
(3) f (t,0) =一 «>
(4) f (t,l)=s(t,l)
(5) B(t, l)=t-l
(6) j =2,···,】について次の漸化式を計算
差替 え 用紙('規則 26) (数 61) f (t-2, j -l)+s (t, j) ·'·(1)
(. t , j ) =max f (t-1, j -l)+s(t, j) ·'·(2) f (t-1, j -2)+s(t, j - l)+s(t , j)---(3)
B(t-2, j -1) ί (t, j) = (l)のとき
B(t, j)= B(t-1, j -1) ί (t, j) = (2)のとき
B(t-1, j -2) ί (t, j) = (3)のとき
(7) D(t)=f (t, J)t B(t) = B( ,J)
(8) 部分パターン検出
終端フレーム:
(数 62)
t "= argmax [D( t)]
始端フレーム: B(t*) + 1 次に、 第 3の発明である前記 HMMおよび DPにおける記憶量、 計算量の削減 法について説明する。
基本的な考え方は、 メモリ量を削旨る場合は標準パターンの帰属度は上位 N く Mについて記憶し、 計算量を削減する場合は入力パターンの帰属度は上位 K<
Μについてのみ計算することに基づいている。 この場合、 注: べきは、 確率分
差替 え ^紙 (規則 26) 布(p !,…, PM)と確率分布(q , aw)の類似度を
(数 63)
∑ p ilog a; で するとき、 Pi = 0ョ ie{l,...,M}は有り得るが、 (^>0νίΕ{1,··· ,Μ}であり、 は 0にはなり得ないということである。 従って、 (!;の上位!^の み計算あるいは記憶する場合は、残りの Qiについては、共通の値を (!, + ··· + QM==1になるように決め、 その値を用いるようにする。 従って、 この場合に Qi
(i =1 M) に対して必要とされる記憶量は、 Q E (1),· · ·, Q e (N)について は N, q (N+1) ,···,(! ί (Μ)については 1である。 ただし、 g(n)は、 {en,..., Qm} のうち、 n番目に大きい ciの添え字である。 0;も上位1^と1(:+1以下に分 けて iiと同様に出来る (Kは Nと同じである必要はない) が、 こちらは 0になり 得るから、 h(k)を {Ρ^.,.,ΡΜ} のうち、 k番目に大きい Dの添え字とすれば、 p h ci) H l~ph(K) = l、 h (κ+1) ^ hph CM) =0とす οこと1 b出采る。 こ の場合は Pi (i =1 M) に対して必要とされる記憶量は、 ph (",···,
Ph (K)に対する Κのみである。
ItflB相 FVQZHMMにおける ω (r) i(y t) (ΙίΠΒω i (y t)や b im, 等 が特に単語 rに関するものであることを明記するときは、右肩に (r) を付して ^rt 、相 FVQZDPにおける s (r)(t,j)は、何れも (数 63) の形を しており、 lineメモリ量、計算量の肖 ϋ減に関して同じことが言えるから、 以後の 説明は相 FVQZHMMの場合、即ち、 ω w i(yt)に対して実施例を説明す ることにする。 この場合、 HMMにおける状態:!を、 DPにおける標 、βターン の第 jフレーム、 HMMの状態 jにおけるクラスタ mの発生確率 b (r) を、 DP
差替え用紙(規則 26) マッチングにおける標準パターン rの第 jフレームのクラスタ mに対する帰属度 と読み変えれば、 HMMと全く同じ議論が DPマッチングの場合においても成り 立つ。
ω (r) i(y)の として、 utm, b (r) imに対し、 それぞれの記憶量を削減する 方法として次のようなものが考えられる。 ただし、 添え字 g(r, j ,n)は HMM rの第: i状態のクラスタの発生確率が n番目であるクラスタ名 (番号) を意味し、 b (r) j. , は、 HMMrの第 j状態におけるクラスタ g(r , j ,n)の発生確 率、 h ( t, k)は入力パターンの第 tフレームの特徴べクトルの帰属度が k番目で あるクラスタ名を意味し、 u t. h . は、 クラスタ h(t,k)に対する ytの帰属 度を意味する。
〔第 1の方法〕
(数 64)
N
ω (r> j (y t) = ∑ U t, z (r. j . n) lOg b (Γ) j, e (r. j, n)
M
+ {∑ U t. c (r. i. n)} B (Γ) i
N-N+l
とする。 ただし、 b (r) j. , n)に関して、 l≤n≤Nにおいては η=1 ,···, 1^に する推定値そのまま、 Ν+1≤η≤Μにおいては
(数 65)
Β (Γ) b M i. . (r. i. m) }
Figure imgf000052_0001
とする。 u tmに関しては、 (1. 1) 1≤m≤Mにおける mの全ての推定値を用い る力、 または、 (1.2) u h (t. » に関しては、 l ^k≤Kにおいては
替 え ffl紙 (規則 26) (数 66)
K
Figure imgf000053_0001
であって K+l≤k≤Mにおいては ut. h (t. k) =0となるように推定しても良い。 (1.2) の場合は帰属度計算の肖 I賊も同時に行うことになる (後述) 。
〔第 2の方法〕
(数 67)
N
ω (r i ^y t)=∑ b (r) j. E (r. i. n) log u t. E (r, . n) において、 b (r i. t (r. j. n)に関しては、 l≤n^Nにおいては (数 68)
N
∑ b (Γ) i. 8 (r. i. „) = 1 であって N+l≤n≤Mにおいては b (r) j. K (r. i. n) =0となるように推定したも のとする。 ut. h . に関しては、 (2.1) l≤k≤Mにおける ut. h (t. k)の全 ての推定値を用いるか、 または、 (2.2) l≤k≤Kにおいては前記と同様の u t. h (,. k)を用い、 K+l≤k≤Mにおいては (数 69)
K
ut. h ct. k) ={1— 2: u t, h (t. m)}/(M— N) とする。 (2.2) の場合は帰属度計算の削減も同時に行うことになる (後述) 。 〔第 3の方法〕
(数 70)
差替 え 用紙(規則 26) (r)
ω (r)
(y t)=∑ b h (t. k) log U h (t, k)
k-1
M
(r)
+ { ∑ b (r) j. h (t..<)} C.
k-K+1
において、 utmに関しては、 :!^^:^!^にぉぃてひ !^^は!^-:!…り:^の推 定値そのまま、 K+l≤k≤Mにおいては、
(数 71)
C u t. h (t. m> }
Figure imgf000054_0001
とする。 b w』.,(r. j. n)に関しては、 (3.1) l≤n≤Mにおいては n=l,.·. ,Mに対する全ての推定値を用いる力 \ または、 (3.2) l≤n≤Nにおいては
(数 72)
N
∑ b r) i. e (r, j> n) = l であって N+ 1≤n≤Mにおいては b (R) J, , (r. i. n) =0となるように推定しても 良い。 (3.2) の場合はメモリ量の肖リ滅も同時に行うことになる。
〔第 4の方法〕
(数 73)
K
ω (r) j (y t) =∑ u t. h (t. k) log b (r) h (【, k)
差替 え 闭 (¾Πΐ]26) において、 u t. h (,. k)に関しては、 1≤ k≤Kにおいては
(数 74)
' K
U h (t, k) = 1 であって、 K+ 1≤ k≤Mにおいては u t. h (t. k) =0となるように推定する。
b (r) en)に関しては、 (4.1) l≤n≤Mにおいては nの全ての推定値 を用いる力 \ または、 (4· 2) l≤n≤Nに関しては、 ゎ ^ は推定 値そのままで、 N+ 1≤ n≤Mにおいては
(数 75)
N
b (Γ) j, g (r. i,
Figure imgf000055_0001
b (Γ) i. g (r. j. n)}/(M~N) と^しても良い。 (4.2) の場合は、 メモリ量の削減も同時に行うことになる。 第 1の方法、 第 2の方法、 第 3の方法の (3.2) 、 第 4の方法の (4.2) は、 HMMの各状態におけるクラスタの発生確率を (D Pにおける単語標準パターン としての帰属度を) 全てのクラスタについて記 HI "るのではなく、 HMMの各状 態 (DPの標準パターンの各フレーム) について、 確率 (帰属度) の高いクラス タの第 N位迄の確率 属度) を.もつクラスタについてそれらのラベルと確率
m を記 DSI~るものである。 例えば、 第 r番の単語に财る HMM (標準 パターン) は図 21または図 22のように示される。 図 21は (数 67) (数 7 0) によって類似度を定義する場合、 図 22は (数 64) (数 73) で類似度を する場合に用いることが出来る。
第 1の方法の (1.2) 、 第 2の方法の (2,2) 、 第 3の方法、 第 4の方法は、
差替 え 用紙(規則 26) 入力パターンとしての帰属度行列を全てのクラスタについて計算するのではなく、 入力パターンの各フレームについて、 帰属度の高いクラスタの第 K位迄の帰属度 を計算するものである。 例えば、 入力パターンは図 23または図 24のように示 される。 図 23は (数 64) (数 73) によって類似度を^する場合、 図 24 は (数 67) (数 70) で類似度を錢する場合に用いることが出来る。
(数 64) 、 (数 73) の場合、 標準パターンの帰属度行列として、 図 22に おいて、 b (Γ) i. g (r. i. n)の代わりに lOg (Γ) j. t i. n)を記憶しておけば (図 π^τΤ) 、 この計算は積和演算でよい。 このとき、 図 7の従来例よりも増える計 算量は、 (数 64) においては Ν=3、 (数 73) においては Κ=3とすれば、 各格子点でかけ算が 3回^ tt加すると言うことになるから、 力ゝけ算の回数は 25 60 + 3X50X 100 = 4060ということになり、 図 7の従来例に比べて確 力 4こ増加するが、 図 5の場合に比べると格段に少ない計算量であり、 なおかつ、 図 7の 例に比べて高い認 度が得られる。
(数 67 ) 、 (数 70 ) の;^、 入力パターンの帰属度行列として、 図 24に おいて、 u t. h (t. k)の代わりに log u t. h (t. k>を記憶しておけば (図示 >¾r ) 、 この計算は積和演算でよい。 このとき、 図 7の «例よりも増える計算量は、
(数 67) においては N=3、 (数 70) においては K=3とすれば、 各格子点 でかけ算が 3回^ fc|加すると言うことになるから、 かけ算の回数は 2560 + 3 X 50X 100 = 4060ということになり、 図 7の従来例に比べて確かに増加 するが、 図 5の場合に比べると格段に少ない計算量であり、 なおかつ、 図 7の従 来例に比べて高い認 度が得られる。 この場合は前節の log bimを記憶してお く^に比べると、 入力パターンの毎フレームについて log u h <t. k>の演算が 必 である。 しかし、 K=3とすれば、 これは毎フレーム 3回のみであり、
差替 え ffi (規則 26) u h k)は 0〜: lの間の数値しカ取らないから、 0≤χ≤1について log Xを テーブル化しておけば、 この計算の代わりにテ一ブルルックアツプで済ませるこ ともできる。
属度を (数 4) で: し、 u h 1) H hu t. h (t, κ) = 1 u t. h (t. K+i)
==-" = U t. h (t. M) =0とするときは、 ひ の大きさの順と ^の小ささ の順は同じであるから、 先ず、 全クラスタについて d(yt, を計算し、 上位 の u t mの計算は、 d ( y【, m)の下位 Kのクラスタに関して行えば良いということ になり計算量を肖 ij減することが出来る。 即ち、 l≤k≤Kにおける帰属度は
(数 76)
D= 2/ (F-l) k-l a (y t , At h (t. k) ) とおくとき
(数 77)
2/ (F— 1)
U t. h (t. k) = D
d (y t , /i h (t. k) ) で与えられる。 このときは、 (数 76) の^ の分数計算と (数 77) の計算は 共に K回である。 M=256、 K=3〜6であるとすれば、 この計算量は 1Z4 0〜1ノ80となる。
帰属度を (数 4) で;) ε¾し、 U " h (" κ+υ =··· = 11 " h (t. M) =U to, ut. h (t. 1 +-- - + U t. h (t. M) = lとするときは、 l≤k≤Kにおける帰属度は (M7 S)
え 用紙(規則 26) D = 1/ (F-l) d (y t , At h (t. k) ) とおぐとき
(数 79) i) mE{h(l),...,h(K)}については
2/ (F-l)
U t. h (t. k) = D
d (y t , At h (t. k) ) ii) me{h(K+l),...,h(M)}については、 共通の値
K
Figure imgf000058_0001
m«= 1
として計算でき、 (数 78) は:^ の分数計算は M回必要であるが、 u tmの大き さの順と d(yt, m)の小ささの順は同じであるから、 先ず、 全クラスタについて d(yt , /i m)を計算し、 (数 79) i) の utmの計算は、 d(y t,Am)の下位 Kの クラスタに関して行えば良い。 あるいは、 より簡略化するために、 次のようにするのも一法である。 例えば、
Figure imgf000058_0002
{d (y t, Ai h (K+i) ) + d (y t,^h <Μ)}/2とおき、 d(y t,Aih (κ+υ ) = ··· = d(yt, /iM) ) = dt0とし、 (数 78) を
差替 え 用紙 (規則 (数 80)
2/ (F-1) 2/ (F-1)
D= ∑ (M-K)
a (y t , /i h (κ) ) + d ti で近似するものである。
あるいはまた、 帰属度算出手段は、 帰属度を算出すべき観測ベクトルと各クラ スタの代 ¾ ^クトルとの距離から算出するものであって、 その距離が最も小さい ものを第 1位として、 小ささの順に並べて K+1位以下のクラスタについては予 め定めた 1ZK以下の一定値とし、 距離の小さいものから順に Kのクラスタにつ いてはそれら個々の距離と ΙΙίΙΒ—定値から帰属度の総和が 1になるように算出す るものである。
相乗型 DPマッチングの場合は、 標準パターンは帰属度べクトル列であるから 標^、 °ターンにおいても帰属度の上位 Nのクラスタについてその帰属度を登録す る際に、 |if|Butmに対して行ったのと全く同様な方法を用いることが出来る。 即 、 b (Γ) j. z (r. j. 1) Λ hb "T1 i. E (r, j. N) = 1 > b (r) j. g (r. i. N+l) =· · · = b (r)j.i (r. j.
Figure imgf000059_0001
とするときは、 K→N, h(t,k)→g(r, j,n),
ut, h (t. k)→b (r) i. ^ cr, i. „)として (数 76) (数 77) に準じて b (r) jmを求 めることが出来る。 同様に、 b (r) " r. j. N+1) =' " = b (Γ) j. C (r. M) = b (r) i o, b (r) i. t (r. i. D +- - - + b (r) i. e (r. i. M) = lとするときは、 (数 78) (数 79) (数 80)等に準じて b w imを求めることが出来る。
次に、 本願第 4の発明について説明する。 この場合は ΙΙΠΞΗΜΜの;^に有効 である。 その考え方は、 utmは、 bimを推定するときの前記 Kと、 認識を行うと きの前記 Kが異なっても理論的には差し支えないと言う点を利用するものである。
差替 え 用紙(規則 26) 特に、 モデルを作成する場合はともかく、 認識の場合はできるだけ計算量の少な いことが望まれる;^が多い。 計算量の最も少ないのは、 離 ti ^の HMMであつ て、 これは FVQZHMMにおいて、 認識の場合に K= 1として計算する場合に 相当する。 従って、 モデルの作成の場合は FVQZHMMの方法で行って、 認識 の場合は、 離 βΗΜΜの方法で認識することが出来る。 前述したように、 FV Q型とすることの意味は、 べクトル量子化による量子化歪を補完によって減ずる と言うよりも、 ΗΜΜのパラメータを学習する際の学習サンプル数の不十分さを 緩和し、 パラメータの推定精度を上げることの効果の方が大きい。 従って、 モデ ルの作成は F VQ型で行って、 認識時は離 βで行うことは、 認識も FVQ型で 行う場合に比べて若干性能は落ちるが、 モデルの作成も認識も離散型で行うより は、 特に、 コードブックサイズの大きいところでは認識率の向上することが実験 的にも確かめられる。
なお、 時間軸の線形な伸縮によるマッチングにおいても、 前記帰属度べクトル 同士の比較に基づいて入力パターンと標^、。ターンの比較を行うことが出来る。 この場合も、 標準パターンのフレーム数を入力パターンのフレーム数に合わせる ベく線形に伸縮する場合は、 (数 7) の類似度の定義が使え、 入力パターンのフ レーム数を標準パターンのフレーム数に合わせるべく線形に伸縮する場合は、 (数 4 3) の類献の錢が使える。 産 ¾ιの利用可能性
本第 1の発明によれば、 Kul lbach-Leibler Divergenceという距離尺度を用いて、 少ない計算量で精度良くヮードスポッティングが可能な HMM¾置を提供できる。 本第 2の発明によれば、 ¾έ¾のべクトル量子ィ匕に基づく D Pマッチングにおい
差替 26ゾ ては、 特徴べクトルを唯一つのクラスタに属するとしていたのを、 本発明により 特徴べクトルは複数のクラスタにそれぞれのクラスタに対する帰属度に相当する ffl合で属する、 或いはそれぞれのクラスタのその特徴べクトルに対する事後確率 に相当する割合で属するとし、 その帰属度に基づいてフレーム間の類似度を確率 的な距離尺度で したので、 種々の要因に基づくスペクトルの変動に強く、 計 箅量も従来例に比べて僅力の増加で済むパターン比較装置の実現が可能となった。 本第 3の発明によれば、 各認識単位に対応する HMMの各状態毎に全クラスタ の発生確率を記憶するのではなく、 確率の高さの順に第 N位までを記憶し、 残り は等しい確率であるとして共通の値 1つを記億することにより、 必要な記憶量の 大幅な削減が可能となったものである。
本第 4の発明によれば、 モデルの作成は相 FVQZHMMとして行い、 認 識は離散型 HMMとして行うようにしたので、 モデル作成の際の学習サンプル数 の不足による推定誤差を小さくし、 認識時は少ない計算量で済む装置が実現でき る。
差替 え用紙(規則 26)

Claims

請 求 の 範 囲
1 . 解析の対象とするシステムは複数の状態をとるとし、 特徴ベクトル空間をク ラスタリングし、 それぞれのクラスタの代 ¾ ^クトルがそのラベルで^^可能な 形で記憶されたコードブックと、 各状態における難各ラベルの発生確率 (即ち 各クラスタの発生確率) を記 i るクラスタ発生確率記憶手段と、 tinsコードブ ックを用いて観測べクトルの liflB各クラスタへの帰属度 (即ち ΙίίΙΒ各クラスタの 該観測ベクトルに対する事後確率) を算出する帰属度算出手段と、 該算出された 各クラスタへの tins観測べクトルの帰属度と前記クラスタ発生確率記憶手段に記 憶されている各クラスタの発生確率の対数値との積和またはそれに等価な量を算 出し、 観測べクトルの前記システムの各状態における発生度合を算出する観測べ クトノレ発生度合算出手段とを備え、 ΙίίΙΕクラスタ発生確率記憶手段は、 クラスタ の発生確率が第 N+ 1位以下となるクラスタに対する発生確率は零でない共通の 値となし、 クラスタの発生確率の総口が 1になるように算出されていることを特 徴とする信^ If装
2. 帰属度算出手段は、 帰属度が第 K+ 1位以下となるクラスタに対する帰属度 は零となし、 帰属度の総口が 1になるように算出することを特徴とする請求項 1 纖の信号蕭装齓
3 . の対象とするシステムは複数の状態をとるとし、 特徴ベクトル空間をク ラスタリングし、 それぞれのクラスタの代表べクトルがそのラベルで検索可能な 形で記億されたコードブックと、 各状態における前記各ラペルの発生確率 (即ち 各クラスタの発生確率) を記憶するクラスタ発生確率記憶手段と、 前記コードブ ックを用いて観測べクトルの ΙίΠΗ各クラスタへの帰属度 (即ち ΙίίΙΒ各クラスタの 該観測ベクトルに m~る^ ¾確率) を算出する帰属度算出手段と、 該算出された
(規^ 26) 各クラスタへの nils観? ¾べクトルの帰属度の対数値と unaクラスタ発生確率記憶 手段に記憶されて ヽる各クラスタの発生確率との積和またはそれに等価な量を算 出し、 観測べクトルの前記システムの各状態における発生度合を算出する観測べ クトル発生度合算出手段とを備えたことを特徴とする信^ 析装 ¾o
4. 各状態におけるクラスタ発生確率記憶手段は、 予め定めた Nに対してその確 率が上位 Nまでのクラスタについてはその総和が 1になるように算出したものを 記憶し、 他のクラスタの発生確率は 0とすることを特徴とする請求項 3記載の信 •§«f装 @o
5. 帰属度算出手段は、 観測ベクトルの各クラスタに対する帰属度を、 その帰属 度が第 K+ 1位以下であるものは零でない共通の値とし、 帰属度の総和が 1にな るように算出することを特徴とする請求項 3記載の信号解析装
6 . 各状態は隠れマルコフモデルの各状態であることを特徴とする請求項 1、 又 は請求項 3記載の信"^析装齓
7. 特徴べクト 間をクラスタリングし、 それぞれのクラスタの代表ベクトル がそのラベルで; ^可能な形で記憶されたコードブックと、 各状態における line 各ラベルの発生確率 (即ち各クラスタの発生確率) を記憶するクラスタ発生確率 記憶手段と、 ttiiaコードブックを用いて観測べクトルの前記各クラスタへの帰属 度 (即ち前記各クラスタの該観測ベクトルに対する事後確率) を算出する帰属度 算出手段と、 該算出された各クラスタへの tiriB観測ベクトルの帰属度と、 ΙίίΙΒク ラスタ発生確率記憶手段に記憶されている各クラスタの発生確率の対数値との積 和またはそれに等価な量を算出し、 観測べクトルの前記システムの各状態におけ る発^^合を算出する観測べクトル発生度合算出手段とを備え、 ΙϋΙΕ各状態にお ける lifiB各クラスタの発生確率の推定は、 una観測べクトル発生度合算出手段を
差替 え 用紙(規則 26) 用いて計算し、 認識時は、 観測べクトルの帰属度を、 最大の帰属度は 1とし、 他の帰属度はすべて 0になるように算出することを特徴とする信号解析装置。
8. 特徴べクトルが分類されるべきクラスタ記憶手段と、 比較すべきべクトル x、 yに対し、 該名べクトルの 各クラスタへの帰属度あるいは ItilB各クラスタの 纏^ クトルに る事後確率 (両方含めて以後帰属度と呼ぶことにする) を 算出し、 ||[|2^ クトルの各クラスタに対する帰属度を要素とする帰属度べクト ル 、 bを算出する帰属度算出手段と、 該帰属度ベクトル同士の距離または類似 度を算出する類似度算出手段とを備え、 該距離または類似度を以つて前記特徴べ クトル yと 1との距離または類似度とすることを特徴とする信号解析装置。
9. 特徵べクトルが分類されるべきクラスタ記憶手段と、 ίΠΒべクトル系列の各 べクトルの itfia各クラスタへの帰属度を算出し、 lineべクトルの各クラスタに対 する帰属度を要素とする帰属度べクトルを算出する帰属度算出手段と、 照合さる べき認 mm位を同様に帰属度べクトル列で表現した標¾^ ^ターン記憶手段と、 前 記帰属度算出手段の出力として得られる帰属度べクトル列からなる入力パターン と ΙίίΙΗ標^、。ターンとのマッチングを行うマッチング手段とを備え、 該マツチン グの結果、 入力パターンと標^、。ターンとの類似度あるいは距離を計算する請求 項 8|2¾の信号簾装釓
1 0. 入力パターンあるいは標準パターンの何れか一方の時間軸、 または双方の 時間軸を線形または非線形に伸縮して、 両パターンの時間軸を合わせ、 相対応す る帰属度べクトル同士の距離または類似度を計算する類似度算出手段と、 該距離 または類似度を前記入力パターンあるいは標準パターンの何れカゝ一方の時間軸、 または双方の時間軸に沿って前 i¾e離または類似度を累積する累積類似度算出手 段とを備え、 該累積値を以つて itna入力パターンと標^、。ターンとの距離または
13 え m紙 (規則 26) 類似度とするものであることを特徴とする請求項 9|S¾の信"^析装 ¾>
1 1. 帰属度べクトル同士の帰属度または類似度を計算する類似度算出手段と、 入力パターンを構成する帰属度べクトルのそれぞれと、 liflB入力パターンとマツ チングすべき標 、。ターンを構成する帰属度べクトルのそれぞれとを、 両パター ンの対応せしめた帰属度べクトル同士の類似度の、 前記入力パターンあるいは標 準パターンの何れか一方の時間軸、 または双方の時間軸に沿って累積した累積値 が最小または最大になるように A に対応せしめ、 その最大値を算出する動的計 面手段とを備えたことを特徴とする請求項9の信号解析装
1 2. 距離または類似度を計算する類似度算出手段は、 距離または類似度を算出 すべき 2つの帰属度ベクトルをそれぞれ a = (ai 2LU) 、 b= (b !,···, bM) とするとき、 次の何れかまたはそれらと等価な量として «または類似度を 算出することを特徴とする請求項 8記載の信 WW装
(数 1)
Ca
(1) — C ∑ amlog or JLT (b m/ a m)
b,
b, Cb
(2) -C ∑ bmlog or H ( a m b m) b,
(3) -C ∑ amlog + bmlog
b, a:
Figure imgf000065_0002
Figure imgf000065_0001
差替え用紙(規則 26) ただし、 Cは。〉 0なる定 I
13. 入力パターンのフレーム tに対応する帰属度べクトルを a t= (a «! a tM) 、
Figure imgf000066_0001
(bii biM) 、 Itfiaマッチング観上の k番目の(t, j)座標を x(k) = (t (k), j (k)), x(k)における重み係数を w(x(k))とするとき、
(数 2)
S 1 (X (k)) =∑ a t (X) . m log b j (k) . m または s2(x(k)) = ir(bj o . m) a t (k) ' m
m
を at と bj o の類似度とし、 べクトノレ系列 atひ) ".., a t αοと b j (υ,··., b〗(κ)との ftna に沿う累積類似度を
(数 3.)
S I (K) = max :∑ w(x(k)) s i(x(k))]
χ χ (K)
または
S2(K)= max [XI s2(x(k))w (x (k))]
(1) (K)
とするものであって、 l≤n≤k— 1に対して、 t (k)一 t (k一 n) = lのとき、 w(x(k— 11+1))+ '''+ (1 )=1でぁることを特徴とする請求項1 1記 載の信号 «装 So
14. マッチング纖は、 t (k)- t (k一 1)=1, w(x(k)) = lであること を特徴とする請求項 13記載の信号解析装
15. マッチング径路は、 x(k) = (t,j)、 k一 l≥n≥ lに対して、 (1) x
¾ ¾ 1 ^ (規則 26) (k一 l) = (t— 1, j— n)または x(k— l) = (t一 1, j)、 (2) x(k-l) = (t-l, j一 1)または x(k— l)==(t一 1, j )、 m=2,...,nに対しては、 x(k— m) = (t— 1 , j一 m)、 (3) m= 1 ,..· , n— 1に対して、 x(k— m) = (t, j一 m)、 x(k— n) = (t— 1, j一 n)、 (4) m= 1 ,·.. , n— 1に対し て、 x(k—m) = (t , j— m)、 x(k— n) = (t— 1 , j—n)、 (5) x(k- 1) = (t-l , j一 1)または x(k— l) = (t— 1, j)、 m=2,...,nに対しては、 x(k— m) = (t— l, j— m)、 の何れかを含み、径路 (1) に対しては w(x(k)) =1、 同 (2) に対しては w(x(k))=l、 w(x(k-m+l)) = 0s 同 (3) に対しては w(x(k— m+l)) = 0、 w(x(k-n+l))=U 同 (4) (5) に対しては w (X (k— m+ 1 )) = 1 /nとすることを特徴とする請求項 13記載 の信 装 So
16. 距離または類似度を計算する類似度算出手段は、入力パターンのフレーム tに対応する帰属度ベクトルを a t= (ati atM) 、標準パターンのフレー ム jに対応する帰属度ベクトルを tn= (b ",···, b ) 、前記マッチング径路 上の k番目の( t, j )座標を x(k) = ( t (k), j (k))、 x(k)における重み係敲 を w(x(k))とするとき、
(数 4)
S 1 ( (k ) = -2-. b j (k) , m lOg a t (k) . m
m
または s2(x(k)) = H (at (k).m)hj (k)'m
m
を a t と b』 の類似度とし、べクトノレ系歹1 J a t (υ ,···, a t (ΐ と b i (",···, i (κ)との ΙίίϊΒ に沿う類似度を
差替 え用紙(規則 26) (数 5)
S 1 (K) = max [∑ w(x(k)) si(x(k))]
(1) (K)
または
S2(K)= max [IT s2(x(k))w (x (k))]
(1) (K)
とするものであって、 l≤n≤k— 1に対して、 j (k)一 j (k一 n) = lのとき、 w(x(k— 11+1))+ '''+ (1 )=1でぁることを特徴とする請求項1 1載 の信号解析装 ¾o
17. マッチング鶴は、 j (k)一 j (k一 1)=1、 w(x(k)) = lであること を特徴とする請求項 16記載の信号解析装齓
18. マッチング麵は、 x(k) = (t,j)、 k— l≥n≥lに対して、 (1) x (k一 l) = (t一 n, j一 1)または x(k— l) = (t, j一 1)、 (2) x(k-l) = (t-l , j一 1)または x(k-l) = (t, j—1)、 m=2,...,nに対しては、 x(k— m) = (t— m, j— 1)、 (3) m= 1,···, n— 1に対して、 x(k— m)=(t—m,j)、 x(k— n) = (t—n, j— 1)、 (4) m= 1 ,.·· , n— 1に対し て、 x(k— m) = (t— m, j )、 x(k— n) = (t— n, j一 1)、 (5) x(k- 1) =(t一 1 , j一 1)または x(k— l) = (t , j— 1)、 m=2,...,nに対しては、 x(k—m) = (t-m, j— 1)、 の何れかを含み、 (1) に対しては w(x(k)) =1、 同 (2) に対しては w(x(k))=l、 w(x(k— m+l)) = 0、 同 (3) に対しては w(x(k— m+l)) = 0、 w(x(k— n+l))=l、 同 (4) (5) に対しては w(x(k— m+l))=lZnとすることを特徴とする請求項 16記載 の信 析装
19. 標维パターンのフレーム jの特徴べクトルのクラスタ mへの帰属度を b jm
差養 え ¾紙翻 26) クラスタ数を Mとするとき、 b ^ !,·.., b の中から大きさの順にとつた N個の bi. « 0. 1) ,b i. κ ο.2) ,...,bi. e (j, N) (g(j ,n)は標準パターンのフレーム j における n番目に大きいクラスタのラベル、 N≤M) はそのままの値、 残りは一 定値 b。で bj. ,。. υ + ' + bj. "j, N) +b0(M— N) = lとなるように算出した 値、 またはそれぞれの対数値 log bi. ε (j. i) , log bi. β (j.2) , ···, log b i. , (i. N) 、 log b oの形で記 る標^^ターン記憶手段を備えたことを特徴と する請求項 8記載の信号解析装
20. 標 ターンのフレーム jの特徴べクトルのクラスタ mへの帰属度を bim、 クラスタ数を Mとするとき、 b i !,· .. , b の中から大きさの順にとつた N個の b i. e (j. n ,bi, e (i.2) b j. « (j. N) (g(j ,n)は標 ターンのフレーム j における n番目に大きいクラスタのラベル、 N≤M) は、 b e ( υ +··· + i. c (i. N) = lとなるように算出した値、 残りは b i. , . N+l) = = b e M) = 0として記 HI"ることを特徴とする請求項 8記載の信 "^Wf装
2 1. 入力パターンのフレーム tの特徴べクトル y tのクラスタ mへの帰属度を utm、 クラスタ数を Mとするとき、 ytが変換されるべき帰属度ベクトルを、
U tl,..., U tMの中から大きさの順にとつた K個の U t. h (t, 1) , U t. h (t. 2) ,· ·., ut. h (t. K) (h(t ,k)は入力パターンのフレーム tにおける k番目に大きいクラ スタのラベル、 K≤M) はそのままの値、 残りは一定値 u。で ut. h (【, i) H b u t. h κ) + u。 (M— K) == 1となるように算出した値とすることを特徴とする請 求項 8記載の信^ «f装齓
22. 入力パターンのフレーム tの特徴べクトル ytのクラスタ mへの帰属度を utm、 クラスタ数を Mとするとき、 ytが変換されるべき帰属度ベクトルを、
U ",..., U tMの中から大きさの順にとつた K個の U t, h (t. i) , U t. h (t. 2)
差替 え 用紙(規則 26) u t. h (t. K) (h (t , k)は入力パターンのフレーム tにおける k番目に大きいクラ スタのラベル、 K≤M) は、 U t. h D +··· + \ι【. h κ) = 1となるように算出 した値、 残りは U t, h (t. K+l) = = U t. h (t. M) =0とすることを特徴とする請 求項 8記載の信 装齓
23. 入力パターンの第 t番フレームと標^、。ターンの第 j番フレームとの類似 度は、 bji,...,b の中から大きさの順にとつた N個の b i. (j. 1) , b j, (j. 2) ,.
..,bj. B (i. N) , n)は標準パターンのフレーム jにおける n番目に大きい クラスタのラベル、 N≤M) と、 b j. e D +· · · + 1^· , . N) +b。(M— N) = 1となるように算出した値 boと、 全クラスタに対して算出された u tm、 もしくは
U ",..., U twの中から大きさの順に対応して U t. h (t. i) +··· + !! t. h (t> K) = 1 となるように算出した K個の t. h (t. l) , u t. h (t. 2) ,... , u t. h (t. κ) (h ( t , k) は入力パターンのフレーム tにおける k番目に大きいクラスタのラベル、 K≤M) に対し、
(数 6)
N M
S 1= ∑ U t. C (j, lOg b i, z (i. n) + {∑ U ( lo bo
n*l N-N+l
または
N M
S
Figure imgf000070_0001
b i, g a. n) u 1 °- n) II b。U t' ' (j- n)
n-1 n-N+1 とすることを特徴とする請求項8記載の信号解析装 o
24. 入力パターンの第 t番フレームと標 * ターンの第 j番フレームとの類似 度は、 b』!,..., の中から大きさの順に対応して tn. e ti. i) +· · · + b j. , (j. N) =1となるように算出した N個の b e o. i) , b j. « o. 2) ,·.. ,
差替 え K羝 (¾H1!26^ bi. «o. N) (g(j ,n)は標準パターンのフレーム jにおける n番目に大きいクラ スタのラベル、 N≤M) と、 全クラスタに対して算出された utm、 もしくは
U ",··., U tMの中から大きさの順にとつた K個の U t. h (t. 1) , U t. h (t. 2) ,· · . , u t. h (t. K) (h (t , k)は入力パターンのフレーム tにおける k番目に大きいクラ スタのラベル、 K≤M) と、 u t. h 1) -1 hu t. h (t. K) + uo(M— K) =1と なるように算出した値 u 0に対し、
(数 7)
N
S 1= ム t) j, e (j. n) lOg U t, g (j, n)
n— 1 または i . E (i. n)
S 2= ΤΪ U t. g (j. n) とすることを特徴とする請求項 8記載の信号解析装 m»
25 · 入力パターンの第 t番フレームと標 、βターンの第 j番フレームとの類似 度は、 全クラスタに対して算出された bjm、 もしくは!^ ,^, ^の中から大き さの順に対応して b i, E o. i) +- " + b i. e (i. Ν) = 1となるように算出した Ν個の bi. « (j. υ ,bi. e ο, 2) ,...,bi. β (i. N) (g(j ,n)は標 ターンのフレーム j における n番目に大きいクラスタのラベル、 N≤M) と、 u ,·.., utMの中から 大きさの順にとつた K個の u t, h (t. i) , u t. h (t. 2) ,... , u t. h (t. K) (h (t , k)は 入力パターンのフレーム tにおける k番目に大きいクラスタのラベル、 K≤M) と、 ut. h ( υ +··· + ιι h K) +u。 (M—K) =1となるように算出した値 Uoに対し、
差替 え 用紙(規則 26) (数 8) s 1 = b h (t, k) log u h (t. k) + { ∑ b h (t, k) } log Uo
k-l k-K+1
または
M
, h (t. k) b j, h (t, k)
s 2= I丄 u t. h (t, k) n U o
k-l t-K+l
とすることを特徴とする請求項 8記載の信号解析装置。
26. 入力パターンの第 t番フレームと標^、。ターンの第 j番フレームとの類似 度は、 全クラスタに対して算出された b i m、 もしくは!^ ,,,, ^の中から大き さの順にとつた N個の b E . D ,b j, β 0. 2) ,...,b j. e (j. N) (g(j ,n)は標準 パターンのフレーム jにおける n番目に大きいクラスタのラベル、 N≤M) と、 b i. « 0. i) +- - -+ b i. eo. N) + b o (M-N) =1となるように算出した b。と、 u ",.··, の中から大きさの順に対応して u t. h (,. i) Η h U t. h (t. Κ) = 1 となるように算出した K個の u t. h ct. i) ,u t. h (t. 2) ,u t. h (t. K) (h(t ,k) は入力パターンのフレーム tにおける k番目に大きいクラスタのラベル、 K≤M) に対し、
(数 9)
(t. k) log b i. h (t. k)
k«=l
または
(t, k)
s 2= H b j, (t. k) とすることを特徴とする請求項 1記載の信号脈装置。
27. 帰属度は、 それら帰属度を算出すべきベクトルと各クラスタの代表べクト
差替 え 用紙(規則 26) ルとの i¾離から算出するものであって、 その距離が小さいものから順に前者の場 合は前記 K、 後者の場合は前記 Νまでのものについてはそれらの距離をそのまま 用い、 その順位が Κ+ 1または Ν+ 1以下ののクラスタについては共通の値を用 いて帰属度を算出することを特徴とする請求項 5、 又は 1 9記載のの信号解析装
2 8. 共通の値は、 前記 K+ 1または前記 N+ 1以下の順位のクラスタについて は、 各クラスタに対する距離の平均とすることを特徴とする請求項 2 7記載の信 号解析装置。
2 9 . 共通の値は、 前記 K+ 1または前記 N+ 1以下の順位のクラスタについて は、 最小の距離と最大の距離との平均とすることを特徴とする請求項 2 7記載の 信号解析装齓
3 0. 帰属度は、 帰属度を算出すべき観測べクトルと各クラスタの代表べクトル との距離が小さいものから K+ 1位または N+ 1位以下のクラスタについては予 め定めた 1 ΖΚまたは 1 Ν以下の一定値とし、 距離の小さいものから順に Κま たは Νのクラスタについてはそれら個々のの距離と前記一定値から帰属度の総口 が 1になるように算出することを特徴とする請求項 5、 又は 1 9記載の信号解析 装氬
差替え用紙(規則 26)
PCT/JP1995/001154 1994-06-13 1995-06-09 Analyseur de signaux WO1995034884A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US08/596,305 US6061652A (en) 1994-06-13 1995-06-09 Speech recognition apparatus
KR1019960700535A KR100324988B1 (ko) 1994-06-13 1995-06-09 신호해석장치

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP13002394 1994-06-13
JP6/130023 1994-06-13
JP7/102665 1995-04-26
JP10266595 1995-04-26

Publications (1)

Publication Number Publication Date
WO1995034884A1 true WO1995034884A1 (fr) 1995-12-21

Family

ID=26443348

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1995/001154 WO1995034884A1 (fr) 1994-06-13 1995-06-09 Analyseur de signaux

Country Status (4)

Country Link
US (1) US6061652A (ja)
KR (1) KR100324988B1 (ja)
CN (1) CN1159704C (ja)
WO (1) WO1995034884A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999067727A1 (en) * 1998-06-25 1999-12-29 Microsoft Corporation Method and system for visualization of clusters and classifications
US6742003B2 (en) 2001-04-30 2004-05-25 Microsoft Corporation Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3090119B2 (ja) * 1998-05-15 2000-09-18 日本電気株式会社 話者照合装置、方法及び記憶媒体
US6219642B1 (en) * 1998-10-05 2001-04-17 Legerity, Inc. Quantization using frequency and mean compensated frequency input data for robust speech recognition
US6347297B1 (en) * 1998-10-05 2002-02-12 Legerity, Inc. Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition
DE69941499D1 (de) * 1998-10-09 2009-11-12 Sony Corp Vorrichtungen und Verfahren zum Lernen und Anwenden eines Abstand-Transition-Modelles
US7263484B1 (en) * 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
US6720984B1 (en) 2000-06-13 2004-04-13 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Characterization of bioelectric potentials
AU2002212568B2 (en) * 2001-10-13 2009-07-23 Superderivatives, Inc. Method and system for pricing financial derivatives
DE60225536T2 (de) * 2002-06-04 2009-04-23 Intellectual Ventures Fund 21 LLC, Carson City Verfahren und Vorrichtung zur Spracherkennung
US7076427B2 (en) * 2002-10-18 2006-07-11 Ser Solutions, Inc. Methods and apparatus for audio data monitoring and evaluation using speech recognition
US7133828B2 (en) * 2002-10-18 2006-11-07 Ser Solutions, Inc. Methods and apparatus for audio data analysis and data mining using speech recognition
US8055503B2 (en) * 2002-10-18 2011-11-08 Siemens Enterprise Communications, Inc. Methods and apparatus for audio data analysis and data mining using speech recognition
US7769580B2 (en) * 2002-12-23 2010-08-03 Loquendo S.P.A. Method of optimising the execution of a neural network in a speech recognition system through conditionally skipping a variable number of frames
US8170873B1 (en) * 2003-07-23 2012-05-01 Nexidia Inc. Comparing events in word spotting
WO2005010866A1 (en) * 2003-07-23 2005-02-03 Nexidia Inc. Spoken word spotting queries
US7245767B2 (en) * 2003-08-21 2007-07-17 Hewlett-Packard Development Company, L.P. Method and apparatus for object identification, classification or verification
AU2004267846B2 (en) * 2003-08-22 2010-08-26 InContact Inc. System for and method of automated quality monitoring
KR20050054706A (ko) * 2003-12-05 2005-06-10 엘지전자 주식회사 음성인식을 위한 어휘 트리 구축 방법
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
JP4745094B2 (ja) * 2006-03-20 2011-08-10 富士通株式会社 クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム
TWI312945B (en) * 2006-06-07 2009-08-01 Ind Tech Res Inst Method and apparatus for multimedia data management
US8234116B2 (en) * 2006-08-22 2012-07-31 Microsoft Corporation Calculating cost measures between HMM acoustic models
CN101154379B (zh) * 2006-09-27 2011-11-23 夏普株式会社 定位语音中的关键词的方法和设备以及语音识别系统
CN100552664C (zh) * 2006-10-20 2009-10-21 东芝泰格有限公司 模式匹配装置以及方法
US20080243503A1 (en) * 2007-03-30 2008-10-02 Microsoft Corporation Minimum divergence based discriminative training for pattern recognition
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8700399B2 (en) 2009-07-06 2014-04-15 Sensory, Inc. Systems and methods for hands-free voice control and voice search
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
JP2011221688A (ja) * 2010-04-07 2011-11-04 Sony Corp 認識装置、認識方法、およびプログラム
JP5258915B2 (ja) * 2011-02-28 2013-08-07 株式会社デンソーアイティーラボラトリ 特徴変換装置、それを含む類似情報探索装置、コード化パラメータ生成方法、及びコンピュータ・プログラム
CN105355214A (zh) * 2011-08-19 2016-02-24 杜比实验室特许公司 测量相似度的方法和设备
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
US8831339B2 (en) 2012-06-19 2014-09-09 Palo Alto Research Center Incorporated Weighted feature voting for classification using a graph lattice
US9053579B2 (en) * 2012-06-19 2015-06-09 Palo Alto Research Center Incorporated Selective learning for growing a graph lattice
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN105989849B (zh) * 2015-06-03 2019-12-03 乐融致新电子科技(天津)有限公司 一种语音增强方法、语音识别方法、聚类方法及装置
US11429890B2 (en) * 2017-10-30 2022-08-30 Bank Of America Corporation Dynamic pattern recognition and data reconciliation
US11256869B2 (en) * 2018-09-06 2022-02-22 Lg Electronics Inc. Word vector correction method
US11763092B2 (en) * 2020-03-30 2023-09-19 Oracle International Corporation Techniques for out-of-domain (OOD) detection

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63250698A (ja) * 1987-04-08 1988-10-18 松下通信工業株式会社 音声認識装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4570232A (en) * 1981-12-21 1986-02-11 Nippon Telegraph & Telephone Public Corporation Speech recognition apparatus
JPS62231993A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
DE3711342A1 (de) * 1987-04-03 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen zusammenhaengend gesprochener woerter
JPH01102599A (ja) * 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
US5129002A (en) * 1987-12-16 1992-07-07 Matsushita Electric Industrial Co., Ltd. Pattern recognition apparatus
JP2764277B2 (ja) * 1988-09-07 1998-06-11 株式会社日立製作所 音声認識装置
JP2964507B2 (ja) * 1989-12-12 1999-10-18 松下電器産業株式会社 Hmm装置
US5263120A (en) * 1991-04-29 1993-11-16 Bickel Michael A Adaptive fast fuzzy clustering system
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63250698A (ja) * 1987-04-08 1988-10-18 松下通信工業株式会社 音声認識装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IEICE TECHNICAL RESEARCH REPORT, Vol. 93, No. 88, SP93-27, (Tokyo), June 1993, EIICHI TSUBOKA, JUNICHI NAKAHASHI, "Synergistic FVQ/HMM", p. 25-32. *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999067727A1 (en) * 1998-06-25 1999-12-29 Microsoft Corporation Method and system for visualization of clusters and classifications
US6216134B1 (en) 1998-06-25 2001-04-10 Microsoft Corporation Method and system for visualization of clusters and classifications
US7333998B2 (en) 1998-06-25 2008-02-19 Microsoft Corporation Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications
US6742003B2 (en) 2001-04-30 2004-05-25 Microsoft Corporation Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications

Also Published As

Publication number Publication date
KR100324988B1 (ko) 2002-08-27
CN1129485A (zh) 1996-08-21
CN1159704C (zh) 2004-07-28
US6061652A (en) 2000-05-09
KR960704299A (ko) 1996-08-31

Similar Documents

Publication Publication Date Title
WO1995034884A1 (fr) Analyseur de signaux
JP4217275B2 (ja) 個別話者に適応した音声認識のための方法及び装置
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JP2795058B2 (ja) 時系列信号処理装置
EP0966736B1 (en) Method for discriminative training of speech recognition models
JP2733955B2 (ja) 適応型音声認識装置
JP7243760B2 (ja) 音声特徴補償装置、方法およびプログラム
WO2006128496A1 (en) Method of adapting a neural network of an automatic speech recognition device
JPH07287592A (ja) オーディオデータセグメントのクラスタリング方法
WO1998040876A9 (en) Speech recognition system employing discriminatively trained models
JPH07287591A (ja) オーディオデータのセグメンテーション方法
WO2002101719A1 (en) Voice recognition apparatus and voice recognition method
Chien Online hierarchical transformation of hidden Markov models for speech recognition
KR101026632B1 (ko) 포먼트 트랙킹 방법 및 컴퓨터 판독가능 기록 매체
CN112509560A (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
JPS63259687A (ja) 音声信号認識方法およびその方法を実施する装置
Sari et al. Auxiliary networks for joint speaker adaptation and speaker change detection
EP1187097A2 (en) Accumulating transformations for hierarchical linear regression HMM adaptation
KR101890303B1 (ko) 가창 음성 생성 방법 및 그에 따른 장치
Jiang et al. Hierarchical stochastic feature matching for robust speech recognition
JP2000122689A (ja) 話者適応化装置及び音声認識装置
KR100586045B1 (ko) 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
JP2836968B2 (ja) 信号解析装置
Modi et al. Discriminative utterance verification using multiple confidence measures.
JP2705537B2 (ja) 話者学習装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 95190547.3

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): CN JP KR US

WWE Wipo information: entry into national phase

Ref document number: 1019960700535

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 08596305

Country of ref document: US