-
GEBIET DER ERFINDUNG
-
Diese
Erfindung betrifft im Allgemeinen Spracherkennungssysteme und genauer
ein System, das einen Satz von "Parallel"-Modellen und einen Basis-Satz von Erkennungsmodellen
integriert, um eine akustische Fehlanpassung zu verringern.
-
HINTERGRUND DER ERFINDUNG
-
Die
Spracherkennung ist ein Prozess, durch den ein unbekannter Sprachausdruck
(gewöhnlich
in der Form eines digitalen PCM-Signals) identifiziert wird. Allgemein
wird eine Spracherkennung durch Vergleichen der Merkmale eines unbekannten
Ausdrucks mit den Merkmalen von bekannten Worten oder Wort-Strings ausgeführt.
-
Die
Merkmale von bekannten Worten oder Wort-Strings werden mit einem
als "Training" bekannten Prozess
bestimmt. Durch das Training werden eine oder mehrere Proben von
bekannten Worten oder -Strings (Trainingssprache) untersucht und
ihre Merkmale (oder Charakteristika) als Referenzmuster (oder Erkennungsmodelle)
in einer Datenbank eines Sprach-Erkenners aufgezeichnet. Typischerweise
stellt jedes Erkennungsmodell ein einziges bekanntes Wort dar. Erkennungsmodelle
können
jedoch Sprache mit anderen Längen,
wie z. B. Teilworte, darstellen (z. B. Phone, die die akustische
Erscheinungsform von linguistisch-basierten Phonemen sind). Man
kann sich Erkennungsmodelle als Bausteine für Worte und Wort-Strings vorstellen, wie
z. B. Phrasen oder Sätze.
-
Um
einen Ausdruck in einem als "Testen" bekannten Prozess
zu erkennen, entnimmt ein Sprach-Erkenner Merkmale aus dem Ausdruck,
um ihn zu kennzeichnen. Die Merkmale des unbekannten Aus drucks werden
als ein Testmuster bezeichnet. Der Sprach-Erkenner vergleicht dann
Kombinationen eines oder mehrerer Erkennungsmodelle in der Datenbank
mit dem Testmuster des unbekannten Ausdrucks. Eine stechnik wird
verwendet, um ein relatives Maß darüber zu liefern,
wie gut jede Kombination von Erkennungsmodellen mit dem Testmuster übereinstimmt.
Der unbekannte Ausdruck wird als die Worte erkannt, die mit der
Kombination eines oder mehrerer Erkennungsmodelle assoziiert wurden,
die mit dem unbekannten Ausdruck am nächsten übereinstimmt.
-
Sprach-Erkenner,
die unter Verwendung von Statistiken sowohl erster als auch zweiter
Ordnung (d. h. spektrale Mittelwerte und Varianzen) von bekannten
Sprachproben trainiert wurden, sind als versteckte Markov-Modell-(HMM)-Sprach-Erkenner
bekannt. Jedes Erkennungsmodell in dieser Art von Sprach-Erkenner ist ein
statistisches Modell mit N Zuständen
(ein HMM), das diese Statistiken reflektiert. Jeder Zustand eines
HMM entspricht in gewisser Weise den Statistiken, die mit den zeitlichen
Ereignissen von Proben eines bekannten Wortes oder Teilwortes assoziiert
sind. Ein HMM wird durch eine Zustandsübergangsmatrix A (die eine
statistische Beschreibung darüber
liefert, wie neue Zustände
von alten Zuständen
aus erreicht werden können)
und durch eine Beobachtungswahrscheinlichkeitsmatrix B (die eine
Beschreibung darüber
liefert, welche spektralen Merkmale in einem gegebenen Zustand wahrscheinlich
zu beobachten sind) gekennzeichnet. Das Bewerten eines Testmusters
reflektiert die Wahrscheinlichkeit des Auftretens der Sequenz von
Merkmalen des Testmusters, das einem bestimmten Modell gegeben wurde.
Die über
alle Modelle kann durch effiziente dynamische Programmierungsverfahren
bereitgestellt werden, wie z. B. die Viterbi-Bewertung. Das HMM
oder die Sequenz davon, die die höchste Wahrscheinlichkeit der
Sequenz von Merkmalen in dem auftretenden Testmuster angibt, identifiziert
das Testmuster.
-
Die
Test- und/oder Trainingsausdrücke
können
von verschiedenen Typen von akustischen Umgebungen stammen. Jede
akustische Umgebung (z. B. ein Alter, ein Geschlecht, ein Mikrophontyp,
eine Raumkonfiguration, usw.) erzeugt eine Verzerrung und akustische
Artefakte, die für
die akustische Umgebung kennzeichnend sind.
-
Ein über ein
Telefonkanal (oder eine andere Art von Kanal) übertragenes Sprachsignal trifft
häufig
mit unbekannten veränderlichen
Bedingungen zusammen, die die Leistungsfähigkeit des auf HMM basierenden Spracherkennungssystems
bedeutsam herabsetzen. Unerwünschte
Komponenten werden dem kommunikativen Teil des Signals aufgrund
von Umgebungslärm
und Kanalinterferenz als auch aus unterschiedlichen Tonaufnahmegeräten und
Effekten der Aussprache hinzugefügt.
Lärm wird
als zu einem Sprachsignal additiv betrachtet. Das Spektrum eines
realen Lärmsignals,
wie z. B. das von Ventillatoren und Motoren erzeugte, ist im Allgemeinen
nicht flach und kann die Leistungsfähigkeit eines Spracherkennungssystems
herabsetzen. Eine Kanalinterferenz, die linear oder nicht-linear
sein kann, kann die Leistungsfähigkeit
der Spracherkennung ebenfalls herabsetzen.
-
Ein
typischer herkömmlicher
Telefonkanal bandpassfiltert effektiv ein gesendetes Signal zwischen
200 Hz und 3200 Hz mit veränderlichen
Abschwächungen
zwischen den unterschiedlichen spektralen Banden. Die Verwendung
von unterschiedlichen Mikrofonen bei verschiedenen Umgebungsbedingungen
für unterschiedliche
Lautsprecher aus unterschiedlichen geographischen Regionen mit unterschiedlichen
Akzenten, die unterschiedliche Dialekte sprechen, kann eine akustische
Fehlanpassung zwischen den Sprachsignalen, die beim Testen zusammengetroffen
sind, und den Erkennungsmodellen erzeugen, die aus anderen Sprachsignalen trainiert
wurden.
-
Vorherige
Bemühungen
sind darauf gerichtet worden, das Problem der Aufrechterhaltung
von Robustheit bei der automatischen Spracherkennung für eine Vielfalt
von "fehlangepassten" akustischen Bedingungen zu
lösen,
die zwischen dem Trainieren und Testen von akustischen Umgebungen
bestehen. Zum Beispiel ist es unter der Annahme eines naiven Modells
der Fehlanpassung möglich,
eine gewisse Form von blindem Ausgleich anzuwenden, um die Kanalverzerrung
und die Auswirkungen eines akustischen Wandlers zu minimieren. Ferner
ist es unter der Annahme der vorherigen Kenntnis über die
Statistiken des interferierenden Signals möglich, diese Information während dem
Erkennungsprozess zu kombinieren, um eine "angepasste" Test-Umgebung zu simulieren. Die inhärenten Annahmen
bei derartigen Verfahren beschränken
deutlich ihre Fähigkeit zur
Verallgemeinerung, wenn sie auf mehrfache akustische Umgebungen,
Anwendungen, Netzwerkbedingungen, usw. ausgeweitet werden.
-
Um
ein Spracherkennungssystem auf mehrfache sich unterscheidende akustische
Umgebungen allgemeiner anwendbar zu machen, sind Versuche unternommen
worden, enorme Mengen an akustisch diversen Trainingsdaten aus vielen
Typen von akustischen Umgebungen zu sammeln, aus denen die Erkennungsmodelle
des Erkennungssystems trainiert werden sollten. Das in der
DE 43 25 404 A1 beschriebene
System tritt als von diesem Typ in Erscheinung. Das erfordert eine
große
Erkennungsmodell-Datenbank mit begleitender Speichergröße und gesteigerter
Verarbeitungszeit. Häufig
ist eine breite Vielfalt an Trainingsdaten nicht ohne weiteres verfügbar oder
ihre Beschaffung ist teuer.
-
Mehrere
separate Sätze
von Erkennungsmodellen sind in einem Versuch trainiert worden, um
Spracherkennungssysteme widerstandsfähiger zu machen, wobei jeder
Satz mit einer bestimmten akustischen Umgebung assoziiert wurde,
wie zum Beispiel eine für
Männer
und eine weitere für
Frauen. Die separaten Sätze
von Erkennungsmodellen werden gleichzeitig betrieben. Beim Testen
wird ein Testmuster unter Verwendung von sämtlichen (z. B. beiden) Sätzen von
Erkennungsmodellen erkannt und dann die höchste der mehrfachen (z. B.
zwei) Bewertungen selektiert, um den erkannten Ausdruck zu erzeugen.
Diese Anordnung impliziert einen Bedarf an der doppelten Speichergröße und der
doppelten Verarbeitungszeit.
-
ZUSAMMENFASSUNG DER ERFINDUNG
-
Die
vorliegende Erfindung, wie durch die Ansprüche bestimmt, stellt ein Spracherkennungssystem
bereit, bei dem ein Satz von "Parallel"-(oder "Sekundär"-)Modellen, wobei
jeder mit einer oder mehreren bestimmten akustischen Umgebungen
assoziiert ist, mit einem Basis-Satz von Erkennungsmodellen integriert
ist und das eine unbekannte Sprache, die aus mehrfachen akustischen
Umgebungen stammt, wirksam erkennt.
-
In
einer erläuternden
Ausführungsform
der Erfindung wird das Spracherkennungssystem trainiert, indem ein
Satz von Parallelmodellen in einer ersten Stufe des Trainings erstellt
wird; und der Satz von Parallel-Modellen mit einem Basis-Satz von
Erkennungsmodellen in einer zweiten Stufe des Trainings integriert wird.
Noch spezifischer wird in der ersten Stufe des Trainings des Spracherkennungssystems
ein Basis-Satz von Erkennungsmodellen in einer Erkennungsdatenbank
gespeichert. Der Basis-Satz wird auf N Sätze von gegenwärtigen Modellen
aufgeteilt, wodurch N akustische Umgebungen, entsprechend den N
Sätzen
von gegenwärtigen
Modellen, bestimmt werden. Die N Sätze. von gegenwärtigen Modellen
werden in einer Klassifizier-Datenbank gespeichert. Die bekannten
Trainingsausdrücke
werden gegenüber
jedem der N Sätze
von gegenwärtigen
Modellen bewertet. Jeder der bekannten Trainingsausdrücke wird
einer der N bestimmten akustischen Umgebungen auf der Basis der
höchsten
Bewertung des bekannten Trainingsausdrucks für die N Sätze von gegenwärtigen Modellen
zugeordnet.
-
Jeder
der N Sätze
von Modellen, der mit den N bestimmten akustischen Umgebungen assoziiert
ist, wird diskriminierend auf die bekannten Trainingsausdrücke trainiert,
die dieser bestimmten akustischen Umgebung zugeordnet sind, wodurch
N Sätze
von neuen Modellen erstellt werden. Die N Sätze von neuen Modellen werden
in der Klassifizier-Datenbank an der Stelle der N Sätze von
gegenwärtigen
Modellen gespeichert.
-
Die
Schritte des Bewertens der bekannten Trainingsausdrücke gegenüber jedem
der N Sätze
von Modellen, des Zuordnens jedes der bekannten Trainingsausdrücke zu einer
der N bestimmten akustischen Umgebungen und des diskriminierenden
Trainierens der N Sätze
von neuen Modellen auf die bekannten Trainingsausdrücke, die
dieser bestimmten akustischen Umgebung zugeordnet sind, werden so
lange wiederholt, bis bekannte Trainingsausdrücke zu bestimmten akustischen
Umgebungen als ein Ergebnis des iterativen Prozesses nicht mehr
erneut zugeordnet werden.
-
Die
N Sätze
von neuen Modellen können
wieder auf N' Sätze von
Modellen aufgeteilt und die zuvor erwähnten iterativen Pro zessschritte
so lange wiederholt werden, bis das Bestimmen von zusätzlichen
akustischen Umgebungen nicht mehr erwünscht wird.
-
Dann
wird in der zweiten Stufe des Trainings des Spracherkennungssystems,
nachdem jede der bestimmten akustischen Umgebungen in der ersten
Trainingsstufe bestimmt wurde, der Basis-Satz von Erkennungsmodellen diskriminierend
unter Verwendung der bekannten Trainingsausdrücke trainiert, die zu dieser bestimmten
akustischen Umgebung zugeordnet wurden, um den Basis-Satz von Erkennungsmodellen
auf einen neuen Modellplatz zu projizieren, der mit dieser bestimmten
akustischen Umgebung übereinstimmt.
Der Satz von Unterschieden zwischen dem Zustand der Modell-Parameter des Basis-Satzes
von Erkennungsmodellen vor dem diskriminierenden Training und dem
Zustand der Modell-Parameter nach dem diskriminierenden Training
entspricht der Verzerrung aufgrund der bestimmten akustischen Umgebung.
Die Unterschiede werden geclustert, um Speicherplatz zu sparen,
und ein derartig beschränkter
Satz von Unterschieden wird als der Projektor gespeichert, um den
Basis-Satz von Erkennungsmodellen einzustellen, damit diese bestimmte akustische
Umgebung reflektiert wird.
-
Als
ein Ergebnis davon schließt
jedes Parallel-Modell einen Klassifizierer und einen Projektor ein,
wobei der Projektor der beschränkte
Satz von Unterschieden für
diese bestimmte akustische Umgebung ist, der angewendet werden kann,
um den Basis-Satz
von Erkennungsmodellen zu transformieren, damit diese akustische
Umgebung reflektiert wird.
-
In
einer erläuternden
Ausführungsform
schließt
das Spracherkennungssystem einen akustischen Wandler ein und empfängt die
unbekannte Sprache in der Form von Schallwellen. Der akustische
Wandler konvertiert die Schallwellen in ein elektrisches unbekanntes
Sprachsignal. Ein Merkmal-Extraktor erzeugt eine Sequenz von Merkmal-Vektoren,
die das unbekannte Sprachsignal kennzeichnen. Ein Klassifizier-Prozessor identifiziert
eine akustische Umgebung der unbekannten Sprache auf der Basis der
Sequenz von Merkmal-Vektoren unter Verwendung des Satzes von Parallel-Modellen,
wobei jeder mit einer bestimmten akustischen Umgebung assoziiert
ist, die in der Klassifizier-Datenbank gespeichert ist. Der Klassifizier-Prozessor
selektiert einen Projektor aus dem einen Satz von Parallel-Modellen,
der der identifizierten akustischen Umgebung entspricht. Der selektierte
Projektor wird auf den Basis-Satz von Erkennungsmodellen angewendet,
die in der Erkennungsdatenbank gespeichert sind, wodurch der Satz
von Erkennungsmodellen eingestellt wird, damit er mit der identifizierten
akustischen Umgebung der unbekannten Sprache geeigneter übereinstimmt. Eine
Vielzahl von den eingestellten Erkennungsmodellen wird mit der Sequenz
von Merkmal-Vektoren verglichen, um eine Vergleichsbewertung für jedes
derartige Modell zu bestimmen. Die höchste Vergleichsbewertung wird
selektiert und die unbekannte Sprache wird auf der Basis der höchsten Bewertung
erkannt.
-
Andere
Aspekte und Vorteile der Erfindung werden aus der folgenden detaillierten
Beschreibung und den begleitenden Zeichnungen ersichtlich, die die
Merkmale der Erfindung beispielhaft erläutern.
-
KURZE BESCHREIBUNG DER ZEICHNUNGEN
-
In
den Zeichnungen ist:
-
1 eine
schematische Ansicht, die ein Spracherkennungssystem gemäß den Prinzipien
der Erfindung darstellt;
-
2 ein
Prozess-Flussdiagramm, das eine erste Stufe des Trainings gemäß den Prinzipien
der Erfindung darstellt;
-
3 ein
Prozess-Flussdiagramm, das eine zweite Stufe des Trainings gemäß den Prinzipien
der Erfindung darstellt; und
-
4 eine
Auftragung, die die Wortgenauigkeit gegenüber der Zahl von Unterschieden
in dem Projektor für
eine akustische Umgebung mit Drahtleitung gemäß den Prinzipien der Erfindung
darstellt.
-
DETAILLIERTE BESCHREIBUNG
-
Für ein besseres
Verständnis
der Erfindung wird, zusammen mit anderen und weiteren Aufgaben,
Vorteilen und Fähigkeiten
davon, Bezug auf die folgende Offenbarung und auf die Figuren der
Zeichnungen genommen, worin ähnliche
Bezugsziffern ähnliche oder
gleiche Elemente bezeichnen.
-
Für die Klarheit
der Erklärung
werden die erläuternden
Ausführungsformen
der vorliegenden Erfindung als individuelle funktionelle Blöcke umfassend
dargestellt (die mit "Prozessoren" etikettierte funktionelle Blöcke einschließen). Die
Funktionen, die diese Blöcke
darstellen, können
durch die Verwendung von entweder gemeinsam verwendeter oder bestimmter
Hardware bereitgestellt werden, die fähige Hardware zur Ausführung von
Software einschließt,
aber nicht darauf beschränkt
ist. Zum Beispiel können
die Funktionen von Prozessoren, die in der 1 dargestellt
sind, von einem einzigen gemeinsam verwendeten Prozessor bereitgestellt
werden. (Die Verwendung der Bezeichnung "Prozessor" sollte nicht ausgelegt werden, um sich
ausschließlich
auf Hardware zu beziehen, die zur Ausführung von Software in der Lage
ist.)
-
Erläuternde
Ausführungsformen
können
eine digitale Signal-Prozessor-(DSP)-Hardware,
wie z. B. das AT&T
DSP16 oder DSP32C, einen Nur-Lese-Speicher (ROM) zum Speichern von
Software, die die unten diskutierten Vorgänge ausführt, und einen Direktzugriff-Speicher
(RAM) zum Speichern der DSP-Ergebnisse umfassen. Hardware-Ausführungsformen
mit Hochintegration (VLSI) sowie herkömmliche VLSI-Schaltungsanordnungen
in Verbindung mit einem universellen DSP-Schaltkreis können ebenfalls
bereitgestellt werden. Die Verwendung von DSPs ist vorteilhaft,
da die verarbeiteten Signale reale physikalische Signale, Prozesse
und Aktivitäten
darstellen, wie z. B. Sprachsignale, Raumhintergrund-Lärm, usw.
-
Die
vorliegende Erfindung verbessert die Leistungsfähigkeit von Sprach-Erkennern
in mehrfachen akustischen Umgebungen, d. h. in Umgebungen, in denen
eine akustische Verschiedenheit in den Sprachsignalen getestet und/oder
aus denen die Erkennungsmodelle trainiert wurden, und stellt einen
effizienten Weg der Handhabung von Verzerrung aus mehrfachen akustischen
Umgebungen bereit. Ein Satz von "Parallel"-(d. h. "Sekundär"-)Modellen, wobei
jeder einer bestimmten akustischen Umgebung entspricht, wird mit
einem Basis-Satz von Erkennungsmodellen gemäß den Prinzipien der Erfindung
integriert. Jedes "Parallel"-Modell schließt ein Klassifizier-Modell
(d. h. einen Klassifizierer), der zum Identifizieren der akustischen
Umgebung der unbekannten Sprache verwendet wird, und einen Modell-Transformation-Projektor
(d. h. einen Projektor) zum Transformieren des Basis-Satzes von Erkennungsmodellen
ein, damit er mit dieser bestimmten akustischen Umgebung übereinstimmt.
-
Der
Klassifizierer, der innerhalb des Parallel-Modells für eine bestimmte
akustische Umgebung eingeschlossen ist, kann zum Beispiel ein Gauß-Mischmodell
(GMM), ein verstecktes Markov-Modell
(HMM), ein Codebuch für
Vektor-Quantifizierung (VQ) oder ein Maschinen-Lernsystem sein,
wie z. B. ein neurales Netzwerk. Die Klassifizierer werden in einer
Weise mit maximaler Wahrscheinlichkeit auf die Sequenz von Merkmal-Vektoren
angewendet, die den Testausdruck bei dem Bestimmungsprozess der
passendsten akustischen Umgebung für jeden Testausdruck kennzeichnen.
Der Projektor für
die bestimmte akustische Umgebung ist ein beschränkter Satz von Unterschieden,
zu dem man durch diskriminierendes Training des Basis-Satzes von Erkennungsmodellen
unter Verwendung der bekannten Trainingsausdrücke gelangt ist, die mit dieser
bestimmten akustischen Umgebung assoziiert sind.
-
Während dem
Testen wird die akustische Umgebung der unbekannten Sprache identifiziert.
Ein Projektor wird selektiert, der der identifizierten akustischen
Umgebung entspricht. Der Projektor wird angewendet, um den Basis-Satz
von Erkennungsmodellen zu transformieren, wodurch der Basis-Satz
von Erkennungsmodellen eingestellt wird, damit er für die identifizierte
akustische Umgebung passender ist. Dann wird die unbekannte Sprache
unter Verwendung des eingestellten Basis-Satzes von Erkennungsmodellen
erkannt.
-
Bezugnehmend
auf die 1 schließt ein Spracherkennungssystem
gemäß einer
erläuternden
Ausführungsform
der Erfindung einen akustischen Wandler 10, wie z. B. ein
Mikrofon in dem Hörer
eines Telefons, zum Empfangen von unbekannter Sprache in Form von
hörbaren
Schallwellen ein, die durch die Ausbreitung und Verdünnung von
Luftmolekülen
mit assoziierten Verunreinigungen verursacht wurden. Der akustische Wandler 10 konvertiert
die Schallwellen in elektrische unbekannte Sprachsignale 12.
Ein Merkmal-Extraktor 14 befindet sich in einer elektrischen
Verbindung mit der elektrischen Signalausgabe des akustischen Wandlers 10.
Der Merkmal-Extraktor 14 erzeugt eine Sequenz von Merkmal-Vektoren 16,
die das elektrische unbekannte Sprachsignal 12 kennzeichnen.
Ein Klassifizier-Prozessor 18 ist mit dem Merkmal-Extraktor 14 gekoppelt.
Eine Erkennungsdatenbank 20 ist mit dem Klassifizier-Prozessor 18 gekoppelt.
Eine Klassifizier-Datenbank 22 ist
mit dem Klassifizier-Prozessor 18 gekoppelt. Die Erkennungsdatenbank 20 speichert
einen herkömmlichen
Basis-Satz von Erkennungsmodellen.
Der Basis-Satz von Erkennungsmodellen umfasst ein oder mehrere HMMs
und assoziierte HMM-Parameter.
Jedes von dem einen oder mehreren HMMs schließt eine oder mehrere (z. B.
acht) Gauß-Verteilungen
pro Zustand ein, wobei jede Gauß-Verteilung
einen Mittelwert und eine Varianz besitzt (die als Modell-Parameter
bezeichnet werden). Die Klassifizier-Datenbank 22 speichert
einen Satz von Parallel-(d. h. Sekundär-)Modellen, wobei jedes Parallel-Modell
einer bestimmten akustischen Umgebung entspricht. Jedes Parallel-Modell
schließt
ein Klassifizier-Modell (d. h. einen Klassifizierer) und einen Modell-Transformation-Projektor
(d. h. einen Projektor) ein. Die Gruppe von Klassifizierern, wobei
jeder Klassifizierer mit einem von dem Satz von Parallel-Modellen
assoziiert ist, wird zum Identifizieren der akustischen Umgebung
der unbekannten Sprache verwendet. Der Projektor ist ein beschränkter Satz
von Unterschieden, der zum Transformieren des Basis-Satzes von Erkennungsmodellen
verwendet wird, damit er mit dieser bestimmten akustischen Umgebung
passender übereinstimmt.
Man gelangt zu dem beschränkten
Satz von Unterschieden für
jede bestimmte Umgebung durch diskriminierendes Trainieren des Basis-Satzes von Erkennungsmodellen
auf die bekannten Trainingsausdrücke,
die mit dieser bestimmten akustischen Umgebung assoziiert sind.
-
Der
Klassifizier-Prozessor 18 wird betrieben, um (i) eine akustische
Umgebung der unbekannten Sprache auf der Basis einer wahrscheinlichen
Anordnung der Sequenz von Merkmal-Vektoren 16 zu identifizieren, die
das unbekannte Sprachsignal 12 (und somit die unbekannte
Sprache) mit den Klassifizierern in dem Satz von Parallel-Modellen
kennzeichnen, (ii) den Projektor aus einem des Satzes von Parallel-Modellen
zu selektieren, der der identifizierten akustischen Umgebung entspricht,
und (iii) eine Transformation auf der Basis des selektierten Projektors
auf den Basis-Satz von Erkennungsmodellen anzuwenden, wodurch die
Parameter der HMMs (d. h. die Mittelwerte und/oder Varianzen der
Gauß-Verteilungen)
eingestellt werden, die in der Erkennungsdatenbank 20 gespeichert
sind, um die identifizierte akustische Umgebung der unbekannten
Sprache passender zu reflektieren.
-
Ein
herkömmlicher
Sprach-Erkenner 24, der eine standard Viterbi-Strahlensuche
ausführen
kann, ist mit dem Merkmal-Extraktor 14 und
der Erkennungsdatenbank 20 gekoppelt. Der Sprach-Erkenner 24 vergleicht
eine Vielzahl von den eingestellten HMMs, die in der Erkennungsdatenbank 20 gespeichert
sind, mit der Sequenz von Merkmal-Vektoren 16, um eine
Vergleichsbewertung für
jedes derartige Modell zu bestimmen, selektiert die höchste Vergleichsbewertung
und erzeugt ein erkanntes Sprachsignal auf der Basis der höchsten Bewertung.
-
Das
in der 1 gezeigte Spracherkennungssystem wird durch folgende
Schritte trainiert: (i) Erstellen des Satzes von Parallel-Modellen
in einer ersten Stufe des Trainings und (ii) Integrieren des Satzes
von Parallel-Modellen mit dem herkömmlichen Basis-Satz von Erkennungsmodellen
in einer zweiten Stufe des Trainings.
-
TRAININGSSTUFE I
-
Die
erste Stufe der Erstellung des Satzes von Parallel-(d. h. Sekundär-)Modellen
ist das Bestimmen von mehrfachen akustischen Umgebungen durch die
Partitionierung von Trainingsdaten. Die Trainingsdaten werden in
N akustische Umgebungen unter Verwendung eines Verfahrens der maximalen
Wahrscheinlichkeit aufgeteilt, das die Trainingsausdrücke zu einer
von den N bestimmten akustischen Umgebungen zuordnet, worin N eine
positive ganze Zahl ist, zum Beispiel zwei. Bezugnehmend auf die 2 werden
die Trainingsdaten in Form von bekannten Trainingssprachausdrücken in
dem Schritt 28 geliefert. Ein anfäng liches herkömmliches
Erkennungsmodell wird bereitgestellt oder aus den bekannten Trainingsausdrücken in
dem Schritt 30 trainiert. Das herkömmliche Erkennungsmodell könnte ein
Codebuch oder ein Satz von Erkennungsmodellen in Form von HMMs oder
GMMs sein. In der erläuternden
Ausführungsform
der Erfindung wird dieses anfängliche herkömmliche
Erkennungsmodell als der Basis-Satz
von Erkennungsmodellen verwendet, der in dem Erkennungsdatenbankspeicher 20 gespeichert
ist (1).
-
Das
anfängliche
herkömmliche
Modell, der Basis-Satz von Erkennungsmodellen, wird auf N, z. B. zwei,
Sätze von
Modellen in dem Schritt 32 aufgeteilt. Die Aufteilung könnte eine "blinde" Aufteilung sein,
das heißt
ohne ein führendes
Prinzip. Die Trainingsdaten werden auf der Basis der Aufteilung
partitioniert. Jeder bekannte Trainingsausdruck wird gegenüber beiden
Sätzen
von Modellen bewertet und dem "besten" Satz von Modellen
für diesen
bestimmten Trainingsausdruck auf der Basis der höheren Bewertung des Trainingsausdrucks
für beide
Sätze von
Modellen in dem Schritt 34 zugeordnet. Das angewandte Prinzip
der Erfindung ist, dass, wenn die Trainingsdaten unterschiedliche
Wahrscheinlichkeiten besitzen (oder die Bewertungen sich innerhalb
unterschiedlicher Bereiche von Wahrscheinlichkeiten befinden), sie
dann von verschiedenen akustischen Umgebungen stammen. Die N (z.
B. zwei) Sätze
von Modellen, die als gegenwärtige
Sätze von
Modellen angesehen werden können,
sind auf ihre assoziativen Daten trainiert (d. h. auf die bekannten
Trainingsausdrücke,
die ihnen zugeordnet wurden), um N neue Sätze von Modellen in dem Schritt 36 zu
erstellen.
-
Zahlreiche
Trainingsverfahren können
zum Erstellen der N neuen Sätze
von Modellen verwendet werden. Eine diskriminierende Form des Trainings
ist bevorzugt. Die N (z. B. zwei) neuen Sätze von Modellen überschreiben
die N gegenwärtigen
(d. h. alten) Sätze
von Modellen in dem Klassifizier-Datenbankspeicher 22 (1).
-
Dann
wird in dem Schritt 38 eine Entscheidung darüber getroffen,
ob die zuvor genannten iterativen Prozessschritte des Bestimmens
von N bestimmten akustischen Umgebungen, des Zuordnens von bekannten Trainingsausdrücken zu
bestimmten akustischen Umgebungen und des Trainierens von N neuen
Sätzen
von Modellen mit den bekannten Trainingsausdrücken, die ihnen zugeordnet
wurden, beendet sind. Der iterative Prozess kann vervollständigt werden,
wenn zum Beispiel ein Fehlersignal, das den Prozess der Ausdruckzuordnung
verfolgt, mit einem vorbestimmten Wert konvergiert, wenn der iterative
Prozess für
eine vorausgewählte
Anzahl von Zeiten (oder "Runden") ausgeführt worden
ist oder wenn bekannte Trainingsausdrücke nicht mehr erneut zu neuen
Sätzen
von Modellen als ein Ergebnis des iterativen Prozesses zugeordnet
werden. Wenn nicht, dann ist der iterative Prozess nicht beendet,
und die Schritte des iterativen Prozesses werden wiederholt: Zuordnen
jeder der bekannten Trainingsausdrücke zu dem Besten der N Sätze von
Modellen auf der Basis der Bewertung des bekannten Trainingsausdrucks
für beide
der N gegenwärtigen
(zuvor neuen) Sätze
von Modellen, dann Trainieren (d. h. Erstellen) von N neuen Sätzen von
Modellen aus den bekannten Trainingsausdrücken, die zu jedem der N gegenwärtigen Sätze von
Modellen zugeordnet wurden, und dann Speichern der N neuen Sätze von
Modellen in dem Klassifizier-Datenbankspeicher an der Stelle der
N gegenwärtigen
Sätze von
Modellen.
-
Wieder
wird eine Entscheidung in dem Schritt 38 darüber getroffen,
ob die Zuordnung der Trainingsausdrücke beendet ist. Wenn ja, dann
ist der iterative Prozess vollständig,
und eine Entscheidung wird in dem Schritt 40 darüber getroffen,
ob die Zahl N verändert
werden sollte, das heißt
ob eine zusätzliche
Partitionierung der bekannten Trainingsausdrücke erfolgen sollte, um zusätzliche
akustische Umgebungen zu bestimmen.
-
Wenn
ja, dann sollten zusätzliche
akustische Umgebungen bestimmt werden, und N wird in N' in dem Schritt 42 geändert und
die N gegenwärtigen
Sätze von
Modellen werden auf N' Sätze von
Modellen in dem Schritt 44 aufgeteilt, worin N' eine andere Zahl
als N ist (z. B. Änderung
von zwei definierten bestimmten akustischen Umgebungen/Modellen
auf vier definierte bestimmte akustische Umgebungen/Modelle). Das
kann eine blinde Aufteilung sein, das heißt ohne ein führendes
Prinzip. Die Schritte in dem iterativen Zyklus werden solange wieder
und wieder ausgeführt,
bis es einen Grund zum Beenden gibt. Ein derartiger Grund kann zum Beispiel
sein, dass ein Fehlersignal mit einem vorbestimmten Wert konvergiert
oder dass die Iteration eine vorgewählte Anzahl von Zeiten ausgeführt worden
ist.
-
Wenn
keine zusätzlichen
akustischen Umgebungen bestimmt werden, dann werden die Zuordnungen von
bekannten Trainingsausdrücken
zu N bestimmten akustischen Umgebungen und die N Sätze von
Modellen, die den N bestimmten akustischen Umgebungen entsprechen,
in dem Klassifizier-Datenbankspeicher 22 (1)
in dem Schritt 46 gespeichert.
-
Wie
zuvor beschrieben, erzeugt somit der Prozess des Bestimmens von
N akustischen Umgebungen den Besten Satz von Modellen für jede von
den N akustischen Umgebungen und ordnet bekannte Trainingsausdrücke zu jedem
von den N Sätzen
von Modellen zu. Das wird anschließend in der zweiten Stufe der
Prozedur zum Trainieren des Spracherkennungssystems verwendet, das
in der 1 gezeigt ist. Die erste Stufe des Trainings des
Spracherkennungssystems, und zwar das Erstellen des Satzes von Parallel-Modellen,
ist beendet.
-
TRAININGSSTUFE II
-
Die
zweite Stufe des Trainings des in der 1 gezeigten
Spracherkennungssystems integriert den Satz von Parallel-Modellen mit dem
Basis-Satz von Erkennungsmodellen, so dass das Spracherkennungssystem
eine akustische Umgebung der unbekannten Sprache identifizieren
und den Basis-Satz von Erkennungsmodellen auf einen neuen Modellplatz
projizieren (d. h. transformieren) kann, der passender mit der identifizierten
akustischen Umgebung übereinstimmt.
Als ein Ergebnis der ersten Trainingsstufe sind N bestimmte akustische
Umgebungen und ein Satz von Klassifizier-Modellen (d. h. Klassifizierer) bestimmt,
die mit den N akustischen Umgebungen assoziiert sind; die Klassifizierer
sind die N "besten" Modelle, die während dem
iterativen Prozess der ersten Trainingsstufe erstellt wurden. Die
Klassifizierer für
jede bestimmte akustische Umgebung, die aus dem iterativen Prozess
der ersten Stufe des Trainings resultieren, werden zu einem Teil
des Satzes von Parallel-Modellen, die in der Klassi fizier-Datenbank 22 (1)
gespeichert sind. Die Klassifizierer in dem Satz von Parallel-Modellen
werden zum Identifizieren der passenden akustischen Umgebung für einen unbekannten
Testausdruck verwendet. Jedes von dem Satz von Parallel-Modellen
schließt
ferner einen Projektor ein, der das Mittel zum Transformieren (d.
h. Projizieren) des Basis-Satzes von Erkennungsmodellen ist, die
in der Erkennungsdatenbank 20 (1) gespeichert
sind, um für
die identifizierte akustische Umgebung passender zu sein.
-
In
der zweiten Stufe des Trainings des Spracherkennungssystems wird
ein Basis-Satz von Erkennungsmodellen herkömmlich bestimmt. In der erläuternden
Ausführungsform
der Erfindung wird dasselbe herkömmliche
Erkennungsmodell, das in der ersten Trainingsstufe verwendet wurde,
als der Basis-Satz von Erkennungsmodellen verwendet. Die Projektoren,
die dazu verwendet werden, um den Basis-Satz von Erkennungsmodellen
einzustellen, damit er mit der identifizierten akustischen Umgebung übereinstimmt,
werden derart bestimmt, dass der selektierte Projektor angewendet
werden kann, um den Basis-Satz von Erkennungsmodellen zu transformieren,
damit er mit der akustischen Umgebung des Testausdrucks übereinstimmt,
wenn ein unbekannter Testausdruck (d. h. "unbekannte Sprache") während
dem Testen empfangen wird.
-
Die
Projektoren werden in der zweiten Stufe des Trainings des Spracherkennungssystems
mittels des diskriminierenden Trainings errechnet, z. B. mittels
des Trainings mit minimalem Klassifizierfehler, das eine Art von
diskriminierendem Training darstellt. Der Ansatz des minimalen Klassifizierfehlers
(MCE) auf das diskriminierende Training basiert auf dem Prinzip
der Minimierung der Fehlerrate. Das MCE-Training eines Sprach-Erkenners findet
den besten Satz von HMM-Parametern für die Diskriminierungs-Funktion,
um den Fehler zu minimieren, der als die Wahrscheinlichkeit bestimmt
wird, dass der trainierte Sprach-Erkenner den Satz von Ausdrücken in
dem bekannten Trainingssatz falsch erkennt. Das statistische Modell
von jeder grundlegenden Spracherkennungs-Einheit wird durch eine
diskriminierende Analyse erhalten. Die Aufgabe eines derartigen MCE-Trainings besteht
darin, die Rate des Erkennungsfehlers zu mini mieren, und wird durch
Berechnen eines Maßes
an Fehlerkennung erreicht, das die Wahrscheinlichkeit angibt, dass
ein Sprach-Erkenner
bei einem gegebenen Training einen Erkennungsfehler auf der Basis
von dessen gegenwärtigem
Trainingszustand begeht. Bei dem MCE-Training reflektiert das Maß der Fehlerkennung
den Unterschied zwischen (i) einer Bewertung eines Sprach-Erkenners
für einen
bekannten Trainingsausdruck auf der Basis des korrekten Erkennungsmodells
für den
bekannten Trainingsausdruck und (ii) einem Durchschnitt von Bewertungen
eines oder mehrerer Sprach-Erkenner für den bekannten Trainingsausdruck
auf der Basis von einem oder mehreren anderen verwirrend ähnlichen
Erkennungsmodellen. Ein diskriminierendes Trainingssystem mit minimalem
Klassifizierfehler (MCE) ist im Detail in dem
US-Patent
Nr. 5,579,436 , veröffentlicht
am 26. Nov. 1996, an Chou et al., mit dem Titel "Recognition unit model training based
an competing Word and Word string models" beschrieben.
-
Das
MCE-Training oder eine andere Art von diskriminierendem Training
wird verwendet, um den Projektor zu errechnen, der den Basis-Satz
von Erkennungsmodellen auf der Basis einer bestimmten akustischen Umgebung
am effektivsten transformieren wird, die während dem Testen identifiziert
wurde. Jeder Projektor ist eine Transformation, die auf die in der
Erkennungsdatenbank 20 (1) gespeicherten
Modell-Parameter angewendet werden kann.
-
Bezugnehmend
auf die 3, nachdem jede von den N bestimmten
akustischen Umgebungen in der ersten Trainingsstufe bestimmt wurde,
wird der herkömmliche
Basis-Satz von Erkennungsmodellen in dem Schritt 50 mit
den bekannten Trainingsausdrücken
diskriminierend trainiert, die zu dieser bestimmten akustischen
Umgebung während
dem Prozess der Partitionierung der ersten Trainingsstufe zugeordnet
wurden. Das MCE-Training der Modell-Parameter des Basis-Satzes von Erkennungsmodellen
unter Verwendung der bekannten Trainingsausdrücke, die zu dieser bestimmten
akustischen Umgebung zugeordnet wurden, projiziert die Modell-Parameter auf einen
Modellplatz, der für
die bestimmte akustische Umgebung passender ist. Die Parameter des
Basis-Satzes von Erkennungsmodellen besitzen einen bestimmten Zustand
vor dem diskriminierenden Training und werden durch das diskriminierende Training
in einen unterschiedlichen Zustand transformiert. Nicht alle Modell-Parameter
werden notwendigerweise verändert.
Es können
einige, sämtliche
oder keine verändert
werden.
-
Für jeden
Modell-Parameter stellt der Unterschied zwischen dessen Zustand
vor dem diskriminierenden Training und dessen Zustand nach dem diskriminierenden
Training diese bestimmte akustische Umgebung oder spezifischer eine
Veränderung
an dem Modell-Parameter auf der Basis dieser bestimmten akustischen
Umgebung dar. Diese Veränderung
an den Modell-Parametern des Basis-Satzes von Erkennungsmodellen,
die durch ein derartiges diskriminierendes Training verursacht wurde,
stellt eine Verzerrung aufgrund dieser bestimmten akustischen Umgebung
dar.
-
Die
Unterschiede zwischen den Modell-Parametern des Basis-Satzes von Erkennungsmodellen
in dessen ursprünglichem
Zustand und den neuen Modell-Parametern des projizierten Basis-Satzes
von Erkennungsmodellen, zu denen man durch diskriminierendes Training
unter Verwendung der bekannten Trainingsausdrücke gelangt ist, die zu dieser
bestimmten akustischen Umgebung zugeordnet wurden, werden in dem Schritt 52 gespeichert.
Der Modell-Transformation-Projektor für diese bestimmte akustische
Umgebung wird aus den in dem Schritt 52 gespeicherten Unterschieden
erstellt.
-
Der
Projektor für
diese bestimmte akustische Umgebung kann sämtliche der Unterschiede für jeden Modell-Parameter
zwischen dem ursprünglichen
Zustand des Modell-Parameters und dem neuen Zustand des Modell-Parameters
sein. Der Basis-Satz von Erkennungsmodellen kann jedoch zum Beispiel über 3500
Parameter verfügen
und das stellt möglicherweise
eine unhandliche Menge an Daten dar. Die Unterschiede, die die Verzerrung
aufgrund dieser bestimmten akustischen Umgebung reflektieren, sind
gewöhnlich
kleine Veränderungen
an den Modell-Parametern (z. B. eine relativ kleine Verschiebung
an dem Mittelwert einer Gauß-Verteilung); und
da die Unterschiede durch dieselbe akustische Umgebung verursacht
werden, ist der Unterschied für
jede von den Modell-Parametern aus dem diskriminierenden Training
mit den bekannten Trainingsausdrücken,
die zu dieser bestimmten akustischen Umgebung zugeordnet wurden,
zu vielen der anderen Unterschiede ähnlich.
-
Da
jeder Modell-Parameter-Unterschied klein ist und da ähnliche
Modell-Parameter-Unterschiede geclustert werden, müssen nicht
sämtliche
Unterschiede (d. h. für
jeden Modell-Parameter) gespeichert werden, um die optimale Leistungsfähigkeit
zu erlangen. Anstatt 3500 Unterschiede für 3500 Modell-Parameter zu speichern,
wird ein verringerter Satz von Unterschieden gemäß den Prinzipien der Erfindung
gespeichert. Um die Anzahl von in dem Speicher gespeicherten Unterschieden
zu verringern, werden die Modell-Parameter-Unterschiede, zu denen
man durch diskriminierendes Training für jede der N bestimmten akustischen
Umgebungen gelangt ist, unter Verwendung von herkömmlichen
Cluster-Techniken
in dem Schritt 54 geclustert. Die herkömmliche Cluster-Technik entscheidet,
welche unter den Transformationen ähnlich sind, die durch die Unterschiede
dargestellt werden. Der Cluster von bestimmten Unterschieden wird
in dem Schritt 56 gespeichert und an Stelle von sämtlichen
Unterschieden für
sämtliche
Modell-Parameter pro bestimmte akustische Umgebung verwendet.
-
Der
verringerte Satz von Unterschieden, der in der Klassifizier-Datenbank 22 als
der Projektor für
jede bestimmte akustische Umgebung/Parallel-Modell gespeichert wird,
ist das Mittel zum Einstellen des Basis-Satzes von Erkennungsmodellen,
damit er mit dieser bestimmten akustischen Umgebung übereinstimmt,
um die akustische Fehlanpassung zwischen dem unbekannten Testausdruck
und dem Basis-Satz von Erkennungsmodellen zu minimieren, der in
der Erkennungsdatenbank 20 gespeichert ist. Das Clustern
kann die Zahl von Unterschieden, die als der Projektor für eine bestimmte
akustische Umgebung gespeichert wurde, für einen 3500 Parameter umfassenden
Basis-Satz von Erkennungsmodellen auf zum Beispiel 400 Unterschiede
ohne die Herabsetzung der Leistungsfähigkeit der Spracherkennung
verringern, wie für
eine bestimmte akustische "Drahtleitung"-Umgebung durch den
Graphen der 4 dargestellt ist.
-
Ein
Parallel-Modell für
jede akustische Umgebung ist mit dem Basis-Satz von Erkennungsmodellen als
ein Ergebnis der zweiten Stufe des Trainings integriert. Jedes Parallel-Modell, das
in der Klassifizier-Datenbank 22 gespeichert ist, schließt einen
Klassifizierer und einen Projektor ein, wobei der Projektor der
beschränkte
Satz von Unterschieden für
diese akustische Umgebung ist, die dazu angewendet werden kann,
um den Basis-Satz von Erkennungsmodellen zu transformieren, damit
er für
diese akustische Umgebung passender ist.
-
Der
vorangehende Trainingsprozess erfordert keine große Menge
an Trainingsdaten, spart Speicherplatz, spart Verarbeitungszeit
und verbessert die Leistungsfähigkeit
der Spracherkennung.
-
Beim
Testen werden Schallwellen, die einen unbekannten Testausdruck ("unbekannte Sprache") darstellen, von
dem akustischen Wandler 10 empfangen. Der akustische Wandler 10 verändert die
Schallwellen in ein elektrisches unbekanntes Sprachsignal 12.
Der Merkmal-Extraktor 14 erzeugt eine Sequenz von Merkmal-Vektoren 16,
die das unbekannte Sprachsignal 12 kennzeichnen. Die Sequenz
von Merkmal-Vektoren 16 wird mittels einer wahrscheinlichen
Anordnung gegenüber
jeder der Klassifizier-Modelle
in dem Satz von Parallel-Modellen bewertet, die in der Klassifizier-Datenbank 22 gespeichert
sind, um eine Bewertung des unbekannten Testausdrucks für jedes
Klassifizier-Modell zu erzeugen. Der Klassifizier-Prozessor 18 identifiziert
die bestimmte akustische Umgebung, die mit dem Klassifizier-Modell
mit der höchsten
Bewertung als die akustische Umgebung assoziiert ist, die am besten
mit der des unbekannten Testausdrucks übereingestimmt hat.
-
Der
Klassifizier-Prozessor 18 emuliert dann die übereinstimmende
akustische Umgebung durch Transformieren des Basis-Satzes von Erkennungsmodellen.
In der erläuternden
Ausführungsform
ist der Projektor der beschränkte
Satz von Unterschieden in dem Parallel-Modell, das das Klassifizier-Modell
enthält,
das für
den unbekannten Testausdruck die höchste Bewertung bekommen hat.
Der Klassifizier-Prozessor 18 wendet den bestimmten Parallel-Modell-Projektor
auf den Basis-Satz von Erkennungsmodellen an, die in der Erkennungsdatenbank 20 gespeichert
sind, wodurch der Basis-Satz von Erkennungsmodellen projiziert wird,
damit er mit der identifizierten akustischen Umgebung überein stimmt.
Schließlich
wird der unbekannte Testausdruck basierend auf einer wahrscheinlichen
Anordnung der Sequenz von Merkmal-Vektoren 16 mit dem projizierten
Basis-Satz von Erkennungsmodellen herkömmlich erkannt. Das Spracherkennungssystem
erzeugt ein erkanntes Sprachsignal.
-
Das
hierin gelehrte Verfahren der Parallel-Modell-Integration (PMI) ist zu anderen Verfahren
zum Verbessern und Steigern der Robustheit bei der Spracherkennung
komplementär,
wie z. B. die Entfernung der Signal-Verzerrung, die zusätzlich zu
dem PMI verwendet werden kann. Die Entfernung der Signal-Verzerrung ist in
dem
US-Patent Nr. 5,590,242 ,
veröffentlicht
am 31. Dezember 1996, an Juang et al., mit dem Titel "Signal bias removal
for robust telephone speech recognition" im Detail beschrieben.
-
Adaptierung
ist der Prozess zum Verbessern der Erkennungsmodelle während des
Testens. Bei herkömmlichen
Verfahren der Modelladaptierung verändern sich die Erkennungsmodelle
wieder und wieder und können
von ihrem ursprünglichen
Zustand weit entfernt werden. Die vorliegende Erfindung ermöglicht eine
effiziente Modelladaptierung während
des Testens, wobei die Adaptierung überwacht oder nicht überwacht
wird.
-
Gemäß der vorliegenden
Erfindung wird der Basis-Satz von Erkennungsmodellen während des
Testens nicht permanent geändert.
Anstatt das gesamte Modell während
der Spracherkennung zu adaptieren, verändert die Modelladaptierung
während
des Testens gemäß der vorliegenden
Erfindung nur die Projektoren für bestimmte
identifizierte akustische Umgebungen. Die Projektoren für eine bestimmte
akustische Umgebung können
bei Vorliegen eines Satzes von Adaptierungsdaten für diese
bestimmte akustische Umgebung optimiert werden. Die Leistungsfähigkeit
der Spracherkennung kann sich während
der Adaptierung weiter verbessern, ohne dass die Leistungsfähigkeit
des Systems bei anderen bestimmten akustischen Umgebungen herabgesetzt
wird.
-
Untersuchungen
wurden über
eine kontinuierliche Stellen-Erkennung
mit drei bestimmten akustischen Umgebungen durchgeführt: ein
Drahtleitungs-Netzwerk, ein Mobil-Netzwerk und Preteen-Abonnenten.
Die Untersuchungen haben gezeigt, dass das Spracherkennungssystem
mit integrierten Parallel-Modellen gemäß den Prinzipien der Erfindung
in der Lage ist, eine nahezu übereinstimmende
Leistungsfähigkeit
der Erkennung für
jede akustische Umgebung zu erreichen, und dass es ein universelles
auf HMM basierendes Spracherkennungssystem übertrifft. Außerdem ist
das Spracherkennungssystem mit integrierten Parallel-Modellen nur
um 6 % langsamer als ein derartiges universelles auf HMM basierendes
Spracherkennungssystem, wobei jedes Parallel-Modell einen Satz von
weniger als 400 Unterschieden einschließt, um eine übereinstimmende
Leistungsfähigkeit
zu erzielen.
-
Drei
Lautsprecher-unabhängige
Datenbank-Sätze
mit verknüpfter
Stelle wurden in dieser Studie untersucht. Die Ergebnisse sind mit
Bezug auf die Tabelle I im Folgenden beschrieben. Tabelle I
System | Preteen | Drahtleitung | Drahtlos |
Grundlinie
(%) | 86,6 | 98,8 | 94,9 |
Global
(%) | 89,5 | 99,1 | 96,3 |
Übereinstimmend
(%) | 93,5 | 99,2 | 96,4 |
PMI
(%) | 93,2 | 99,2 | 96,4 |
-
Der
erste Datenbank-Satz "Preteen" schloss Preteen-Abonnenten im Alter
zwischen 8 und 16 Jahren ein, die 1- bis 10-stellige Strings über ein Telefon-Netzwerk mit
Drahtleitung wiederholten. Der Datenbank-Satz "Preteen" wurde auf 1700 Ausdrücke zum
Trainieren und 915 Ausdrücke
zum Testen aufgeteilt.
-
Der
zweite Datenbank-Satz "Drahtleitung" schloss die Sprache
von Erwachsenen aus einer Vielfalt von Feldforschungssammlungen
ein. Der Datenbank-Satz "Drahtleitung" wurde auf 9600 Ausdrücke zum
Trainieren und 516 Ausdrücke
zum Testen aufgeteilt.
-
Der
dritte Datenbank-Satz "Drahtlos" schloss die Sprache
von Erwachsenen ein, die über
ein Mobil-Telefon-Netzwerk gesammelt wurde. Der Datenbank-Satz "Drahtlos" wurde auf 15500
Ausdrücke
zum Trainieren und 4800 Ausdrücke
zum Testen aufgeteilt.
-
Der
Basis-Satz von Erkennungsmodellen schloss einen Satz von links-nach-rechts
HMMs mit kontinuierlicher Dichte ein, die zuvor mittels einer maximalen
Wahrscheinlichkeitsabschätzung
(MLE) auf einem Standard-Telefon-Sprachkörper trainiert wurden. Es gab
insgesamt 274 Kontext-abhängige
Teilwort-Modelle, wobei jedes 3 bis 4 Zustände mit 4 Mischkomponenten
pro Zustand besaß.
-
Die
Grundlinien-Leistungsfähigkeit
des Spracherkennungssystems mit integrierten Parallel-Modellen in
Bezug auf die Wortgenauigkeit ist in der Tabelle I bei "Grundlinie" gezeigt. Diese Ergebnisse
wurden mit Cepstral-basierten Merkmalen erhalten, die einer Entfernung
der Signal-Verzerrung und einer Grammatik unbekannter Länge folgen.
-
Die
Leistungsfähigkeit
des Spracherkennungssystems mit integrierten Parallel-Modellen,
die einer integrierten Entfernung der Signal-Verzerrung und einem
diskriminierenden Training folgen, ist in der Tabelle I bei "Global" gezeigt. Diese Ergebnisse
entsprechen einem universellen auf HMM basierenden Spracherkennungssystem,
das auf den gesamten drei Datenbank-Sätze
trainiert wurde.
-
Wenn
die akustische Umgebung für
jeden Testausdruck bekannt ist, dann könnte man auf jeden Datenbank-Satz
individuell trainieren und testen. Die Ergebnisse von dieser Untersuchung
sind in der Tabelle I bei "Übereinstimmend" gezeigt und stellen
die obere Grenze für
die Leistungsfähigkeit
des Spracherkennungssystems mit integrierten Parallel-Modellen dar.
-
Das
Trainieren des Spracherkennungssystems mit integrierten Parallel-Modellen
wurde wie folgt durchgeführt.
Jeder Datenbank-Satz
wurde als eine separate akustische Umgebung betrachtet. Für die Klassifizierung
der akustischen Umgebung wurden GMMs mit 64 Mischkomponenten mittels
des MLE als die Klassifizier-Modelle (d. h. Klassifizierer) trainiert,
was in nur einer über
90 %-igen Klassifizierung
der akustischen Umgebung resultierte.
-
Um
die Projektoren zum Transformieren des Basis-Satzes von Erkennungsmodellen
zu erstellen, wurde ein Satz von diskriminierend trainierten Unterschieden
errechnet, was von einer Entfernung der Signal-Verzerrung gefolgt
wurde. Jeder Satz erstreckte sich von 200 bis 400 Unterschieden
pro akustische Umgebung. Das entspricht 6 % bis 12 % der Zahl von
Misch komponenten in dem Basis-Satz von Erkennungsmodellen.
-
Die
Wortgenauigkeit des Spracherkennungssystems mit integrierten Parallel-Modellen
ist bei "PMI" in der Tabelle I
gezeigt. Es ist deutlich, dass diese Ergebnisse in Bezug auf die
Wortgenauigkeit besser als die "Global"-Ergebnisse, insbesondere
für den
Datenbank-Satz "Preteen", und nahezu die
gleichen wie die für
den "Übereinstimmenden"-Zustand präsentierten
sind. Die gesamte Speichergröße des Satzes
von Parallel-Modellen betrug 35 % des Basis-Satzes von Erkennungsmodellen.
-
Während mehrere
bestimmte Formen der Erfindung dargestellt und beschrieben worden
sind, wird es ferner ersichtlich sein, dass verschiedene Modifikationen
vorgenommen werden können,
ohne von dem Schutzumfang der Erfindung abzuweichen, der in den
Ansprüchen
bestimmt ist.
-
Gemäß einem
gegenwärtig
bevorzugten Beispiel wird ein Signalverarbeitungsverfahren zur Erkennung
von unbekannten Sprachsignalen bereitgestellt, das die folgenden
Schritte umfasst: (A) Empfangen eines unbekannten Sprachsignals,
das eine unbekannte Sprache darstellt; (B) Erzeugen eines Satzes
von Merkmal-Vektoren, der das unbekannte Sprachsignal kennzeichnet;
(C) Identifizieren einer akustischen Umgebung der unbekannten Sprache
auf der Basis der Sequenz von Merkmal-Vektoren und eines Satzes
von Klassifizierern; (D) Einstellen eines Basis-Satzes von Erkennungsmodellen,
um die identifizierte akustische Umgebung zu reflektieren; und (E)
Erkennen des unbekannten Sprachsignals auf der Basis der Sequenz
von Merkmal-Vektoren und des Satzes von eingestellten Erkennungsmodellen.
Der Basis-Satz von Erkennungsmodellen kann ein oder mehrere versteckte
Markov-Modelle umfassen.
Der Satz von Klassifizierern kann ein oder mehrere Gauß-Mischmodelle
umfassen. Der Schritt (D) kann die folgenden Schritte einschließen: Bereitstellen eines
Projektors, der der identifizierten akustischen Umgebung entspricht,
und Anwenden einer Transformation auf der Basis des Projektors auf
den Basis-Satz von Erkennungsmodellen. Das obige Verfahren kann
vorteilhaft ferner die folgenden Schritte umfassen: Bereitstellen
eines Projektors, der der identifizierten akustischen Umgebung entspricht,
und Adaptieren des Projektors auf der Basis einer Einstellung, die
an dem Basis-Satz von Erkennungsmodellen vorgenommen wurde.
-
Ein
weiteres Beispiel sieht ein Spracherkennungssystem vor, das folgendes
umfasst: einen Merkmal-Extraktor, der eine Sequenz von Merkmal-Vektoren
erzeugt, die eine unbekannte Sprache kennzeichnen; einen ersten
Speicher zum Speichern eines Basis-Satzes von Erkennungsmodellen; einen
zweiten Speicher zum Speichern eines Satzes von Sekundärmodellen,
wobei jedes Sekundärmodell
einen Klassifizierer und einen Projektor einschließt, die
einer bestimmten akustischen Umgebung entsprechen; einen Klassifizier-Prozessor,
der mit dem Merkmal-Extraktor,
dem ersten Speicher und dem zweiten Speicher gekoppelt ist, wobei der
Klassifizier-Prozessor betrieben wird, um (i) die akustische Umgebung
der unbekannten Sprache auf der Basis der Sequenz von Merkmal-Vektoren
und des Satzes von Sekundärmodellen
zu identifizieren, (ii) den Projektor aus dem zweiten Speicher zu
selektieren, der der identifizierten akustischen Umgebung entspricht, und
(iii) eine Transformation auf der Basis des Projektors auf den Basis-Satz
von Erkennungsmodellen anzuwenden, die in dem ersten Speicher gespeichert
sind, wodurch der Basis-Satz von Erkennungsmodellen eingestellt
wird, um die identifizierte akustische Umgebung zu reflektieren;
und einen Sprach-Erkenner, der mit dem Merkmal-Extraktor und dem ersten Speicher gekoppelt
ist, wobei der Sprach-Erkenner die unbekannte Sprache auf der Basis
der Sequenz von Merkmal-Vektoren und des Basis-Satzes von eingestellten
Erkennungsmodellen erkennt. Das obige System kann ferner einen akustischen
Wandler umfassen, der in der Lage ist, Schallwellen zu empfangen,
die eine unbekannte Sprache darstellen, und die Schallwellen in
ein elektrisches Signal umzuwandeln, und der Basis-Satz von Erkennungsmodellen
kann ein oder mehrere versteckte Markov-Modelle umfassen. Der Satz
von Sekundärmodellen
umfasst ein oder mehrere Gauß-Mischmodelle.
-
Vorteilhafterweise
sieht das Beispiel ferner ein Verfahren zum Trainieren eines Spracherkennungssystems
vor, das die folgenden Schritte umfasst: (A) Bereitstellen eines
Basis-Satzes von Erkennungsmodellen und damit assoziierten Modell-Parametern, die
in einer Erkennungsdatenbank gespeichert sind; (B) Aufteilen des
Basis-Satzes von Erkennungsmodellen auf N Sätze von gegenwärtigen Modellen,
wodurch N bestimmte akustische Umgebungen definiert werden, die
den N Sätzen
von gegenwärtigen
Modellen entsprechen; (C) Speichern der N Sätze von gegenwärtigen Modellen
in einer Klassifizier-Datenbank; (D) Bewerten von einem oder mehreren
bekannten Trainingsausdrücken
gegenüber
jedem der N Sätze
von gegenwärtigen
Modellen; (E) Zuweisen von jedem der bekannten Trainingsausdrücke zu einer
der N bestimmten akustischen Umgebungen auf der Basis der höchsten Bewertung
des bekannten Trainingsausdrucks für die N Sätze von gegenwärtigen Modellen;
(F) Trainieren von jedem der N Sätze
von gegenwärtigen
Modellen, die mit den N bestimmten akustischen Umgebungen assoziiert
sind, unter Verwendung der bekannten Trainingsausdrücke, die
der bestimmten akustischen Umgebung zugewiesen sind, wodurch N Sätze von
neuen Modellen erstellt werden; (G) Speichern der N Sätze von
neuen Modellen in der Klassifizier-Datenbank an Stelle der N Sätze von
gegenwärtigen
Modellen; und (H) für
jede bestimmte akustische Umgebung (i) diskriminierendes Trainieren
des Basis-Satzes von Erkennungsmodellen unter Verwendung der bekannten
Trainingsausdrücke,
die der bestimmten akustischen Umgebung zugewiesen sind, um den
Basis-Satz von Erkennungsmodellen zu projizieren, damit die bestimmte
akustische Umgebung reflektiert wird, (ii) Speichern eines Satzes
der Unterschiede zwischen dem Zustand der Modell-Parameter des Basis-Satzes von Erkennungsmodellen
vor dem diskriminierenden Training und nach dem diskriminierenden
Training, der der Verzerrung entspricht, die durch die bestimmte
akustische Umgebung hervorgerufen wurde, (iii) Clustern der Unterschiede,
zu denen man durch das diskriminierende Training gelangt ist, und
(iv) Speichern des geclusterten Satzes von Unterschieden als einen Projektor,
der zum Einstellen des Basis-Satzes
von Erkennungsmodellen verwendet werden kann, um die bestimmte akustische
Umgebung zu reflektieren. Das letztere Verfahren kann ferner das
Wiederholen der Schritte (D) – (G)
mit einer vorgewählten
Anzahl von Wiederholungen umfassen.
-
Noch
ein weiterer vorteilhafter Aspekt des Beispiels sieht ein Signalverarbeitungsverfahren
zum Erkennen von einer unbekannten Sprache vor, das die folgenden
Schritte umfasst: (A) Identifizieren einer akustischen Umgebung,
die mit einem Testausdruck assoziiert ist; (B) Modifizieren von
ein oder mehreren Erkennungsmodellen, um die identifizierte akustische
Umgebung zu reflektieren; und (C) Erkennen des Teasausdruckes unter
Verwendung des einen oder mehrerer modifizierter Erkennungsmodelle.
-
Das
Beispiel sieht ferner ein vorteilhaftes Verfahren zum Trainieren
eines Spracherkennungssystems vor, wobei das Spracherkennungssystem über einen
Basis-Satz von Erkennungsmodellen verfügt, die in einer Erkennungsdatenbank
gespeichert sind, wobei das Verfahren die folgenden Schritte umfasst:
(A) Definieren von N bestimmten akustischen Umgebungen; (B) Erstellen
von N Sätzen
von Modellen, die mit den N bestimmten akustischen Umgebungen assoziiert
sind; (C) Zuweisen von jedem aus einer Vielzahl von bekannten Trainingsausdrücken zu
einer der N bestimmten akustischen Umgebungen; und (D) für jede bestimmte
akustische Umgebung, Bestimmen eines Projektors, der zum Einstellen
des Basis-Satzes von Erkennungsmodellen verwendet werden kann, um
die bestimmte akustische Umgebung zu reflektieren.
-
Dort,
wo technische Merkmale, die in irgendeinem Anspruch erwähnt sind,
von Bezugsziffern gefolgt werden, sind diese Bezugsziffern für den alleinigen
Zweck der Steigerung der Verständlichkeit
der Ansprüche eingefügt worden,
und dementsprechend besitzen derartige Bezugsziffern keine beschränkende Wirkung
auf den Schutzumfang von jedem Element, das von derartigen Bezugsziffern
beispielhaft identifiziert wird.