DE69838189T2

DE69838189T2 - Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen

Info

Publication number: DE69838189T2
Application number: DE69838189T
Authority: DE
Inventors: Mazin G. Rahim
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1997-05-27
Filing date: 1998-05-14
Publication date: 2008-04-30
Anticipated expiration: 2018-05-15
Also published as: EP0881625B1; DE69831114D1; DE69838189D1; CA2233728A1; EP0881625A2; US5960397A; CA2233728C; EP1526504B1; EP0881625A3; DE69831114T2; EP1526504A1

Description

GEBIET DER ERFINDUNG
Diese Erfindung betrifft im Allgemeinen Spracherkennungssysteme und genauer ein System, das einen Satz von "Parallel"-Modellen und einen Basis-Satz von Erkennungsmodellen integriert, um eine akustische Fehlanpassung zu verringern.
HINTERGRUND DER ERFINDUNG
Die Spracherkennung ist ein Prozess, durch den ein unbekannter Sprachausdruck (gewöhnlich in der Form eines digitalen PCM-Signals) identifiziert wird. Allgemein wird eine Spracherkennung durch Vergleichen der Merkmale eines unbekannten Ausdrucks mit den Merkmalen von bekannten Worten oder Wort-Strings ausgeführt.
Die Merkmale von bekannten Worten oder Wort-Strings werden mit einem als "Training" bekannten Prozess bestimmt. Durch das Training werden eine oder mehrere Proben von bekannten Worten oder -Strings (Trainingssprache) untersucht und ihre Merkmale (oder Charakteristika) als Referenzmuster (oder Erkennungsmodelle) in einer Datenbank eines Sprach-Erkenners aufgezeichnet. Typischerweise stellt jedes Erkennungsmodell ein einziges bekanntes Wort dar. Erkennungsmodelle können jedoch Sprache mit anderen Längen, wie z. B. Teilworte, darstellen (z. B. Phone, die die akustische Erscheinungsform von linguistisch-basierten Phonemen sind). Man kann sich Erkennungsmodelle als Bausteine für Worte und Wort-Strings vorstellen, wie z. B. Phrasen oder Sätze.
Um einen Ausdruck in einem als "Testen" bekannten Prozess zu erkennen, entnimmt ein Sprach-Erkenner Merkmale aus dem Ausdruck, um ihn zu kennzeichnen. Die Merkmale des unbekannten Aus drucks werden als ein Testmuster bezeichnet. Der Sprach-Erkenner vergleicht dann Kombinationen eines oder mehrerer Erkennungsmodelle in der Datenbank mit dem Testmuster des unbekannten Ausdrucks. Eine stechnik wird verwendet, um ein relatives Maß darüber zu liefern, wie gut jede Kombination von Erkennungsmodellen mit dem Testmuster übereinstimmt. Der unbekannte Ausdruck wird als die Worte erkannt, die mit der Kombination eines oder mehrerer Erkennungsmodelle assoziiert wurden, die mit dem unbekannten Ausdruck am nächsten übereinstimmt.
Sprach-Erkenner, die unter Verwendung von Statistiken sowohl erster als auch zweiter Ordnung (d. h. spektrale Mittelwerte und Varianzen) von bekannten Sprachproben trainiert wurden, sind als versteckte Markov-Modell-(HMM)-Sprach-Erkenner bekannt. Jedes Erkennungsmodell in dieser Art von Sprach-Erkenner ist ein statistisches Modell mit N Zuständen (ein HMM), das diese Statistiken reflektiert. Jeder Zustand eines HMM entspricht in gewisser Weise den Statistiken, die mit den zeitlichen Ereignissen von Proben eines bekannten Wortes oder Teilwortes assoziiert sind. Ein HMM wird durch eine Zustandsübergangsmatrix A (die eine statistische Beschreibung darüber liefert, wie neue Zustände von alten Zuständen aus erreicht werden können) und durch eine Beobachtungswahrscheinlichkeitsmatrix B (die eine Beschreibung darüber liefert, welche spektralen Merkmale in einem gegebenen Zustand wahrscheinlich zu beobachten sind) gekennzeichnet. Das Bewerten eines Testmusters reflektiert die Wahrscheinlichkeit des Auftretens der Sequenz von Merkmalen des Testmusters, das einem bestimmten Modell gegeben wurde. Die über alle Modelle kann durch effiziente dynamische Programmierungsverfahren bereitgestellt werden, wie z. B. die Viterbi-Bewertung. Das HMM oder die Sequenz davon, die die höchste Wahrscheinlichkeit der Sequenz von Merkmalen in dem auftretenden Testmuster angibt, identifiziert das Testmuster.
Die Test- und/oder Trainingsausdrücke können von verschiedenen Typen von akustischen Umgebungen stammen. Jede akustische Umgebung (z. B. ein Alter, ein Geschlecht, ein Mikrophontyp, eine Raumkonfiguration, usw.) erzeugt eine Verzerrung und akustische Artefakte, die für die akustische Umgebung kennzeichnend sind.
Ein über ein Telefonkanal (oder eine andere Art von Kanal) übertragenes Sprachsignal trifft häufig mit unbekannten veränderlichen Bedingungen zusammen, die die Leistungsfähigkeit des auf HMM basierenden Spracherkennungssystems bedeutsam herabsetzen. Unerwünschte Komponenten werden dem kommunikativen Teil des Signals aufgrund von Umgebungslärm und Kanalinterferenz als auch aus unterschiedlichen Tonaufnahmegeräten und Effekten der Aussprache hinzugefügt. Lärm wird als zu einem Sprachsignal additiv betrachtet. Das Spektrum eines realen Lärmsignals, wie z. B. das von Ventillatoren und Motoren erzeugte, ist im Allgemeinen nicht flach und kann die Leistungsfähigkeit eines Spracherkennungssystems herabsetzen. Eine Kanalinterferenz, die linear oder nicht-linear sein kann, kann die Leistungsfähigkeit der Spracherkennung ebenfalls herabsetzen.
Ein typischer herkömmlicher Telefonkanal bandpassfiltert effektiv ein gesendetes Signal zwischen 200 Hz und 3200 Hz mit veränderlichen Abschwächungen zwischen den unterschiedlichen spektralen Banden. Die Verwendung von unterschiedlichen Mikrofonen bei verschiedenen Umgebungsbedingungen für unterschiedliche Lautsprecher aus unterschiedlichen geographischen Regionen mit unterschiedlichen Akzenten, die unterschiedliche Dialekte sprechen, kann eine akustische Fehlanpassung zwischen den Sprachsignalen, die beim Testen zusammengetroffen sind, und den Erkennungsmodellen erzeugen, die aus anderen Sprachsignalen trainiert wurden.
Vorherige Bemühungen sind darauf gerichtet worden, das Problem der Aufrechterhaltung von Robustheit bei der automatischen Spracherkennung für eine Vielfalt von "fehlangepassten" akustischen Bedingungen zu lösen, die zwischen dem Trainieren und Testen von akustischen Umgebungen bestehen. Zum Beispiel ist es unter der Annahme eines naiven Modells der Fehlanpassung möglich, eine gewisse Form von blindem Ausgleich anzuwenden, um die Kanalverzerrung und die Auswirkungen eines akustischen Wandlers zu minimieren. Ferner ist es unter der Annahme der vorherigen Kenntnis über die Statistiken des interferierenden Signals möglich, diese Information während dem Erkennungsprozess zu kombinieren, um eine "angepasste" Test-Umgebung zu simulieren. Die inhärenten Annahmen bei derartigen Verfahren beschränken deutlich ihre Fähigkeit zur Verallgemeinerung, wenn sie auf mehrfache akustische Umgebungen, Anwendungen, Netzwerkbedingungen, usw. ausgeweitet werden.
Um ein Spracherkennungssystem auf mehrfache sich unterscheidende akustische Umgebungen allgemeiner anwendbar zu machen, sind Versuche unternommen worden, enorme Mengen an akustisch diversen Trainingsdaten aus vielen Typen von akustischen Umgebungen zu sammeln, aus denen die Erkennungsmodelle des Erkennungssystems trainiert werden sollten. Das in der DE 43 25 404 A1 beschriebene System tritt als von diesem Typ in Erscheinung. Das erfordert eine große Erkennungsmodell-Datenbank mit begleitender Speichergröße und gesteigerter Verarbeitungszeit. Häufig ist eine breite Vielfalt an Trainingsdaten nicht ohne weiteres verfügbar oder ihre Beschaffung ist teuer.
Mehrere separate Sätze von Erkennungsmodellen sind in einem Versuch trainiert worden, um Spracherkennungssysteme widerstandsfähiger zu machen, wobei jeder Satz mit einer bestimmten akustischen Umgebung assoziiert wurde, wie zum Beispiel eine für Männer und eine weitere für Frauen. Die separaten Sätze von Erkennungsmodellen werden gleichzeitig betrieben. Beim Testen wird ein Testmuster unter Verwendung von sämtlichen (z. B. beiden) Sätzen von Erkennungsmodellen erkannt und dann die höchste der mehrfachen (z. B. zwei) Bewertungen selektiert, um den erkannten Ausdruck zu erzeugen. Diese Anordnung impliziert einen Bedarf an der doppelten Speichergröße und der doppelten Verarbeitungszeit.
ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Erfindung, wie durch die Ansprüche bestimmt, stellt ein Spracherkennungssystem bereit, bei dem ein Satz von "Parallel"-(oder "Sekundär"-)Modellen, wobei jeder mit einer oder mehreren bestimmten akustischen Umgebungen assoziiert ist, mit einem Basis-Satz von Erkennungsmodellen integriert ist und das eine unbekannte Sprache, die aus mehrfachen akustischen Umgebungen stammt, wirksam erkennt.
In einer erläuternden Ausführungsform der Erfindung wird das Spracherkennungssystem trainiert, indem ein Satz von Parallelmodellen in einer ersten Stufe des Trainings erstellt wird; und der Satz von Parallel-Modellen mit einem Basis-Satz von Erkennungsmodellen in einer zweiten Stufe des Trainings integriert wird. Noch spezifischer wird in der ersten Stufe des Trainings des Spracherkennungssystems ein Basis-Satz von Erkennungsmodellen in einer Erkennungsdatenbank gespeichert. Der Basis-Satz wird auf N Sätze von gegenwärtigen Modellen aufgeteilt, wodurch N akustische Umgebungen, entsprechend den N Sätzen von gegenwärtigen Modellen, bestimmt werden. Die N Sätze. von gegenwärtigen Modellen werden in einer Klassifizier-Datenbank gespeichert. Die bekannten Trainingsausdrücke werden gegenüber jedem der N Sätze von gegenwärtigen Modellen bewertet. Jeder der bekannten Trainingsausdrücke wird einer der N bestimmten akustischen Umgebungen auf der Basis der höchsten Bewertung des bekannten Trainingsausdrucks für die N Sätze von gegenwärtigen Modellen zugeordnet.
Jeder der N Sätze von Modellen, der mit den N bestimmten akustischen Umgebungen assoziiert ist, wird diskriminierend auf die bekannten Trainingsausdrücke trainiert, die dieser bestimmten akustischen Umgebung zugeordnet sind, wodurch N Sätze von neuen Modellen erstellt werden. Die N Sätze von neuen Modellen werden in der Klassifizier-Datenbank an der Stelle der N Sätze von gegenwärtigen Modellen gespeichert.
Die Schritte des Bewertens der bekannten Trainingsausdrücke gegenüber jedem der N Sätze von Modellen, des Zuordnens jedes der bekannten Trainingsausdrücke zu einer der N bestimmten akustischen Umgebungen und des diskriminierenden Trainierens der N Sätze von neuen Modellen auf die bekannten Trainingsausdrücke, die dieser bestimmten akustischen Umgebung zugeordnet sind, werden so lange wiederholt, bis bekannte Trainingsausdrücke zu bestimmten akustischen Umgebungen als ein Ergebnis des iterativen Prozesses nicht mehr erneut zugeordnet werden.
Die N Sätze von neuen Modellen können wieder auf N' Sätze von Modellen aufgeteilt und die zuvor erwähnten iterativen Pro zessschritte so lange wiederholt werden, bis das Bestimmen von zusätzlichen akustischen Umgebungen nicht mehr erwünscht wird.
Dann wird in der zweiten Stufe des Trainings des Spracherkennungssystems, nachdem jede der bestimmten akustischen Umgebungen in der ersten Trainingsstufe bestimmt wurde, der Basis-Satz von Erkennungsmodellen diskriminierend unter Verwendung der bekannten Trainingsausdrücke trainiert, die zu dieser bestimmten akustischen Umgebung zugeordnet wurden, um den Basis-Satz von Erkennungsmodellen auf einen neuen Modellplatz zu projizieren, der mit dieser bestimmten akustischen Umgebung übereinstimmt. Der Satz von Unterschieden zwischen dem Zustand der Modell-Parameter des Basis-Satzes von Erkennungsmodellen vor dem diskriminierenden Training und dem Zustand der Modell-Parameter nach dem diskriminierenden Training entspricht der Verzerrung aufgrund der bestimmten akustischen Umgebung. Die Unterschiede werden geclustert, um Speicherplatz zu sparen, und ein derartig beschränkter Satz von Unterschieden wird als der Projektor gespeichert, um den Basis-Satz von Erkennungsmodellen einzustellen, damit diese bestimmte akustische Umgebung reflektiert wird.
Als ein Ergebnis davon schließt jedes Parallel-Modell einen Klassifizierer und einen Projektor ein, wobei der Projektor der beschränkte Satz von Unterschieden für diese bestimmte akustische Umgebung ist, der angewendet werden kann, um den Basis-Satz von Erkennungsmodellen zu transformieren, damit diese akustische Umgebung reflektiert wird.
In einer erläuternden Ausführungsform schließt das Spracherkennungssystem einen akustischen Wandler ein und empfängt die unbekannte Sprache in der Form von Schallwellen. Der akustische Wandler konvertiert die Schallwellen in ein elektrisches unbekanntes Sprachsignal. Ein Merkmal-Extraktor erzeugt eine Sequenz von Merkmal-Vektoren, die das unbekannte Sprachsignal kennzeichnen. Ein Klassifizier-Prozessor identifiziert eine akustische Umgebung der unbekannten Sprache auf der Basis der Sequenz von Merkmal-Vektoren unter Verwendung des Satzes von Parallel-Modellen, wobei jeder mit einer bestimmten akustischen Umgebung assoziiert ist, die in der Klassifizier-Datenbank gespeichert ist. Der Klassifizier-Prozessor selektiert einen Projektor aus dem einen Satz von Parallel-Modellen, der der identifizierten akustischen Umgebung entspricht. Der selektierte Projektor wird auf den Basis-Satz von Erkennungsmodellen angewendet, die in der Erkennungsdatenbank gespeichert sind, wodurch der Satz von Erkennungsmodellen eingestellt wird, damit er mit der identifizierten akustischen Umgebung der unbekannten Sprache geeigneter übereinstimmt. Eine Vielzahl von den eingestellten Erkennungsmodellen wird mit der Sequenz von Merkmal-Vektoren verglichen, um eine Vergleichsbewertung für jedes derartige Modell zu bestimmen. Die höchste Vergleichsbewertung wird selektiert und die unbekannte Sprache wird auf der Basis der höchsten Bewertung erkannt.
Andere Aspekte und Vorteile der Erfindung werden aus der folgenden detaillierten Beschreibung und den begleitenden Zeichnungen ersichtlich, die die Merkmale der Erfindung beispielhaft erläutern.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
In den Zeichnungen ist:
1 eine schematische Ansicht, die ein Spracherkennungssystem gemäß den Prinzipien der Erfindung darstellt;
2 ein Prozess-Flussdiagramm, das eine erste Stufe des Trainings gemäß den Prinzipien der Erfindung darstellt;
3 ein Prozess-Flussdiagramm, das eine zweite Stufe des Trainings gemäß den Prinzipien der Erfindung darstellt; und
4 eine Auftragung, die die Wortgenauigkeit gegenüber der Zahl von Unterschieden in dem Projektor für eine akustische Umgebung mit Drahtleitung gemäß den Prinzipien der Erfindung darstellt.
DETAILLIERTE BESCHREIBUNG
Für ein besseres Verständnis der Erfindung wird, zusammen mit anderen und weiteren Aufgaben, Vorteilen und Fähigkeiten davon, Bezug auf die folgende Offenbarung und auf die Figuren der Zeichnungen genommen, worin ähnliche Bezugsziffern ähnliche oder gleiche Elemente bezeichnen.
Für die Klarheit der Erklärung werden die erläuternden Ausführungsformen der vorliegenden Erfindung als individuelle funktionelle Blöcke umfassend dargestellt (die mit "Prozessoren" etikettierte funktionelle Blöcke einschließen). Die Funktionen, die diese Blöcke darstellen, können durch die Verwendung von entweder gemeinsam verwendeter oder bestimmter Hardware bereitgestellt werden, die fähige Hardware zur Ausführung von Software einschließt, aber nicht darauf beschränkt ist. Zum Beispiel können die Funktionen von Prozessoren, die in der 1 dargestellt sind, von einem einzigen gemeinsam verwendeten Prozessor bereitgestellt werden. (Die Verwendung der Bezeichnung "Prozessor" sollte nicht ausgelegt werden, um sich ausschließlich auf Hardware zu beziehen, die zur Ausführung von Software in der Lage ist.)
Erläuternde Ausführungsformen können eine digitale Signal-Prozessor-(DSP)-Hardware, wie z. B. das AT&T DSP16 oder DSP32C, einen Nur-Lese-Speicher (ROM) zum Speichern von Software, die die unten diskutierten Vorgänge ausführt, und einen Direktzugriff-Speicher (RAM) zum Speichern der DSP-Ergebnisse umfassen. Hardware-Ausführungsformen mit Hochintegration (VLSI) sowie herkömmliche VLSI-Schaltungsanordnungen in Verbindung mit einem universellen DSP-Schaltkreis können ebenfalls bereitgestellt werden. Die Verwendung von DSPs ist vorteilhaft, da die verarbeiteten Signale reale physikalische Signale, Prozesse und Aktivitäten darstellen, wie z. B. Sprachsignale, Raumhintergrund-Lärm, usw.
Die vorliegende Erfindung verbessert die Leistungsfähigkeit von Sprach-Erkennern in mehrfachen akustischen Umgebungen, d. h. in Umgebungen, in denen eine akustische Verschiedenheit in den Sprachsignalen getestet und/oder aus denen die Erkennungsmodelle trainiert wurden, und stellt einen effizienten Weg der Handhabung von Verzerrung aus mehrfachen akustischen Umgebungen bereit. Ein Satz von "Parallel"-(d. h. "Sekundär"-)Modellen, wobei jeder einer bestimmten akustischen Umgebung entspricht, wird mit einem Basis-Satz von Erkennungsmodellen gemäß den Prinzipien der Erfindung integriert. Jedes "Parallel"-Modell schließt ein Klassifizier-Modell (d. h. einen Klassifizierer), der zum Identifizieren der akustischen Umgebung der unbekannten Sprache verwendet wird, und einen Modell-Transformation-Projektor (d. h. einen Projektor) zum Transformieren des Basis-Satzes von Erkennungsmodellen ein, damit er mit dieser bestimmten akustischen Umgebung übereinstimmt.
Der Klassifizierer, der innerhalb des Parallel-Modells für eine bestimmte akustische Umgebung eingeschlossen ist, kann zum Beispiel ein Gauß-Mischmodell (GMM), ein verstecktes Markov-Modell (HMM), ein Codebuch für Vektor-Quantifizierung (VQ) oder ein Maschinen-Lernsystem sein, wie z. B. ein neurales Netzwerk. Die Klassifizierer werden in einer Weise mit maximaler Wahrscheinlichkeit auf die Sequenz von Merkmal-Vektoren angewendet, die den Testausdruck bei dem Bestimmungsprozess der passendsten akustischen Umgebung für jeden Testausdruck kennzeichnen. Der Projektor für die bestimmte akustische Umgebung ist ein beschränkter Satz von Unterschieden, zu dem man durch diskriminierendes Training des Basis-Satzes von Erkennungsmodellen unter Verwendung der bekannten Trainingsausdrücke gelangt ist, die mit dieser bestimmten akustischen Umgebung assoziiert sind.
Während dem Testen wird die akustische Umgebung der unbekannten Sprache identifiziert. Ein Projektor wird selektiert, der der identifizierten akustischen Umgebung entspricht. Der Projektor wird angewendet, um den Basis-Satz von Erkennungsmodellen zu transformieren, wodurch der Basis-Satz von Erkennungsmodellen eingestellt wird, damit er für die identifizierte akustische Umgebung passender ist. Dann wird die unbekannte Sprache unter Verwendung des eingestellten Basis-Satzes von Erkennungsmodellen erkannt.
Bezugnehmend auf die 1 schließt ein Spracherkennungssystem gemäß einer erläuternden Ausführungsform der Erfindung einen akustischen Wandler 10, wie z. B. ein Mikrofon in dem Hörer eines Telefons, zum Empfangen von unbekannter Sprache in Form von hörbaren Schallwellen ein, die durch die Ausbreitung und Verdünnung von Luftmolekülen mit assoziierten Verunreinigungen verursacht wurden. Der akustische Wandler 10 konvertiert die Schallwellen in elektrische unbekannte Sprachsignale 12. Ein Merkmal-Extraktor 14 befindet sich in einer elektrischen Verbindung mit der elektrischen Signalausgabe des akustischen Wandlers 10. Der Merkmal-Extraktor 14 erzeugt eine Sequenz von Merkmal-Vektoren 16, die das elektrische unbekannte Sprachsignal 12 kennzeichnen. Ein Klassifizier-Prozessor 18 ist mit dem Merkmal-Extraktor 14 gekoppelt. Eine Erkennungsdatenbank 20 ist mit dem Klassifizier-Prozessor 18 gekoppelt. Eine Klassifizier-Datenbank 22 ist mit dem Klassifizier-Prozessor 18 gekoppelt. Die Erkennungsdatenbank 20 speichert einen herkömmlichen Basis-Satz von Erkennungsmodellen. Der Basis-Satz von Erkennungsmodellen umfasst ein oder mehrere HMMs und assoziierte HMM-Parameter. Jedes von dem einen oder mehreren HMMs schließt eine oder mehrere (z. B. acht) Gauß-Verteilungen pro Zustand ein, wobei jede Gauß-Verteilung einen Mittelwert und eine Varianz besitzt (die als Modell-Parameter bezeichnet werden). Die Klassifizier-Datenbank 22 speichert einen Satz von Parallel-(d. h. Sekundär-)Modellen, wobei jedes Parallel-Modell einer bestimmten akustischen Umgebung entspricht. Jedes Parallel-Modell schließt ein Klassifizier-Modell (d. h. einen Klassifizierer) und einen Modell-Transformation-Projektor (d. h. einen Projektor) ein. Die Gruppe von Klassifizierern, wobei jeder Klassifizierer mit einem von dem Satz von Parallel-Modellen assoziiert ist, wird zum Identifizieren der akustischen Umgebung der unbekannten Sprache verwendet. Der Projektor ist ein beschränkter Satz von Unterschieden, der zum Transformieren des Basis-Satzes von Erkennungsmodellen verwendet wird, damit er mit dieser bestimmten akustischen Umgebung passender übereinstimmt. Man gelangt zu dem beschränkten Satz von Unterschieden für jede bestimmte Umgebung durch diskriminierendes Trainieren des Basis-Satzes von Erkennungsmodellen auf die bekannten Trainingsausdrücke, die mit dieser bestimmten akustischen Umgebung assoziiert sind.
Der Klassifizier-Prozessor 18 wird betrieben, um (i) eine akustische Umgebung der unbekannten Sprache auf der Basis einer wahrscheinlichen Anordnung der Sequenz von Merkmal-Vektoren 16 zu identifizieren, die das unbekannte Sprachsignal 12 (und somit die unbekannte Sprache) mit den Klassifizierern in dem Satz von Parallel-Modellen kennzeichnen, (ii) den Projektor aus einem des Satzes von Parallel-Modellen zu selektieren, der der identifizierten akustischen Umgebung entspricht, und (iii) eine Transformation auf der Basis des selektierten Projektors auf den Basis-Satz von Erkennungsmodellen anzuwenden, wodurch die Parameter der HMMs (d. h. die Mittelwerte und/oder Varianzen der Gauß-Verteilungen) eingestellt werden, die in der Erkennungsdatenbank 20 gespeichert sind, um die identifizierte akustische Umgebung der unbekannten Sprache passender zu reflektieren.
Ein herkömmlicher Sprach-Erkenner 24, der eine standard Viterbi-Strahlensuche ausführen kann, ist mit dem Merkmal-Extraktor 14 und der Erkennungsdatenbank 20 gekoppelt. Der Sprach-Erkenner 24 vergleicht eine Vielzahl von den eingestellten HMMs, die in der Erkennungsdatenbank 20 gespeichert sind, mit der Sequenz von Merkmal-Vektoren 16, um eine Vergleichsbewertung für jedes derartige Modell zu bestimmen, selektiert die höchste Vergleichsbewertung und erzeugt ein erkanntes Sprachsignal auf der Basis der höchsten Bewertung.
Das in der 1 gezeigte Spracherkennungssystem wird durch folgende Schritte trainiert: (i) Erstellen des Satzes von Parallel-Modellen in einer ersten Stufe des Trainings und (ii) Integrieren des Satzes von Parallel-Modellen mit dem herkömmlichen Basis-Satz von Erkennungsmodellen in einer zweiten Stufe des Trainings.
TRAININGSSTUFE I
Die erste Stufe der Erstellung des Satzes von Parallel-(d. h. Sekundär-)Modellen ist das Bestimmen von mehrfachen akustischen Umgebungen durch die Partitionierung von Trainingsdaten. Die Trainingsdaten werden in N akustische Umgebungen unter Verwendung eines Verfahrens der maximalen Wahrscheinlichkeit aufgeteilt, das die Trainingsausdrücke zu einer von den N bestimmten akustischen Umgebungen zuordnet, worin N eine positive ganze Zahl ist, zum Beispiel zwei. Bezugnehmend auf die 2 werden die Trainingsdaten in Form von bekannten Trainingssprachausdrücken in dem Schritt 28 geliefert. Ein anfäng liches herkömmliches Erkennungsmodell wird bereitgestellt oder aus den bekannten Trainingsausdrücken in dem Schritt 30 trainiert. Das herkömmliche Erkennungsmodell könnte ein Codebuch oder ein Satz von Erkennungsmodellen in Form von HMMs oder GMMs sein. In der erläuternden Ausführungsform der Erfindung wird dieses anfängliche herkömmliche Erkennungsmodell als der Basis-Satz von Erkennungsmodellen verwendet, der in dem Erkennungsdatenbankspeicher 20 gespeichert ist (1).
Das anfängliche herkömmliche Modell, der Basis-Satz von Erkennungsmodellen, wird auf N, z. B. zwei, Sätze von Modellen in dem Schritt 32 aufgeteilt. Die Aufteilung könnte eine "blinde" Aufteilung sein, das heißt ohne ein führendes Prinzip. Die Trainingsdaten werden auf der Basis der Aufteilung partitioniert. Jeder bekannte Trainingsausdruck wird gegenüber beiden Sätzen von Modellen bewertet und dem "besten" Satz von Modellen für diesen bestimmten Trainingsausdruck auf der Basis der höheren Bewertung des Trainingsausdrucks für beide Sätze von Modellen in dem Schritt 34 zugeordnet. Das angewandte Prinzip der Erfindung ist, dass, wenn die Trainingsdaten unterschiedliche Wahrscheinlichkeiten besitzen (oder die Bewertungen sich innerhalb unterschiedlicher Bereiche von Wahrscheinlichkeiten befinden), sie dann von verschiedenen akustischen Umgebungen stammen. Die N (z. B. zwei) Sätze von Modellen, die als gegenwärtige Sätze von Modellen angesehen werden können, sind auf ihre assoziativen Daten trainiert (d. h. auf die bekannten Trainingsausdrücke, die ihnen zugeordnet wurden), um N neue Sätze von Modellen in dem Schritt 36 zu erstellen.
Zahlreiche Trainingsverfahren können zum Erstellen der N neuen Sätze von Modellen verwendet werden. Eine diskriminierende Form des Trainings ist bevorzugt. Die N (z. B. zwei) neuen Sätze von Modellen überschreiben die N gegenwärtigen (d. h. alten) Sätze von Modellen in dem Klassifizier-Datenbankspeicher 22 (1).
Dann wird in dem Schritt 38 eine Entscheidung darüber getroffen, ob die zuvor genannten iterativen Prozessschritte des Bestimmens von N bestimmten akustischen Umgebungen, des Zuordnens von bekannten Trainingsausdrücken zu bestimmten akustischen Umgebungen und des Trainierens von N neuen Sätzen von Modellen mit den bekannten Trainingsausdrücken, die ihnen zugeordnet wurden, beendet sind. Der iterative Prozess kann vervollständigt werden, wenn zum Beispiel ein Fehlersignal, das den Prozess der Ausdruckzuordnung verfolgt, mit einem vorbestimmten Wert konvergiert, wenn der iterative Prozess für eine vorausgewählte Anzahl von Zeiten (oder "Runden") ausgeführt worden ist oder wenn bekannte Trainingsausdrücke nicht mehr erneut zu neuen Sätzen von Modellen als ein Ergebnis des iterativen Prozesses zugeordnet werden. Wenn nicht, dann ist der iterative Prozess nicht beendet, und die Schritte des iterativen Prozesses werden wiederholt: Zuordnen jeder der bekannten Trainingsausdrücke zu dem Besten der N Sätze von Modellen auf der Basis der Bewertung des bekannten Trainingsausdrucks für beide der N gegenwärtigen (zuvor neuen) Sätze von Modellen, dann Trainieren (d. h. Erstellen) von N neuen Sätzen von Modellen aus den bekannten Trainingsausdrücken, die zu jedem der N gegenwärtigen Sätze von Modellen zugeordnet wurden, und dann Speichern der N neuen Sätze von Modellen in dem Klassifizier-Datenbankspeicher an der Stelle der N gegenwärtigen Sätze von Modellen.
Wieder wird eine Entscheidung in dem Schritt 38 darüber getroffen, ob die Zuordnung der Trainingsausdrücke beendet ist. Wenn ja, dann ist der iterative Prozess vollständig, und eine Entscheidung wird in dem Schritt 40 darüber getroffen, ob die Zahl N verändert werden sollte, das heißt ob eine zusätzliche Partitionierung der bekannten Trainingsausdrücke erfolgen sollte, um zusätzliche akustische Umgebungen zu bestimmen.
Wenn ja, dann sollten zusätzliche akustische Umgebungen bestimmt werden, und N wird in N' in dem Schritt 42 geändert und die N gegenwärtigen Sätze von Modellen werden auf N' Sätze von Modellen in dem Schritt 44 aufgeteilt, worin N' eine andere Zahl als N ist (z. B. Änderung von zwei definierten bestimmten akustischen Umgebungen/Modellen auf vier definierte bestimmte akustische Umgebungen/Modelle). Das kann eine blinde Aufteilung sein, das heißt ohne ein führendes Prinzip. Die Schritte in dem iterativen Zyklus werden solange wieder und wieder ausgeführt, bis es einen Grund zum Beenden gibt. Ein derartiger Grund kann zum Beispiel sein, dass ein Fehlersignal mit einem vorbestimmten Wert konvergiert oder dass die Iteration eine vorgewählte Anzahl von Zeiten ausgeführt worden ist.
Wenn keine zusätzlichen akustischen Umgebungen bestimmt werden, dann werden die Zuordnungen von bekannten Trainingsausdrücken zu N bestimmten akustischen Umgebungen und die N Sätze von Modellen, die den N bestimmten akustischen Umgebungen entsprechen, in dem Klassifizier-Datenbankspeicher 22 (1) in dem Schritt 46 gespeichert.
Wie zuvor beschrieben, erzeugt somit der Prozess des Bestimmens von N akustischen Umgebungen den Besten Satz von Modellen für jede von den N akustischen Umgebungen und ordnet bekannte Trainingsausdrücke zu jedem von den N Sätzen von Modellen zu. Das wird anschließend in der zweiten Stufe der Prozedur zum Trainieren des Spracherkennungssystems verwendet, das in der 1 gezeigt ist. Die erste Stufe des Trainings des Spracherkennungssystems, und zwar das Erstellen des Satzes von Parallel-Modellen, ist beendet.
TRAININGSSTUFE II
Die zweite Stufe des Trainings des in der 1 gezeigten Spracherkennungssystems integriert den Satz von Parallel-Modellen mit dem Basis-Satz von Erkennungsmodellen, so dass das Spracherkennungssystem eine akustische Umgebung der unbekannten Sprache identifizieren und den Basis-Satz von Erkennungsmodellen auf einen neuen Modellplatz projizieren (d. h. transformieren) kann, der passender mit der identifizierten akustischen Umgebung übereinstimmt. Als ein Ergebnis der ersten Trainingsstufe sind N bestimmte akustische Umgebungen und ein Satz von Klassifizier-Modellen (d. h. Klassifizierer) bestimmt, die mit den N akustischen Umgebungen assoziiert sind; die Klassifizierer sind die N "besten" Modelle, die während dem iterativen Prozess der ersten Trainingsstufe erstellt wurden. Die Klassifizierer für jede bestimmte akustische Umgebung, die aus dem iterativen Prozess der ersten Stufe des Trainings resultieren, werden zu einem Teil des Satzes von Parallel-Modellen, die in der Klassi fizier-Datenbank 22 (1) gespeichert sind. Die Klassifizierer in dem Satz von Parallel-Modellen werden zum Identifizieren der passenden akustischen Umgebung für einen unbekannten Testausdruck verwendet. Jedes von dem Satz von Parallel-Modellen schließt ferner einen Projektor ein, der das Mittel zum Transformieren (d. h. Projizieren) des Basis-Satzes von Erkennungsmodellen ist, die in der Erkennungsdatenbank 20 (1) gespeichert sind, um für die identifizierte akustische Umgebung passender zu sein.
In der zweiten Stufe des Trainings des Spracherkennungssystems wird ein Basis-Satz von Erkennungsmodellen herkömmlich bestimmt. In der erläuternden Ausführungsform der Erfindung wird dasselbe herkömmliche Erkennungsmodell, das in der ersten Trainingsstufe verwendet wurde, als der Basis-Satz von Erkennungsmodellen verwendet. Die Projektoren, die dazu verwendet werden, um den Basis-Satz von Erkennungsmodellen einzustellen, damit er mit der identifizierten akustischen Umgebung übereinstimmt, werden derart bestimmt, dass der selektierte Projektor angewendet werden kann, um den Basis-Satz von Erkennungsmodellen zu transformieren, damit er mit der akustischen Umgebung des Testausdrucks übereinstimmt, wenn ein unbekannter Testausdruck (d. h. "unbekannte Sprache") während dem Testen empfangen wird.
Die Projektoren werden in der zweiten Stufe des Trainings des Spracherkennungssystems mittels des diskriminierenden Trainings errechnet, z. B. mittels des Trainings mit minimalem Klassifizierfehler, das eine Art von diskriminierendem Training darstellt. Der Ansatz des minimalen Klassifizierfehlers (MCE) auf das diskriminierende Training basiert auf dem Prinzip der Minimierung der Fehlerrate. Das MCE-Training eines Sprach-Erkenners findet den besten Satz von HMM-Parametern für die Diskriminierungs-Funktion, um den Fehler zu minimieren, der als die Wahrscheinlichkeit bestimmt wird, dass der trainierte Sprach-Erkenner den Satz von Ausdrücken in dem bekannten Trainingssatz falsch erkennt. Das statistische Modell von jeder grundlegenden Spracherkennungs-Einheit wird durch eine diskriminierende Analyse erhalten. Die Aufgabe eines derartigen MCE-Trainings besteht darin, die Rate des Erkennungsfehlers zu mini mieren, und wird durch Berechnen eines Maßes an Fehlerkennung erreicht, das die Wahrscheinlichkeit angibt, dass ein Sprach-Erkenner bei einem gegebenen Training einen Erkennungsfehler auf der Basis von dessen gegenwärtigem Trainingszustand begeht. Bei dem MCE-Training reflektiert das Maß der Fehlerkennung den Unterschied zwischen (i) einer Bewertung eines Sprach-Erkenners für einen bekannten Trainingsausdruck auf der Basis des korrekten Erkennungsmodells für den bekannten Trainingsausdruck und (ii) einem Durchschnitt von Bewertungen eines oder mehrerer Sprach-Erkenner für den bekannten Trainingsausdruck auf der Basis von einem oder mehreren anderen verwirrend ähnlichen Erkennungsmodellen. Ein diskriminierendes Trainingssystem mit minimalem Klassifizierfehler (MCE) ist im Detail in dem US-Patent Nr. 5,579,436 , veröffentlicht am 26. Nov. 1996, an Chou et al., mit dem Titel "Recognition unit model training based an competing Word and Word string models" beschrieben.
Das MCE-Training oder eine andere Art von diskriminierendem Training wird verwendet, um den Projektor zu errechnen, der den Basis-Satz von Erkennungsmodellen auf der Basis einer bestimmten akustischen Umgebung am effektivsten transformieren wird, die während dem Testen identifiziert wurde. Jeder Projektor ist eine Transformation, die auf die in der Erkennungsdatenbank 20 (1) gespeicherten Modell-Parameter angewendet werden kann.
Bezugnehmend auf die 3, nachdem jede von den N bestimmten akustischen Umgebungen in der ersten Trainingsstufe bestimmt wurde, wird der herkömmliche Basis-Satz von Erkennungsmodellen in dem Schritt 50 mit den bekannten Trainingsausdrücken diskriminierend trainiert, die zu dieser bestimmten akustischen Umgebung während dem Prozess der Partitionierung der ersten Trainingsstufe zugeordnet wurden. Das MCE-Training der Modell-Parameter des Basis-Satzes von Erkennungsmodellen unter Verwendung der bekannten Trainingsausdrücke, die zu dieser bestimmten akustischen Umgebung zugeordnet wurden, projiziert die Modell-Parameter auf einen Modellplatz, der für die bestimmte akustische Umgebung passender ist. Die Parameter des Basis-Satzes von Erkennungsmodellen besitzen einen bestimmten Zustand vor dem diskriminierenden Training und werden durch das diskriminierende Training in einen unterschiedlichen Zustand transformiert. Nicht alle Modell-Parameter werden notwendigerweise verändert. Es können einige, sämtliche oder keine verändert werden.
Für jeden Modell-Parameter stellt der Unterschied zwischen dessen Zustand vor dem diskriminierenden Training und dessen Zustand nach dem diskriminierenden Training diese bestimmte akustische Umgebung oder spezifischer eine Veränderung an dem Modell-Parameter auf der Basis dieser bestimmten akustischen Umgebung dar. Diese Veränderung an den Modell-Parametern des Basis-Satzes von Erkennungsmodellen, die durch ein derartiges diskriminierendes Training verursacht wurde, stellt eine Verzerrung aufgrund dieser bestimmten akustischen Umgebung dar.
Die Unterschiede zwischen den Modell-Parametern des Basis-Satzes von Erkennungsmodellen in dessen ursprünglichem Zustand und den neuen Modell-Parametern des projizierten Basis-Satzes von Erkennungsmodellen, zu denen man durch diskriminierendes Training unter Verwendung der bekannten Trainingsausdrücke gelangt ist, die zu dieser bestimmten akustischen Umgebung zugeordnet wurden, werden in dem Schritt 52 gespeichert. Der Modell-Transformation-Projektor für diese bestimmte akustische Umgebung wird aus den in dem Schritt 52 gespeicherten Unterschieden erstellt.
Der Projektor für diese bestimmte akustische Umgebung kann sämtliche der Unterschiede für jeden Modell-Parameter zwischen dem ursprünglichen Zustand des Modell-Parameters und dem neuen Zustand des Modell-Parameters sein. Der Basis-Satz von Erkennungsmodellen kann jedoch zum Beispiel über 3500 Parameter verfügen und das stellt möglicherweise eine unhandliche Menge an Daten dar. Die Unterschiede, die die Verzerrung aufgrund dieser bestimmten akustischen Umgebung reflektieren, sind gewöhnlich kleine Veränderungen an den Modell-Parametern (z. B. eine relativ kleine Verschiebung an dem Mittelwert einer Gauß-Verteilung); und da die Unterschiede durch dieselbe akustische Umgebung verursacht werden, ist der Unterschied für jede von den Modell-Parametern aus dem diskriminierenden Training mit den bekannten Trainingsausdrücken, die zu dieser bestimmten akustischen Umgebung zugeordnet wurden, zu vielen der anderen Unterschiede ähnlich.
Da jeder Modell-Parameter-Unterschied klein ist und da ähnliche Modell-Parameter-Unterschiede geclustert werden, müssen nicht sämtliche Unterschiede (d. h. für jeden Modell-Parameter) gespeichert werden, um die optimale Leistungsfähigkeit zu erlangen. Anstatt 3500 Unterschiede für 3500 Modell-Parameter zu speichern, wird ein verringerter Satz von Unterschieden gemäß den Prinzipien der Erfindung gespeichert. Um die Anzahl von in dem Speicher gespeicherten Unterschieden zu verringern, werden die Modell-Parameter-Unterschiede, zu denen man durch diskriminierendes Training für jede der N bestimmten akustischen Umgebungen gelangt ist, unter Verwendung von herkömmlichen Cluster-Techniken in dem Schritt 54 geclustert. Die herkömmliche Cluster-Technik entscheidet, welche unter den Transformationen ähnlich sind, die durch die Unterschiede dargestellt werden. Der Cluster von bestimmten Unterschieden wird in dem Schritt 56 gespeichert und an Stelle von sämtlichen Unterschieden für sämtliche Modell-Parameter pro bestimmte akustische Umgebung verwendet.
Der verringerte Satz von Unterschieden, der in der Klassifizier-Datenbank 22 als der Projektor für jede bestimmte akustische Umgebung/Parallel-Modell gespeichert wird, ist das Mittel zum Einstellen des Basis-Satzes von Erkennungsmodellen, damit er mit dieser bestimmten akustischen Umgebung übereinstimmt, um die akustische Fehlanpassung zwischen dem unbekannten Testausdruck und dem Basis-Satz von Erkennungsmodellen zu minimieren, der in der Erkennungsdatenbank 20 gespeichert ist. Das Clustern kann die Zahl von Unterschieden, die als der Projektor für eine bestimmte akustische Umgebung gespeichert wurde, für einen 3500 Parameter umfassenden Basis-Satz von Erkennungsmodellen auf zum Beispiel 400 Unterschiede ohne die Herabsetzung der Leistungsfähigkeit der Spracherkennung verringern, wie für eine bestimmte akustische "Drahtleitung"-Umgebung durch den Graphen der 4 dargestellt ist.
Ein Parallel-Modell für jede akustische Umgebung ist mit dem Basis-Satz von Erkennungsmodellen als ein Ergebnis der zweiten Stufe des Trainings integriert. Jedes Parallel-Modell, das in der Klassifizier-Datenbank 22 gespeichert ist, schließt einen Klassifizierer und einen Projektor ein, wobei der Projektor der beschränkte Satz von Unterschieden für diese akustische Umgebung ist, die dazu angewendet werden kann, um den Basis-Satz von Erkennungsmodellen zu transformieren, damit er für diese akustische Umgebung passender ist.
Der vorangehende Trainingsprozess erfordert keine große Menge an Trainingsdaten, spart Speicherplatz, spart Verarbeitungszeit und verbessert die Leistungsfähigkeit der Spracherkennung.
Beim Testen werden Schallwellen, die einen unbekannten Testausdruck ("unbekannte Sprache") darstellen, von dem akustischen Wandler 10 empfangen. Der akustische Wandler 10 verändert die Schallwellen in ein elektrisches unbekanntes Sprachsignal 12. Der Merkmal-Extraktor 14 erzeugt eine Sequenz von Merkmal-Vektoren 16, die das unbekannte Sprachsignal 12 kennzeichnen. Die Sequenz von Merkmal-Vektoren 16 wird mittels einer wahrscheinlichen Anordnung gegenüber jeder der Klassifizier-Modelle in dem Satz von Parallel-Modellen bewertet, die in der Klassifizier-Datenbank 22 gespeichert sind, um eine Bewertung des unbekannten Testausdrucks für jedes Klassifizier-Modell zu erzeugen. Der Klassifizier-Prozessor 18 identifiziert die bestimmte akustische Umgebung, die mit dem Klassifizier-Modell mit der höchsten Bewertung als die akustische Umgebung assoziiert ist, die am besten mit der des unbekannten Testausdrucks übereingestimmt hat.
Der Klassifizier-Prozessor 18 emuliert dann die übereinstimmende akustische Umgebung durch Transformieren des Basis-Satzes von Erkennungsmodellen. In der erläuternden Ausführungsform ist der Projektor der beschränkte Satz von Unterschieden in dem Parallel-Modell, das das Klassifizier-Modell enthält, das für den unbekannten Testausdruck die höchste Bewertung bekommen hat. Der Klassifizier-Prozessor 18 wendet den bestimmten Parallel-Modell-Projektor auf den Basis-Satz von Erkennungsmodellen an, die in der Erkennungsdatenbank 20 gespeichert sind, wodurch der Basis-Satz von Erkennungsmodellen projiziert wird, damit er mit der identifizierten akustischen Umgebung überein stimmt. Schließlich wird der unbekannte Testausdruck basierend auf einer wahrscheinlichen Anordnung der Sequenz von Merkmal-Vektoren 16 mit dem projizierten Basis-Satz von Erkennungsmodellen herkömmlich erkannt. Das Spracherkennungssystem erzeugt ein erkanntes Sprachsignal.
Das hierin gelehrte Verfahren der Parallel-Modell-Integration (PMI) ist zu anderen Verfahren zum Verbessern und Steigern der Robustheit bei der Spracherkennung komplementär, wie z. B. die Entfernung der Signal-Verzerrung, die zusätzlich zu dem PMI verwendet werden kann. Die Entfernung der Signal-Verzerrung ist in dem US-Patent Nr. 5,590,242 , veröffentlicht am 31. Dezember 1996, an Juang et al., mit dem Titel "Signal bias removal for robust telephone speech recognition" im Detail beschrieben.
Adaptierung ist der Prozess zum Verbessern der Erkennungsmodelle während des Testens. Bei herkömmlichen Verfahren der Modelladaptierung verändern sich die Erkennungsmodelle wieder und wieder und können von ihrem ursprünglichen Zustand weit entfernt werden. Die vorliegende Erfindung ermöglicht eine effiziente Modelladaptierung während des Testens, wobei die Adaptierung überwacht oder nicht überwacht wird.
Gemäß der vorliegenden Erfindung wird der Basis-Satz von Erkennungsmodellen während des Testens nicht permanent geändert. Anstatt das gesamte Modell während der Spracherkennung zu adaptieren, verändert die Modelladaptierung während des Testens gemäß der vorliegenden Erfindung nur die Projektoren für bestimmte identifizierte akustische Umgebungen. Die Projektoren für eine bestimmte akustische Umgebung können bei Vorliegen eines Satzes von Adaptierungsdaten für diese bestimmte akustische Umgebung optimiert werden. Die Leistungsfähigkeit der Spracherkennung kann sich während der Adaptierung weiter verbessern, ohne dass die Leistungsfähigkeit des Systems bei anderen bestimmten akustischen Umgebungen herabgesetzt wird.
Untersuchungen wurden über eine kontinuierliche Stellen-Erkennung mit drei bestimmten akustischen Umgebungen durchgeführt: ein Drahtleitungs-Netzwerk, ein Mobil-Netzwerk und Preteen-Abonnenten. Die Untersuchungen haben gezeigt, dass das Spracherkennungssystem mit integrierten Parallel-Modellen gemäß den Prinzipien der Erfindung in der Lage ist, eine nahezu übereinstimmende Leistungsfähigkeit der Erkennung für jede akustische Umgebung zu erreichen, und dass es ein universelles auf HMM basierendes Spracherkennungssystem übertrifft. Außerdem ist das Spracherkennungssystem mit integrierten Parallel-Modellen nur um 6 % langsamer als ein derartiges universelles auf HMM basierendes Spracherkennungssystem, wobei jedes Parallel-Modell einen Satz von weniger als 400 Unterschieden einschließt, um eine übereinstimmende Leistungsfähigkeit zu erzielen.
Drei Lautsprecher-unabhängige Datenbank-Sätze mit verknüpfter Stelle wurden in dieser Studie untersucht. Die Ergebnisse sind mit Bezug auf die Tabelle I im Folgenden beschrieben. Tabelle I

System Preteen Drahtleitung Drahtlos

Grundlinie (%) 86,6 98,8 94,9

Global (%) 89,5 99,1 96,3

Übereinstimmend (%) 93,5 99,2 96,4

PMI (%) 93,2 99,2 96,4
Der erste Datenbank-Satz "Preteen" schloss Preteen-Abonnenten im Alter zwischen 8 und 16 Jahren ein, die 1- bis 10-stellige Strings über ein Telefon-Netzwerk mit Drahtleitung wiederholten. Der Datenbank-Satz "Preteen" wurde auf 1700 Ausdrücke zum Trainieren und 915 Ausdrücke zum Testen aufgeteilt.
Der zweite Datenbank-Satz "Drahtleitung" schloss die Sprache von Erwachsenen aus einer Vielfalt von Feldforschungssammlungen ein. Der Datenbank-Satz "Drahtleitung" wurde auf 9600 Ausdrücke zum Trainieren und 516 Ausdrücke zum Testen aufgeteilt.
Der dritte Datenbank-Satz "Drahtlos" schloss die Sprache von Erwachsenen ein, die über ein Mobil-Telefon-Netzwerk gesammelt wurde. Der Datenbank-Satz "Drahtlos" wurde auf 15500 Ausdrücke zum Trainieren und 4800 Ausdrücke zum Testen aufgeteilt.
Der Basis-Satz von Erkennungsmodellen schloss einen Satz von links-nach-rechts HMMs mit kontinuierlicher Dichte ein, die zuvor mittels einer maximalen Wahrscheinlichkeitsabschätzung (MLE) auf einem Standard-Telefon-Sprachkörper trainiert wurden. Es gab insgesamt 274 Kontext-abhängige Teilwort-Modelle, wobei jedes 3 bis 4 Zustände mit 4 Mischkomponenten pro Zustand besaß.
Die Grundlinien-Leistungsfähigkeit des Spracherkennungssystems mit integrierten Parallel-Modellen in Bezug auf die Wortgenauigkeit ist in der Tabelle I bei "Grundlinie" gezeigt. Diese Ergebnisse wurden mit Cepstral-basierten Merkmalen erhalten, die einer Entfernung der Signal-Verzerrung und einer Grammatik unbekannter Länge folgen.
Die Leistungsfähigkeit des Spracherkennungssystems mit integrierten Parallel-Modellen, die einer integrierten Entfernung der Signal-Verzerrung und einem diskriminierenden Training folgen, ist in der Tabelle I bei "Global" gezeigt. Diese Ergebnisse entsprechen einem universellen auf HMM basierenden Spracherkennungssystem, das auf den gesamten drei Datenbank-Sätze trainiert wurde.
Wenn die akustische Umgebung für jeden Testausdruck bekannt ist, dann könnte man auf jeden Datenbank-Satz individuell trainieren und testen. Die Ergebnisse von dieser Untersuchung sind in der Tabelle I bei "Übereinstimmend" gezeigt und stellen die obere Grenze für die Leistungsfähigkeit des Spracherkennungssystems mit integrierten Parallel-Modellen dar.
Das Trainieren des Spracherkennungssystems mit integrierten Parallel-Modellen wurde wie folgt durchgeführt. Jeder Datenbank-Satz wurde als eine separate akustische Umgebung betrachtet. Für die Klassifizierung der akustischen Umgebung wurden GMMs mit 64 Mischkomponenten mittels des MLE als die Klassifizier-Modelle (d. h. Klassifizierer) trainiert, was in nur einer über 90 %-igen Klassifizierung der akustischen Umgebung resultierte.
Um die Projektoren zum Transformieren des Basis-Satzes von Erkennungsmodellen zu erstellen, wurde ein Satz von diskriminierend trainierten Unterschieden errechnet, was von einer Entfernung der Signal-Verzerrung gefolgt wurde. Jeder Satz erstreckte sich von 200 bis 400 Unterschieden pro akustische Umgebung. Das entspricht 6 % bis 12 % der Zahl von Misch komponenten in dem Basis-Satz von Erkennungsmodellen.
Die Wortgenauigkeit des Spracherkennungssystems mit integrierten Parallel-Modellen ist bei "PMI" in der Tabelle I gezeigt. Es ist deutlich, dass diese Ergebnisse in Bezug auf die Wortgenauigkeit besser als die "Global"-Ergebnisse, insbesondere für den Datenbank-Satz "Preteen", und nahezu die gleichen wie die für den "Übereinstimmenden"-Zustand präsentierten sind. Die gesamte Speichergröße des Satzes von Parallel-Modellen betrug 35 % des Basis-Satzes von Erkennungsmodellen.
Während mehrere bestimmte Formen der Erfindung dargestellt und beschrieben worden sind, wird es ferner ersichtlich sein, dass verschiedene Modifikationen vorgenommen werden können, ohne von dem Schutzumfang der Erfindung abzuweichen, der in den Ansprüchen bestimmt ist.
Gemäß einem gegenwärtig bevorzugten Beispiel wird ein Signalverarbeitungsverfahren zur Erkennung von unbekannten Sprachsignalen bereitgestellt, das die folgenden Schritte umfasst: (A) Empfangen eines unbekannten Sprachsignals, das eine unbekannte Sprache darstellt; (B) Erzeugen eines Satzes von Merkmal-Vektoren, der das unbekannte Sprachsignal kennzeichnet; (C) Identifizieren einer akustischen Umgebung der unbekannten Sprache auf der Basis der Sequenz von Merkmal-Vektoren und eines Satzes von Klassifizierern; (D) Einstellen eines Basis-Satzes von Erkennungsmodellen, um die identifizierte akustische Umgebung zu reflektieren; und (E) Erkennen des unbekannten Sprachsignals auf der Basis der Sequenz von Merkmal-Vektoren und des Satzes von eingestellten Erkennungsmodellen. Der Basis-Satz von Erkennungsmodellen kann ein oder mehrere versteckte Markov-Modelle umfassen. Der Satz von Klassifizierern kann ein oder mehrere Gauß-Mischmodelle umfassen. Der Schritt (D) kann die folgenden Schritte einschließen: Bereitstellen eines Projektors, der der identifizierten akustischen Umgebung entspricht, und Anwenden einer Transformation auf der Basis des Projektors auf den Basis-Satz von Erkennungsmodellen. Das obige Verfahren kann vorteilhaft ferner die folgenden Schritte umfassen: Bereitstellen eines Projektors, der der identifizierten akustischen Umgebung entspricht, und Adaptieren des Projektors auf der Basis einer Einstellung, die an dem Basis-Satz von Erkennungsmodellen vorgenommen wurde.
Ein weiteres Beispiel sieht ein Spracherkennungssystem vor, das folgendes umfasst: einen Merkmal-Extraktor, der eine Sequenz von Merkmal-Vektoren erzeugt, die eine unbekannte Sprache kennzeichnen; einen ersten Speicher zum Speichern eines Basis-Satzes von Erkennungsmodellen; einen zweiten Speicher zum Speichern eines Satzes von Sekundärmodellen, wobei jedes Sekundärmodell einen Klassifizierer und einen Projektor einschließt, die einer bestimmten akustischen Umgebung entsprechen; einen Klassifizier-Prozessor, der mit dem Merkmal-Extraktor, dem ersten Speicher und dem zweiten Speicher gekoppelt ist, wobei der Klassifizier-Prozessor betrieben wird, um (i) die akustische Umgebung der unbekannten Sprache auf der Basis der Sequenz von Merkmal-Vektoren und des Satzes von Sekundärmodellen zu identifizieren, (ii) den Projektor aus dem zweiten Speicher zu selektieren, der der identifizierten akustischen Umgebung entspricht, und (iii) eine Transformation auf der Basis des Projektors auf den Basis-Satz von Erkennungsmodellen anzuwenden, die in dem ersten Speicher gespeichert sind, wodurch der Basis-Satz von Erkennungsmodellen eingestellt wird, um die identifizierte akustische Umgebung zu reflektieren; und einen Sprach-Erkenner, der mit dem Merkmal-Extraktor und dem ersten Speicher gekoppelt ist, wobei der Sprach-Erkenner die unbekannte Sprache auf der Basis der Sequenz von Merkmal-Vektoren und des Basis-Satzes von eingestellten Erkennungsmodellen erkennt. Das obige System kann ferner einen akustischen Wandler umfassen, der in der Lage ist, Schallwellen zu empfangen, die eine unbekannte Sprache darstellen, und die Schallwellen in ein elektrisches Signal umzuwandeln, und der Basis-Satz von Erkennungsmodellen kann ein oder mehrere versteckte Markov-Modelle umfassen. Der Satz von Sekundärmodellen umfasst ein oder mehrere Gauß-Mischmodelle.
Vorteilhafterweise sieht das Beispiel ferner ein Verfahren zum Trainieren eines Spracherkennungssystems vor, das die folgenden Schritte umfasst: (A) Bereitstellen eines Basis-Satzes von Erkennungsmodellen und damit assoziierten Modell-Parametern, die in einer Erkennungsdatenbank gespeichert sind; (B) Aufteilen des Basis-Satzes von Erkennungsmodellen auf N Sätze von gegenwärtigen Modellen, wodurch N bestimmte akustische Umgebungen definiert werden, die den N Sätzen von gegenwärtigen Modellen entsprechen; (C) Speichern der N Sätze von gegenwärtigen Modellen in einer Klassifizier-Datenbank; (D) Bewerten von einem oder mehreren bekannten Trainingsausdrücken gegenüber jedem der N Sätze von gegenwärtigen Modellen; (E) Zuweisen von jedem der bekannten Trainingsausdrücke zu einer der N bestimmten akustischen Umgebungen auf der Basis der höchsten Bewertung des bekannten Trainingsausdrucks für die N Sätze von gegenwärtigen Modellen; (F) Trainieren von jedem der N Sätze von gegenwärtigen Modellen, die mit den N bestimmten akustischen Umgebungen assoziiert sind, unter Verwendung der bekannten Trainingsausdrücke, die der bestimmten akustischen Umgebung zugewiesen sind, wodurch N Sätze von neuen Modellen erstellt werden; (G) Speichern der N Sätze von neuen Modellen in der Klassifizier-Datenbank an Stelle der N Sätze von gegenwärtigen Modellen; und (H) für jede bestimmte akustische Umgebung (i) diskriminierendes Trainieren des Basis-Satzes von Erkennungsmodellen unter Verwendung der bekannten Trainingsausdrücke, die der bestimmten akustischen Umgebung zugewiesen sind, um den Basis-Satz von Erkennungsmodellen zu projizieren, damit die bestimmte akustische Umgebung reflektiert wird, (ii) Speichern eines Satzes der Unterschiede zwischen dem Zustand der Modell-Parameter des Basis-Satzes von Erkennungsmodellen vor dem diskriminierenden Training und nach dem diskriminierenden Training, der der Verzerrung entspricht, die durch die bestimmte akustische Umgebung hervorgerufen wurde, (iii) Clustern der Unterschiede, zu denen man durch das diskriminierende Training gelangt ist, und (iv) Speichern des geclusterten Satzes von Unterschieden als einen Projektor, der zum Einstellen des Basis-Satzes von Erkennungsmodellen verwendet werden kann, um die bestimmte akustische Umgebung zu reflektieren. Das letztere Verfahren kann ferner das Wiederholen der Schritte (D) – (G) mit einer vorgewählten Anzahl von Wiederholungen umfassen.
Noch ein weiterer vorteilhafter Aspekt des Beispiels sieht ein Signalverarbeitungsverfahren zum Erkennen von einer unbekannten Sprache vor, das die folgenden Schritte umfasst: (A) Identifizieren einer akustischen Umgebung, die mit einem Testausdruck assoziiert ist; (B) Modifizieren von ein oder mehreren Erkennungsmodellen, um die identifizierte akustische Umgebung zu reflektieren; und (C) Erkennen des Teasausdruckes unter Verwendung des einen oder mehrerer modifizierter Erkennungsmodelle.
Das Beispiel sieht ferner ein vorteilhaftes Verfahren zum Trainieren eines Spracherkennungssystems vor, wobei das Spracherkennungssystem über einen Basis-Satz von Erkennungsmodellen verfügt, die in einer Erkennungsdatenbank gespeichert sind, wobei das Verfahren die folgenden Schritte umfasst: (A) Definieren von N bestimmten akustischen Umgebungen; (B) Erstellen von N Sätzen von Modellen, die mit den N bestimmten akustischen Umgebungen assoziiert sind; (C) Zuweisen von jedem aus einer Vielzahl von bekannten Trainingsausdrücken zu einer der N bestimmten akustischen Umgebungen; und (D) für jede bestimmte akustische Umgebung, Bestimmen eines Projektors, der zum Einstellen des Basis-Satzes von Erkennungsmodellen verwendet werden kann, um die bestimmte akustische Umgebung zu reflektieren.
Dort, wo technische Merkmale, die in irgendeinem Anspruch erwähnt sind, von Bezugsziffern gefolgt werden, sind diese Bezugsziffern für den alleinigen Zweck der Steigerung der Verständlichkeit der Ansprüche eingefügt worden, und dementsprechend besitzen derartige Bezugsziffern keine beschränkende Wirkung auf den Schutzumfang von jedem Element, das von derartigen Bezugsziffern beispielhaft identifiziert wird.

Claims

Ein Verfahren zur Erkennung eines unbekannten Sprachsignals, das folgendes umfasst: Speichern, für jede aus einer Vielzahl von akustischen Umgebungen, von Information, die einen Satz von Erkennungsmodellen für diese akustische Umgebung definiert; Empfangen eines Signals, das eine unbekannte Sprache darstellt; Identifizieren einer bestimmten Umgebung aus der Vielzahl von akustischen Umgebungen als die akustische Umgebung der unbekannten Sprache; und Erkennen des unbekannten Sprachsignals unter Verwendung des Satzes von Erkennungsmodellen für die identifizierte akustische Umgebung, dadurch gekennzeichnet, dass die Information, die den Satz von Erkennungsmodellen für jede akustische Umgebung definiert, folgendes einschließt: einen Basis-Satz von Erkennungsmodellen; und Information, die Unterschiede zwischen den Werten von bestimmten Parametern des Basis-Satzes von Erkennungsmodellen und den Werten der entsprechenden Parameter des Satzes von Erkennungsmodellen für jede akustische Umgebung definiert.
Ein Verfahren nach Anspruch 1, wobei das Identifizieren auf dem unbekannten Sprachsignal basiert.
Ein Verfahren nach Anspruch 1 oder 2, wobei mindestens einer der bestimmten Parameter des Basis-Satzes von Erkennungsmodellen der Mittelwert einer Gauß-Verteilung ist; oder wobei mindestens einer der bestimmten Parameter des Basis-Satzes eine Varianz einer Gauß-Verteilung ist.
Ein Verfahren nach einem oder mehreren der Ansprüche 1-3, wobei die die Unterschiede definierende Information, einen Modell-Transformation-Projektor umfasst, der jeder akustischen Umgebung entspricht; und das Verfahren ferner die Erzeugung des Satzes von Modellen für die identifizierte akustische Umgebung umfasst, indem der entsprechende Modell-Transformation-Projektor auf den Basis-Satz von Erkennungsmodellen angewendet wird.
Ein Verfahren nach einem oder mehreren der Ansprüche 2-4, wobei der Basis-Satz von Erkennungsmodellen ein oder mehrere versteckte Markov-Modelle umfasst; oder wobei mindestens eines der Erkennungsmodelle des Basis-Satzes jeweilige Phone modelliert.
Ein Verfahren nach Anspruch 4, das ferner folgendes umfasst: Adaptieren der Information, die den Satz von Erkennungsmodellen für die identifizierte akustische Umgebung definiert, indem als Antwort auf das Erkennen der Modell-Transformation-Projektor, der der akustischen Umgebung entspricht, adaptiert wird.
Ein Verfahren nach einem oder mehreren der Ansprüche 1-6, das ferner folgendes umfasst: Erzeugen eines Satzes von Merkmal-Vektoren, der das unbekannte Sprachsignal kennzeichnet, und wobei die akustische Umgebung des unbekannten Sprachsignals auf der Basis der Sequenz von Merkmal-Vektoren und eines Satzes von Klassifizier-Modellen identifiziert wird.
Ein Verfahren nach Anspruch 7, wobei der Satz von Klassifizier-Modellen ein oder mehrere Gauß-Mischmodelle umfasst.
Ein Signalverarbeitungssystem zur Erkennung eines Testausdrucks, das folgendes umfasst: Mittel zur Identifizierung, als Antwort auf den Testausdruck, einer Umgebung aus einer vorbestimmten Vielzahl von akus tischen Umgebungen, die mit dem Testausdruck assoziiert sind; und Mittel zur Erkennung des Testausdrucks unter Verwendung des Satzes von Erkennungsmodellen für die identifizierte Umgebung, dadurch gekennzeichnet, dass die Information, die den Satz von Erkennungsmodellen für jede akustische Umgebung definiert, folgendes einschließt: einen Basis-Satz von Erkennungsmodellen; und Information, die Unterschiede zwischen den Werten von bestimmten Parametern des Basis-Satzes von Erkennungsmodellen und den Werten der entsprechenden Parameter des Satzes von Erkennungsmodellen für jede akustische Umgebung definiert.
Ein System nach Anspruch 9, wobei Mittel zur Modifizierung den Mittelwert von mindestens einer Gauß-Verteilung modifizieren; oder wobei Mittel zur Modifizierung eine Varianz von mindestens einer Gauß-Verteilung modifizieren.
Ein System nach Anspruch 9 oder 10, wobei mindestens eines der Erkennungsmodelle ein verstecktes Markov-Modell ist, und wobei vorzugsweise mindestens eines der versteckten Markov-Modelle jeweilige Phone modelliert.
Ein System nach Anspruch 11, das ferner Mittel zur Erzeugung eines Satzes von Merkmal-Vektoren umfasst, der den Testausdruck kennzeichnet, und wobei die Mittel zur Identifizierung die akustische Umgebung des Testausdrucks auf der Basis der Sequenz von Merkmal-Vektoren und eines Satzes von Klassifizier-Modellen identifizieren.
Ein System nach Anspruch 12, wobei der Satz von Klassifizier-Modellen ein oder mehrere Gauß-Mischmodelle umfasst.
Ein Verfahren zur Entwicklung, für jede aus einer Vielzahl von akustischen Umgebungen, von Information, die einen Satz von Spracherkennungsmodellen für diese akustische Umgebung definiert, wobei das Verfahren folgendes umfasst: Organisieren von Trainingsausdrücken aus verschiedenen akustischen Umgebungen gemäß ihren akustischen Umgebungen zu Gruppen; und Einsetzen jeder Gruppe von Trainingsausdrücken zum diskriminierenden Trainieren von Erkennungsmodellen, um einen Satz von Erkennungsmodellen für eine jeweilige akustische Umgebung zu erzeugen, dadurch gekennzeichnet, dass die Information, die den Satz von Erkennungsmodellen für jede akustische Umgebung definiert, folgendes einschließt: einen Basis-Satz von Erkennungsmodellen; und Information, die Unterschiede zwischen den Werten von bestimmten Parametern des Basis-Satzes von Erkennungsmodellen und den Werten der entsprechenden Parameter des Satzes von Erkennungsmodellen für jede akustische Umgebung definiert.
Ein Verfahren nach Anspruch 14, das ferner folgendes umfasst: Bestimmen eines Satzes von Unterschieden zwischen den Werten von Modell-Parametern des Basis-Satzes von Erkennungsmodellen vor dem diskriminierenden Trainieren und nach dem diskriminierenden Trainieren.
Ein Verfahren nach Anspruch 14, das ferner folgendes umfasst: Speichern eines Teilsatzes der Unterschiede als einen Projektor, der zur Einstellung des Basis-Satzes von Erkennungsmodellen verwendet werden kann, um die jeweilige akustische Umgebung zu reflektieren.
Ein Verfahren nach einem oder mehreren der Ansprüche 14-16, wobei die Verarbeitung des Trainingsausdrucks folgendes umfasst: Aufteilen eines ursprünglichen Satzes von Erkennungsmodellen auf N Sätze von gegenwärtigen Modellen, wodurch N bestimmte akustische Umgebungen definiert werden, die den N Sätzen von gegenwärtigen Modellen entsprechen; Bewerten der Trainingsausdrücke gegenüber jedem der N Sätze von gegenwärtigen Modellen; und Zuweisen von jedem der Trainingsausdrücke zu einer der N bestimmten akustischen Umgebungen auf der Basis der höchsten Bewertung des bekannten Trainingsausdrucks für die N Sätze von gegenwärtigen Modellen.
Ein Verfahren nach Anspruch 17, das ferner folgendes umfasst: Trainieren von jedem der N Sätze von gegenwärtigen Modellen, die mit den N bestimmten akustischen Umgebungen assoziiert sind, unter Verwendung der Trainingsausdrücke, die der bestimmten akustischen Umgebung zugewiesen sind, wodurch N Sätze von neuen Modellen erstellt werden; und Speichern der N Sätze von neuen Modellen in einer Klassifizierdatenbank zur Verwendung beim Klassifizieren von Testausdrücken zu einer der N akustischen Umgebungen.
Ein Verfahren nach Anspruch 17, das ferner folgendes umfasst: Trainieren von jedem der N Sätze von gegenwärtigen Modellen, die mit den N bestimmten akustischen Umgebungen assoziiert sind, unter Verwendung der Trainingsausdrücke, die der bestimmten akustischen Umgebung zugewiesen sind, wodurch N Sätze von neuen Modellen erstellt werden; Aufteilen der N Sätze von gegenwärtigen Modellen auf N' Sätze von Modellen; Durchführen der Bewertungs-, Zuweisungs-, Trainings- und Speicherungsschritte bei den N' Sätzen von Modellen, wodurch N' Sätze von neuen Modellen erstellt werden; und Speichern der N' Sätze von neuen Modellen in einer Klassifizier-Datenbank zur Verwendung beim Klassifizieren von Testausdrücken zu einer der N akustischen Umgebungen.
Ein Verfahren nach Anspruch 16, das ferner das Clustern der beim diskriminierenden Trainieren erlangten Unterschiede zur Identifizierung des Teilsatzes umfasst.
Ein Verfahren nach einem oder mehreren der Ansprüche 14-20, wobei bei dem Organisierungsschritt jede der Gruppen Trainingsausdrücke aus einer bestimmten akustischen Umgebung umfasst.
Ein Verfahren nach einem oder mehreren der Ansprüche 1-8, wobei die Information, die den bestimmten Satz von Erkennungsmodellen für eine bestimmte akustische Umgebung definiert, über das Verfahren nach einem beliebigen der Ansprüche 14 bis 20 erzeugt wurde.
Ein greifbares Medium, auf dem, für jede aus einer Vielzahl von akustischen Umgebungen Information gespeichert ist, die einen Satz von Erkennungsmodellen für diese akustische Umgebung definiert, wobei die Information über das Verfahren nach einem beliebigen der Ansprüche 14 bis 20 erzeugt wurde.