DE69838189T2 - Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen - Google Patents

Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen Download PDF

Info

Publication number
DE69838189T2
DE69838189T2 DE69838189T DE69838189T DE69838189T2 DE 69838189 T2 DE69838189 T2 DE 69838189T2 DE 69838189 T DE69838189 T DE 69838189T DE 69838189 T DE69838189 T DE 69838189T DE 69838189 T2 DE69838189 T2 DE 69838189T2
Authority
DE
Germany
Prior art keywords
models
training
recognition
acoustic environment
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69838189T
Other languages
English (en)
Other versions
DE69838189D1 (de
Inventor
Mazin G. Rahim
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of DE69838189D1 publication Critical patent/DE69838189D1/de
Application granted granted Critical
Publication of DE69838189T2 publication Critical patent/DE69838189T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Description

  • GEBIET DER ERFINDUNG
  • Diese Erfindung betrifft im Allgemeinen Spracherkennungssysteme und genauer ein System, das einen Satz von "Parallel"-Modellen und einen Basis-Satz von Erkennungsmodellen integriert, um eine akustische Fehlanpassung zu verringern.
  • HINTERGRUND DER ERFINDUNG
  • Die Spracherkennung ist ein Prozess, durch den ein unbekannter Sprachausdruck (gewöhnlich in der Form eines digitalen PCM-Signals) identifiziert wird. Allgemein wird eine Spracherkennung durch Vergleichen der Merkmale eines unbekannten Ausdrucks mit den Merkmalen von bekannten Worten oder Wort-Strings ausgeführt.
  • Die Merkmale von bekannten Worten oder Wort-Strings werden mit einem als "Training" bekannten Prozess bestimmt. Durch das Training werden eine oder mehrere Proben von bekannten Worten oder -Strings (Trainingssprache) untersucht und ihre Merkmale (oder Charakteristika) als Referenzmuster (oder Erkennungsmodelle) in einer Datenbank eines Sprach-Erkenners aufgezeichnet. Typischerweise stellt jedes Erkennungsmodell ein einziges bekanntes Wort dar. Erkennungsmodelle können jedoch Sprache mit anderen Längen, wie z. B. Teilworte, darstellen (z. B. Phone, die die akustische Erscheinungsform von linguistisch-basierten Phonemen sind). Man kann sich Erkennungsmodelle als Bausteine für Worte und Wort-Strings vorstellen, wie z. B. Phrasen oder Sätze.
  • Um einen Ausdruck in einem als "Testen" bekannten Prozess zu erkennen, entnimmt ein Sprach-Erkenner Merkmale aus dem Ausdruck, um ihn zu kennzeichnen. Die Merkmale des unbekannten Aus drucks werden als ein Testmuster bezeichnet. Der Sprach-Erkenner vergleicht dann Kombinationen eines oder mehrerer Erkennungsmodelle in der Datenbank mit dem Testmuster des unbekannten Ausdrucks. Eine stechnik wird verwendet, um ein relatives Maß darüber zu liefern, wie gut jede Kombination von Erkennungsmodellen mit dem Testmuster übereinstimmt. Der unbekannte Ausdruck wird als die Worte erkannt, die mit der Kombination eines oder mehrerer Erkennungsmodelle assoziiert wurden, die mit dem unbekannten Ausdruck am nächsten übereinstimmt.
  • Sprach-Erkenner, die unter Verwendung von Statistiken sowohl erster als auch zweiter Ordnung (d. h. spektrale Mittelwerte und Varianzen) von bekannten Sprachproben trainiert wurden, sind als versteckte Markov-Modell-(HMM)-Sprach-Erkenner bekannt. Jedes Erkennungsmodell in dieser Art von Sprach-Erkenner ist ein statistisches Modell mit N Zuständen (ein HMM), das diese Statistiken reflektiert. Jeder Zustand eines HMM entspricht in gewisser Weise den Statistiken, die mit den zeitlichen Ereignissen von Proben eines bekannten Wortes oder Teilwortes assoziiert sind. Ein HMM wird durch eine Zustandsübergangsmatrix A (die eine statistische Beschreibung darüber liefert, wie neue Zustände von alten Zuständen aus erreicht werden können) und durch eine Beobachtungswahrscheinlichkeitsmatrix B (die eine Beschreibung darüber liefert, welche spektralen Merkmale in einem gegebenen Zustand wahrscheinlich zu beobachten sind) gekennzeichnet. Das Bewerten eines Testmusters reflektiert die Wahrscheinlichkeit des Auftretens der Sequenz von Merkmalen des Testmusters, das einem bestimmten Modell gegeben wurde. Die über alle Modelle kann durch effiziente dynamische Programmierungsverfahren bereitgestellt werden, wie z. B. die Viterbi-Bewertung. Das HMM oder die Sequenz davon, die die höchste Wahrscheinlichkeit der Sequenz von Merkmalen in dem auftretenden Testmuster angibt, identifiziert das Testmuster.
  • Die Test- und/oder Trainingsausdrücke können von verschiedenen Typen von akustischen Umgebungen stammen. Jede akustische Umgebung (z. B. ein Alter, ein Geschlecht, ein Mikrophontyp, eine Raumkonfiguration, usw.) erzeugt eine Verzerrung und akustische Artefakte, die für die akustische Umgebung kennzeichnend sind.
  • Ein über ein Telefonkanal (oder eine andere Art von Kanal) übertragenes Sprachsignal trifft häufig mit unbekannten veränderlichen Bedingungen zusammen, die die Leistungsfähigkeit des auf HMM basierenden Spracherkennungssystems bedeutsam herabsetzen. Unerwünschte Komponenten werden dem kommunikativen Teil des Signals aufgrund von Umgebungslärm und Kanalinterferenz als auch aus unterschiedlichen Tonaufnahmegeräten und Effekten der Aussprache hinzugefügt. Lärm wird als zu einem Sprachsignal additiv betrachtet. Das Spektrum eines realen Lärmsignals, wie z. B. das von Ventillatoren und Motoren erzeugte, ist im Allgemeinen nicht flach und kann die Leistungsfähigkeit eines Spracherkennungssystems herabsetzen. Eine Kanalinterferenz, die linear oder nicht-linear sein kann, kann die Leistungsfähigkeit der Spracherkennung ebenfalls herabsetzen.
  • Ein typischer herkömmlicher Telefonkanal bandpassfiltert effektiv ein gesendetes Signal zwischen 200 Hz und 3200 Hz mit veränderlichen Abschwächungen zwischen den unterschiedlichen spektralen Banden. Die Verwendung von unterschiedlichen Mikrofonen bei verschiedenen Umgebungsbedingungen für unterschiedliche Lautsprecher aus unterschiedlichen geographischen Regionen mit unterschiedlichen Akzenten, die unterschiedliche Dialekte sprechen, kann eine akustische Fehlanpassung zwischen den Sprachsignalen, die beim Testen zusammengetroffen sind, und den Erkennungsmodellen erzeugen, die aus anderen Sprachsignalen trainiert wurden.
  • Vorherige Bemühungen sind darauf gerichtet worden, das Problem der Aufrechterhaltung von Robustheit bei der automatischen Spracherkennung für eine Vielfalt von "fehlangepassten" akustischen Bedingungen zu lösen, die zwischen dem Trainieren und Testen von akustischen Umgebungen bestehen. Zum Beispiel ist es unter der Annahme eines naiven Modells der Fehlanpassung möglich, eine gewisse Form von blindem Ausgleich anzuwenden, um die Kanalverzerrung und die Auswirkungen eines akustischen Wandlers zu minimieren. Ferner ist es unter der Annahme der vorherigen Kenntnis über die Statistiken des interferierenden Signals möglich, diese Information während dem Erkennungsprozess zu kombinieren, um eine "angepasste" Test-Umgebung zu simulieren. Die inhärenten Annahmen bei derartigen Verfahren beschränken deutlich ihre Fähigkeit zur Verallgemeinerung, wenn sie auf mehrfache akustische Umgebungen, Anwendungen, Netzwerkbedingungen, usw. ausgeweitet werden.
  • Um ein Spracherkennungssystem auf mehrfache sich unterscheidende akustische Umgebungen allgemeiner anwendbar zu machen, sind Versuche unternommen worden, enorme Mengen an akustisch diversen Trainingsdaten aus vielen Typen von akustischen Umgebungen zu sammeln, aus denen die Erkennungsmodelle des Erkennungssystems trainiert werden sollten. Das in der DE 43 25 404 A1 beschriebene System tritt als von diesem Typ in Erscheinung. Das erfordert eine große Erkennungsmodell-Datenbank mit begleitender Speichergröße und gesteigerter Verarbeitungszeit. Häufig ist eine breite Vielfalt an Trainingsdaten nicht ohne weiteres verfügbar oder ihre Beschaffung ist teuer.
  • Mehrere separate Sätze von Erkennungsmodellen sind in einem Versuch trainiert worden, um Spracherkennungssysteme widerstandsfähiger zu machen, wobei jeder Satz mit einer bestimmten akustischen Umgebung assoziiert wurde, wie zum Beispiel eine für Männer und eine weitere für Frauen. Die separaten Sätze von Erkennungsmodellen werden gleichzeitig betrieben. Beim Testen wird ein Testmuster unter Verwendung von sämtlichen (z. B. beiden) Sätzen von Erkennungsmodellen erkannt und dann die höchste der mehrfachen (z. B. zwei) Bewertungen selektiert, um den erkannten Ausdruck zu erzeugen. Diese Anordnung impliziert einen Bedarf an der doppelten Speichergröße und der doppelten Verarbeitungszeit.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorliegende Erfindung, wie durch die Ansprüche bestimmt, stellt ein Spracherkennungssystem bereit, bei dem ein Satz von "Parallel"-(oder "Sekundär"-)Modellen, wobei jeder mit einer oder mehreren bestimmten akustischen Umgebungen assoziiert ist, mit einem Basis-Satz von Erkennungsmodellen integriert ist und das eine unbekannte Sprache, die aus mehrfachen akustischen Umgebungen stammt, wirksam erkennt.
  • In einer erläuternden Ausführungsform der Erfindung wird das Spracherkennungssystem trainiert, indem ein Satz von Parallelmodellen in einer ersten Stufe des Trainings erstellt wird; und der Satz von Parallel-Modellen mit einem Basis-Satz von Erkennungsmodellen in einer zweiten Stufe des Trainings integriert wird. Noch spezifischer wird in der ersten Stufe des Trainings des Spracherkennungssystems ein Basis-Satz von Erkennungsmodellen in einer Erkennungsdatenbank gespeichert. Der Basis-Satz wird auf N Sätze von gegenwärtigen Modellen aufgeteilt, wodurch N akustische Umgebungen, entsprechend den N Sätzen von gegenwärtigen Modellen, bestimmt werden. Die N Sätze. von gegenwärtigen Modellen werden in einer Klassifizier-Datenbank gespeichert. Die bekannten Trainingsausdrücke werden gegenüber jedem der N Sätze von gegenwärtigen Modellen bewertet. Jeder der bekannten Trainingsausdrücke wird einer der N bestimmten akustischen Umgebungen auf der Basis der höchsten Bewertung des bekannten Trainingsausdrucks für die N Sätze von gegenwärtigen Modellen zugeordnet.
  • Jeder der N Sätze von Modellen, der mit den N bestimmten akustischen Umgebungen assoziiert ist, wird diskriminierend auf die bekannten Trainingsausdrücke trainiert, die dieser bestimmten akustischen Umgebung zugeordnet sind, wodurch N Sätze von neuen Modellen erstellt werden. Die N Sätze von neuen Modellen werden in der Klassifizier-Datenbank an der Stelle der N Sätze von gegenwärtigen Modellen gespeichert.
  • Die Schritte des Bewertens der bekannten Trainingsausdrücke gegenüber jedem der N Sätze von Modellen, des Zuordnens jedes der bekannten Trainingsausdrücke zu einer der N bestimmten akustischen Umgebungen und des diskriminierenden Trainierens der N Sätze von neuen Modellen auf die bekannten Trainingsausdrücke, die dieser bestimmten akustischen Umgebung zugeordnet sind, werden so lange wiederholt, bis bekannte Trainingsausdrücke zu bestimmten akustischen Umgebungen als ein Ergebnis des iterativen Prozesses nicht mehr erneut zugeordnet werden.
  • Die N Sätze von neuen Modellen können wieder auf N' Sätze von Modellen aufgeteilt und die zuvor erwähnten iterativen Pro zessschritte so lange wiederholt werden, bis das Bestimmen von zusätzlichen akustischen Umgebungen nicht mehr erwünscht wird.
  • Dann wird in der zweiten Stufe des Trainings des Spracherkennungssystems, nachdem jede der bestimmten akustischen Umgebungen in der ersten Trainingsstufe bestimmt wurde, der Basis-Satz von Erkennungsmodellen diskriminierend unter Verwendung der bekannten Trainingsausdrücke trainiert, die zu dieser bestimmten akustischen Umgebung zugeordnet wurden, um den Basis-Satz von Erkennungsmodellen auf einen neuen Modellplatz zu projizieren, der mit dieser bestimmten akustischen Umgebung übereinstimmt. Der Satz von Unterschieden zwischen dem Zustand der Modell-Parameter des Basis-Satzes von Erkennungsmodellen vor dem diskriminierenden Training und dem Zustand der Modell-Parameter nach dem diskriminierenden Training entspricht der Verzerrung aufgrund der bestimmten akustischen Umgebung. Die Unterschiede werden geclustert, um Speicherplatz zu sparen, und ein derartig beschränkter Satz von Unterschieden wird als der Projektor gespeichert, um den Basis-Satz von Erkennungsmodellen einzustellen, damit diese bestimmte akustische Umgebung reflektiert wird.
  • Als ein Ergebnis davon schließt jedes Parallel-Modell einen Klassifizierer und einen Projektor ein, wobei der Projektor der beschränkte Satz von Unterschieden für diese bestimmte akustische Umgebung ist, der angewendet werden kann, um den Basis-Satz von Erkennungsmodellen zu transformieren, damit diese akustische Umgebung reflektiert wird.
  • In einer erläuternden Ausführungsform schließt das Spracherkennungssystem einen akustischen Wandler ein und empfängt die unbekannte Sprache in der Form von Schallwellen. Der akustische Wandler konvertiert die Schallwellen in ein elektrisches unbekanntes Sprachsignal. Ein Merkmal-Extraktor erzeugt eine Sequenz von Merkmal-Vektoren, die das unbekannte Sprachsignal kennzeichnen. Ein Klassifizier-Prozessor identifiziert eine akustische Umgebung der unbekannten Sprache auf der Basis der Sequenz von Merkmal-Vektoren unter Verwendung des Satzes von Parallel-Modellen, wobei jeder mit einer bestimmten akustischen Umgebung assoziiert ist, die in der Klassifizier-Datenbank gespeichert ist. Der Klassifizier-Prozessor selektiert einen Projektor aus dem einen Satz von Parallel-Modellen, der der identifizierten akustischen Umgebung entspricht. Der selektierte Projektor wird auf den Basis-Satz von Erkennungsmodellen angewendet, die in der Erkennungsdatenbank gespeichert sind, wodurch der Satz von Erkennungsmodellen eingestellt wird, damit er mit der identifizierten akustischen Umgebung der unbekannten Sprache geeigneter übereinstimmt. Eine Vielzahl von den eingestellten Erkennungsmodellen wird mit der Sequenz von Merkmal-Vektoren verglichen, um eine Vergleichsbewertung für jedes derartige Modell zu bestimmen. Die höchste Vergleichsbewertung wird selektiert und die unbekannte Sprache wird auf der Basis der höchsten Bewertung erkannt.
  • Andere Aspekte und Vorteile der Erfindung werden aus der folgenden detaillierten Beschreibung und den begleitenden Zeichnungen ersichtlich, die die Merkmale der Erfindung beispielhaft erläutern.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • In den Zeichnungen ist:
  • 1 eine schematische Ansicht, die ein Spracherkennungssystem gemäß den Prinzipien der Erfindung darstellt;
  • 2 ein Prozess-Flussdiagramm, das eine erste Stufe des Trainings gemäß den Prinzipien der Erfindung darstellt;
  • 3 ein Prozess-Flussdiagramm, das eine zweite Stufe des Trainings gemäß den Prinzipien der Erfindung darstellt; und
  • 4 eine Auftragung, die die Wortgenauigkeit gegenüber der Zahl von Unterschieden in dem Projektor für eine akustische Umgebung mit Drahtleitung gemäß den Prinzipien der Erfindung darstellt.
  • DETAILLIERTE BESCHREIBUNG
  • Für ein besseres Verständnis der Erfindung wird, zusammen mit anderen und weiteren Aufgaben, Vorteilen und Fähigkeiten davon, Bezug auf die folgende Offenbarung und auf die Figuren der Zeichnungen genommen, worin ähnliche Bezugsziffern ähnliche oder gleiche Elemente bezeichnen.
  • Für die Klarheit der Erklärung werden die erläuternden Ausführungsformen der vorliegenden Erfindung als individuelle funktionelle Blöcke umfassend dargestellt (die mit "Prozessoren" etikettierte funktionelle Blöcke einschließen). Die Funktionen, die diese Blöcke darstellen, können durch die Verwendung von entweder gemeinsam verwendeter oder bestimmter Hardware bereitgestellt werden, die fähige Hardware zur Ausführung von Software einschließt, aber nicht darauf beschränkt ist. Zum Beispiel können die Funktionen von Prozessoren, die in der 1 dargestellt sind, von einem einzigen gemeinsam verwendeten Prozessor bereitgestellt werden. (Die Verwendung der Bezeichnung "Prozessor" sollte nicht ausgelegt werden, um sich ausschließlich auf Hardware zu beziehen, die zur Ausführung von Software in der Lage ist.)
  • Erläuternde Ausführungsformen können eine digitale Signal-Prozessor-(DSP)-Hardware, wie z. B. das AT&T DSP16 oder DSP32C, einen Nur-Lese-Speicher (ROM) zum Speichern von Software, die die unten diskutierten Vorgänge ausführt, und einen Direktzugriff-Speicher (RAM) zum Speichern der DSP-Ergebnisse umfassen. Hardware-Ausführungsformen mit Hochintegration (VLSI) sowie herkömmliche VLSI-Schaltungsanordnungen in Verbindung mit einem universellen DSP-Schaltkreis können ebenfalls bereitgestellt werden. Die Verwendung von DSPs ist vorteilhaft, da die verarbeiteten Signale reale physikalische Signale, Prozesse und Aktivitäten darstellen, wie z. B. Sprachsignale, Raumhintergrund-Lärm, usw.
  • Die vorliegende Erfindung verbessert die Leistungsfähigkeit von Sprach-Erkennern in mehrfachen akustischen Umgebungen, d. h. in Umgebungen, in denen eine akustische Verschiedenheit in den Sprachsignalen getestet und/oder aus denen die Erkennungsmodelle trainiert wurden, und stellt einen effizienten Weg der Handhabung von Verzerrung aus mehrfachen akustischen Umgebungen bereit. Ein Satz von "Parallel"-(d. h. "Sekundär"-)Modellen, wobei jeder einer bestimmten akustischen Umgebung entspricht, wird mit einem Basis-Satz von Erkennungsmodellen gemäß den Prinzipien der Erfindung integriert. Jedes "Parallel"-Modell schließt ein Klassifizier-Modell (d. h. einen Klassifizierer), der zum Identifizieren der akustischen Umgebung der unbekannten Sprache verwendet wird, und einen Modell-Transformation-Projektor (d. h. einen Projektor) zum Transformieren des Basis-Satzes von Erkennungsmodellen ein, damit er mit dieser bestimmten akustischen Umgebung übereinstimmt.
  • Der Klassifizierer, der innerhalb des Parallel-Modells für eine bestimmte akustische Umgebung eingeschlossen ist, kann zum Beispiel ein Gauß-Mischmodell (GMM), ein verstecktes Markov-Modell (HMM), ein Codebuch für Vektor-Quantifizierung (VQ) oder ein Maschinen-Lernsystem sein, wie z. B. ein neurales Netzwerk. Die Klassifizierer werden in einer Weise mit maximaler Wahrscheinlichkeit auf die Sequenz von Merkmal-Vektoren angewendet, die den Testausdruck bei dem Bestimmungsprozess der passendsten akustischen Umgebung für jeden Testausdruck kennzeichnen. Der Projektor für die bestimmte akustische Umgebung ist ein beschränkter Satz von Unterschieden, zu dem man durch diskriminierendes Training des Basis-Satzes von Erkennungsmodellen unter Verwendung der bekannten Trainingsausdrücke gelangt ist, die mit dieser bestimmten akustischen Umgebung assoziiert sind.
  • Während dem Testen wird die akustische Umgebung der unbekannten Sprache identifiziert. Ein Projektor wird selektiert, der der identifizierten akustischen Umgebung entspricht. Der Projektor wird angewendet, um den Basis-Satz von Erkennungsmodellen zu transformieren, wodurch der Basis-Satz von Erkennungsmodellen eingestellt wird, damit er für die identifizierte akustische Umgebung passender ist. Dann wird die unbekannte Sprache unter Verwendung des eingestellten Basis-Satzes von Erkennungsmodellen erkannt.
  • Bezugnehmend auf die 1 schließt ein Spracherkennungssystem gemäß einer erläuternden Ausführungsform der Erfindung einen akustischen Wandler 10, wie z. B. ein Mikrofon in dem Hörer eines Telefons, zum Empfangen von unbekannter Sprache in Form von hörbaren Schallwellen ein, die durch die Ausbreitung und Verdünnung von Luftmolekülen mit assoziierten Verunreinigungen verursacht wurden. Der akustische Wandler 10 konvertiert die Schallwellen in elektrische unbekannte Sprachsignale 12. Ein Merkmal-Extraktor 14 befindet sich in einer elektrischen Verbindung mit der elektrischen Signalausgabe des akustischen Wandlers 10. Der Merkmal-Extraktor 14 erzeugt eine Sequenz von Merkmal-Vektoren 16, die das elektrische unbekannte Sprachsignal 12 kennzeichnen. Ein Klassifizier-Prozessor 18 ist mit dem Merkmal-Extraktor 14 gekoppelt. Eine Erkennungsdatenbank 20 ist mit dem Klassifizier-Prozessor 18 gekoppelt. Eine Klassifizier-Datenbank 22 ist mit dem Klassifizier-Prozessor 18 gekoppelt. Die Erkennungsdatenbank 20 speichert einen herkömmlichen Basis-Satz von Erkennungsmodellen. Der Basis-Satz von Erkennungsmodellen umfasst ein oder mehrere HMMs und assoziierte HMM-Parameter. Jedes von dem einen oder mehreren HMMs schließt eine oder mehrere (z. B. acht) Gauß-Verteilungen pro Zustand ein, wobei jede Gauß-Verteilung einen Mittelwert und eine Varianz besitzt (die als Modell-Parameter bezeichnet werden). Die Klassifizier-Datenbank 22 speichert einen Satz von Parallel-(d. h. Sekundär-)Modellen, wobei jedes Parallel-Modell einer bestimmten akustischen Umgebung entspricht. Jedes Parallel-Modell schließt ein Klassifizier-Modell (d. h. einen Klassifizierer) und einen Modell-Transformation-Projektor (d. h. einen Projektor) ein. Die Gruppe von Klassifizierern, wobei jeder Klassifizierer mit einem von dem Satz von Parallel-Modellen assoziiert ist, wird zum Identifizieren der akustischen Umgebung der unbekannten Sprache verwendet. Der Projektor ist ein beschränkter Satz von Unterschieden, der zum Transformieren des Basis-Satzes von Erkennungsmodellen verwendet wird, damit er mit dieser bestimmten akustischen Umgebung passender übereinstimmt. Man gelangt zu dem beschränkten Satz von Unterschieden für jede bestimmte Umgebung durch diskriminierendes Trainieren des Basis-Satzes von Erkennungsmodellen auf die bekannten Trainingsausdrücke, die mit dieser bestimmten akustischen Umgebung assoziiert sind.
  • Der Klassifizier-Prozessor 18 wird betrieben, um (i) eine akustische Umgebung der unbekannten Sprache auf der Basis einer wahrscheinlichen Anordnung der Sequenz von Merkmal-Vektoren 16 zu identifizieren, die das unbekannte Sprachsignal 12 (und somit die unbekannte Sprache) mit den Klassifizierern in dem Satz von Parallel-Modellen kennzeichnen, (ii) den Projektor aus einem des Satzes von Parallel-Modellen zu selektieren, der der identifizierten akustischen Umgebung entspricht, und (iii) eine Transformation auf der Basis des selektierten Projektors auf den Basis-Satz von Erkennungsmodellen anzuwenden, wodurch die Parameter der HMMs (d. h. die Mittelwerte und/oder Varianzen der Gauß-Verteilungen) eingestellt werden, die in der Erkennungsdatenbank 20 gespeichert sind, um die identifizierte akustische Umgebung der unbekannten Sprache passender zu reflektieren.
  • Ein herkömmlicher Sprach-Erkenner 24, der eine standard Viterbi-Strahlensuche ausführen kann, ist mit dem Merkmal-Extraktor 14 und der Erkennungsdatenbank 20 gekoppelt. Der Sprach-Erkenner 24 vergleicht eine Vielzahl von den eingestellten HMMs, die in der Erkennungsdatenbank 20 gespeichert sind, mit der Sequenz von Merkmal-Vektoren 16, um eine Vergleichsbewertung für jedes derartige Modell zu bestimmen, selektiert die höchste Vergleichsbewertung und erzeugt ein erkanntes Sprachsignal auf der Basis der höchsten Bewertung.
  • Das in der 1 gezeigte Spracherkennungssystem wird durch folgende Schritte trainiert: (i) Erstellen des Satzes von Parallel-Modellen in einer ersten Stufe des Trainings und (ii) Integrieren des Satzes von Parallel-Modellen mit dem herkömmlichen Basis-Satz von Erkennungsmodellen in einer zweiten Stufe des Trainings.
  • TRAININGSSTUFE I
  • Die erste Stufe der Erstellung des Satzes von Parallel-(d. h. Sekundär-)Modellen ist das Bestimmen von mehrfachen akustischen Umgebungen durch die Partitionierung von Trainingsdaten. Die Trainingsdaten werden in N akustische Umgebungen unter Verwendung eines Verfahrens der maximalen Wahrscheinlichkeit aufgeteilt, das die Trainingsausdrücke zu einer von den N bestimmten akustischen Umgebungen zuordnet, worin N eine positive ganze Zahl ist, zum Beispiel zwei. Bezugnehmend auf die 2 werden die Trainingsdaten in Form von bekannten Trainingssprachausdrücken in dem Schritt 28 geliefert. Ein anfäng liches herkömmliches Erkennungsmodell wird bereitgestellt oder aus den bekannten Trainingsausdrücken in dem Schritt 30 trainiert. Das herkömmliche Erkennungsmodell könnte ein Codebuch oder ein Satz von Erkennungsmodellen in Form von HMMs oder GMMs sein. In der erläuternden Ausführungsform der Erfindung wird dieses anfängliche herkömmliche Erkennungsmodell als der Basis-Satz von Erkennungsmodellen verwendet, der in dem Erkennungsdatenbankspeicher 20 gespeichert ist (1).
  • Das anfängliche herkömmliche Modell, der Basis-Satz von Erkennungsmodellen, wird auf N, z. B. zwei, Sätze von Modellen in dem Schritt 32 aufgeteilt. Die Aufteilung könnte eine "blinde" Aufteilung sein, das heißt ohne ein führendes Prinzip. Die Trainingsdaten werden auf der Basis der Aufteilung partitioniert. Jeder bekannte Trainingsausdruck wird gegenüber beiden Sätzen von Modellen bewertet und dem "besten" Satz von Modellen für diesen bestimmten Trainingsausdruck auf der Basis der höheren Bewertung des Trainingsausdrucks für beide Sätze von Modellen in dem Schritt 34 zugeordnet. Das angewandte Prinzip der Erfindung ist, dass, wenn die Trainingsdaten unterschiedliche Wahrscheinlichkeiten besitzen (oder die Bewertungen sich innerhalb unterschiedlicher Bereiche von Wahrscheinlichkeiten befinden), sie dann von verschiedenen akustischen Umgebungen stammen. Die N (z. B. zwei) Sätze von Modellen, die als gegenwärtige Sätze von Modellen angesehen werden können, sind auf ihre assoziativen Daten trainiert (d. h. auf die bekannten Trainingsausdrücke, die ihnen zugeordnet wurden), um N neue Sätze von Modellen in dem Schritt 36 zu erstellen.
  • Zahlreiche Trainingsverfahren können zum Erstellen der N neuen Sätze von Modellen verwendet werden. Eine diskriminierende Form des Trainings ist bevorzugt. Die N (z. B. zwei) neuen Sätze von Modellen überschreiben die N gegenwärtigen (d. h. alten) Sätze von Modellen in dem Klassifizier-Datenbankspeicher 22 (1).
  • Dann wird in dem Schritt 38 eine Entscheidung darüber getroffen, ob die zuvor genannten iterativen Prozessschritte des Bestimmens von N bestimmten akustischen Umgebungen, des Zuordnens von bekannten Trainingsausdrücken zu bestimmten akustischen Umgebungen und des Trainierens von N neuen Sätzen von Modellen mit den bekannten Trainingsausdrücken, die ihnen zugeordnet wurden, beendet sind. Der iterative Prozess kann vervollständigt werden, wenn zum Beispiel ein Fehlersignal, das den Prozess der Ausdruckzuordnung verfolgt, mit einem vorbestimmten Wert konvergiert, wenn der iterative Prozess für eine vorausgewählte Anzahl von Zeiten (oder "Runden") ausgeführt worden ist oder wenn bekannte Trainingsausdrücke nicht mehr erneut zu neuen Sätzen von Modellen als ein Ergebnis des iterativen Prozesses zugeordnet werden. Wenn nicht, dann ist der iterative Prozess nicht beendet, und die Schritte des iterativen Prozesses werden wiederholt: Zuordnen jeder der bekannten Trainingsausdrücke zu dem Besten der N Sätze von Modellen auf der Basis der Bewertung des bekannten Trainingsausdrucks für beide der N gegenwärtigen (zuvor neuen) Sätze von Modellen, dann Trainieren (d. h. Erstellen) von N neuen Sätzen von Modellen aus den bekannten Trainingsausdrücken, die zu jedem der N gegenwärtigen Sätze von Modellen zugeordnet wurden, und dann Speichern der N neuen Sätze von Modellen in dem Klassifizier-Datenbankspeicher an der Stelle der N gegenwärtigen Sätze von Modellen.
  • Wieder wird eine Entscheidung in dem Schritt 38 darüber getroffen, ob die Zuordnung der Trainingsausdrücke beendet ist. Wenn ja, dann ist der iterative Prozess vollständig, und eine Entscheidung wird in dem Schritt 40 darüber getroffen, ob die Zahl N verändert werden sollte, das heißt ob eine zusätzliche Partitionierung der bekannten Trainingsausdrücke erfolgen sollte, um zusätzliche akustische Umgebungen zu bestimmen.
  • Wenn ja, dann sollten zusätzliche akustische Umgebungen bestimmt werden, und N wird in N' in dem Schritt 42 geändert und die N gegenwärtigen Sätze von Modellen werden auf N' Sätze von Modellen in dem Schritt 44 aufgeteilt, worin N' eine andere Zahl als N ist (z. B. Änderung von zwei definierten bestimmten akustischen Umgebungen/Modellen auf vier definierte bestimmte akustische Umgebungen/Modelle). Das kann eine blinde Aufteilung sein, das heißt ohne ein führendes Prinzip. Die Schritte in dem iterativen Zyklus werden solange wieder und wieder ausgeführt, bis es einen Grund zum Beenden gibt. Ein derartiger Grund kann zum Beispiel sein, dass ein Fehlersignal mit einem vorbestimmten Wert konvergiert oder dass die Iteration eine vorgewählte Anzahl von Zeiten ausgeführt worden ist.
  • Wenn keine zusätzlichen akustischen Umgebungen bestimmt werden, dann werden die Zuordnungen von bekannten Trainingsausdrücken zu N bestimmten akustischen Umgebungen und die N Sätze von Modellen, die den N bestimmten akustischen Umgebungen entsprechen, in dem Klassifizier-Datenbankspeicher 22 (1) in dem Schritt 46 gespeichert.
  • Wie zuvor beschrieben, erzeugt somit der Prozess des Bestimmens von N akustischen Umgebungen den Besten Satz von Modellen für jede von den N akustischen Umgebungen und ordnet bekannte Trainingsausdrücke zu jedem von den N Sätzen von Modellen zu. Das wird anschließend in der zweiten Stufe der Prozedur zum Trainieren des Spracherkennungssystems verwendet, das in der 1 gezeigt ist. Die erste Stufe des Trainings des Spracherkennungssystems, und zwar das Erstellen des Satzes von Parallel-Modellen, ist beendet.
  • TRAININGSSTUFE II
  • Die zweite Stufe des Trainings des in der 1 gezeigten Spracherkennungssystems integriert den Satz von Parallel-Modellen mit dem Basis-Satz von Erkennungsmodellen, so dass das Spracherkennungssystem eine akustische Umgebung der unbekannten Sprache identifizieren und den Basis-Satz von Erkennungsmodellen auf einen neuen Modellplatz projizieren (d. h. transformieren) kann, der passender mit der identifizierten akustischen Umgebung übereinstimmt. Als ein Ergebnis der ersten Trainingsstufe sind N bestimmte akustische Umgebungen und ein Satz von Klassifizier-Modellen (d. h. Klassifizierer) bestimmt, die mit den N akustischen Umgebungen assoziiert sind; die Klassifizierer sind die N "besten" Modelle, die während dem iterativen Prozess der ersten Trainingsstufe erstellt wurden. Die Klassifizierer für jede bestimmte akustische Umgebung, die aus dem iterativen Prozess der ersten Stufe des Trainings resultieren, werden zu einem Teil des Satzes von Parallel-Modellen, die in der Klassi fizier-Datenbank 22 (1) gespeichert sind. Die Klassifizierer in dem Satz von Parallel-Modellen werden zum Identifizieren der passenden akustischen Umgebung für einen unbekannten Testausdruck verwendet. Jedes von dem Satz von Parallel-Modellen schließt ferner einen Projektor ein, der das Mittel zum Transformieren (d. h. Projizieren) des Basis-Satzes von Erkennungsmodellen ist, die in der Erkennungsdatenbank 20 (1) gespeichert sind, um für die identifizierte akustische Umgebung passender zu sein.
  • In der zweiten Stufe des Trainings des Spracherkennungssystems wird ein Basis-Satz von Erkennungsmodellen herkömmlich bestimmt. In der erläuternden Ausführungsform der Erfindung wird dasselbe herkömmliche Erkennungsmodell, das in der ersten Trainingsstufe verwendet wurde, als der Basis-Satz von Erkennungsmodellen verwendet. Die Projektoren, die dazu verwendet werden, um den Basis-Satz von Erkennungsmodellen einzustellen, damit er mit der identifizierten akustischen Umgebung übereinstimmt, werden derart bestimmt, dass der selektierte Projektor angewendet werden kann, um den Basis-Satz von Erkennungsmodellen zu transformieren, damit er mit der akustischen Umgebung des Testausdrucks übereinstimmt, wenn ein unbekannter Testausdruck (d. h. "unbekannte Sprache") während dem Testen empfangen wird.
  • Die Projektoren werden in der zweiten Stufe des Trainings des Spracherkennungssystems mittels des diskriminierenden Trainings errechnet, z. B. mittels des Trainings mit minimalem Klassifizierfehler, das eine Art von diskriminierendem Training darstellt. Der Ansatz des minimalen Klassifizierfehlers (MCE) auf das diskriminierende Training basiert auf dem Prinzip der Minimierung der Fehlerrate. Das MCE-Training eines Sprach-Erkenners findet den besten Satz von HMM-Parametern für die Diskriminierungs-Funktion, um den Fehler zu minimieren, der als die Wahrscheinlichkeit bestimmt wird, dass der trainierte Sprach-Erkenner den Satz von Ausdrücken in dem bekannten Trainingssatz falsch erkennt. Das statistische Modell von jeder grundlegenden Spracherkennungs-Einheit wird durch eine diskriminierende Analyse erhalten. Die Aufgabe eines derartigen MCE-Trainings besteht darin, die Rate des Erkennungsfehlers zu mini mieren, und wird durch Berechnen eines Maßes an Fehlerkennung erreicht, das die Wahrscheinlichkeit angibt, dass ein Sprach-Erkenner bei einem gegebenen Training einen Erkennungsfehler auf der Basis von dessen gegenwärtigem Trainingszustand begeht. Bei dem MCE-Training reflektiert das Maß der Fehlerkennung den Unterschied zwischen (i) einer Bewertung eines Sprach-Erkenners für einen bekannten Trainingsausdruck auf der Basis des korrekten Erkennungsmodells für den bekannten Trainingsausdruck und (ii) einem Durchschnitt von Bewertungen eines oder mehrerer Sprach-Erkenner für den bekannten Trainingsausdruck auf der Basis von einem oder mehreren anderen verwirrend ähnlichen Erkennungsmodellen. Ein diskriminierendes Trainingssystem mit minimalem Klassifizierfehler (MCE) ist im Detail in dem US-Patent Nr. 5,579,436 , veröffentlicht am 26. Nov. 1996, an Chou et al., mit dem Titel "Recognition unit model training based an competing Word and Word string models" beschrieben.
  • Das MCE-Training oder eine andere Art von diskriminierendem Training wird verwendet, um den Projektor zu errechnen, der den Basis-Satz von Erkennungsmodellen auf der Basis einer bestimmten akustischen Umgebung am effektivsten transformieren wird, die während dem Testen identifiziert wurde. Jeder Projektor ist eine Transformation, die auf die in der Erkennungsdatenbank 20 (1) gespeicherten Modell-Parameter angewendet werden kann.
  • Bezugnehmend auf die 3, nachdem jede von den N bestimmten akustischen Umgebungen in der ersten Trainingsstufe bestimmt wurde, wird der herkömmliche Basis-Satz von Erkennungsmodellen in dem Schritt 50 mit den bekannten Trainingsausdrücken diskriminierend trainiert, die zu dieser bestimmten akustischen Umgebung während dem Prozess der Partitionierung der ersten Trainingsstufe zugeordnet wurden. Das MCE-Training der Modell-Parameter des Basis-Satzes von Erkennungsmodellen unter Verwendung der bekannten Trainingsausdrücke, die zu dieser bestimmten akustischen Umgebung zugeordnet wurden, projiziert die Modell-Parameter auf einen Modellplatz, der für die bestimmte akustische Umgebung passender ist. Die Parameter des Basis-Satzes von Erkennungsmodellen besitzen einen bestimmten Zustand vor dem diskriminierenden Training und werden durch das diskriminierende Training in einen unterschiedlichen Zustand transformiert. Nicht alle Modell-Parameter werden notwendigerweise verändert. Es können einige, sämtliche oder keine verändert werden.
  • Für jeden Modell-Parameter stellt der Unterschied zwischen dessen Zustand vor dem diskriminierenden Training und dessen Zustand nach dem diskriminierenden Training diese bestimmte akustische Umgebung oder spezifischer eine Veränderung an dem Modell-Parameter auf der Basis dieser bestimmten akustischen Umgebung dar. Diese Veränderung an den Modell-Parametern des Basis-Satzes von Erkennungsmodellen, die durch ein derartiges diskriminierendes Training verursacht wurde, stellt eine Verzerrung aufgrund dieser bestimmten akustischen Umgebung dar.
  • Die Unterschiede zwischen den Modell-Parametern des Basis-Satzes von Erkennungsmodellen in dessen ursprünglichem Zustand und den neuen Modell-Parametern des projizierten Basis-Satzes von Erkennungsmodellen, zu denen man durch diskriminierendes Training unter Verwendung der bekannten Trainingsausdrücke gelangt ist, die zu dieser bestimmten akustischen Umgebung zugeordnet wurden, werden in dem Schritt 52 gespeichert. Der Modell-Transformation-Projektor für diese bestimmte akustische Umgebung wird aus den in dem Schritt 52 gespeicherten Unterschieden erstellt.
  • Der Projektor für diese bestimmte akustische Umgebung kann sämtliche der Unterschiede für jeden Modell-Parameter zwischen dem ursprünglichen Zustand des Modell-Parameters und dem neuen Zustand des Modell-Parameters sein. Der Basis-Satz von Erkennungsmodellen kann jedoch zum Beispiel über 3500 Parameter verfügen und das stellt möglicherweise eine unhandliche Menge an Daten dar. Die Unterschiede, die die Verzerrung aufgrund dieser bestimmten akustischen Umgebung reflektieren, sind gewöhnlich kleine Veränderungen an den Modell-Parametern (z. B. eine relativ kleine Verschiebung an dem Mittelwert einer Gauß-Verteilung); und da die Unterschiede durch dieselbe akustische Umgebung verursacht werden, ist der Unterschied für jede von den Modell-Parametern aus dem diskriminierenden Training mit den bekannten Trainingsausdrücken, die zu dieser bestimmten akustischen Umgebung zugeordnet wurden, zu vielen der anderen Unterschiede ähnlich.
  • Da jeder Modell-Parameter-Unterschied klein ist und da ähnliche Modell-Parameter-Unterschiede geclustert werden, müssen nicht sämtliche Unterschiede (d. h. für jeden Modell-Parameter) gespeichert werden, um die optimale Leistungsfähigkeit zu erlangen. Anstatt 3500 Unterschiede für 3500 Modell-Parameter zu speichern, wird ein verringerter Satz von Unterschieden gemäß den Prinzipien der Erfindung gespeichert. Um die Anzahl von in dem Speicher gespeicherten Unterschieden zu verringern, werden die Modell-Parameter-Unterschiede, zu denen man durch diskriminierendes Training für jede der N bestimmten akustischen Umgebungen gelangt ist, unter Verwendung von herkömmlichen Cluster-Techniken in dem Schritt 54 geclustert. Die herkömmliche Cluster-Technik entscheidet, welche unter den Transformationen ähnlich sind, die durch die Unterschiede dargestellt werden. Der Cluster von bestimmten Unterschieden wird in dem Schritt 56 gespeichert und an Stelle von sämtlichen Unterschieden für sämtliche Modell-Parameter pro bestimmte akustische Umgebung verwendet.
  • Der verringerte Satz von Unterschieden, der in der Klassifizier-Datenbank 22 als der Projektor für jede bestimmte akustische Umgebung/Parallel-Modell gespeichert wird, ist das Mittel zum Einstellen des Basis-Satzes von Erkennungsmodellen, damit er mit dieser bestimmten akustischen Umgebung übereinstimmt, um die akustische Fehlanpassung zwischen dem unbekannten Testausdruck und dem Basis-Satz von Erkennungsmodellen zu minimieren, der in der Erkennungsdatenbank 20 gespeichert ist. Das Clustern kann die Zahl von Unterschieden, die als der Projektor für eine bestimmte akustische Umgebung gespeichert wurde, für einen 3500 Parameter umfassenden Basis-Satz von Erkennungsmodellen auf zum Beispiel 400 Unterschiede ohne die Herabsetzung der Leistungsfähigkeit der Spracherkennung verringern, wie für eine bestimmte akustische "Drahtleitung"-Umgebung durch den Graphen der 4 dargestellt ist.
  • Ein Parallel-Modell für jede akustische Umgebung ist mit dem Basis-Satz von Erkennungsmodellen als ein Ergebnis der zweiten Stufe des Trainings integriert. Jedes Parallel-Modell, das in der Klassifizier-Datenbank 22 gespeichert ist, schließt einen Klassifizierer und einen Projektor ein, wobei der Projektor der beschränkte Satz von Unterschieden für diese akustische Umgebung ist, die dazu angewendet werden kann, um den Basis-Satz von Erkennungsmodellen zu transformieren, damit er für diese akustische Umgebung passender ist.
  • Der vorangehende Trainingsprozess erfordert keine große Menge an Trainingsdaten, spart Speicherplatz, spart Verarbeitungszeit und verbessert die Leistungsfähigkeit der Spracherkennung.
  • Beim Testen werden Schallwellen, die einen unbekannten Testausdruck ("unbekannte Sprache") darstellen, von dem akustischen Wandler 10 empfangen. Der akustische Wandler 10 verändert die Schallwellen in ein elektrisches unbekanntes Sprachsignal 12. Der Merkmal-Extraktor 14 erzeugt eine Sequenz von Merkmal-Vektoren 16, die das unbekannte Sprachsignal 12 kennzeichnen. Die Sequenz von Merkmal-Vektoren 16 wird mittels einer wahrscheinlichen Anordnung gegenüber jeder der Klassifizier-Modelle in dem Satz von Parallel-Modellen bewertet, die in der Klassifizier-Datenbank 22 gespeichert sind, um eine Bewertung des unbekannten Testausdrucks für jedes Klassifizier-Modell zu erzeugen. Der Klassifizier-Prozessor 18 identifiziert die bestimmte akustische Umgebung, die mit dem Klassifizier-Modell mit der höchsten Bewertung als die akustische Umgebung assoziiert ist, die am besten mit der des unbekannten Testausdrucks übereingestimmt hat.
  • Der Klassifizier-Prozessor 18 emuliert dann die übereinstimmende akustische Umgebung durch Transformieren des Basis-Satzes von Erkennungsmodellen. In der erläuternden Ausführungsform ist der Projektor der beschränkte Satz von Unterschieden in dem Parallel-Modell, das das Klassifizier-Modell enthält, das für den unbekannten Testausdruck die höchste Bewertung bekommen hat. Der Klassifizier-Prozessor 18 wendet den bestimmten Parallel-Modell-Projektor auf den Basis-Satz von Erkennungsmodellen an, die in der Erkennungsdatenbank 20 gespeichert sind, wodurch der Basis-Satz von Erkennungsmodellen projiziert wird, damit er mit der identifizierten akustischen Umgebung überein stimmt. Schließlich wird der unbekannte Testausdruck basierend auf einer wahrscheinlichen Anordnung der Sequenz von Merkmal-Vektoren 16 mit dem projizierten Basis-Satz von Erkennungsmodellen herkömmlich erkannt. Das Spracherkennungssystem erzeugt ein erkanntes Sprachsignal.
  • Das hierin gelehrte Verfahren der Parallel-Modell-Integration (PMI) ist zu anderen Verfahren zum Verbessern und Steigern der Robustheit bei der Spracherkennung komplementär, wie z. B. die Entfernung der Signal-Verzerrung, die zusätzlich zu dem PMI verwendet werden kann. Die Entfernung der Signal-Verzerrung ist in dem US-Patent Nr. 5,590,242 , veröffentlicht am 31. Dezember 1996, an Juang et al., mit dem Titel "Signal bias removal for robust telephone speech recognition" im Detail beschrieben.
  • Adaptierung ist der Prozess zum Verbessern der Erkennungsmodelle während des Testens. Bei herkömmlichen Verfahren der Modelladaptierung verändern sich die Erkennungsmodelle wieder und wieder und können von ihrem ursprünglichen Zustand weit entfernt werden. Die vorliegende Erfindung ermöglicht eine effiziente Modelladaptierung während des Testens, wobei die Adaptierung überwacht oder nicht überwacht wird.
  • Gemäß der vorliegenden Erfindung wird der Basis-Satz von Erkennungsmodellen während des Testens nicht permanent geändert. Anstatt das gesamte Modell während der Spracherkennung zu adaptieren, verändert die Modelladaptierung während des Testens gemäß der vorliegenden Erfindung nur die Projektoren für bestimmte identifizierte akustische Umgebungen. Die Projektoren für eine bestimmte akustische Umgebung können bei Vorliegen eines Satzes von Adaptierungsdaten für diese bestimmte akustische Umgebung optimiert werden. Die Leistungsfähigkeit der Spracherkennung kann sich während der Adaptierung weiter verbessern, ohne dass die Leistungsfähigkeit des Systems bei anderen bestimmten akustischen Umgebungen herabgesetzt wird.
  • Untersuchungen wurden über eine kontinuierliche Stellen-Erkennung mit drei bestimmten akustischen Umgebungen durchgeführt: ein Drahtleitungs-Netzwerk, ein Mobil-Netzwerk und Preteen-Abonnenten. Die Untersuchungen haben gezeigt, dass das Spracherkennungssystem mit integrierten Parallel-Modellen gemäß den Prinzipien der Erfindung in der Lage ist, eine nahezu übereinstimmende Leistungsfähigkeit der Erkennung für jede akustische Umgebung zu erreichen, und dass es ein universelles auf HMM basierendes Spracherkennungssystem übertrifft. Außerdem ist das Spracherkennungssystem mit integrierten Parallel-Modellen nur um 6 % langsamer als ein derartiges universelles auf HMM basierendes Spracherkennungssystem, wobei jedes Parallel-Modell einen Satz von weniger als 400 Unterschieden einschließt, um eine übereinstimmende Leistungsfähigkeit zu erzielen.
  • Drei Lautsprecher-unabhängige Datenbank-Sätze mit verknüpfter Stelle wurden in dieser Studie untersucht. Die Ergebnisse sind mit Bezug auf die Tabelle I im Folgenden beschrieben. Tabelle I
    System Preteen Drahtleitung Drahtlos
    Grundlinie (%) 86,6 98,8 94,9
    Global (%) 89,5 99,1 96,3
    Übereinstimmend (%) 93,5 99,2 96,4
    PMI (%) 93,2 99,2 96,4
  • Der erste Datenbank-Satz "Preteen" schloss Preteen-Abonnenten im Alter zwischen 8 und 16 Jahren ein, die 1- bis 10-stellige Strings über ein Telefon-Netzwerk mit Drahtleitung wiederholten. Der Datenbank-Satz "Preteen" wurde auf 1700 Ausdrücke zum Trainieren und 915 Ausdrücke zum Testen aufgeteilt.
  • Der zweite Datenbank-Satz "Drahtleitung" schloss die Sprache von Erwachsenen aus einer Vielfalt von Feldforschungssammlungen ein. Der Datenbank-Satz "Drahtleitung" wurde auf 9600 Ausdrücke zum Trainieren und 516 Ausdrücke zum Testen aufgeteilt.
  • Der dritte Datenbank-Satz "Drahtlos" schloss die Sprache von Erwachsenen ein, die über ein Mobil-Telefon-Netzwerk gesammelt wurde. Der Datenbank-Satz "Drahtlos" wurde auf 15500 Ausdrücke zum Trainieren und 4800 Ausdrücke zum Testen aufgeteilt.
  • Der Basis-Satz von Erkennungsmodellen schloss einen Satz von links-nach-rechts HMMs mit kontinuierlicher Dichte ein, die zuvor mittels einer maximalen Wahrscheinlichkeitsabschätzung (MLE) auf einem Standard-Telefon-Sprachkörper trainiert wurden. Es gab insgesamt 274 Kontext-abhängige Teilwort-Modelle, wobei jedes 3 bis 4 Zustände mit 4 Mischkomponenten pro Zustand besaß.
  • Die Grundlinien-Leistungsfähigkeit des Spracherkennungssystems mit integrierten Parallel-Modellen in Bezug auf die Wortgenauigkeit ist in der Tabelle I bei "Grundlinie" gezeigt. Diese Ergebnisse wurden mit Cepstral-basierten Merkmalen erhalten, die einer Entfernung der Signal-Verzerrung und einer Grammatik unbekannter Länge folgen.
  • Die Leistungsfähigkeit des Spracherkennungssystems mit integrierten Parallel-Modellen, die einer integrierten Entfernung der Signal-Verzerrung und einem diskriminierenden Training folgen, ist in der Tabelle I bei "Global" gezeigt. Diese Ergebnisse entsprechen einem universellen auf HMM basierenden Spracherkennungssystem, das auf den gesamten drei Datenbank-Sätze trainiert wurde.
  • Wenn die akustische Umgebung für jeden Testausdruck bekannt ist, dann könnte man auf jeden Datenbank-Satz individuell trainieren und testen. Die Ergebnisse von dieser Untersuchung sind in der Tabelle I bei "Übereinstimmend" gezeigt und stellen die obere Grenze für die Leistungsfähigkeit des Spracherkennungssystems mit integrierten Parallel-Modellen dar.
  • Das Trainieren des Spracherkennungssystems mit integrierten Parallel-Modellen wurde wie folgt durchgeführt. Jeder Datenbank-Satz wurde als eine separate akustische Umgebung betrachtet. Für die Klassifizierung der akustischen Umgebung wurden GMMs mit 64 Mischkomponenten mittels des MLE als die Klassifizier-Modelle (d. h. Klassifizierer) trainiert, was in nur einer über 90 %-igen Klassifizierung der akustischen Umgebung resultierte.
  • Um die Projektoren zum Transformieren des Basis-Satzes von Erkennungsmodellen zu erstellen, wurde ein Satz von diskriminierend trainierten Unterschieden errechnet, was von einer Entfernung der Signal-Verzerrung gefolgt wurde. Jeder Satz erstreckte sich von 200 bis 400 Unterschieden pro akustische Umgebung. Das entspricht 6 % bis 12 % der Zahl von Misch komponenten in dem Basis-Satz von Erkennungsmodellen.
  • Die Wortgenauigkeit des Spracherkennungssystems mit integrierten Parallel-Modellen ist bei "PMI" in der Tabelle I gezeigt. Es ist deutlich, dass diese Ergebnisse in Bezug auf die Wortgenauigkeit besser als die "Global"-Ergebnisse, insbesondere für den Datenbank-Satz "Preteen", und nahezu die gleichen wie die für den "Übereinstimmenden"-Zustand präsentierten sind. Die gesamte Speichergröße des Satzes von Parallel-Modellen betrug 35 % des Basis-Satzes von Erkennungsmodellen.
  • Während mehrere bestimmte Formen der Erfindung dargestellt und beschrieben worden sind, wird es ferner ersichtlich sein, dass verschiedene Modifikationen vorgenommen werden können, ohne von dem Schutzumfang der Erfindung abzuweichen, der in den Ansprüchen bestimmt ist.
  • Gemäß einem gegenwärtig bevorzugten Beispiel wird ein Signalverarbeitungsverfahren zur Erkennung von unbekannten Sprachsignalen bereitgestellt, das die folgenden Schritte umfasst: (A) Empfangen eines unbekannten Sprachsignals, das eine unbekannte Sprache darstellt; (B) Erzeugen eines Satzes von Merkmal-Vektoren, der das unbekannte Sprachsignal kennzeichnet; (C) Identifizieren einer akustischen Umgebung der unbekannten Sprache auf der Basis der Sequenz von Merkmal-Vektoren und eines Satzes von Klassifizierern; (D) Einstellen eines Basis-Satzes von Erkennungsmodellen, um die identifizierte akustische Umgebung zu reflektieren; und (E) Erkennen des unbekannten Sprachsignals auf der Basis der Sequenz von Merkmal-Vektoren und des Satzes von eingestellten Erkennungsmodellen. Der Basis-Satz von Erkennungsmodellen kann ein oder mehrere versteckte Markov-Modelle umfassen. Der Satz von Klassifizierern kann ein oder mehrere Gauß-Mischmodelle umfassen. Der Schritt (D) kann die folgenden Schritte einschließen: Bereitstellen eines Projektors, der der identifizierten akustischen Umgebung entspricht, und Anwenden einer Transformation auf der Basis des Projektors auf den Basis-Satz von Erkennungsmodellen. Das obige Verfahren kann vorteilhaft ferner die folgenden Schritte umfassen: Bereitstellen eines Projektors, der der identifizierten akustischen Umgebung entspricht, und Adaptieren des Projektors auf der Basis einer Einstellung, die an dem Basis-Satz von Erkennungsmodellen vorgenommen wurde.
  • Ein weiteres Beispiel sieht ein Spracherkennungssystem vor, das folgendes umfasst: einen Merkmal-Extraktor, der eine Sequenz von Merkmal-Vektoren erzeugt, die eine unbekannte Sprache kennzeichnen; einen ersten Speicher zum Speichern eines Basis-Satzes von Erkennungsmodellen; einen zweiten Speicher zum Speichern eines Satzes von Sekundärmodellen, wobei jedes Sekundärmodell einen Klassifizierer und einen Projektor einschließt, die einer bestimmten akustischen Umgebung entsprechen; einen Klassifizier-Prozessor, der mit dem Merkmal-Extraktor, dem ersten Speicher und dem zweiten Speicher gekoppelt ist, wobei der Klassifizier-Prozessor betrieben wird, um (i) die akustische Umgebung der unbekannten Sprache auf der Basis der Sequenz von Merkmal-Vektoren und des Satzes von Sekundärmodellen zu identifizieren, (ii) den Projektor aus dem zweiten Speicher zu selektieren, der der identifizierten akustischen Umgebung entspricht, und (iii) eine Transformation auf der Basis des Projektors auf den Basis-Satz von Erkennungsmodellen anzuwenden, die in dem ersten Speicher gespeichert sind, wodurch der Basis-Satz von Erkennungsmodellen eingestellt wird, um die identifizierte akustische Umgebung zu reflektieren; und einen Sprach-Erkenner, der mit dem Merkmal-Extraktor und dem ersten Speicher gekoppelt ist, wobei der Sprach-Erkenner die unbekannte Sprache auf der Basis der Sequenz von Merkmal-Vektoren und des Basis-Satzes von eingestellten Erkennungsmodellen erkennt. Das obige System kann ferner einen akustischen Wandler umfassen, der in der Lage ist, Schallwellen zu empfangen, die eine unbekannte Sprache darstellen, und die Schallwellen in ein elektrisches Signal umzuwandeln, und der Basis-Satz von Erkennungsmodellen kann ein oder mehrere versteckte Markov-Modelle umfassen. Der Satz von Sekundärmodellen umfasst ein oder mehrere Gauß-Mischmodelle.
  • Vorteilhafterweise sieht das Beispiel ferner ein Verfahren zum Trainieren eines Spracherkennungssystems vor, das die folgenden Schritte umfasst: (A) Bereitstellen eines Basis-Satzes von Erkennungsmodellen und damit assoziierten Modell-Parametern, die in einer Erkennungsdatenbank gespeichert sind; (B) Aufteilen des Basis-Satzes von Erkennungsmodellen auf N Sätze von gegenwärtigen Modellen, wodurch N bestimmte akustische Umgebungen definiert werden, die den N Sätzen von gegenwärtigen Modellen entsprechen; (C) Speichern der N Sätze von gegenwärtigen Modellen in einer Klassifizier-Datenbank; (D) Bewerten von einem oder mehreren bekannten Trainingsausdrücken gegenüber jedem der N Sätze von gegenwärtigen Modellen; (E) Zuweisen von jedem der bekannten Trainingsausdrücke zu einer der N bestimmten akustischen Umgebungen auf der Basis der höchsten Bewertung des bekannten Trainingsausdrucks für die N Sätze von gegenwärtigen Modellen; (F) Trainieren von jedem der N Sätze von gegenwärtigen Modellen, die mit den N bestimmten akustischen Umgebungen assoziiert sind, unter Verwendung der bekannten Trainingsausdrücke, die der bestimmten akustischen Umgebung zugewiesen sind, wodurch N Sätze von neuen Modellen erstellt werden; (G) Speichern der N Sätze von neuen Modellen in der Klassifizier-Datenbank an Stelle der N Sätze von gegenwärtigen Modellen; und (H) für jede bestimmte akustische Umgebung (i) diskriminierendes Trainieren des Basis-Satzes von Erkennungsmodellen unter Verwendung der bekannten Trainingsausdrücke, die der bestimmten akustischen Umgebung zugewiesen sind, um den Basis-Satz von Erkennungsmodellen zu projizieren, damit die bestimmte akustische Umgebung reflektiert wird, (ii) Speichern eines Satzes der Unterschiede zwischen dem Zustand der Modell-Parameter des Basis-Satzes von Erkennungsmodellen vor dem diskriminierenden Training und nach dem diskriminierenden Training, der der Verzerrung entspricht, die durch die bestimmte akustische Umgebung hervorgerufen wurde, (iii) Clustern der Unterschiede, zu denen man durch das diskriminierende Training gelangt ist, und (iv) Speichern des geclusterten Satzes von Unterschieden als einen Projektor, der zum Einstellen des Basis-Satzes von Erkennungsmodellen verwendet werden kann, um die bestimmte akustische Umgebung zu reflektieren. Das letztere Verfahren kann ferner das Wiederholen der Schritte (D) – (G) mit einer vorgewählten Anzahl von Wiederholungen umfassen.
  • Noch ein weiterer vorteilhafter Aspekt des Beispiels sieht ein Signalverarbeitungsverfahren zum Erkennen von einer unbekannten Sprache vor, das die folgenden Schritte umfasst: (A) Identifizieren einer akustischen Umgebung, die mit einem Testausdruck assoziiert ist; (B) Modifizieren von ein oder mehreren Erkennungsmodellen, um die identifizierte akustische Umgebung zu reflektieren; und (C) Erkennen des Teasausdruckes unter Verwendung des einen oder mehrerer modifizierter Erkennungsmodelle.
  • Das Beispiel sieht ferner ein vorteilhaftes Verfahren zum Trainieren eines Spracherkennungssystems vor, wobei das Spracherkennungssystem über einen Basis-Satz von Erkennungsmodellen verfügt, die in einer Erkennungsdatenbank gespeichert sind, wobei das Verfahren die folgenden Schritte umfasst: (A) Definieren von N bestimmten akustischen Umgebungen; (B) Erstellen von N Sätzen von Modellen, die mit den N bestimmten akustischen Umgebungen assoziiert sind; (C) Zuweisen von jedem aus einer Vielzahl von bekannten Trainingsausdrücken zu einer der N bestimmten akustischen Umgebungen; und (D) für jede bestimmte akustische Umgebung, Bestimmen eines Projektors, der zum Einstellen des Basis-Satzes von Erkennungsmodellen verwendet werden kann, um die bestimmte akustische Umgebung zu reflektieren.
  • Dort, wo technische Merkmale, die in irgendeinem Anspruch erwähnt sind, von Bezugsziffern gefolgt werden, sind diese Bezugsziffern für den alleinigen Zweck der Steigerung der Verständlichkeit der Ansprüche eingefügt worden, und dementsprechend besitzen derartige Bezugsziffern keine beschränkende Wirkung auf den Schutzumfang von jedem Element, das von derartigen Bezugsziffern beispielhaft identifiziert wird.

Claims (23)

  1. Ein Verfahren zur Erkennung eines unbekannten Sprachsignals, das folgendes umfasst: Speichern, für jede aus einer Vielzahl von akustischen Umgebungen, von Information, die einen Satz von Erkennungsmodellen für diese akustische Umgebung definiert; Empfangen eines Signals, das eine unbekannte Sprache darstellt; Identifizieren einer bestimmten Umgebung aus der Vielzahl von akustischen Umgebungen als die akustische Umgebung der unbekannten Sprache; und Erkennen des unbekannten Sprachsignals unter Verwendung des Satzes von Erkennungsmodellen für die identifizierte akustische Umgebung, dadurch gekennzeichnet, dass die Information, die den Satz von Erkennungsmodellen für jede akustische Umgebung definiert, folgendes einschließt: einen Basis-Satz von Erkennungsmodellen; und Information, die Unterschiede zwischen den Werten von bestimmten Parametern des Basis-Satzes von Erkennungsmodellen und den Werten der entsprechenden Parameter des Satzes von Erkennungsmodellen für jede akustische Umgebung definiert.
  2. Ein Verfahren nach Anspruch 1, wobei das Identifizieren auf dem unbekannten Sprachsignal basiert.
  3. Ein Verfahren nach Anspruch 1 oder 2, wobei mindestens einer der bestimmten Parameter des Basis-Satzes von Erkennungsmodellen der Mittelwert einer Gauß-Verteilung ist; oder wobei mindestens einer der bestimmten Parameter des Basis-Satzes eine Varianz einer Gauß-Verteilung ist.
  4. Ein Verfahren nach einem oder mehreren der Ansprüche 1-3, wobei die die Unterschiede definierende Information, einen Modell-Transformation-Projektor umfasst, der jeder akustischen Umgebung entspricht; und das Verfahren ferner die Erzeugung des Satzes von Modellen für die identifizierte akustische Umgebung umfasst, indem der entsprechende Modell-Transformation-Projektor auf den Basis-Satz von Erkennungsmodellen angewendet wird.
  5. Ein Verfahren nach einem oder mehreren der Ansprüche 2-4, wobei der Basis-Satz von Erkennungsmodellen ein oder mehrere versteckte Markov-Modelle umfasst; oder wobei mindestens eines der Erkennungsmodelle des Basis-Satzes jeweilige Phone modelliert.
  6. Ein Verfahren nach Anspruch 4, das ferner folgendes umfasst: Adaptieren der Information, die den Satz von Erkennungsmodellen für die identifizierte akustische Umgebung definiert, indem als Antwort auf das Erkennen der Modell-Transformation-Projektor, der der akustischen Umgebung entspricht, adaptiert wird.
  7. Ein Verfahren nach einem oder mehreren der Ansprüche 1-6, das ferner folgendes umfasst: Erzeugen eines Satzes von Merkmal-Vektoren, der das unbekannte Sprachsignal kennzeichnet, und wobei die akustische Umgebung des unbekannten Sprachsignals auf der Basis der Sequenz von Merkmal-Vektoren und eines Satzes von Klassifizier-Modellen identifiziert wird.
  8. Ein Verfahren nach Anspruch 7, wobei der Satz von Klassifizier-Modellen ein oder mehrere Gauß-Mischmodelle umfasst.
  9. Ein Signalverarbeitungssystem zur Erkennung eines Testausdrucks, das folgendes umfasst: Mittel zur Identifizierung, als Antwort auf den Testausdruck, einer Umgebung aus einer vorbestimmten Vielzahl von akus tischen Umgebungen, die mit dem Testausdruck assoziiert sind; und Mittel zur Erkennung des Testausdrucks unter Verwendung des Satzes von Erkennungsmodellen für die identifizierte Umgebung, dadurch gekennzeichnet, dass die Information, die den Satz von Erkennungsmodellen für jede akustische Umgebung definiert, folgendes einschließt: einen Basis-Satz von Erkennungsmodellen; und Information, die Unterschiede zwischen den Werten von bestimmten Parametern des Basis-Satzes von Erkennungsmodellen und den Werten der entsprechenden Parameter des Satzes von Erkennungsmodellen für jede akustische Umgebung definiert.
  10. Ein System nach Anspruch 9, wobei Mittel zur Modifizierung den Mittelwert von mindestens einer Gauß-Verteilung modifizieren; oder wobei Mittel zur Modifizierung eine Varianz von mindestens einer Gauß-Verteilung modifizieren.
  11. Ein System nach Anspruch 9 oder 10, wobei mindestens eines der Erkennungsmodelle ein verstecktes Markov-Modell ist, und wobei vorzugsweise mindestens eines der versteckten Markov-Modelle jeweilige Phone modelliert.
  12. Ein System nach Anspruch 11, das ferner Mittel zur Erzeugung eines Satzes von Merkmal-Vektoren umfasst, der den Testausdruck kennzeichnet, und wobei die Mittel zur Identifizierung die akustische Umgebung des Testausdrucks auf der Basis der Sequenz von Merkmal-Vektoren und eines Satzes von Klassifizier-Modellen identifizieren.
  13. Ein System nach Anspruch 12, wobei der Satz von Klassifizier-Modellen ein oder mehrere Gauß-Mischmodelle umfasst.
  14. Ein Verfahren zur Entwicklung, für jede aus einer Vielzahl von akustischen Umgebungen, von Information, die einen Satz von Spracherkennungsmodellen für diese akustische Umgebung definiert, wobei das Verfahren folgendes umfasst: Organisieren von Trainingsausdrücken aus verschiedenen akustischen Umgebungen gemäß ihren akustischen Umgebungen zu Gruppen; und Einsetzen jeder Gruppe von Trainingsausdrücken zum diskriminierenden Trainieren von Erkennungsmodellen, um einen Satz von Erkennungsmodellen für eine jeweilige akustische Umgebung zu erzeugen, dadurch gekennzeichnet, dass die Information, die den Satz von Erkennungsmodellen für jede akustische Umgebung definiert, folgendes einschließt: einen Basis-Satz von Erkennungsmodellen; und Information, die Unterschiede zwischen den Werten von bestimmten Parametern des Basis-Satzes von Erkennungsmodellen und den Werten der entsprechenden Parameter des Satzes von Erkennungsmodellen für jede akustische Umgebung definiert.
  15. Ein Verfahren nach Anspruch 14, das ferner folgendes umfasst: Bestimmen eines Satzes von Unterschieden zwischen den Werten von Modell-Parametern des Basis-Satzes von Erkennungsmodellen vor dem diskriminierenden Trainieren und nach dem diskriminierenden Trainieren.
  16. Ein Verfahren nach Anspruch 14, das ferner folgendes umfasst: Speichern eines Teilsatzes der Unterschiede als einen Projektor, der zur Einstellung des Basis-Satzes von Erkennungsmodellen verwendet werden kann, um die jeweilige akustische Umgebung zu reflektieren.
  17. Ein Verfahren nach einem oder mehreren der Ansprüche 14-16, wobei die Verarbeitung des Trainingsausdrucks folgendes umfasst: Aufteilen eines ursprünglichen Satzes von Erkennungsmodellen auf N Sätze von gegenwärtigen Modellen, wodurch N bestimmte akustische Umgebungen definiert werden, die den N Sätzen von gegenwärtigen Modellen entsprechen; Bewerten der Trainingsausdrücke gegenüber jedem der N Sätze von gegenwärtigen Modellen; und Zuweisen von jedem der Trainingsausdrücke zu einer der N bestimmten akustischen Umgebungen auf der Basis der höchsten Bewertung des bekannten Trainingsausdrucks für die N Sätze von gegenwärtigen Modellen.
  18. Ein Verfahren nach Anspruch 17, das ferner folgendes umfasst: Trainieren von jedem der N Sätze von gegenwärtigen Modellen, die mit den N bestimmten akustischen Umgebungen assoziiert sind, unter Verwendung der Trainingsausdrücke, die der bestimmten akustischen Umgebung zugewiesen sind, wodurch N Sätze von neuen Modellen erstellt werden; und Speichern der N Sätze von neuen Modellen in einer Klassifizierdatenbank zur Verwendung beim Klassifizieren von Testausdrücken zu einer der N akustischen Umgebungen.
  19. Ein Verfahren nach Anspruch 17, das ferner folgendes umfasst: Trainieren von jedem der N Sätze von gegenwärtigen Modellen, die mit den N bestimmten akustischen Umgebungen assoziiert sind, unter Verwendung der Trainingsausdrücke, die der bestimmten akustischen Umgebung zugewiesen sind, wodurch N Sätze von neuen Modellen erstellt werden; Aufteilen der N Sätze von gegenwärtigen Modellen auf N' Sätze von Modellen; Durchführen der Bewertungs-, Zuweisungs-, Trainings- und Speicherungsschritte bei den N' Sätzen von Modellen, wodurch N' Sätze von neuen Modellen erstellt werden; und Speichern der N' Sätze von neuen Modellen in einer Klassifizier-Datenbank zur Verwendung beim Klassifizieren von Testausdrücken zu einer der N akustischen Umgebungen.
  20. Ein Verfahren nach Anspruch 16, das ferner das Clustern der beim diskriminierenden Trainieren erlangten Unterschiede zur Identifizierung des Teilsatzes umfasst.
  21. Ein Verfahren nach einem oder mehreren der Ansprüche 14-20, wobei bei dem Organisierungsschritt jede der Gruppen Trainingsausdrücke aus einer bestimmten akustischen Umgebung umfasst.
  22. Ein Verfahren nach einem oder mehreren der Ansprüche 1-8, wobei die Information, die den bestimmten Satz von Erkennungsmodellen für eine bestimmte akustische Umgebung definiert, über das Verfahren nach einem beliebigen der Ansprüche 14 bis 20 erzeugt wurde.
  23. Ein greifbares Medium, auf dem, für jede aus einer Vielzahl von akustischen Umgebungen Information gespeichert ist, die einen Satz von Erkennungsmodellen für diese akustische Umgebung definiert, wobei die Information über das Verfahren nach einem beliebigen der Ansprüche 14 bis 20 erzeugt wurde.
DE69838189T 1997-05-27 1998-05-14 Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen Expired - Lifetime DE69838189T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/863,927 US5960397A (en) 1997-05-27 1997-05-27 System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
US863927 1997-05-27

Publications (2)

Publication Number Publication Date
DE69838189D1 DE69838189D1 (de) 2007-09-13
DE69838189T2 true DE69838189T2 (de) 2008-04-30

Family

ID=25342132

Family Applications (2)

Application Number Title Priority Date Filing Date
DE69838189T Expired - Lifetime DE69838189T2 (de) 1997-05-27 1998-05-14 Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE69831114T Expired - Lifetime DE69831114T2 (de) 1997-05-27 1998-05-14 Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE69831114T Expired - Lifetime DE69831114T2 (de) 1997-05-27 1998-05-14 Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen

Country Status (4)

Country Link
US (1) US5960397A (de)
EP (2) EP1526504B1 (de)
CA (1) CA2233728C (de)
DE (2) DE69838189T2 (de)

Families Citing this family (97)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998028733A1 (en) * 1996-12-24 1998-07-02 Koninklijke Philips Electronics N.V. A method for training a speech recognition system and an apparatus for practising the method, in particular, a portable telephone apparatus
JP3584458B2 (ja) * 1997-10-31 2004-11-04 ソニー株式会社 パターン認識装置およびパターン認識方法
US6327565B1 (en) * 1998-04-30 2001-12-04 Matsushita Electric Industrial Co., Ltd. Speaker and environment adaptation based on eigenvoices
US6980952B1 (en) * 1998-08-15 2005-12-27 Texas Instruments Incorporated Source normalization training for HMM modeling of speech
US6411930B1 (en) * 1998-11-18 2002-06-25 Lucent Technologies Inc. Discriminative gaussian mixture models for speaker verification
US6275800B1 (en) * 1999-02-23 2001-08-14 Motorola, Inc. Voice recognition system and method
DE60018696T2 (de) * 1999-07-01 2006-04-06 Koninklijke Philips Electronics N.V. Robuste sprachverarbeitung von verrauschten sprachmodellen
US6691089B1 (en) * 1999-09-30 2004-02-10 Mindspeed Technologies Inc. User configurable levels of security for a speaker verification system
US7016835B2 (en) * 1999-10-29 2006-03-21 International Business Machines Corporation Speech and signal digitization by using recognition metrics to select from multiple techniques
US20020055844A1 (en) * 2000-02-25 2002-05-09 L'esperance Lauren Speech user interface for portable personal devices
DE60120949T2 (de) 2000-04-04 2007-07-12 Gn Resound A/S Eine hörprothese mit automatischer hörumgebungsklassifizierung
WO2001022790A2 (de) * 2001-01-05 2001-04-05 Phonak Ag Verfahren zum betrieb eines hörgerätes und ein hörgerät
DE10041456A1 (de) * 2000-08-23 2002-03-07 Philips Corp Intellectual Pty Verfahren zum Steuern von Geräten mittels Sprachsignalen, insbesondere bei Kraftfahrzeugen
US6560755B1 (en) 2000-08-24 2003-05-06 Cadence Design Systems, Inc. Apparatus and methods for modeling and simulating the effect of mismatch in design flows of integrated circuits
US7219058B1 (en) * 2000-10-13 2007-05-15 At&T Corp. System and method for processing speech recognition results
US7457750B2 (en) * 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
JP4244514B2 (ja) * 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
WO2002056303A2 (en) * 2000-11-22 2002-07-18 Defense Group Inc. Noise filtering utilizing non-gaussian signal statistics
WO2001020965A2 (de) 2001-01-05 2001-03-29 Phonak Ag Verfahren zur bestimmung einer momentanen akustischen umgebungssituation, anwendung des verfharens und ein hörgerät
US6804647B1 (en) * 2001-03-13 2004-10-12 Nuance Communications Method and system for on-line unsupervised adaptation in speaker verification
US7239324B2 (en) 2001-03-23 2007-07-03 Microsoft Corporation Methods and systems for merging graphics for display on a computing device
US7038690B2 (en) * 2001-03-23 2006-05-02 Microsoft Corporation Methods and systems for displaying animated graphics on a computing device
US6933856B2 (en) * 2001-08-02 2005-08-23 Halliburton Energy Services, Inc. Adaptive acoustic transmitter controller apparatus and method
WO2004013997A1 (en) * 2001-08-02 2004-02-12 Halliburton Energy Service, Inc. Adaptive acoustic transmitter controller apparatus and method
US20030033143A1 (en) * 2001-08-13 2003-02-13 Hagai Aronowitz Decreasing noise sensitivity in speech processing under adverse conditions
US7437289B2 (en) * 2001-08-16 2008-10-14 International Business Machines Corporation Methods and apparatus for the systematic adaptation of classification systems from sparse adaptation data
US6778957B2 (en) * 2001-08-21 2004-08-17 International Business Machines Corporation Method and apparatus for handset detection
US6862359B2 (en) 2001-12-18 2005-03-01 Gn Resound A/S Hearing prosthesis with automatic classification of the listening environment
US7072834B2 (en) * 2002-04-05 2006-07-04 Intel Corporation Adapting to adverse acoustic environment in speech processing using playback training data
US7804973B2 (en) * 2002-04-25 2010-09-28 Gn Resound A/S Fitting methodology and hearing prosthesis based on signal-to-noise ratio loss data
GB2389217A (en) * 2002-05-27 2003-12-03 Canon Kk Speech recognition system
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US20040024599A1 (en) * 2002-07-31 2004-02-05 Intel Corporation Audio search conducted through statistical pattern matching
JP4352790B2 (ja) * 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
TWI245259B (en) 2002-12-20 2005-12-11 Ibm Sensor based speech recognizer selection, adaptation and combination
US20040181409A1 (en) * 2003-03-11 2004-09-16 Yifan Gong Speech recognition using model parameters dependent on acoustic environment
JP4033299B2 (ja) * 2003-03-12 2008-01-16 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
US7292982B1 (en) * 2003-05-29 2007-11-06 At&T Corp. Active labeling for spoken language understanding
US7516071B2 (en) * 2003-06-30 2009-04-07 International Business Machines Corporation Method of modeling single-enrollment classes in verification and identification tasks
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US8938390B2 (en) 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US8078465B2 (en) * 2007-01-23 2011-12-13 Lena Foundation System and method for detection and analysis of speech
US7729909B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition
US20060245641A1 (en) * 2005-04-29 2006-11-02 Microsoft Corporation Extracting data from semi-structured information utilizing a discriminative context free grammar
US20070033027A1 (en) * 2005-08-03 2007-02-08 Texas Instruments, Incorporated Systems and methods employing stochastic bias compensation and bayesian joint additive/convolutive compensation in automatic speech recognition
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
EP1934971A4 (de) * 2005-08-31 2010-10-27 Voicebox Technologies Inc Dynamische sprachverschärfung
US7729911B2 (en) * 2005-09-27 2010-06-01 General Motors Llc Speech recognition method and system
US8509563B2 (en) * 2006-02-02 2013-08-13 Microsoft Corporation Generation of documents from images
US7813926B2 (en) * 2006-03-16 2010-10-12 Microsoft Corporation Training system for a speech recognition application
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US20080147411A1 (en) * 2006-12-19 2008-06-19 International Business Machines Corporation Adaptation of a speech processing system from external input that is not directly related to sounds in an operational acoustic environment
CA2676380C (en) 2007-01-23 2015-11-24 Infoture, Inc. System and method for detection and analysis of speech
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8762143B2 (en) 2007-05-29 2014-06-24 At&T Intellectual Property Ii, L.P. Method and apparatus for identifying acoustic background environments based on time and speed to enhance automatic speech recognition
KR100911429B1 (ko) * 2007-08-22 2009-08-11 한국전자통신연구원 환경 이동을 위한 잡음 적응형 음향 모델 생성 방법 및 장치
US8548791B2 (en) * 2007-08-29 2013-10-01 Microsoft Corporation Validation of the consistency of automatic terminology translation
US8180637B2 (en) * 2007-12-03 2012-05-15 Microsoft Corporation High performance HMM adaptation with joint compensation of additive and convolutive distortions
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8468019B2 (en) * 2008-01-31 2013-06-18 Qnx Software Systems Limited Adaptive noise modeling speech recognition system
US8725492B2 (en) * 2008-03-05 2014-05-13 Microsoft Corporation Recognizing multiple semantic items from single utterance
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8386251B2 (en) * 2009-06-08 2013-02-26 Microsoft Corporation Progressive application of knowledge sources in multistage speech recognition
US9026444B2 (en) 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
WO2011071484A1 (en) * 2009-12-08 2011-06-16 Nuance Communications, Inc. Guest speaker robust adapted speech recognition
WO2011116514A1 (en) * 2010-03-23 2011-09-29 Nokia Corporation Method and apparatus for determining a user age range
GB2480085B (en) * 2010-05-05 2012-08-08 Toshiba Res Europ Ltd A speech processing system and method
KR20120054845A (ko) * 2010-11-22 2012-05-31 삼성전자주식회사 로봇의 음성인식방법
US8756062B2 (en) * 2010-12-10 2014-06-17 General Motors Llc Male acoustic model adaptation based on language-independent female speech data
US8630860B1 (en) * 2011-03-03 2014-01-14 Nuance Communications, Inc. Speaker and call characteristic sensitive open voice search
US8738376B1 (en) * 2011-10-28 2014-05-27 Nuance Communications, Inc. Sparse maximum a posteriori (MAP) adaptation
US9263040B2 (en) 2012-01-17 2016-02-16 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance speech recognition
US9418674B2 (en) * 2012-01-17 2016-08-16 GM Global Technology Operations LLC Method and system for using vehicle sound information to enhance audio prompting
US9934780B2 (en) 2012-01-17 2018-04-03 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch
US8484025B1 (en) * 2012-10-04 2013-07-09 Google Inc. Mapping an audio utterance to an action using a classifier
US9653070B2 (en) 2012-12-31 2017-05-16 Intel Corporation Flexible architecture for acoustic signal processing engine
US9552825B2 (en) * 2013-04-17 2017-01-24 Honeywell International Inc. Noise cancellation for voice activation
WO2016044290A1 (en) 2014-09-16 2016-03-24 Kennewick Michael R Voice commerce
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
JP6464650B2 (ja) * 2014-10-03 2019-02-06 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
EP3207467A4 (de) 2014-10-15 2018-05-23 VoiceBox Technologies Corporation System und verfahren zur bereitstellung nachfolgender reaktionen auf natürliche spracheingaben eines benutzers
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
CN105976827B (zh) * 2016-05-26 2019-09-13 南京邮电大学 一种基于集成学习的室内声源定位方法
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
WO2019113477A1 (en) 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
US20190251428A1 (en) * 2018-02-09 2019-08-15 Oath Inc. System and method for query to ad matching using deep neural net based query embedding
US11783826B2 (en) * 2021-02-18 2023-10-10 Nuance Communications, Inc. System and method for data augmentation and speech processing in dynamic acoustic environments

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
US4897878A (en) * 1985-08-26 1990-01-30 Itt Corporation Noise compensation in speech recognition apparatus
GB2216320B (en) * 1988-02-29 1992-08-19 Int Standard Electric Corp Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
US5761639A (en) * 1989-03-13 1998-06-02 Kabushiki Kaisha Toshiba Method and apparatus for time series signal recognition with signal variation proof learning
US5794194A (en) * 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment
DE4131387A1 (de) * 1991-09-20 1993-03-25 Siemens Ag Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE69322894T2 (de) * 1992-03-02 1999-07-29 At & T Corp Lernverfahren und Gerät zur Spracherkennung
US5473728A (en) * 1993-02-24 1995-12-05 The United States Of America As Represented By The Secretary Of The Navy Training of homoscedastic hidden Markov models for automatic speech recognition
DE4325404C2 (de) * 1993-07-29 2002-04-11 Tenovis Gmbh & Co Kg Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen
AU7802194A (en) * 1993-09-30 1995-04-18 Apple Computer, Inc. Continuous reference adaptation in a pattern recognition system
US5572624A (en) * 1994-01-24 1996-11-05 Kurzweil Applied Intelligence, Inc. Speech recognition system accommodating different sources
US5590242A (en) * 1994-03-24 1996-12-31 Lucent Technologies Inc. Signal bias removal for robust telephone speech recognition
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
JP2768274B2 (ja) * 1994-09-08 1998-06-25 日本電気株式会社 音声認識装置
JP3652753B2 (ja) * 1994-10-28 2005-05-25 三菱電機株式会社 発声変形音声認識装置及び音声認識方法
US5742928A (en) * 1994-10-28 1998-04-21 Mitsubishi Denki Kabushiki Kaisha Apparatus and method for speech recognition in the presence of unnatural speech effects
US5721808A (en) * 1995-03-06 1998-02-24 Nippon Telegraph And Telephone Corporation Method for the composition of noise-resistant hidden markov models for speech recognition and speech recognizer using the same
JP2780676B2 (ja) * 1995-06-23 1998-07-30 日本電気株式会社 音声認識装置及び音声認識方法
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition

Also Published As

Publication number Publication date
EP0881625B1 (de) 2005-08-10
DE69831114D1 (de) 2005-09-15
DE69838189D1 (de) 2007-09-13
CA2233728A1 (en) 1998-11-27
EP0881625A2 (de) 1998-12-02
US5960397A (en) 1999-09-28
CA2233728C (en) 2002-10-15
EP1526504B1 (de) 2007-08-01
EP0881625A3 (de) 1999-07-28
DE69831114T2 (de) 2006-05-18
EP1526504A1 (de) 2005-04-27

Similar Documents

Publication Publication Date Title
DE69838189T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE69816177T2 (de) Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen
EP0925461B1 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE60120323T2 (de) System und Verfahren zur Mustererkennung im sehr hochdimensionalen Raum
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
US9368110B1 (en) Method for distinguishing components of an acoustic signal
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
EP0925579B1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE60222249T2 (de) Spracherkennungsystem mittels impliziter sprecheradaption
DE69629763T2 (de) Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM)
DE10111056B4 (de) Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem
DE602004000382T2 (de) Rauschadaptierung zur Spracherkennung
DE69634784T2 (de) Unterscheidende Verifizierung von Äusserungen für die Erkennung zusammenhängender Ziffern
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE69635655T2 (de) Sprecherangepasste Spracherkennung
DE69819438T2 (de) Verfahren zur Spracherkennung
WO1993006591A1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE602004000716T2 (de) Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
EP1199704A2 (de) Auswahl der alternativen Wortfolgen für diskriminative Anpassung
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese

Legal Events

Date Code Title Description
8364 No opposition during term of opposition