DE60029456T2

DE60029456T2 - Verfahren zur Online-Anpassung von Aussprachewörterbüchern

Info

Publication number: DE60029456T2
Application number: DE60029456T
Authority: DE
Inventors: Silke Goronzy; Dr. Ralf Kompe; Dr. Stefan Rapp
Original assignee: Sony Deutschland GmbH
Current assignee: Sony Deutschland GmbH
Priority date: 2000-12-11
Filing date: 2000-12-11
Publication date: 2007-07-12
Anticipated expiration: 2020-12-12
Also published as: DE60029456D1; US20020095282A1; EP1213706B1; EP1213706A1

Description

Die Erfindung betrifft ein Verfahren zur Spracherkennung gemäß dem Oberbegriff des Patentanspruchs 1 und insbesondere betrifft die Erfindung ein Verfahren zur Spracherkennung unter Einsatz einer Online-Anpassung von Aussprache-Wörterbüchern oder Lexika.
Erst seit Kurzem gewinnt die automatische Spracherkennung (ASR) mehr und mehr an Bedeutung. Insbesondere liegt in vielen Bereichen technischer und kommerzieller Aktivitäten ein Bedürfnis nach Sprecher-unabhängigen oder Sprecher-anpassenden Spracherkennungsverfahren und Vorrichtungen vor. Diese Verfahren und Vorrichtungen werden zur Realisierung von Schnittstellen zwischen Nutzer-Personen und technischen Vorrichtungen implementiert und verwendet, um die für Assistenzzwecke und Dienste verwendete Personallast zu senken. Darüber hinaus werden diese Erkennungsverfahren und Vorrichtungen zur Vereinfachung oder Unterstützung der Verwendung und Anwendung technischer Einrichtungen genutzt.
Bekannter Weise basieren Erkennungsverfahren und Vorrichtungen auf sogenannten Aussprache-Wörterbüchern und Lexika, die insbesondere eine Vielzahl von Aussprachevarianten enthalten, um mit verschiedenen Sprecher-spezifischen Aussprachen zurechtzukommen, als auch mit Dialekten, auf ausländischer Muttersprache basierenden ausländischen Akzenten und/oder Dergleichen.
In bekannten Wörterbüchern oder Lexika werden die Vielzahl von Aussprachevarianten über große Datenbanken erzeugt und deshalb sind diese Wörterbücher und Lexika sehr spezifisch an die jeweilige Datenbank angelehnt und möglicherweise nicht für spezielle Zwecke von Nutzen geeignet.
Ein weiterer Ansatz zum Erzeugen einer Vielzahl mehrfacher Aussprachevarianten basiert darauf, das Aussprache-Wörterbuch oder das Lexikon auf einer gegebenen Zusammenstellung von Ausspracheregeln unter Einsatz von phonetischen, linguistischen und sprachlichen Modellkenntnissen zu basieren. Obwohl die auf Regeln erzeugten Aussprachevarianten unabhängig von der Datenbank sind, neigen diese dazu, eine überwältigende Anzahl von Alternativen für die Aussprachevarianten mit sich zu bringen.
Somit liegt ein wesentlicher Nachteil von mehrfachen Aussprachevarianten, die in bekannten Wörterbüchern oder Lexika enthalten sind, darin, dass diese eine große Anzahl von Aussprachevarianten abdecken und damit eine große Anzahl von Aussprachevariante, die im Hinblick auf einen speziellen Sprecher nicht verwendet werden.
Zusätzlich hängt die erzeugte Zusammenstellung von Aussprachevarianten von einer spezifischen Datenbank und/oder von Regeln ab, auf denen deren Erzeugung basiert. Darüber hinaus können bekannte Wörterbücher oder Lexika, welche mehrere Aussprachevarianten enthalten, nicht mit der großen Vielzahl möglicher Dialekte, ausländischer Akzente und Sprecher-spezifischen Aussprachen auf flexible und weniger zeitaufwändige Weise umgehen. Die bekannten Ansätze stimmen zudem darin überein, dass die Aussprachevarianten vor einem Erkennungsprozess, d. h. off-line, erzeugt werden müssen.
Weitere Information zum Stand der Technik findet sich in EP 0 987 682 , worin ein Verfahren zum Anpassen linguistischer Sprachmodelle in Systemen mit automatischer Spracherkennung beschrieben wird und die linguistischen Sprachmodelle einzelnen oder Kombinationen von Sprachvokabularelementen Wahrscheinlichkeiten im Hinblick auf deren Auftreten zuordnen. Das Verfahren schließt das Auswerten einer Liste von N besten Erkennungsergebnisalternativen für ein während der Anpassung zu erkennendes Sprachsegment ein, wobei N größer als 1 ist. Während der Anpassung wird die Liste, eine Kombination verschiedener Erkennungsergebnisalternativen, zugeführt. Insbesondere wird eine Anpassung ausgeführt, wobei die Wahrscheinlichkeit des Auftretens spezifischer Elemente der Liste der N besten Erkennungsergebnisalternativen vergrößert wird, indem deren jeweilige Wahrscheinlichkeit des Auftretens mit einem heuristisch berechneten Wert gewichtet wird.
EP 1 022 723 beschreibt eine unbeaufsichtigte Anpassung einer Spracherkennungseinrichtung durch Verwendung von zuverlässiger Information unter N-besten Zeichenketten, wobei das System eine unbeaufsichtigte Sprachmodellanpassung durch Verwendung der Erkennungseinrichtung zum Erzeugen der N-besten Lösungen für eine eingespeiste Äußerung durchführt. Jede dieser N-besten Lösungen wird über einen zuverlässigen Informationsextraktionsprozess getestet. Zuverlässige Information wird über ein Gewichtungsverfahren basierend auf von der Erkennungseinrichtung erzeugten Wahrscheinlichkeitsbewertungen extrahiert oder über eine nichtlineare Schwellenfunktion. Das System kann in einer Single-Pass Ausführung oder iterativ in einer Multi-Pass Ausführung verwendet werden.
EP 1 022 725 betrifft die Auswahl akustischer Modelle unter Einsatz einer Sprecherverifizierung. Im Besonderen beschreibt diese Schrift eine automatische Erkennung einer Sprecheränderung, wobei das System identifiziert, ob der Sprecher das System vorab schon benutzt hat und ob ein Sprecher-angepasstes Modell für diesen Sprecher bereits verfügbar ist. Ist dies der Fall, wird dieses Modell zur weiteren Erkennung und Anpassung verwendet. Die Druckschrift lehrt darüber hinaus, dass in einem typischen Sprecher-angepassten System bei jedem Sprecherwechsel eine Auswahl des Nutzers hinsichtlich der zu verwendenden verfügbaren Modellzusammenstellungen erforderlich ist. Beispielsweise ist es die SI Modellzusammenstellung, falls der Nutzer das System zum ersten Mal nutzt oder es ist eine bereits an diesen Nutzer angepasste Modellzusammenstellung, falls dieser das System bereits genutzt hat. Sind keinerlei angepasste Modellzusammenstellungen gespeichert, startet der Anpassungsprozess unter Verwendung der SI Modelle immer wieder von neuem, sofern derselbe Sprecher das System wiederholt verwendet.
Homma S., et al., "Iterative Unsupervised Speaker Adaptation für Batch Dictation", Proceedings of the International (Conference on Spoken Language Processing, XX, XX, Vol. 2, 3, Oktober 1996 (1996-10-03), Seiten 1141–1144, XP002100688, lehrt eine alternative Durchführung der Spracherkennung und Sprecher-Anpassung durch Aktualisieren der akustischen Modelle auf Sprecher-abhängige Modelle.
Es ist eine Aufgabe der Erfindung, Verfahren zur Spracherkennung anzugeben, bei denen die Last des Prüfens mehrfacher Aussprachevarianten gelindert ist und die auf einfache Weise ausgeführt und implementiert werden können.
Die Aufgabe wird mit einem Verfahren zur Spracherkennung gemäß dem Oberbegriff des Patentanspruchs 1 und erfindungsgemäß mit den Merkmalen des kennzeichnenden Teils des Patentanspruchs 1 gelöst. Bevorzugte Ausführungsformen des erfindungsgemäßen Verfahrens zur Spracherkennung sind Gegenstand der abhängigen Unteransprüche.
In dem Verfahren gemäß dem Oberbegriff des Patentanspruchs 1 wird für jeden Spracherkennungsprozess ein aktuelles Lexikon oder Aussprachewörterbuch verwendet.
Das erfindungsgemäße Verfahren zur Spracherkennung zeichnet sich dadurch aus, dass der Spracherkennungsprozess unter Verwendung eines Ausgangslexikons als aktuelles Lexikon gestartet wird. Darüber hinaus wird ein modifiziertes Lexikon nach einer gegebenen Anzahl ausgeführter Erkennungsschritte und/oder erzielter Erkennungsergebnisse erzeugt. Der Erzeugungsprozess des modifizierten Lexikons basiert auf dem aktuellen Lexikon durch Hinzufügen von wenigstens Erkennungs-relevanter Information zum aktuellen Lexikon, die in Bezug zu wenigstens einem bereits erzielten Erkennungsergebnis steht. Zusätzlich wird der Erkennungsprozess dann unter Verwendung des modifizierten Lexikons als aktuelles Lexikon im jeweiligen Falle fortgesetzt.
Es ist somit eine grundlegende Idee dieser Erfindung, einen Erkennungsprozess auf einen, insbesondere kontinuierlich eingehenden oder erhaltenen, Sprachfluss anzuwenden. Zu Beginn des Erkennungsprozesses wird ein Ausgangslexikon aufgerufen oder geladen und als aktuelles Lexikon verwendet, insbesondere zur Erzielung eines ersten Erkennungsergebnisses. Es ist zudem eine Idee dieser Erfindung, Erkennungs-relevante Information, welche über den Erkennungsprozess erzeugt und/oder extrahiert wird, zum Modifizieren des aktuellen Lexikons auszuwerten oder zu verwenden und damit ein modifiziertes Lexikon zu erzeugen. Die Erkennungs-relevante Information gehört wenigstens zu einem Erkennungsergebnis, das bereits in vorherigen Erkennungsprozessen und/oder Schritten erzielt wurde.
Beispielsweise wird Erkennungs-relevante Information für eine erste Modifikation, nämlich im Hinblick auf das Ausgangslexikon, aus der ersten erkannten Äußerung, Spracheingabe oder Sprachphrase erzielt. Eine weitere Idee der Erfindung liegt in dem Fortsetzen des Erkennungsprozesses im jeweiligen Falle mit dem modifizierten Lexikon als aktuellem Lexikon. Damit wird das modifizierte Lexikon nach einer gegebenen Anzahl ausgeführter Erkennungsschritte und/oder Erkennungsergebnisse aufgebaut und dann als aktuelles Lexikon für den nächsten auszuführenden Erkennungsschritt installiert oder geladen.
Der Vorteil des vorgeschlagenen erfindungsgemäßen Verfahrens zur Spracherkennung liegt darin, dass das Ausgangslexikon lediglich grundlegende Information enthalten kann – Erkennungsbefähigungsinformation (REI) – insbesondere im Hinblick auf mögliche Aussprachevarianten. Während der Spracherkennung wird das Ausgangslexikon dann mit Erkennungs-relevanter Information (RRI) bereichert, wobei diese Information speziell auf den aktuellen Sprecher zugeschnitten ist. Danach wird online eine Anpassung des Lexikons oder des Wörterbuches durchgeführt, d. h. während des ausgeführten Erkennungsprozesses und/oder nach Beenden der Erkennungsschritte. Der wesentliche Vorteil gegenüber bekannten Spracherkennungsverfahren liegt in der möglichen Anwendung vergleichsweise kleiner Ausgangslexika und einer online Sprecher-spezifischen Anpassung des Ausgangslexikons nach einer gewissen Anzahl von Erkennungsprozessen oder Erkennungsschritten. Deshalb müssen erfindungsgemäß Aussprachevarianten, Akzente und Dialekte, die nicht spezifisch für den aktuellen Sprecher sind, während des Erkennungsprozesses nicht berücksichtigt werden. Damit kann das erfindungsgemäße Verfahren zur Spracherkennung bei geringerer Belastung im Hinblick auf das Prüfen von Aussprachevarianten durchgeführt werden. Folglich ist das erfindungsgemäße Verfahren zur Spracherkennung weniger zeitaufwändig und speicherintensiv im Vergleich zu bekannten Verfahren.
In vorteilhafter Weise wird ein modifiziertes Lexikon oder Wörterbuch nach jeder festgelegten und/oder bestimmten Anzahl von Erkennungsschritten und/oder Ergebnissen wiederholt erzeugt, insbesondere nach jedem einzelnen Erkennungsschritt und/oder Ergebnis. Hierbei wird die Anzahl der Erkennungsschritte/Ergebnisse, nach denen eine Anpassung des aktuellen Lexikons durchgeführt wird, zum Ausgleich zwischen einem hohen Leistungsgrad und der Erkennungsqualität gewählt. Es ist insbesondere von Vorteil, falls die Online-Anpassung des aktuellen Lexikons oder Wörterbuchs nach jedem erzielten Erkennungsergebnis oder durchgeführten Erkennungsschritt durchgeführt wird, um sicherzustellen, dass für zukünftige Erkennungsschritte die aktuell erzielte Erkennungs-relevante Information (RRI) in dem aktuellen Lexikon enthalten ist und zur Erhöhung der Erkennungsqualität ausgewertet werden kann.
Zur Ermittlung der Anzahl von Erkennungsschritten/Ergebnissen, nach denen eine Modifikation des aktuellen Lexikons durchgeführt wird, kann Prozessinformation ausgewertet werden. Diese Anzahl kann als festgelegte und/oder bestimmte Anzahl definiert sein. Alternativ hierzu kann diese Anzahl innerhalb eines aktuellen Erkennungsprozesses und/oder einer Anpassung, d. h. online, ermittelt und/oder geändert werden.
Gemäß einer bevorzugten Ausführungsform der Erfindung weist das Verfahren zur Spracherkennung den zusätzlichen Schritt des Empfangens einer Sequenz von Sprachphrasen und ein entsprechendes Erzeugen einer Sequenz zugehöriger Erkennungssignale und/oder Aussprachen auf. Zusätzlich enthält das erfindungsgemäße Verfahren den Schritt des Erkennens der empfangenen Sprachphrasen durch Erzeugen und/oder Ausgeben von wenigstens einer ersten Wortsequenz oder desgleichen, insbesondere für jedes Kennzeichnungssignal als erkannte Sprachphrase für jede empfangene Sprachphrase. Dadurch wird eine Sequenz erkannter Aussprachen und/oder Sprachphrasen erzeugt und/oder ausgegeben.
Das erfindungsgemäße Verfahren zur Spracherkennung führt damit eine Teilung oder Unterteilung des kontinuierlich eingehenden Sprachflusses in eine Sequenz von Sprachphrasen aus. Für jede Sprachphrase werden mehr oder weniger ein einzelnes Kennzeichnungssignal und/oder eine einzelne Aussprache erzeugt. Für jedes Kennzeichnungssignal wird während des Erkennungsprozesses ein eindeutiges Wort, eine Sub-Worteinheit oder Sequenz von Wörtern oder Sub-Worteinheiten, die der empfangenen Sprachphrase entsprechen, auf Basis jedes Kennzeichnungssignals erzeugt. Durch das erfindungsgemäße Verfahren zur Spracherkennung wird eine Sequenz erkannter Sprachphrasen erzeugt und/oder ausgegeben.
Gemäß einem weiteren Aspekt der Erfindung wird ein Lexikon verwendet, das wenigstens Erkennungsbefähigungsinformation (REI) und/oder Erkennungs-relevante Information (RRI) wenigstens in Bezug auf mögliche Wortkandidaten und/oder mögliche Sub-Wortkandidaten enthält.
Somit ist in dem während des Erkennungsprozesses zu verwendenden Lexikon wenigstens Erkennungsbefähigungsinformation enthalten. Erkennungs befähigungsinformation stellt grundlegende Information dar, die allgemein zum Ausführen eines Erkennungsprozesses erforderlich ist. Diese besonders grundlegende Information oder Erkennungsbefähigungsinformation stellt den wesentlichen Ausgangspunkt des Erkennungsprozesses dar und ist deshalb insbesondere im Ausgangslexikon enthalten. Die Erkennungsbefähigungsinformation stellt zusätzlich Information dar, die hauptsächlich während der verschiedenen Erkennungsschritte oder verschiedenen Erkennungsprozesse erzeugt wird und dann beim Modifizieren des gegenwärtigen Lexikons hinzugefügt wird, um ein modifiziertes Lexikon zu erhalten und damit das aktuelle Lexikon abschließend anzupassen. Erkennungs-relevante Information oder Teile hiervon können ebenso im Ausgangslexikon enthalten sein, um eine bessere Erkennungsleistungsfähigkeit zu erzielen, selbst ganz am Anfang der Anwendung des Verfahrens und damit während der ersten Schritte der Spracherkennung. Erkennungs-relevante Information gehört wenigstens zu den möglichen Wortkandidaten und/möglichen Sub-Wortkandidaten, aus denen das Erkennungsergebnis aufgebaut wird oder im jeweiligen Falle aufgebaut werden kann.
Gemäß einer weiteren Ausführungsform der Erfindung werden Phoneme, Phone, Silben, Sub-Wort-Einheiten und/oder Ähnliches und/oder eine Kombination oder Sequenz hieraus als Wort- oder Sub-Wortkandidaten verwendet, insbesondere während des Erkennungsprozesses oder Schrittes und/oder innerhalb des Ausgangs- und/oder aktuellen Lexikons. Dies stellt die beste Verfeinerung der Analyse des eingehenden Sprachflusses sicher, da nicht nur vollständige Wörter analysiert und verarbeitet werden, sondern ebenso Sub-Worteinheiten wie Phoneme, Phone, Silben und/oder dergleichen oder Teile oder Kombinationen hiervon.
Für eine besonders gründliche Analyse und einen Erkennungsprozess wird Vokabularinformation, Ausspracheinformation, Sprachmodellinformation, Grammatik und/oder Syntax-Information, zusätzliche semantische Information und/oder desgleichen innerhalb oder während jedes Erkennungsprozesses verwendet, insbesondere als Teil der Erkennungsbefähigungsinformation oder Erkennungs-bezogener Information (REI, RRI) des Lexikons, insbesondere des Ausgangslexikons und/oder des aktuellen Lexikons im jeweiligen Falle.
Das Ausgangslexikon und/oder das aktuelle Lexikon können mehr oder weniger komplex aufgebaut sein. Fest steht, dass Vokabularinformation und zusätzliche Ausspracheinformation die grundlegenden Inhalte von Lexika darstellen, um einen Erkennungsprozess per se durchführen zu können. Zur Erhöhung der Erkennungsrate und/oder der Qualität ist es von besonderem Vorteil, zusätzliche Information, insbesondere Information aus Sprachmodellen, aus Grammatik- und/oder Syntax-Strukturen und/oder zusätzliche semantische Information hinzuzufügen. Darüber hinaus können ebenso besondere Zusammenstellungen von Sprecher-bezogenen Regeln enthalten sein.
Gemäß einer Ausführungsform der Erfindung ist es von besonderem Vorteil, falls das erfindungsgemäße Verfahren zur Spracherkennung ein Ausgangslexikon aufweist, das mehr oder weniger vollständig Sprecher-unabhängig ist. Mit dem Sprecher-unabhängigen Ausgangslexikon wird ein unvoreingenommener und ungezwungener Ausgangspunkt für den Erkennungsprozess geschaffen. Ein unvoreingenommener Ausgangspunkt kann einer reinen und/oder dialektartigen und akzentfreien Muttersprache entsprechen. In anderen Fällen kann es jedoch von Vorteil sein, dem Ausgangslexikon zusätzlich Information hinzuzufügen, z. B. in Bezug auf einen besonderen Dialekt oder Akzent. Dies kann von Vorteil sein, falls das erfindungsgemäße Verfahren beispielsweise in Anwendungen zum Tragen kommt, bei denen der Sprecher möglicherweise einer bestimmten Zielgruppe mit einem besonders vorhersehbaren Sprachverhalten entspricht, z. B. bei Anwendungen in eingegrenzten Gebieten oder dergleichen.
Gemäß einer weiteren Ausführungsform der Erfindung sind das modifizierte Lexikon und/oder das aktuelle Lexikon als zerlegbare Zusammenstellung des Ausgangslexikons und eines Sprecher-bezogenen Lexikons aufgebaut. Letzteres hiervon kann Sprecher-bezogene Erkennungs-relevante Information enthalten, insbesondere in Bezug auf wenigstens die bereits für den aktuellen Sprecher erhaltenen Erkennungsergebnisse. Gemäß dieser Maßgabe ist es auf einfache Weise möglich, zwischen dem Ausgangslexikon, das zu Beginn jedes Erkennungsvorgangs in Bezug auf einen wohldefinierten Sprecher eingeführt wird und der Modifikation des Ausgangslexikons, das Sprecher-abhängig ist, zu unterscheiden und dadurch nach jedem Erkennungsprozess oder Erkennungsschritt ein modifiziertes Lexikon zu erzielen.
Es ist vorteilhaft das Sprecher-bezogene Lexikon innerhalb des aktuellen Erkennungsprozesses oder Schrittes und/oder aus vorhergehenden und/oder fremden Erkennungsprozessen aufzubauen. Es ist deshalb mög lich, zusätzliche Information in der Form eines Sprecher-bezogenen Lexikons bereitzustellen, welche dem Ausgangslexikon hinzugefügt werden kann, z. B. nach einem ersten oder mehreren ersten Erkennungsschritten oder Erkennungsprozessen. Diese zusätzliche Information kann zu vorhergehenden und/oder fremden Erkennungsprozessen gehören und/oder aus diesen erhalten sein. Folglich kann die Zusammenstellung zusätzlicher Information, welche Sprecher-bezogen, d. h. Sprecher-spezifisch ist von einem Erkennungsprozess herrühren, der in der Vergangenheit beendet wurde oder von Erkennungsprozessen, die über ein weiteres Verfahren zur Spracherkennung und/oder eine fremde Spracherkennungseinrichtung ausgeführt werden.
Verwendet beispielsweise ein Sprecher mit einem starken Akzent das System, so können einige der Aussprachevarianten – insbesondere einige der muttersprachlichen Varianten – bedeutungslos werden. Diese können dann entweder entfernt werden oder geeignet gewichtet werden, so dass sichergestellt wird, dass die neuen und/oder wichtigen Aussprachevarianten des aktuellen Sprechers bevorzugt werden.
Selbstverständlich ist eine exakte Buchführung über alle Modifikationen erforderlich, um die entfernte Information nach einer Sprecheränderung zu berücksichtigen. Demnach wird die Erkennungs-bezogene Information und insbesondere das Sprecher-bezogene Lexikon gemäß einer weiteren Ausführungsform der Erfindung bei Beendigung des aktuellen Erkennungsprozesses oder Erkennungsvorgangs aus dem aktuellen Lexikon mit dem aktuellen Sprecher und/oder vor Beginn eines weiteren Erkennungsprozesses oder Erkennungsvorgangs mit einem neuen und/oder weiteren Sprecher entfernt. Dies ermöglicht erneut einen wohl definierten Ausgangspunkt für jeden neuen Erkennungsvorgang, d. h. ein unvoreingenommenes Spracherkennungsverfahren. Es ist deshalb von besonderem Vorteil, falls die oben erwähnte zerlegbare Struktur des aktuellen Lexikons aus einer zerlegbaren Zusammenstellung des Ausgangslexikons und des Sprecher-spezifischen oder Sprecher-bezogenen Lexikons aufgebaut ist. Dann wird die Trennung durch Zerlegung des Aufbaus des Ausgangslexikons aus der Modifikation in Form des Sprecher-bezogenen Lexikons erzielt, um das Ausgangslexikon als Startpunkt für einen neuen Erkennungsvorgang zu nutzen.
Gemäß einer weiteren bevorzugten Ausführungsform der Erfindung wird das Sprecher-bezogene Lexikon und/oder die Sprecher-bezogenen Signaturdaten, insbesondere im Sinne einer Sprecher-spezifischen oder Sprecher- bezogenen akustischen oder Sprachsignatur, während eines Erkennungsprozesses oder Schrittes erhalten. Darüber hinaus werden diese Daten, d. h. das Sprecher-bezogene Lexikon und die Sprecher-bezogenen oder Sprecher-spezifischen akustischen Signaturdaten, gespeichert und aufrechterhalten, insbesondere in einer Zusammenstellung oder Liste von Sprach-bezogenen Lexika und/oder Signaturen.
Diese Maßgaben ermöglichen eine besonders schnelle Spracherkennung in dem Fall, dass lediglich eine begrenzte Anzahl von zu unterscheidenden Sprechern verarbeitet werden muss. Ein derartiges Verfahren kann beispielsweise innerhalb eines sicheren oder abgeschirmten Gebäudes einer Firma mit einer gegebenen und festgelegten Anzahl von Angestellten verwendet werden.
In diesen verschiedenen Erkennungsprozessen sammelt das erfindungsgemäße Verfahren dann Sprecher-spezifische Daten in der Form von Sprecher-bezogenen Lexika und/oder Sprecher-bezogenen Signaturdaten und speichert diese Daten in der Liste für Sprecher-bezogene Lexika und/oder Signaturen, um während des nächsten Erkennungsvorgangs eine Sprechererkennung und Identifikation durchzuführen. Tritt dann ein bereits bekannter Sprecher in einem nachfolgenden Erkennungsvorgang auf, so wird aus den ersten Erkennungsergebnissen des neu begonnenen Erkennungsvorgangs eine Sprechererkennung und Identifikation durchgeführt. Falls der bekannte Sprecher dann als bereits bekannt identifiziert wird, kann ein entsprechendes Sprecher-bezogenes Lexikon direkt hinzugefügt werden, um das Ausgangslexikon auf ein bereichertes aktuelles Lexikon zu modifizieren und so erheblich bessere Erkennungsergebnisse selbst am Anfang eines neuen Vorgangs zu erzielen.
Es stellt demnach einen weiteren Aspekt der Erfindung gemäß einer weiteren vorteilhaften Ausführungsform dar, am Anfang eines neuen Erkennungsprozesses – insbesondere basierend auf der Zusammenstellung oder Liste von Sprecher-bezogenen Lexika und/oder Signaturen – zu prüfen, ob der Sprecher des aktuellen Prozesses ein bekannter Sprecher ist. Im Falle eines sich in Bearbeitung befindenden bekannten Sprechers wird das Sprecher-bezogene Lexikon, das spezifisch für den bekannten Sprecher ist, aus der Zusammenstellung oder Liste von Sprecher-bezogenen Lexika abgerufen und wiederhergestellt und mit dem aktuellen Lexikon kombiniert, insbesondere mit dem Ausgangslexikon, um ein Sprecher-angepasstes Lexikon mit hoher Erkennungseffizienz zu erzielen.
Gemäß einer weiteren bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung wird Information, die nicht durch das Sprecherverhalten des aktuellen Sprechers abgedeckt oder unterstützt und/oder nicht von der Erkennungs-bezogenen Information des aktuellen Erkennungsprozesses oder Schrittes abgedeckt ist, während des Erkennungsprozesses oder Schrittes aus dem aktuellen Lexikon entfernt, insbesondere aus dem Ausgangslexikon, um so insbesondere ein modifiziertes Lexikon oder ein aktuelles Lexikon für den nächsten Erkennungsschritt oder Prozess auszubilden.
Diese Maßgabe basiert insbesondere auf der Erkennungs-bezogenen Information des aktuellen Erkennungsprozesses oder Schrittes. Diese Maßgabe bedeutet, dass in dem aktuellen Lexikon anfänglich enthaltene Information, insbesondere im Ausgangslexikon, welche nicht durch Erkennungsergebnisse und/oder Erkennungs-bezogene Information in Verbindung mit dem aktuellen Sprecher abgedeckt, erkannt oder bestätigt ist, aus dem aktuellen Lexikon entfernt und entzogen wird, insbesondere aus dem Ausgangslexikon, um so die Datenmenge innerhalb des Lexikons zu reduzieren. Innerhalb der Anwendung kann es erforderlich sein, bereits in dem Ausgangslexikon oder aktuellen Lexikon enthaltene Aussprachevarianten zu entfernen, falls der sich in Bearbeitung befindliche aktuelle Sprecher einen anderen Dialekt aufweist, der nicht über sein Sprachverhalten erkannt wird. In diesem Falle ist es wichtig, gelöschten Informationen oder Einträgen nachzugehen, um ein Zurücksetzen einer Sprecheränderung zu ermöglichen.
Gemäß einer weiteren bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung wird die Erkennungs-relevante Information im jeweiligen Falle über das gesamte modifizierte und/oder aktuelle Lexikon und/oder Ausgangslexikon, sofern geeignet, verallgemeinert. Somit werden nicht nur die aktuell geäußerten Phrasen ausgewertet und in das aktuelle/modifizierte Lexikon im Hinblick auf deren spezifische Aussprache eingebunden, sondern ebenso mögliche Aussprachevarianten für weitere mögliche Äußerungen werden hieraus unter Berücksichtigung des akustischen und Sprachzusammenhangs abgeleitet.
Obwohl es bekannt ist, dass der Einsatz mehrfacher Aussprachevarianten die Raten von Spracherkennungsverfahren und Systemen erhöhen kann, ist es jedoch ebenso bekannt, dass die Erkennungsleistungsfähigkeit abnehmen kann, falls zu viele Aussprachevarianten, Dialekte oder Akzente enthalten sind. Dies trifft zu, da die Anzahl von zu prüfenden Alternativen mit zunehmender Anzahl von Varianten ansteigt. Zusätzlich nimmt die Verwechslung zwischen den Wörtern zu.
Herkömmliche Vorgehensweisen versuchen auf bekannte Weise, Erkennungsvarianten mittels großer Datenbanken zu lernen. Obwohl Vorteile dahingehend vorliegen, dass lediglich die tatsächlich auftretenden Varianten einbezogen werden – sprich in der Datenbank – ist es andererseits von Nachteil, dass diese Varianten und damit die Auswertung gemäß des Datenbank-basierten Wörterbuchs sehr spezifisch zur Datenbank erfolgt und für spezielle Zwecke möglicherweise nicht geeignet ist.
Die weitere Möglichkeit bei herkömmlicher Vorgehensweise liegt in der Erzeugung einer Zusammenstellung von Aussprachevarianten durch Auswerten einer Zusammenstellung von Ausspracheregeln und dem Einbeziehen von phonetischen und linguistischen Kenntnissen. Obwohl diese Regeln dann Datenbank-unabhängig sind, ist bekannt, dass diese dazu neigen, eine sehr große Anzahl von Alternativen, einschließlich der sehr selten auftretenden Alternativen, zu erzeugen.
Die bisher beschriebenen Vorgehensweisen herkömmlicher Art laufen off-line ab und insbesondere im Vorfeld eines Erkennungsprozesses.
Um insbesondere Sprecher-unabhängige Erkennungssysteme zu erzielen, leitet das vorgeschlagene Verfahren die verwendeten Aussprachevarianten aus der eingehenden Sprache des aktuellen Sprechers zusammen mit einem Erkennungsergebnis ab und verallgemeinert diese Aussprachevarianten dann insbesondere über das gesamte Lexikon. Diese Verallgemeinerung kann mit Hilfe einer Zusammenstellung sehr allgemeiner Regeln erfolgen. Folglich werden lediglich diejenigen Varianten, die zur Erzielung eines optimalen Erkennungsergebnisses erforderlich sind, für den jeweiligen Sprecher einbezogen. Insbesondere werden alle weiteren möglichen Varianten, die nicht zur Beschreibung des Sprachverhaltens des aktuellen Nutzers erforderlich sind, ausgeschlossen. Dadurch werden die Anzahl der Ausspracheva rianten und damit die Größe des Lexikons oder Wörterbuchs so klein als möglich gehalten.
Nach einer Sprecheränderung, d. h. im Falle eines neuen Erkennungsvorgangs, werden die Varianten des vorhergehenden Sprechers aus dem aktuellen Lexikon entfernt, diese können jedoch optional gespeichert und während eines späteren Vorgangs, bei dem der vorherige Sprecher erneut verarbeitet werden muss, abgerufen werden. Optional können ebenso Aussprachevarianten, die nicht während eines langen Zeitraums verwendet wurden, aus dem Lexikon oder einem Wörterbuch entfernt werden, um dessen Größe so klein wie möglich zu halten.
Das vorgeschlagene Verfahren erfordert keine Kenntnis über die Muttersprache des aktuellen Sprechers. Darüber hinaus weist das vorgeschlagene Verfahren den Vorteil auf, dass lediglich relevante Aussprachevarianten in das Wörterbuch oder Lexikon einbezogen werden. Somit werden für jede mögliche Muttersprache keine großen Datenbanken benötigt, um die erforderlichen Aussprachevarianten abzuleiten. Ebenso ist für jede Muttersprache kein Schritt mit Regeln notwendig.
Das erfindungsgemäße Verfahren zur Spracherkennung ist insbesondere in Sprecher-unabhängigen Systemen einsetzbar, die mit Dialekten, fremden Akzenten und fremden Muttersprachen zurechtkommen müssen.
Da die Sprecher oft keine Aussprachevariante und manchmal sogar eine falsche Aussprache verwenden, können diese im Gegensatz zu herkömmlichen Systemen, die nicht mit dieser falschen Aussprache zurechtkommen, über das erfindungsgemäße Verfahren abgedeckt werden. Diese herkömmlichen Systeme verwenden Ausspracheregeln insbesondere nur für die Fälle, bei denen die Muttersprache des Sprechers bekannt ist. Bei öffentlich zugängigen Systemen oder Spracherkennungseinrichtungen ist im Allgemeinen keine weitere Information im Hinblick auf den Ursprung des Sprechers oder Dialektes bekannt. In solchen Fällen ist das erfindungsgemäße Verfahren besonders vorteilhaft. Darüber hinaus ist es nicht möglich, für jegliche Arten möglicher Muttersprachen Regeln zu erzeugen und zu speichern. Ebenso ist die Datenbank-orientierte Vorgehensweise nicht brauchbar, da es sehr teuer wäre, eine für jede Muttersprache, jeden Dialekt und Akzent genügend große Datenbank bereitzustellen und die Aussprachevarianten dann hierüber zu lernen. Das Erkennen einer Nicht-Muttersprache stellt für viele Anwendun gen ein ernsthaftes Problem dar, falls z. B. fremde Adressen oder Musik oder TV Programmtitel in einer Fremdsprache direkt über Sprache auszuwählen sind. In diesen Anwendungen ist das erfindungsgemäße Verfahren besonders vorteilhaft.
Das erfindungsgemäße Verfahren zur Spracherkennung wird anhand einer schematischen Darstellung basierend auf bevorzugten Ausführungsformen erläutert.
1 zeigt eine bevorzugte Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung anhand eines Blockdiagramms.
2 zeigt ein herkömmliches Verfahren zur Spracherkennung anhand eines Blockdiagramms.
1 zeigt ein schematisches Blockdiagramm zur Durchführung einer Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung 10.
In Schritt 11 des in 1 gezeigten Verfahrens 10 wird ein eingehender Sprachfluss – beispielsweise kontinuierlich gesprochene Sprache – als Sequenz von Sprachphrasen ..., Spj, ... empfangen und durch Filtern und/oder Digitalisierung vorverarbeitet zur Erzielung einer entsprechenden Sequenz von Kennzeichnungssignalen ..., RSj, ..., wobei jedes dieser Signale eine Kombination möglicher Wörter oder Sub-Wortkandidaten ..., Wjk, .... darstellt. Im nächsten Schritt 12 wird die empfangene Sprache wenigstens teilweise unter Verwendung eines aktuellen Lexikons CL oder Wörterbuchs, das in Schritt 17 zur Verfügung gestellt wird, erkannt, wobei das aktuelle Lexikon CL oder Wörterbuch für den ersten Erkennungsschritt des aktuellen Sprechers das Ausgangslexikon SL darstellen kann, das über den Schritt 17a erhalten wird und Erkennungsbefähigungsinformation REI enthält.
Ebenso kann der Erkennungsschritt 12 auf Sprachmodellen LM als auch auf versteckten Markow-Modellen HMM basieren, die durch Verarbeitungsschritte 18 und 19 unterstützt werden. Dann wird das Ergebnis des Erkennungsprozesses in Schritt 13 bereitgestellt.
Der in Schritt 11 bereitgestellte eingehende Sprachfluss und/oder das in Schritt 13 bereitgestellte Erkennungsergebnis für den Sprachfluss werden dem Schritt 14 zum Bestimmen Erkennungs-relevanter Information RRI zugeführt, insbesondere zum Bestimmen der verwendeten Aussprachevarianten. Im nächsten Schritt 15 wird geprüft, ob diese Aussprachevarianten und die eindeutige Erkennungs-bezogene Information bereits in dem aktuellen Lexikon CL enthalten sind. Die fehlende Information wird dann einbezogen und/oder über das gesamte Lexikon verallgemeinert, um ein modifiziertes Lexikon ML auf Basis des aktuellen Lexikons CL zu erzielen.
In Schritt 16 wird das modifizierte Lexikon ML als aktuelles Lexikon CL für den nächsten Erkennungsschritt 12 zurückgesetzt.
Im Gegensatz zur Erfindung liegt in einem herkömmlichen Verfahren 20 des Standes der Technik keine geschlossene Schleife zum Verarbeiten der eingehenden Sprache als auch der Erkennungs-bezogenen Daten vor. Das in dem Erkennungsprozess 22 in Schritt 27 bereitgestellte Wörterbuch CL stellt eine abgeschlossene Einheit dar, die off-line erzeugt wird, insbesondere im Vorfeld des gesamten Erkennungsprozesses 20. Das in Schritt 27 bereitgestellte Wörterbuch CL wird während der Durchführung der Erkennung 22 fest beibehalten. In Schritt 21 wird die eingehende Sprache dem Erkennungsschritt 22 in einer vorverarbeiteten Form zugeführt. Das Erkennungsergebnis wird mit dem Schritt 23 in 2 bereitgestellt, jedoch in Bezug auf das Wörterbuch oder Lexikon CL nicht weiter ausgewertet. Erneut werden versteckte Markow-Modelle HMM und weitere Sprachmodelle LM verwendet und im Erkennungsschritt 22 ausgewertet und über die Schritte 28 und 29 entsprechend bereitgestellt.
Bei der off-line Erzeugung 27 des Wörterbuchs CL basierend auf dem in Schritt 30 bereitgestellten Vokabular werden die Aussprachevarianten in Schritt 31 erzeugt und dem Wörterbuch CL zugeführt, das dann seinerseits wie oben beschrieben auf den Erkennungsschritt 22 einwirkt.

Claims

Verfahren zur Spracherkennung auf Basis eines Erkennungsbefähigungsinformation (REI) aufweisenden aktuellen Sprachlexikons (CL), wobei das Verfahren aufweist: einen oder mehrere erste Erkennungsschritte unter Einsatz eines Ausgangslexikons (SL) als aktuelles Lexikon (CL); einen Schritt zum Erzeugen eines modifizierten Lexikons (ML) auf Basis des aktuellen Lexikons (CL) durch Hinzufügen von wenigstens Erkennungs-relevanter Information (RRI) zum aktuellen Lexikon (CL), die in Bezug zu wenigstens einem in dem einen oder den mehreren ersten Erkennungsschritten erzielten Erkennungsergebnis steht, wobei die Erkennungs-relevante Information (RRI) wenigstens den möglichen Wort-Kandidaten und/oder möglichen Subwort-Kandidaten zugeordnet ist, aus denen das Erkennungsergebnis aufgebaut wird oder im jeweiligen Fall aufgebaut werden kann, einen oder mehrere zweite Erkennungsschritte unter Einsatz des modifizierten Lexikons (ML) als aktuelles Lexikon (CL).
Verfahren nach Anspruch 1, wobei der Schritt des Erzeugens eines modifizierten Lexikons die Schritte aufweist: Ermitteln von Aussprachevarianten, die der aktuelle Sprecher einsetzt, Ermitteln des Vorhandenseins oder Nicht-Vorhandenseins der Aussprachevarianten im aktuellen Lexikon; und Einschließen derjenigen Aussprachevarianten in das aktuelle Lexikon, die vom aktuellen Sprecher verwendet werden und nicht darin enthalten sind, und/oder Verallgemeinern der nicht-vorhandenen Aussprachevarianten über das gesamte aktuelle Lexikon.
Verfahren nach Anspruch 2, wobei die Verallgemeinerung auf Basis einer Zusammenstellung von Regeln ausgeführt wird.
Verfahren nach einem der vorangehenden Ansprüche, wobei der Schritt des Erzeugens eines modifizierten Lexikons das Ausschließen derjenigen Aussprachevarianten aufweist, die nicht erforderlich sind um das Sprachverhalten des aktuellen Sprechers des aktuellen Lexikons zu beschrieben.
Verfahren nach einem der vorangehenden Ansprüche, wobei ein modifiziertes Lexikon (ML) nach jedem festgelegten und/oder jeder bestimmten Anzahl von Erkennungsschritten und/oder Ergebnissen wiederholt erzeugt wird, insbesondere nach jedem einzelnen Erkennungsschritt und/oder Ergebnis.
Verfahren nach einem der vorangehenden Ansprüche, wobei die Anzahl von Erkennungsschritten und/oder Ergebnissen, nach denen einen ein modifiziertes Lexikon (ML) erzeugt wird, innerhalb des aktuellen Erkennungsprozesses und/oder Adaptionsprozesses ermittelt und/oder geändert wird.
Verfahren nach einem der vorangehenden Ansprüche mit den zusätzlichen Schritten: – Empfangen einer Sequenz von Sprachphrasen (SP1, ..., SPN) und entsprechendes Erzeugen von zugehörigen Kennzeichnungssignalen (RS1, ..., RSN) und – Erkennen der empfangenen Sprachphrasen (SP1, ..., SPN) durch Erzeugen und/oder Ausgeben von wenigstens einer ersten Wortsequenz (Wj₁, ..., Wj_nj) oder desgleichen für jedes Kennzeichnungssignal (RSj) als erkannte Sprachphrase (RSPj) für jede empfangene Sprachphrase (SPj), – wodurch eine Sequenz erkannter Sprachphrasen (RSP1, ..., RSPN) erzeugt und/oder ausgegeben wird.
Verfahren nach einem der vorangehenden Ansprüche, wobei ein Lexikon – insbesondere als Ausgangslexikon (SL) und/oder aktuelles Lexikon (CL) im jeweiligen Falle – verwendet wird, das wenigstens Erkennungsbefähigungsinformation (REI) und/oder Erkennungs-relevante Information (RRI) wenigstens in Bezug auf mögliche Wortkandidaten und/oder mögliche Sub-Wortkandidaten enthält.
Verfahren nach Anspruch 8, wobei Phoneme, Phone, Silben, Sub-Wort-Einheiten, eine Kombination oder Sequenzen hiervon und/oder desgleichen als Sub-Wortkandidaten verwendet werden, insbesondere während jedes Erkennungsprozesses oder Schrittes und/oder im Ausgangslexikon und/oder aktuellen Lexikon (SL; CL).
Verfahren nach einem der vorangehenden Ansprüche, wobei Vokabularinformation, Ausspracheinformation, Sprachmodellinformation, Grammatik und/oder Syntax-Information, zusätzliche semantische Information und/oder desgleichen innerhalb jedes Erkennungsprozesses verwendet werden, insbesondere als Teil der Erkennungsbefähigungsinformation/Erkennungs-bezogener Information (REI, RRI) des Lexikons, insbesondere des Ausgangslexikons (SL) und/oder des aktuellen Lexikons (CL) im jeweiligen Falle.
Verfahren nach einem der vorangehenden Ansprüche, wobei ein Sprecher-unabhängiges Lexikon (SL) verwendet wird.
Verfahren nach einem der vorangehenden Ansprüche, wobei das modifizierte Lexikon (ML) und/oder das aktuelle Lexikon (CL) als zerlegbare Zusammenstellung (SL + SRL) des Ausgangslexikons (SL) und eines Sprecher-bezogenen Lexikons (SRL) aufgebaut sind, Letzteres hiervon Sprecher-bezogene Erkennungs-relevante Information (RRI) enthält, insbesondere in Bezug auf wenigstens die bereits für den aktuellen Sprecher erhaltenen Erkennungsergebnisse.
Verfahren nach Anspruch 12, wobei das Sprecher-bezogene Lexikon (SRL) innerhalb eines Erkennungsschrittes oder Prozesses aufgebaut wird und/oder von vorherigen und/oder fremden Erkennungsprozessen erhalten wird, insbesondere durch Ausführen eines geeigneten Gewichtungsprozesses.
Verfahren nach einem der vorangehenden Ansprüche, wobei die Erkennungs-bezogene Information (RRI) und insbesondere die Sprecher-bezogene Information (SRL) aus dem aktuellen Lexikon (CL) mit Beendigung des Erkennungsprozesses für den aktuellen Sprecher und/oder vor Beginn eines weiteren Erkennungsprozesses, insbesondere mit einem neuen Sprecher, entfernt wird.
Verfahren nach einem der vorangehenden Ansprüche, wobei für jeden in Bearbeitung befindlichen spezifischen Sprecher das Sprecher-bezogene Lexikon (SRL) und/oder die Sprecher-bezogenen Signa turdaten während des Erkennungsprozesses erhalten und/oder gespeichert werden.
Verfahren nach Anspruch 15, wobei zu Beginn eines neuen Erkennungsprozesses überprüft wird – insbesondere auf Basis der Zusammenstellung oder Liste von Sprecher-bezogenen Lexika und/oder Signaturen – ob der in Bearbeitung befindliche aktuelle Sprecher ein bekannter Sprecher ist und wobei das für den aktuellen Sprecher spezifische Sprecher-bezogene Lexikon (SRL) im Falle eines in Bearbeitung befindlichen bekannten Sprechers von der Zusammenstellung oder Liste von Sprecher-bezogenen Lexika abgerufen und in ein aktuellen Lexikon (CL) eingebunden wird, insbesondere in ein Ausgangslexikon (SL), so dass ein Sprecher-adaptiertes Lexikon mit hoher Erkennungseffizienz erzielt wird.
Verfahren nach einem der vorangehenden Ansprüche, wobei auf Basis der Erkennungs-bezogenen Information (RRI) des aktuellen Erkennungsprozesses und/oder Schrittes Information, die nicht durch das Sprecherverhalten des aktuellen Sprechers und/oder von der Erkennungs-bezogenen Information (RRI) abgedeckt oder unterstützt wird, aus dem aktuellen Lexikon entfernt wird, insbesondere zur Ausbildung eines modifizierten Lexikons (ML) oder eines aktuellen Lexikons (CL) im Hinblick auf einen nächsten Erkennungsschritt.
Verfahren nach einem der vorangehenden Ansprüche, wobei die jeweils bezüglich des aktuellen Lexikons (CL) durchgeführten Änderungen beobachtet werden um ein Wiederherstellen oder Zurücksetzen des Erkennungsprozesses im Falle einer Sprecheränderung zu ermöglichen.
Verfahren nach einem der vorangehenden Ansprüche, wobei die Erkennungs-relevante Information (RRI) oder desgleichen über das gesamte modifizierte Lexikon (ML) und/oder aktuelle Lexikon (CL) und/oder Ausgangslexikon (SL), sofern geeignet, verallgemeinert wird.