-
Die
Erfindung betrifft ein Verfahren zur Spracherkennung gemäß dem Oberbegriff
des Patentanspruchs 1 und insbesondere betrifft die Erfindung ein Verfahren
zur Spracherkennung unter Einsatz einer Online-Anpassung von Aussprache-Wörterbüchern oder
Lexika.
-
Erst
seit Kurzem gewinnt die automatische Spracherkennung (ASR) mehr
und mehr an Bedeutung. Insbesondere liegt in vielen Bereichen technischer
und kommerzieller Aktivitäten
ein Bedürfnis nach
Sprecher-unabhängigen
oder Sprecher-anpassenden Spracherkennungsverfahren und Vorrichtungen
vor. Diese Verfahren und Vorrichtungen werden zur Realisierung von
Schnittstellen zwischen Nutzer-Personen und technischen Vorrichtungen
implementiert und verwendet, um die für Assistenzzwecke und Dienste
verwendete Personallast zu senken. Darüber hinaus werden diese Erkennungsverfahren und
Vorrichtungen zur Vereinfachung oder Unterstützung der Verwendung und Anwendung
technischer Einrichtungen genutzt.
-
Bekannter
Weise basieren Erkennungsverfahren und Vorrichtungen auf sogenannten
Aussprache-Wörterbüchern und
Lexika, die insbesondere eine Vielzahl von Aussprachevarianten enthalten,
um mit verschiedenen Sprecher-spezifischen Aussprachen zurechtzukommen,
als auch mit Dialekten, auf ausländischer
Muttersprache basierenden ausländischen
Akzenten und/oder Dergleichen.
-
In
bekannten Wörterbüchern oder
Lexika werden die Vielzahl von Aussprachevarianten über große Datenbanken
erzeugt und deshalb sind diese Wörterbücher und
Lexika sehr spezifisch an die jeweilige Datenbank angelehnt und
möglicherweise nicht
für spezielle
Zwecke von Nutzen geeignet.
-
Ein
weiterer Ansatz zum Erzeugen einer Vielzahl mehrfacher Aussprachevarianten
basiert darauf, das Aussprache-Wörterbuch
oder das Lexikon auf einer gegebenen Zusammenstellung von Ausspracheregeln
unter Einsatz von phonetischen, linguistischen und sprachlichen
Modellkenntnissen zu basieren. Obwohl die auf Regeln erzeugten Aussprachevarianten
unabhängig
von der Datenbank sind, neigen diese dazu, eine überwältigende Anzahl von Alternativen
für die
Aussprachevarianten mit sich zu bringen.
-
Somit
liegt ein wesentlicher Nachteil von mehrfachen Aussprachevarianten,
die in bekannten Wörterbüchern oder
Lexika enthalten sind, darin, dass diese eine große Anzahl
von Aussprachevarianten abdecken und damit eine große Anzahl
von Aussprachevariante, die im Hinblick auf einen speziellen Sprecher
nicht verwendet werden.
-
Zusätzlich hängt die
erzeugte Zusammenstellung von Aussprachevarianten von einer spezifischen
Datenbank und/oder von Regeln ab, auf denen deren Erzeugung basiert.
Darüber
hinaus können
bekannte Wörterbücher oder
Lexika, welche mehrere Aussprachevarianten enthalten, nicht mit
der großen Vielzahl
möglicher
Dialekte, ausländischer
Akzente und Sprecher-spezifischen
Aussprachen auf flexible und weniger zeitaufwändige Weise umgehen. Die bekannten
Ansätze
stimmen zudem darin überein,
dass die Aussprachevarianten vor einem Erkennungsprozess, d. h.
off-line, erzeugt werden müssen.
-
Weitere
Information zum Stand der Technik findet sich in
EP 0 987 682 , worin ein Verfahren
zum Anpassen linguistischer Sprachmodelle in Systemen mit automatischer
Spracherkennung beschrieben wird und die linguistischen Sprachmodelle
einzelnen oder Kombinationen von Sprachvokabularelementen Wahrscheinlichkeiten
im Hinblick auf deren Auftreten zuordnen. Das Verfahren schließt das Auswerten
einer Liste von N besten Erkennungsergebnisalternativen für ein während der
Anpassung zu erkennendes Sprachsegment ein, wobei N größer als
1 ist. Während
der Anpassung wird die Liste, eine Kombination verschiedener Erkennungsergebnisalternativen,
zugeführt.
Insbesondere wird eine Anpassung ausgeführt, wobei die Wahrscheinlichkeit
des Auftretens spezifischer Elemente der Liste der N besten Erkennungsergebnisalternativen
vergrößert wird,
indem deren jeweilige Wahrscheinlichkeit des Auftretens mit einem
heuristisch berechneten Wert gewichtet wird.
-
EP 1 022 723 beschreibt
eine unbeaufsichtigte Anpassung einer Spracherkennungseinrichtung durch
Verwendung von zuverlässiger
Information unter N-besten Zeichenketten, wobei das System eine unbeaufsichtigte Sprachmodellanpassung
durch Verwendung der Erkennungseinrichtung zum Erzeugen der N-besten
Lösungen
für eine
eingespeiste Äußerung durchführt. Jede
dieser N-besten Lösungen
wird über
einen zuverlässigen
Informationsextraktionsprozess getestet. Zuverlässige Information wird über ein
Gewichtungsverfahren basierend auf von der Erkennungseinrichtung
erzeugten Wahrscheinlichkeitsbewertungen extrahiert oder über eine
nichtlineare Schwellenfunktion. Das System kann in einer Single-Pass
Ausführung
oder iterativ in einer Multi-Pass Ausführung verwendet werden.
-
EP 1 022 725 betrifft die
Auswahl akustischer Modelle unter Einsatz einer Sprecherverifizierung.
Im Besonderen beschreibt diese Schrift eine automatische Erkennung
einer Sprecheränderung,
wobei das System identifiziert, ob der Sprecher das System vorab
schon benutzt hat und ob ein Sprecher-angepasstes Modell für diesen Sprecher bereits verfügbar ist. Ist
dies der Fall, wird dieses Modell zur weiteren Erkennung und Anpassung
verwendet. Die Druckschrift lehrt darüber hinaus, dass in einem typischen
Sprecher-angepassten
System bei jedem Sprecherwechsel eine Auswahl des Nutzers hinsichtlich
der zu verwendenden verfügbaren
Modellzusammenstellungen erforderlich ist. Beispielsweise ist es
die SI Modellzusammenstellung, falls der Nutzer das System zum ersten
Mal nutzt oder es ist eine bereits an diesen Nutzer angepasste Modellzusammenstellung, falls
dieser das System bereits genutzt hat. Sind keinerlei angepasste
Modellzusammenstellungen gespeichert, startet der Anpassungsprozess
unter Verwendung der SI Modelle immer wieder von neuem, sofern derselbe
Sprecher das System wiederholt verwendet.
-
Homma
S., et al., "Iterative
Unsupervised Speaker Adaptation für Batch Dictation", Proceedings of
the International (Conference on Spoken Language Processing, XX,
XX, Vol. 2, 3, Oktober 1996 (1996-10-03), Seiten 1141–1144, XP002100688,
lehrt eine alternative Durchführung der
Spracherkennung und Sprecher-Anpassung durch Aktualisieren der akustischen
Modelle auf Sprecher-abhängige
Modelle.
-
Es
ist eine Aufgabe der Erfindung, Verfahren zur Spracherkennung anzugeben,
bei denen die Last des Prüfens
mehrfacher Aussprachevarianten gelindert ist und die auf einfache
Weise ausgeführt
und implementiert werden können.
-
Die
Aufgabe wird mit einem Verfahren zur Spracherkennung gemäß dem Oberbegriff
des Patentanspruchs 1 und erfindungsgemäß mit den Merkmalen des kennzeichnenden
Teils des Patentanspruchs 1 gelöst.
Bevorzugte Ausführungsformen des
erfindungsgemäßen Verfahrens
zur Spracherkennung sind Gegenstand der abhängigen Unteransprüche.
-
In
dem Verfahren gemäß dem Oberbegriff des
Patentanspruchs 1 wird für
jeden Spracherkennungsprozess ein aktuelles Lexikon oder Aussprachewörterbuch
verwendet.
-
Das
erfindungsgemäße Verfahren
zur Spracherkennung zeichnet sich dadurch aus, dass der Spracherkennungsprozess
unter Verwendung eines Ausgangslexikons als aktuelles Lexikon gestartet wird.
Darüber
hinaus wird ein modifiziertes Lexikon nach einer gegebenen Anzahl
ausgeführter
Erkennungsschritte und/oder erzielter Erkennungsergebnisse erzeugt.
Der Erzeugungsprozess des modifizierten Lexikons basiert auf dem
aktuellen Lexikon durch Hinzufügen
von wenigstens Erkennungs-relevanter Information zum aktuellen Lexikon,
die in Bezug zu wenigstens einem bereits erzielten Erkennungsergebnis
steht. Zusätzlich
wird der Erkennungsprozess dann unter Verwendung des modifizierten
Lexikons als aktuelles Lexikon im jeweiligen Falle fortgesetzt.
-
Es
ist somit eine grundlegende Idee dieser Erfindung, einen Erkennungsprozess
auf einen, insbesondere kontinuierlich eingehenden oder erhaltenen,
Sprachfluss anzuwenden. Zu Beginn des Erkennungsprozesses wird ein
Ausgangslexikon aufgerufen oder geladen und als aktuelles Lexikon
verwendet, insbesondere zur Erzielung eines ersten Erkennungsergebnisses.
Es ist zudem eine Idee dieser Erfindung, Erkennungs-relevante Information,
welche über
den Erkennungsprozess erzeugt und/oder extrahiert wird, zum Modifizieren
des aktuellen Lexikons auszuwerten oder zu verwenden und damit ein modifiziertes
Lexikon zu erzeugen. Die Erkennungs-relevante Information gehört wenigstens
zu einem Erkennungsergebnis, das bereits in vorherigen Erkennungsprozessen
und/oder Schritten erzielt wurde.
-
Beispielsweise
wird Erkennungs-relevante Information für eine erste Modifikation,
nämlich
im Hinblick auf das Ausgangslexikon, aus der ersten erkannten Äußerung,
Spracheingabe oder Sprachphrase erzielt. Eine weitere Idee der Erfindung
liegt in dem Fortsetzen des Erkennungsprozesses im jeweiligen Falle
mit dem modifizierten Lexikon als aktuellem Lexikon. Damit wird
das modifizierte Lexikon nach einer gegebenen Anzahl ausgeführter Erkennungsschritte
und/oder Erkennungsergebnisse aufgebaut und dann als aktuelles Lexikon
für den
nächsten
auszuführenden
Erkennungsschritt installiert oder geladen.
-
Der
Vorteil des vorgeschlagenen erfindungsgemäßen Verfahrens zur Spracherkennung
liegt darin, dass das Ausgangslexikon lediglich grundlegende Information
enthalten kann – Erkennungsbefähigungsinformation
(REI) – insbesondere
im Hinblick auf mögliche
Aussprachevarianten. Während
der Spracherkennung wird das Ausgangslexikon dann mit Erkennungs-relevanter Information
(RRI) bereichert, wobei diese Information speziell auf den aktuellen
Sprecher zugeschnitten ist. Danach wird online eine Anpassung des
Lexikons oder des Wörterbuches
durchgeführt,
d. h. während
des ausgeführten Erkennungsprozesses
und/oder nach Beenden der Erkennungsschritte. Der wesentliche Vorteil
gegenüber
bekannten Spracherkennungsverfahren liegt in der möglichen
Anwendung vergleichsweise kleiner Ausgangslexika und einer online
Sprecher-spezifischen Anpassung des Ausgangslexikons nach einer gewissen
Anzahl von Erkennungsprozessen oder Erkennungsschritten. Deshalb
müssen
erfindungsgemäß Aussprachevarianten,
Akzente und Dialekte, die nicht spezifisch für den aktuellen Sprecher sind,
während
des Erkennungsprozesses nicht berücksichtigt werden. Damit kann
das erfindungsgemäße Verfahren
zur Spracherkennung bei geringerer Belastung im Hinblick auf das
Prüfen
von Aussprachevarianten durchgeführt
werden. Folglich ist das erfindungsgemäße Verfahren zur Spracherkennung
weniger zeitaufwändig
und speicherintensiv im Vergleich zu bekannten Verfahren.
-
In
vorteilhafter Weise wird ein modifiziertes Lexikon oder Wörterbuch
nach jeder festgelegten und/oder bestimmten Anzahl von Erkennungsschritten
und/oder Ergebnissen wiederholt erzeugt, insbesondere nach jedem
einzelnen Erkennungsschritt und/oder Ergebnis. Hierbei wird die
Anzahl der Erkennungsschritte/Ergebnisse, nach denen eine Anpassung
des aktuellen Lexikons durchgeführt
wird, zum Ausgleich zwischen einem hohen Leistungsgrad und der Erkennungsqualität gewählt. Es
ist insbesondere von Vorteil, falls die Online-Anpassung des aktuellen
Lexikons oder Wörterbuchs
nach jedem erzielten Erkennungsergebnis oder durchgeführten Erkennungsschritt
durchgeführt
wird, um sicherzustellen, dass für
zukünftige
Erkennungsschritte die aktuell erzielte Erkennungs-relevante Information
(RRI) in dem aktuellen Lexikon enthalten ist und zur Erhöhung der
Erkennungsqualität
ausgewertet werden kann.
-
Zur
Ermittlung der Anzahl von Erkennungsschritten/Ergebnissen, nach
denen eine Modifikation des aktuellen Lexikons durchgeführt wird,
kann Prozessinformation ausgewertet werden. Diese Anzahl kann als
festgelegte und/oder bestimmte Anzahl definiert sein. Alternativ
hierzu kann diese Anzahl innerhalb eines aktuellen Erkennungsprozesses
und/oder einer Anpassung, d. h. online, ermittelt und/oder geändert werden.
-
Gemäß einer
bevorzugten Ausführungsform der
Erfindung weist das Verfahren zur Spracherkennung den zusätzlichen
Schritt des Empfangens einer Sequenz von Sprachphrasen und ein entsprechendes
Erzeugen einer Sequenz zugehöriger
Erkennungssignale und/oder Aussprachen auf. Zusätzlich enthält das erfindungsgemäße Verfahren
den Schritt des Erkennens der empfangenen Sprachphrasen durch Erzeugen
und/oder Ausgeben von wenigstens einer ersten Wortsequenz oder desgleichen,
insbesondere für
jedes Kennzeichnungssignal als erkannte Sprachphrase für jede empfangene
Sprachphrase. Dadurch wird eine Sequenz erkannter Aussprachen und/oder
Sprachphrasen erzeugt und/oder ausgegeben.
-
Das
erfindungsgemäße Verfahren
zur Spracherkennung führt
damit eine Teilung oder Unterteilung des kontinuierlich eingehenden
Sprachflusses in eine Sequenz von Sprachphrasen aus. Für jede Sprachphrase
werden mehr oder weniger ein einzelnes Kennzeichnungssignal und/oder
eine einzelne Aussprache erzeugt. Für jedes Kennzeichnungssignal
wird während
des Erkennungsprozesses ein eindeutiges Wort, eine Sub-Worteinheit
oder Sequenz von Wörtern
oder Sub-Worteinheiten, die der empfangenen Sprachphrase entsprechen,
auf Basis jedes Kennzeichnungssignals erzeugt. Durch das erfindungsgemäße Verfahren
zur Spracherkennung wird eine Sequenz erkannter Sprachphrasen erzeugt und/oder
ausgegeben.
-
Gemäß einem
weiteren Aspekt der Erfindung wird ein Lexikon verwendet, das wenigstens
Erkennungsbefähigungsinformation
(REI) und/oder Erkennungs-relevante Information (RRI) wenigstens
in Bezug auf mögliche
Wortkandidaten und/oder mögliche
Sub-Wortkandidaten enthält.
-
Somit
ist in dem während
des Erkennungsprozesses zu verwendenden Lexikon wenigstens Erkennungsbefähigungsinformation
enthalten. Erkennungs befähigungsinformation
stellt grundlegende Information dar, die allgemein zum Ausführen eines
Erkennungsprozesses erforderlich ist. Diese besonders grundlegende
Information oder Erkennungsbefähigungsinformation
stellt den wesentlichen Ausgangspunkt des Erkennungsprozesses dar
und ist deshalb insbesondere im Ausgangslexikon enthalten. Die Erkennungsbefähigungsinformation
stellt zusätzlich
Information dar, die hauptsächlich
während
der verschiedenen Erkennungsschritte oder verschiedenen Erkennungsprozesse
erzeugt wird und dann beim Modifizieren des gegenwärtigen Lexikons
hinzugefügt
wird, um ein modifiziertes Lexikon zu erhalten und damit das aktuelle
Lexikon abschließend
anzupassen. Erkennungs-relevante Information oder Teile hiervon
können
ebenso im Ausgangslexikon enthalten sein, um eine bessere Erkennungsleistungsfähigkeit
zu erzielen, selbst ganz am Anfang der Anwendung des Verfahrens
und damit während
der ersten Schritte der Spracherkennung. Erkennungs-relevante Information
gehört
wenigstens zu den möglichen Wortkandidaten
und/möglichen
Sub-Wortkandidaten,
aus denen das Erkennungsergebnis aufgebaut wird oder im jeweiligen
Falle aufgebaut werden kann.
-
Gemäß einer
weiteren Ausführungsform
der Erfindung werden Phoneme, Phone, Silben, Sub-Wort-Einheiten
und/oder Ähnliches
und/oder eine Kombination oder Sequenz hieraus als Wort- oder Sub-Wortkandidaten
verwendet, insbesondere während
des Erkennungsprozesses oder Schrittes und/oder innerhalb des Ausgangs-
und/oder aktuellen Lexikons. Dies stellt die beste Verfeinerung
der Analyse des eingehenden Sprachflusses sicher, da nicht nur vollständige Wörter analysiert
und verarbeitet werden, sondern ebenso Sub-Worteinheiten wie Phoneme,
Phone, Silben und/oder dergleichen oder Teile oder Kombinationen
hiervon.
-
Für eine besonders
gründliche
Analyse und einen Erkennungsprozess wird Vokabularinformation, Ausspracheinformation,
Sprachmodellinformation, Grammatik und/oder Syntax-Information,
zusätzliche
semantische Information und/oder desgleichen innerhalb oder während jedes
Erkennungsprozesses verwendet, insbesondere als Teil der Erkennungsbefähigungsinformation
oder Erkennungs-bezogener Information (REI, RRI) des Lexikons, insbesondere des
Ausgangslexikons und/oder des aktuellen Lexikons im jeweiligen Falle.
-
Das
Ausgangslexikon und/oder das aktuelle Lexikon können mehr oder weniger komplex
aufgebaut sein. Fest steht, dass Vokabularinformation und zusätzliche
Ausspracheinformation die grundlegenden Inhalte von Lexika darstellen,
um einen Erkennungsprozess per se durchführen zu können. Zur Erhöhung der
Erkennungsrate und/oder der Qualität ist es von besonderem Vorteil,
zusätzliche
Information, insbesondere Information aus Sprachmodellen, aus Grammatik-
und/oder Syntax-Strukturen und/oder zusätzliche semantische Information
hinzuzufügen. Darüber hinaus
können
ebenso besondere Zusammenstellungen von Sprecher-bezogenen Regeln
enthalten sein.
-
Gemäß einer
Ausführungsform
der Erfindung ist es von besonderem Vorteil, falls das erfindungsgemäße Verfahren
zur Spracherkennung ein Ausgangslexikon aufweist, das mehr oder
weniger vollständig
Sprecher-unabhängig
ist. Mit dem Sprecher-unabhängigen
Ausgangslexikon wird ein unvoreingenommener und ungezwungener Ausgangspunkt
für den
Erkennungsprozess geschaffen. Ein unvoreingenommener Ausgangspunkt
kann einer reinen und/oder dialektartigen und akzentfreien Muttersprache
entsprechen. In anderen Fällen
kann es jedoch von Vorteil sein, dem Ausgangslexikon zusätzlich Information
hinzuzufügen,
z. B. in Bezug auf einen besonderen Dialekt oder Akzent. Dies kann von
Vorteil sein, falls das erfindungsgemäße Verfahren beispielsweise
in Anwendungen zum Tragen kommt, bei denen der Sprecher möglicherweise
einer bestimmten Zielgruppe mit einem besonders vorhersehbaren Sprachverhalten
entspricht, z. B. bei Anwendungen in eingegrenzten Gebieten oder
dergleichen.
-
Gemäß einer
weiteren Ausführungsform
der Erfindung sind das modifizierte Lexikon und/oder das aktuelle
Lexikon als zerlegbare Zusammenstellung des Ausgangslexikons und
eines Sprecher-bezogenen Lexikons aufgebaut. Letzteres hiervon kann Sprecher-bezogene
Erkennungs-relevante Information enthalten, insbesondere in Bezug
auf wenigstens die bereits für
den aktuellen Sprecher erhaltenen Erkennungsergebnisse. Gemäß dieser
Maßgabe
ist es auf einfache Weise möglich,
zwischen dem Ausgangslexikon, das zu Beginn jedes Erkennungsvorgangs
in Bezug auf einen wohldefinierten Sprecher eingeführt wird
und der Modifikation des Ausgangslexikons, das Sprecher-abhängig ist,
zu unterscheiden und dadurch nach jedem Erkennungsprozess oder Erkennungsschritt
ein modifiziertes Lexikon zu erzielen.
-
Es
ist vorteilhaft das Sprecher-bezogene Lexikon innerhalb des aktuellen
Erkennungsprozesses oder Schrittes und/oder aus vorhergehenden und/oder
fremden Erkennungsprozessen aufzubauen. Es ist deshalb mög lich, zusätzliche
Information in der Form eines Sprecher-bezogenen Lexikons bereitzustellen,
welche dem Ausgangslexikon hinzugefügt werden kann, z. B. nach
einem ersten oder mehreren ersten Erkennungsschritten oder Erkennungsprozessen.
Diese zusätzliche
Information kann zu vorhergehenden und/oder fremden Erkennungsprozessen
gehören
und/oder aus diesen erhalten sein. Folglich kann die Zusammenstellung
zusätzlicher
Information, welche Sprecher-bezogen, d. h. Sprecher-spezifisch
ist von einem Erkennungsprozess herrühren, der in der Vergangenheit
beendet wurde oder von Erkennungsprozessen, die über ein weiteres Verfahren
zur Spracherkennung und/oder eine fremde Spracherkennungseinrichtung
ausgeführt werden.
-
Verwendet
beispielsweise ein Sprecher mit einem starken Akzent das System,
so können
einige der Aussprachevarianten – insbesondere
einige der muttersprachlichen Varianten – bedeutungslos werden. Diese
können
dann entweder entfernt werden oder geeignet gewichtet werden, so
dass sichergestellt wird, dass die neuen und/oder wichtigen Aussprachevarianten
des aktuellen Sprechers bevorzugt werden.
-
Selbstverständlich ist
eine exakte Buchführung über alle
Modifikationen erforderlich, um die entfernte Information nach einer
Sprecheränderung
zu berücksichtigen.
Demnach wird die Erkennungs-bezogene Information und insbesondere
das Sprecher-bezogene Lexikon gemäß einer weiteren Ausführungsform
der Erfindung bei Beendigung des aktuellen Erkennungsprozesses oder
Erkennungsvorgangs aus dem aktuellen Lexikon mit dem aktuellen Sprecher
und/oder vor Beginn eines weiteren Erkennungsprozesses oder Erkennungsvorgangs
mit einem neuen und/oder weiteren Sprecher entfernt. Dies ermöglicht erneut
einen wohl definierten Ausgangspunkt für jeden neuen Erkennungsvorgang,
d. h. ein unvoreingenommenes Spracherkennungsverfahren. Es ist deshalb
von besonderem Vorteil, falls die oben erwähnte zerlegbare Struktur des
aktuellen Lexikons aus einer zerlegbaren Zusammenstellung des Ausgangslexikons
und des Sprecher-spezifischen oder Sprecher-bezogenen Lexikons aufgebaut ist.
Dann wird die Trennung durch Zerlegung des Aufbaus des Ausgangslexikons
aus der Modifikation in Form des Sprecher-bezogenen Lexikons erzielt,
um das Ausgangslexikon als Startpunkt für einen neuen Erkennungsvorgang
zu nutzen.
-
Gemäß einer
weiteren bevorzugten Ausführungsform
der Erfindung wird das Sprecher-bezogene Lexikon und/oder die Sprecher-bezogenen
Signaturdaten, insbesondere im Sinne einer Sprecher-spezifischen
oder Sprecher- bezogenen
akustischen oder Sprachsignatur, während eines Erkennungsprozesses
oder Schrittes erhalten. Darüber
hinaus werden diese Daten, d. h. das Sprecher-bezogene Lexikon und
die Sprecher-bezogenen oder Sprecher-spezifischen akustischen Signaturdaten,
gespeichert und aufrechterhalten, insbesondere in einer Zusammenstellung
oder Liste von Sprach-bezogenen Lexika und/oder Signaturen.
-
Diese
Maßgaben
ermöglichen
eine besonders schnelle Spracherkennung in dem Fall, dass lediglich
eine begrenzte Anzahl von zu unterscheidenden Sprechern verarbeitet
werden muss. Ein derartiges Verfahren kann beispielsweise innerhalb
eines sicheren oder abgeschirmten Gebäudes einer Firma mit einer
gegebenen und festgelegten Anzahl von Angestellten verwendet werden.
-
In
diesen verschiedenen Erkennungsprozessen sammelt das erfindungsgemäße Verfahren
dann Sprecher-spezifische Daten in der Form von Sprecher-bezogenen Lexika
und/oder Sprecher-bezogenen Signaturdaten und speichert diese Daten
in der Liste für
Sprecher-bezogene Lexika und/oder Signaturen, um während des
nächsten
Erkennungsvorgangs eine Sprechererkennung und Identifikation durchzuführen. Tritt
dann ein bereits bekannter Sprecher in einem nachfolgenden Erkennungsvorgang auf,
so wird aus den ersten Erkennungsergebnissen des neu begonnenen
Erkennungsvorgangs eine Sprechererkennung und Identifikation durchgeführt. Falls
der bekannte Sprecher dann als bereits bekannt identifiziert wird,
kann ein entsprechendes Sprecher-bezogenes Lexikon direkt hinzugefügt werden, um
das Ausgangslexikon auf ein bereichertes aktuelles Lexikon zu modifizieren
und so erheblich bessere Erkennungsergebnisse selbst am Anfang eines
neuen Vorgangs zu erzielen.
-
Es
stellt demnach einen weiteren Aspekt der Erfindung gemäß einer
weiteren vorteilhaften Ausführungsform
dar, am Anfang eines neuen Erkennungsprozesses – insbesondere basierend auf
der Zusammenstellung oder Liste von Sprecher-bezogenen Lexika und/oder
Signaturen – zu
prüfen,
ob der Sprecher des aktuellen Prozesses ein bekannter Sprecher ist.
Im Falle eines sich in Bearbeitung befindenden bekannten Sprechers
wird das Sprecher-bezogene
Lexikon, das spezifisch für
den bekannten Sprecher ist, aus der Zusammenstellung oder Liste von
Sprecher-bezogenen Lexika abgerufen und wiederhergestellt und mit
dem aktuellen Lexikon kombiniert, insbesondere mit dem Ausgangslexikon,
um ein Sprecher-angepasstes Lexikon mit hoher Erkennungseffizienz
zu erzielen.
-
Gemäß einer
weiteren bevorzugten Ausführungsform
des erfindungsgemäßen Verfahrens
zur Spracherkennung wird Information, die nicht durch das Sprecherverhalten
des aktuellen Sprechers abgedeckt oder unterstützt und/oder nicht von der
Erkennungs-bezogenen Information des aktuellen Erkennungsprozesses
oder Schrittes abgedeckt ist, während
des Erkennungsprozesses oder Schrittes aus dem aktuellen Lexikon
entfernt, insbesondere aus dem Ausgangslexikon, um so insbesondere
ein modifiziertes Lexikon oder ein aktuelles Lexikon für den nächsten Erkennungsschritt
oder Prozess auszubilden.
-
Diese
Maßgabe
basiert insbesondere auf der Erkennungs-bezogenen Information des
aktuellen Erkennungsprozesses oder Schrittes. Diese Maßgabe bedeutet,
dass in dem aktuellen Lexikon anfänglich enthaltene Information,
insbesondere im Ausgangslexikon, welche nicht durch Erkennungsergebnisse
und/oder Erkennungs-bezogene Information in Verbindung mit dem aktuellen
Sprecher abgedeckt, erkannt oder bestätigt ist, aus dem aktuellen Lexikon
entfernt und entzogen wird, insbesondere aus dem Ausgangslexikon,
um so die Datenmenge innerhalb des Lexikons zu reduzieren. Innerhalb
der Anwendung kann es erforderlich sein, bereits in dem Ausgangslexikon
oder aktuellen Lexikon enthaltene Aussprachevarianten zu entfernen,
falls der sich in Bearbeitung befindliche aktuelle Sprecher einen
anderen Dialekt aufweist, der nicht über sein Sprachverhalten erkannt
wird. In diesem Falle ist es wichtig, gelöschten Informationen oder Einträgen nachzugehen,
um ein Zurücksetzen
einer Sprecheränderung zu
ermöglichen.
-
Gemäß einer
weiteren bevorzugten Ausführungsform
des erfindungsgemäßen Verfahrens
zur Spracherkennung wird die Erkennungs-relevante Information im
jeweiligen Falle über
das gesamte modifizierte und/oder aktuelle Lexikon und/oder Ausgangslexikon,
sofern geeignet, verallgemeinert. Somit werden nicht nur die aktuell
geäußerten Phrasen ausgewertet
und in das aktuelle/modifizierte Lexikon im Hinblick auf deren spezifische
Aussprache eingebunden, sondern ebenso mögliche Aussprachevarianten
für weitere
mögliche Äußerungen
werden hieraus unter Berücksichtigung
des akustischen und Sprachzusammenhangs abgeleitet.
-
Obwohl
es bekannt ist, dass der Einsatz mehrfacher Aussprachevarianten
die Raten von Spracherkennungsverfahren und Systemen erhöhen kann,
ist es jedoch ebenso bekannt, dass die Erkennungsleistungsfähigkeit
abnehmen kann, falls zu viele Aussprachevarianten, Dialekte oder
Akzente enthalten sind. Dies trifft zu, da die Anzahl von zu prüfenden Alternativen
mit zunehmender Anzahl von Varianten ansteigt. Zusätzlich nimmt
die Verwechslung zwischen den Wörtern
zu.
-
Herkömmliche
Vorgehensweisen versuchen auf bekannte Weise, Erkennungsvarianten
mittels großer
Datenbanken zu lernen. Obwohl Vorteile dahingehend vorliegen, dass
lediglich die tatsächlich auftretenden
Varianten einbezogen werden – sprich in
der Datenbank – ist
es andererseits von Nachteil, dass diese Varianten und damit die
Auswertung gemäß des Datenbank-basierten Wörterbuchs
sehr spezifisch zur Datenbank erfolgt und für spezielle Zwecke möglicherweise
nicht geeignet ist.
-
Die
weitere Möglichkeit
bei herkömmlicher Vorgehensweise
liegt in der Erzeugung einer Zusammenstellung von Aussprachevarianten
durch Auswerten einer Zusammenstellung von Ausspracheregeln und
dem Einbeziehen von phonetischen und linguistischen Kenntnissen.
Obwohl diese Regeln dann Datenbank-unabhängig sind, ist bekannt, dass
diese dazu neigen, eine sehr große Anzahl von Alternativen,
einschließlich
der sehr selten auftretenden Alternativen, zu erzeugen.
-
Die
bisher beschriebenen Vorgehensweisen herkömmlicher Art laufen off-line
ab und insbesondere im Vorfeld eines Erkennungsprozesses.
-
Um
insbesondere Sprecher-unabhängige Erkennungssysteme
zu erzielen, leitet das vorgeschlagene Verfahren die verwendeten
Aussprachevarianten aus der eingehenden Sprache des aktuellen Sprechers
zusammen mit einem Erkennungsergebnis ab und verallgemeinert diese
Aussprachevarianten dann insbesondere über das gesamte Lexikon. Diese
Verallgemeinerung kann mit Hilfe einer Zusammenstellung sehr allgemeiner
Regeln erfolgen. Folglich werden lediglich diejenigen Varianten, die
zur Erzielung eines optimalen Erkennungsergebnisses erforderlich
sind, für
den jeweiligen Sprecher einbezogen. Insbesondere werden alle weiteren möglichen
Varianten, die nicht zur Beschreibung des Sprachverhaltens des aktuellen
Nutzers erforderlich sind, ausgeschlossen. Dadurch werden die Anzahl der
Ausspracheva rianten und damit die Größe des Lexikons oder Wörterbuchs
so klein als möglich
gehalten.
-
Nach
einer Sprecheränderung,
d. h. im Falle eines neuen Erkennungsvorgangs, werden die Varianten
des vorhergehenden Sprechers aus dem aktuellen Lexikon entfernt,
diese können
jedoch optional gespeichert und während eines späteren Vorgangs, bei
dem der vorherige Sprecher erneut verarbeitet werden muss, abgerufen
werden. Optional können ebenso
Aussprachevarianten, die nicht während
eines langen Zeitraums verwendet wurden, aus dem Lexikon oder einem
Wörterbuch
entfernt werden, um dessen Größe so klein
wie möglich
zu halten.
-
Das
vorgeschlagene Verfahren erfordert keine Kenntnis über die
Muttersprache des aktuellen Sprechers. Darüber hinaus weist das vorgeschlagene
Verfahren den Vorteil auf, dass lediglich relevante Aussprachevarianten
in das Wörterbuch
oder Lexikon einbezogen werden. Somit werden für jede mögliche Muttersprache keine
großen
Datenbanken benötigt,
um die erforderlichen Aussprachevarianten abzuleiten. Ebenso ist
für jede
Muttersprache kein Schritt mit Regeln notwendig.
-
Das
erfindungsgemäße Verfahren
zur Spracherkennung ist insbesondere in Sprecher-unabhängigen Systemen
einsetzbar, die mit Dialekten, fremden Akzenten und fremden Muttersprachen
zurechtkommen müssen.
-
Da
die Sprecher oft keine Aussprachevariante und manchmal sogar eine
falsche Aussprache verwenden, können
diese im Gegensatz zu herkömmlichen
Systemen, die nicht mit dieser falschen Aussprache zurechtkommen, über das
erfindungsgemäße Verfahren
abgedeckt werden. Diese herkömmlichen
Systeme verwenden Ausspracheregeln insbesondere nur für die Fälle, bei
denen die Muttersprache des Sprechers bekannt ist. Bei öffentlich
zugängigen
Systemen oder Spracherkennungseinrichtungen ist im Allgemeinen keine
weitere Information im Hinblick auf den Ursprung des Sprechers oder
Dialektes bekannt. In solchen Fällen
ist das erfindungsgemäße Verfahren
besonders vorteilhaft. Darüber
hinaus ist es nicht möglich,
für jegliche
Arten möglicher Muttersprachen
Regeln zu erzeugen und zu speichern. Ebenso ist die Datenbank-orientierte
Vorgehensweise nicht brauchbar, da es sehr teuer wäre, eine
für jede
Muttersprache, jeden Dialekt und Akzent genügend große Datenbank bereitzustellen
und die Aussprachevarianten dann hierüber zu lernen. Das Erkennen
einer Nicht-Muttersprache stellt für viele Anwendun gen ein ernsthaftes
Problem dar, falls z. B. fremde Adressen oder Musik oder TV Programmtitel
in einer Fremdsprache direkt über
Sprache auszuwählen
sind. In diesen Anwendungen ist das erfindungsgemäße Verfahren
besonders vorteilhaft.
-
Das
erfindungsgemäße Verfahren
zur Spracherkennung wird anhand einer schematischen Darstellung
basierend auf bevorzugten Ausführungsformen
erläutert.
-
1 zeigt
eine bevorzugte Ausführungsform
des erfindungsgemäßen Verfahrens
zur Spracherkennung anhand eines Blockdiagramms.
-
2 zeigt
ein herkömmliches
Verfahren zur Spracherkennung anhand eines Blockdiagramms.
-
1 zeigt
ein schematisches Blockdiagramm zur Durchführung einer Ausführungsform
des erfindungsgemäßen Verfahrens
zur Spracherkennung 10.
-
In
Schritt 11 des in 1 gezeigten
Verfahrens 10 wird ein eingehender Sprachfluss – beispielsweise
kontinuierlich gesprochene Sprache – als Sequenz von Sprachphrasen
..., Spj, ... empfangen und durch Filtern und/oder Digitalisierung
vorverarbeitet zur Erzielung einer entsprechenden Sequenz von Kennzeichnungssignalen
..., RSj, ..., wobei jedes dieser Signale eine Kombination möglicher
Wörter
oder Sub-Wortkandidaten ..., Wjk, .... darstellt. Im nächsten Schritt 12 wird
die empfangene Sprache wenigstens teilweise unter Verwendung eines
aktuellen Lexikons CL oder Wörterbuchs,
das in Schritt 17 zur Verfügung gestellt wird, erkannt,
wobei das aktuelle Lexikon CL oder Wörterbuch für den ersten Erkennungsschritt
des aktuellen Sprechers das Ausgangslexikon SL darstellen kann,
das über
den Schritt 17a erhalten wird und Erkennungsbefähigungsinformation
REI enthält.
-
Ebenso
kann der Erkennungsschritt 12 auf Sprachmodellen LM als
auch auf versteckten Markow-Modellen HMM basieren, die durch Verarbeitungsschritte 18 und 19 unterstützt werden.
Dann wird das Ergebnis des Erkennungsprozesses in Schritt 13 bereitgestellt.
-
Der
in Schritt 11 bereitgestellte eingehende Sprachfluss und/oder
das in Schritt 13 bereitgestellte Erkennungsergebnis für den Sprachfluss
werden dem Schritt 14 zum Bestimmen Erkennungs-relevanter
Information RRI zugeführt,
insbesondere zum Bestimmen der verwendeten Aussprachevarianten.
Im nächsten
Schritt 15 wird geprüft,
ob diese Aussprachevarianten und die eindeutige Erkennungs-bezogene
Information bereits in dem aktuellen Lexikon CL enthalten sind.
Die fehlende Information wird dann einbezogen und/oder über das
gesamte Lexikon verallgemeinert, um ein modifiziertes Lexikon ML
auf Basis des aktuellen Lexikons CL zu erzielen.
-
In
Schritt 16 wird das modifizierte Lexikon ML als aktuelles
Lexikon CL für
den nächsten
Erkennungsschritt 12 zurückgesetzt.
-
Im
Gegensatz zur Erfindung liegt in einem herkömmlichen Verfahren 20 des
Standes der Technik keine geschlossene Schleife zum Verarbeiten
der eingehenden Sprache als auch der Erkennungs-bezogenen Daten
vor. Das in dem Erkennungsprozess 22 in Schritt 27 bereitgestellte
Wörterbuch
CL stellt eine abgeschlossene Einheit dar, die off-line erzeugt wird,
insbesondere im Vorfeld des gesamten Erkennungsprozesses 20.
Das in Schritt 27 bereitgestellte Wörterbuch CL wird während der
Durchführung
der Erkennung 22 fest beibehalten. In Schritt 21 wird
die eingehende Sprache dem Erkennungsschritt 22 in einer
vorverarbeiteten Form zugeführt.
Das Erkennungsergebnis wird mit dem Schritt 23 in 2 bereitgestellt,
jedoch in Bezug auf das Wörterbuch
oder Lexikon CL nicht weiter ausgewertet. Erneut werden versteckte
Markow-Modelle HMM und weitere Sprachmodelle LM verwendet und im
Erkennungsschritt 22 ausgewertet und über die Schritte 28 und 29 entsprechend
bereitgestellt.
-
Bei
der off-line Erzeugung 27 des Wörterbuchs CL basierend auf
dem in Schritt 30 bereitgestellten Vokabular werden die
Aussprachevarianten in Schritt 31 erzeugt und dem Wörterbuch
CL zugeführt,
das dann seinerseits wie oben beschrieben auf den Erkennungsschritt 22 einwirkt.