DE60019229T2

DE60019229T2 - Normalisierung der Grundfrequenz zur Spracherkennung

Info

Publication number: DE60019229T2
Application number: DE60019229T
Authority: DE
Inventors: Mikio Yawata-shi Oda; Tomoe Nishinomiya-shi Kawane
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp
Priority date: 1999-10-29
Filing date: 2000-10-27
Publication date: 2006-03-09
Anticipated expiration: 2020-10-28
Also published as: CN1294377A; EP1096470A2; US6687665B1; US7107213B2; CN1141698C; EP1096470B1; EP1096470A3; KR20010040193A; DE60019229D1; US20040078195A1; KR100531549B1

Description

HINTERGRUND DER ERFINDUNG
Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf Spracherkennungsvorrichtungen, die in der Lage sind, eine menschliche Stimme zu erkennen, unabhängig davon, wer der Sprecher ist, z.B. ein Mann mit niedriger Stimmlage oder eine Frau oder ein Kind mit hoher Stimmlage, und genauer auf eine Vorrichtung zum Normalisieren der Stimmlage auf der Basis eines vorher bereitgestellten Stimmlagenbeispiels.
Beschreibung des Stand der Technik
Mit dem Fortschreiten digitaler Signalverarbeitungstechnologie und LSI von höheren Leistungsfähigkeiten und geringerem Preis wurde in letzter Zeit Spracherkennungstechnologie in Unterhaltungs- und Haushaltsgeräten populär. Die Spracherkennungstechnologie verbessert auch solche Produkte in Bedienbarkeit. Solch eine Spracherkennungsvorrichtung arbeitet prinzipiell in der Art, eine menschliche Stimme zu erkennen durch Konvertieren einer eingehenden Kommandostimme in ein digitales Sprachsignal, um sich dann auf ein Sprachwörterbuch zu beziehen für Mustersprachdaten zum Vergleich, die im Voraus erstellt wurden. Für einen einfachen Vergleich fordert daher die Spracherkennungsvorrichtung oft einen Benutzer dazu auf, einen Laut zur Steuerung in einer bestimmten Weise zu erzeugen, oder z.B. die Stimme des Benutzers im Voraus zu registrieren.
Das Problem darin ist, dass das Spezifizieren eines Benutzer in der Spracherkennungsvorrichtung, die im Unterhaltungs- oder Haushaltsgerät ausgestattet ist, sehr stark dessen Benutzbarkeit und damit Produktwert beeinträchtigt. Um dieses Problem zu umgehen, wird erwartet, dass die Spracherkennungsvorrichtung eine menschliche Stimme erkennt, die in Stimmlage und Geschwindigkeit variiert, unabhängig davon, wer der Sprecher ist. Wie jedoch bereits beschrieben, bezieht sich die herkömmliche Spracherkennungsvorrichtung auf das Sprachwörterbuch im Vergleich mit einer eingehenden Kommandostimme. Wenn daher die eingehende Kommandostimme in Stimmlage oder Geschwindigkeit in einem hohen Maße von dem Muster in dem Sprachwörterbuch verändert wird, so versagt die Spracherkennungsvorrichtung, Spracherkennung korrekt auszuführen, siehe „Formant normalization for speech recognition and vowel studies" von J.L. Hieronymus, in Speech Communication 10, Seiten 471–478, 1991.
7 zeigt eine Spracherkennungsvorrichtung, die in der japanischen Patentoffenlegungsschrift Nr. 9-325798 (97-325798) als Verbesserung offenbart ist. Eine Spracherkennungsvorrichtung VRAc enthält einen Spracheingabeteil 111, Sprachgeschwindigkeitsberechnungsteil 112, Sprachgeschwindigkeitsveränderungsraten-Bestimmungsteil 113, Sprachgeschwindigkeitsveränderungsteil 114 und einen Spracherkennungsteil 115.
Ein Laut oder eine Stimme, die durch einen Benutzer erzeugt wird, wird von dem Spracheingabeteil 111 eingenommen und wird dadurch als Kommandostimme eingefangen. Die eingefangene Kommandostimme wird A/D-konvertiert in ein digitales Sprachsignal. Der Sprachgeschwindigkeitsberechnungsteil 112 empfängt das so erzeugte digitale Sprachsignal und berechnet basierend darauf die Sprachgeschwindigkeit des Benutzers. Der Sprachgeschwindigkeitsveränderungsraten-Bestimmungsteil 113 vergleicht die so berechnete Sprachgeschwindigkeit mit einer Referenzsprachgeschwindigkeit und bestimmt dann eine Geschwindigkeitsveränderungsrate, um den Geschwindigkeitsunterschied dazwischen zu kompensieren. Indem es sich darauf bezieht, verändert der Sprachgeschwindigkeitsveränderungsteil 114 die Sprachgeschwindigkeit. Dann führt der Spracherkennungsteil 115 Spracherkennung mit Bezug auf das in der Sprachgeschwindigkeit veränderte Sprachsignal aus.
Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung VRAc beschrieben. Der Laut eines Benutzers wird als Kommandostimme zusammen mit Hintergrundrauschen durch den Spracheingabeteil 111 eingefangen, über ein Mikrofon und einen darin ausgestatteten Verstärker, und dann wird ein analoges Signal, welches die Kommandostimme und das Hintergrundrauschen enthält, einer A/D-Konversion durch einen ausgestatteten A/D-Konverter unterworfen. Von der Stimme, die in dem so erhaltenen digitalen Sprachsignal enthalten ist, extrahiert der Sprachgeschwindigkeitsberechnungsteil 112 eine Lauteinheit, welche der Kommandostimme entspricht und berechnet die Sprachgeschwindigkeit für die Lauteinheit basierend auf der Zeit, die es für den Benutzer gedauert hat, diesen Laut zu erzeugen oder zu äußern.
Es wird hier angenommen, dass die Zeit, die es gedauert hat, die Lauteinheit zu äußeren (hiernach „Äußerungszeit der Ein-Laut-Einheit") Ts ist und eine Referenzzeit zur Äußerung der Lauteinheit (hiernach „Referenzzeit der Ein-Laut-Einheit") Th ist. Basierend darauf bestimmt der Sprachgeschwindigkeitsveränderungsraten-Bestimmungsteil 113 eine Geschwindigkeitveränderungsrate α durch Vergleichen von 1/Ts und 1/Th miteinander, was eine Ein-Laut-Einheit-Äußerungsgeschwindigkeit bzw. eine Ein-Laut-Referenzgeschwindigkeit bezeichnet. Die Geschwindigkeitsveränderungsrate α wird durch die folgende Gleichung (1) berechnet. α = Ts/Th... (1)
Die Gleichung (1) besagt, dass, wenn die Äußerungszeit der Ein-Laut-Einheit Ts kleiner ist als die Referenzzeit der Ein-Laut-Einheit Th, d.h., wenn eine Sprachgeschwindigkeit eines eingehenden Lauts schneller ist als diejenige, die für die Spracherkennungsvorrichtung VRAc praktikabel ist, so ist die Geschwindigkeitsveränderungsrate α kleiner als 1. Falls dies der Fall ist, sollte die eingehende Kommandostimme in Geschwindigkeit erniedrigt werden. Umgekehrt gilt, dass, wenn die Äußerungszeit der Ein-Laut-Einheit Ts länger ist als die Referenzzeit der Ein-Laut-Einheit Th, d.h., die eingehende Kommandostimmengeschwindigkeit langsamer ist, die Geschwindigkeitsveränderungsrate α größer als 1 wird. In diesem Fall sollte die Kommandostimme in Geschwindigkeit erhöht werden.
In der Spracherkennungsvorrichtung VRAc bezieht sich der Sprachgeschwindigkeitsveränderungsteil 114 auf die Geschwindigkeitsveränderungsrate α, um das Kommandostimmensignal konstant in Geschwindigkeit zu halten, und erzeugt ein in Geschwindigkeit verändertes Kommandostimmensignal. Der Spracherkennungsteil 115 führt Spracherkennung in Bezug auf das in Geschwindigkeit veränderte Kommandostimmensignal durch und gibt ein dadurch erhaltenes Ergebnis aus.
Eine solche Geschwindigkeitsveränderung kann mit der derzeitigen Digitaltechnologie einfach gemacht werden. Um z.B. die Geschwindigkeit von Sprache zu vermindern, werden dem Sprachsignal verschiedene Vokalwellenformen hinzugefügt, die eine Korrelation mit der Lauteinheit haben, die in der Kommandostimme enthalten ist. Um die Geschwindigkeit von Sprache zu erhöhen, wird andererseits eine solche Vokalwellenform mehrmals aus dem Kommandostimmensignal dezimiert.
Dies ist eine Technik zum Verändern der Sprachgeschwindigkeit, ohne die Stimmlage der Kommandostimme zu beeinflussen. Das heißt, diese Technik ist effektiv für Spracherkennung in dem Fall, in dem der Benutzer schneller oder langsamer als die Wörterbuchstimme spricht.
Die oben beschriebene herkömmliche Spracherkennungsvorrichtung VRAc arbeitet gut für Spracherkennung, wenn die Sprachgeschwindigkeit des Benutzers in hohem Maße von der Referenzgeschwindigkeit der Ein-Laut-Einheit 1/Th verändert wird. Jedoch gilt dies nicht, wenn die Stimme des Benutzers im Vergleich mit einer Referenzstimmlage eine unterschiedliche Stimmlage hat.
Im Detail, obwohl die Spracherkennungsvorrichtung VRAc mit verschiedenen Typen von Sprechern fertig werden kann, die im Frequenzbereich variiert sind, d.h. Mann mit niedriger Stimmlage oder Frau oder Kind mit hoher Stimmlage. Jedoch ist die dadurch zu erzielende Spracherkennung nicht zufriedenstellend.
Für den schnellen Sprecher, der mit hoher Geschwindigkeit spricht, ist es möglich, ihn oder sie zu bitten, in gemäßigter Weise zu sprechen, aber es unmöglich, in einer unterschiedlichen Stimmlage zu sprechen. Man bemerke, dass die Stimmlage eines Sprechers hauptsächlich durch seinen bzw. ihren Rachen bzw. Kehle besonders in Form und Größe bestimmt wird. Da der Sprecher seinen oder ihren Rachen bzw. Kehle in Form oder Größe nicht durch ihren oder seinen Willen verändern kann, so kann auch die Stimmlage nicht durch seinen oder ihren Willen verändert werden.
Zum Verwirklichen einer Spracherkennung verschiedener Stimmen mit unterschiedlichen Lagen soll die Spracherkennungsvorrichtung VRAC eine große Anzahl von Mustersprachendatengruppen speichern, die jede einem unterschiedlichen Sprecher entsprechen, wie ein Mann, eine Frau oder ein Kind, die in unterschiedlicher Stimmlage sprechen. Weiter soll die Spracherkennungsvorrichtung VRAC eine Gruppe unter dieser Gruppenanzahl von Mustersprachdatengruppen gemäß der eingehenden Kommandostimme auswählen.
Um einen solchen Missstand zu vermeiden, scheint es effektiv, die eingehende Kommandostimme auf eine Lage zu verarbeiten, die optimal für Spracherkennung ist. Da jedoch die eingehenden Kommandostimmen sich gemäß dem Sprecher stark in Stimmlage unterscheiden, ist es im Wesentlichen unmöglich, die eingehende Kommandostimme auf einen Streich auf eine gewünschte Lage zu verarbeiten. Sogar in der gewünschten Lage kann die korrekte Spracherkennung nicht sichergestellt werden, da der Inhalt der eingehenden Kommandostimme oder eine Sprechweise das Spracherkennungsergebnis verderben kann. Wie aus diesem bekannt ist, ist die Lage, die als für die Spracherkennung optimal betrachtet wird, in Begriffen von Spracherkennungsvorrichtung oder Mustersprachdaten nicht notwendigerweise optimal.
Daher ist es eine Aufgabe der vorliegenden Erfindung, eine Vorrichtung bereitzustellen zum Normalisieren einer Stimmlage auf ein Niveau, das als optimal zur Spracherkennung betrachtet wird.
ZUSAMMENFASSUNG DER ERFINDUNG
Ein erster Aspekt der vorliegenden Erfindung ist gerichtet auf eine Stimmlagen-Normalierungsvorrichtung ausgestattet in einer Spracherkennungsvorrichtung zum Erkennen einer eingehenden Kommandostimme, die von irgendeinem Sprecher geäußert wird, basierend auf Musterdaten für eine Vielzahl von Wörtern und verwendet, um die eingehende Kommandostimme zu normalisieren, um in einer optimalen Lage für Spracherkennung zu sein, wobei die Vorrichtung umfasst:
Zielspracherzeugungsmittel zum Erzeugen eines Zielsprachsignals durch Verändern der eingehenden Kommandostimme auf Basis eines vorherbestimmten Grades;
einen Wahrscheinlichkeitsberechner zum Berechnen einer Wahrscheinlichkeit, welche anzeigend für einen Grad der Übereinstimmung unter dem Zielsprachsignal und den Wörtern in den Musterdaten ist; und
einen Stimmlagenveränderer zum wiederholten Verändern des Zielsprachsignals in Stimmlage, bis ein Maximum der Wahrscheinlichkeiten eine vorherbestimmte Wahrscheinlichkeit oder höher erreicht.
Wie oben beschrieben wird in dem ersten Aspekt eine eingehende Kommandostimme so in Stimmlage angepasst, dass eine Wahrscheinlichkeit, welche einen Grad der Übereinstimmung unter der eingehenden Kommandostimme und Mustersprachdaten für eine Vielzahl von Wörtern anzeigt, ein bestimmter Wert oder größer wird. Daher kann die eingehende Kommandostimme auf schnelle und korrekte Weise normalisiert werden.
Gemäß einem zweiten Aspekt, in dem ersten Aspekt, wenn das Maximum der Wahrscheinlichkeit kleiner als die vorherbestimmte Wahrscheinlichkeit ist, enthält der Stimmlagenveränderer einen Stimmlagenanpasser zum Erhöhen oder Erniedrigen des Zielsprachsignals auf der Basis des vorherbestimmten Grades.
Wie oben beschrieben kann in dem zweiten Aspekt die eingehende Kommandostimme normalisiert werden, sogar wenn sie im Vergleich mit den Mustersprachdaten niedriger oder höher in Stimmlage ist.
Gemäß einem dritten Aspekt, in dem zweiten Aspekt, umfasst die Stimmlagennormalisierungsvorrichtung ferner:
einen Speicher zum zeitweisen Speichern der eingehenden Kommandostimme;
einen Auslese-Controller zum Auslesen eines Strings der eingehenden Kommandostimme aus den Speichermitteln und Erzeugen des Zielsprachsignals; und
einen Auslesetakt-Controller zum Erzeugen eines Auslesetaktsignals mit einem Zeittakt, der durch Frequenz bestimmt ist, und Ausgeben des Zeittaktes an die Speichermittel, um mit dem dadurch spezifizierten Timing das Zielsprachsignal in Frequenz zu verändern auf Basis des vorherbestimmten Grades.
Gemäß einem vierten Aspekt, in dem zweiten Aspekt, wird das Zielsprachsignal in Stimmlage erhöht, basierend auf dem vorherbestimmten Grad, ausgehend von einem Lagenniveau der eingehenden Kommandostimme.
Gemäß einem fünften Aspekt, in dem vierten Aspekt, ist das Zielsprachsignal in Stimmlage begrenzt bis zu einer ersten vorherbestimmten Lage, und wenn das Maximum der Wahrscheinlichkeiten die vorherbestimmte Wahrscheinlichkeit oder höher nicht erreicht hat, bevor das Zielsprachsignal die erste vorherbestimmte Lage erreicht, wird das Zielsprachsignal in Stimmlage erniedrigt, basierend auf dem vorherbestimmten Grad ausgehend von dem Lagenniveau der eingehenden Kommandostimme.
Wie oben beschrieben bestimmt in dem fünften Aspekt die Fähigkeit der Spracherkennungsvorrichtung geeignet einen Bereich zum Normalisieren der eingehenden Kommandostimme.
Gemäß einem sechsten Aspekt, in dem fünften Aspekt, ist das Zielsprachsignal in Stimmlage nach unten begrenzt auf eine zweite vorherbestimmte Lage, und wenn das Maximum der Wahrscheinlichkeiten die vorherbestimmte Wahrscheinlichkeit oder höher nicht erreicht hat, bevor das Zielsprachsignal die zweite vorherbestimmte Lage erreicht, wird die eingehende Kommandostimme angehalten, normalisiert zu werden.
Wie oben beschrieben bestimmt, in dem sechsten Aspekt, die Fähigkeit der Spracherkennungsvorrichtung geeignet einen Bereich zum Normalisieren der eingehenden Kommandostimme.
Gemäß einem siebten Aspekt, in dem zweiten Aspekt, wird das Zielsprachsignal in Stimmlage erniedrigt auf den vorherbestimmten Grad ausgehend von einem Lagenniveau der eingehenden Kommandostimme.
Gemäß einem achten Aspekt, in dem siebten Aspekt, ist das Zielsprachsignal in Stimmlage begrenzt nach unten auf eine dritte vorherbestimmte Lage, und wenn das Maximum der Wahrscheinlichkeiten die vorherbestimmte Wahrscheinlichkeit oder höher nicht erreicht hat, bevor das Zielsprachsignal die dritte vorherbestimmte Lage erreicht, wird das Zielsprachsignal in Stimmlage erhöht basierend auf dem vorherbestimmten Grad ausgehend von dem Lagenniveau der eingehenden Kommandostimme.
Wie oben beschrieben bestimmt in dem achten Aspekt die Fähigkeit der Spracherkennungsvorrichtung geeignet einen Bereich zum Normalisieren der eingehenden Kommandostimme.
Gemäß einem neunten Aspekt, in dem achten Aspekt, ist das Zielsprachsignal in Stimmlage nach unten begrenzt auf eine vierte vorherbestimmte Lage, und wenn das Maximum der Wahrscheinlichkeiten die vorherbestimmte Wahrscheinlichkeit oder höher nicht erreicht hat, bevor das Zielsprachsignal die vierte vorherbestimmte Lage erreicht, wird die eingehende Kommandostimme angehalten, normalisiert zu werden.
Ein zehnter Aspekt der vorliegenden Erfindung ist auf eine Spracherkennungsvorrichtung gerichtet zum Erkennen einer eingehenden Kommandostimme, welche zur Spracherkennung optimal normalisiert ist basierend auf Musterdaten für eine Vielzahl von Wörtern, wobei die Vorrichtung rumfasst:
einen Zielsprachengenerator zum Erzeugen eines Zielsprachsignals durch Verändern der eingehenden Kommandostimme auf Basis eines vorherbestimmten Grades;
einen Wahrscheinlichkeitsberechner zum Berechnen einer Wahrscheinlichkeit, welche anzeigend für einen Grad der Übereinstimmung unter dem Zielsprachsignal und den Wörtern in den Musterdaten ist; und
einen Stimmlagenveränderer zum wiederholten Verändern des Zielsprachsignals in Stimmlage, bis ein Maximum der Wahrscheinlichkeiten eine vorherbestimmte Wahrscheinlichkeit oder höher erreicht.
Wie oben beschrieben wird in dem zehnten Aspekt eine eingehende Kommandostimme in Stimmlage so angepasst, dass eine Wahrscheinlichkeit, welche einen Grad der Übereinstimmung unter der eingehenden Kommandostimme und Musterdaten für eine Vielzahl von Wörtern ein bestimmter Wert oder größer wird. Daher kann die eingehende Kommandostimme auf schnelle und korrekte Weise normalisiert werden.
Gemäß einem elften Aspekt, in dem zehnten Aspekt, wenn das Maximum der Wahrscheinlichkeiten kleiner als die vorherbestimmte Wahrscheinlichkeit ist, enthält der Zielsprachgenerator einen Stimmlagenanpasser zum Erhöhen oder Erniedrigen des Zielsprachsignals auf der Basis des vorherbestimmten Grades.
Wie oben beschrieben kann in dem elften Aspekt die eingehende Kommandostimme normalisiert werden, sogar wenn sie verglichen mit den Mustersprachdaten niedriger oder höher in Stimmlage ist.
Gemäß einem zwölften Aspekt, in dem elften Aspekt, umfasst die Spracherkennungsvorrichtung weiterhin:
einen Speicher zum zeitweisen Speichern der eingehenden Kommandostimme;
einen Auslese-Controller zum Auslesen eines Strings der eingehenden Kommandostimme aus den Speichermitteln und Erzeugen des Zielsprachsignals; und
einen Auslesetakt-Controller zum Erzeugen eines Auslesetaktsignals mit einem Zeittakt, der durch Frequenz bestimmt ist, und Ausgeben des Zeittakts an den Speicher, um mit dem dadurch spezifizierten Timing das Zielsprachsignal in Frequenz zu verändern auf Basis des vorherbestimmten Grades.
Gemäß einem dreizehnten Aspekt, in dem elften Aspekt, wird das Zielsprachsignal ausgehend von einem Lagenniveau der eingehenden Kommandostimme in Stimmlage erhöht, basierend auf dem vorherbestimmten Grad.
Wie oben beschrieben bestimmt, in dem dreizehnten Aspekt, die Fähigkeit der Spracherkennungsvorrichtung geeignet einen Bereich zum Normalisieren der eingehenden Kommandostimme.
Gemäß einem vierzehnten Aspekt, in dem dreizehnten Aspekt, ist das Zielsprachsignal in Stimmlage nach oben begrenzt bis zu einer ersten vorherbestimmten Lage, und, wenn das Maximum der Wahrscheinlichkeiten die vorherbestimmte Wahrscheinlichkeit oder höher nicht erreicht hat, bevor das Zielsprachsignal die erste vorherbestimmte Lage erreicht, wird das Zielsprachsignal in Stimmlage er niedrigt, basierend auf dem vorherbestimmten Grad, ausgehend von dem Lagenniveau der eingehenden Kommandostimme.
Wie oben beschrieben bestimmt in dem vierzehnten Aspekt die Fähigkeit der Spracherkennungsvorrichtung geeignet einen Bereich zum Normalisieren der eingehenden Kommandostimme.
Gemäß einem fünfzehnten Aspekt, in dem vierzehnten Aspekt, ist das Zielsprachsignal in Stimmlage nach unten begrenzt bis zu einer zweiten vorherbestimmten Lage, und, wenn das Maximum der Wahrscheinlichkeiten die vorherbestimmte Wahrscheinlichkeit oder höher nicht erreicht hat, bevor das Zielsprachsignal die zweite vorherbestimmte Lage erreicht, wird die eingehende Kommandostimme angehalten, normalisiert zu werden.
Gemäß einem sechzehnten Aspekt, in dem elften Aspekt, wird das Zielsprachsignal in Stimmlage erniedrigt auf Basis des vorherbestimmten Grades, ausgehend von einem Lagenniveau der eingehenden Kommandostimme.
Gemäß einem siebzehnten Aspekt, in dem sechzehnten Aspekt, ist das Zielsprachsignal in Stimmlage nach unten begrenzt auf eine dritte vorherbestimmte Lage, und, wenn das Maximum der Wahrscheinlichkeiten die vorherbestimmte Wahrscheinlichkeit oder höher nicht erreicht hat, bevor das Zielsprachsignal die dritte vorherbestimmte Lage erreicht hat, wird das Zielsprachsignal in Stimmlage erhöht, basierend auf dem vorherbestimmten Grad, ausgehend von dem Lagenniveau der eingehenden Kommandostimme.
Wie oben beschrieben bestimmt in dem siebzehnten Aspekt die Fähigkeit der Spracherkennungsvorrichtung geeignet einen Bereich zum Normalisieren der eingehenden Kommandostimme.
Gemäß einem achtzehnten Aspekt, in dem siebzehnten Aspekt, ist das Zielsprachsignal in Stimmlage begrenzt nach unten auf eine vierte vorherbestimmte Lage, und, wenn das Maximum der Wahrscheinlichkeiten die vorherbestimmte Wahrscheinlichkeit oder höher nicht erreicht hat, bevor das Zielsprachsignal die vierte vorherbestimmte Lage erreicht, wird die eingehende Kommandostimme angehalten, normalisiert zu werden.
Ein neunzehnter Aspekt der vorliegenden Erfindung ist auf ein Stimmlagennormalisierungsverfahren gerichtet, welches für eine Spracherkennungsvorrichtung verwendet wird zum Erkennen einer eingehenden Kommandostimme, welche durch irgendeinen Sprecher geäußert wird, basierend auf Musterdaten für eine Vielzahl von Wörtern, und angewendet, um die eingehende Kommandostimme zu normalisieren, so dass sie in einer optimalen Lage der Spracherkennung ist, wobei das Verfahren umfasst:
einen Schritt des Erzeugens eines Zielsprachsignals durch Verändern der eingehenden Kommandostimme auf Basis eines vorherbestimmten Grads;
einen Schritt des Berechnens einer Wahrscheinlichkeit, welche anzeigend für einen Grad der Übereinstimmung zwischen dem Zielsprachsignal und den Wörtern in den Musterdaten ist; und
einen Schritt des wiederholten Veränderns des Zielsprachsignals in Stimmlage, bis ein Maximum der Wahrscheinlichkeiten eine vorherbestimmte Wahrscheinlichkeit oder höher erreicht.
Wie oben beschrieben wird in dem neunzehnten Aspekt eine eingehende Kommandostimme so in Stimmlage angepasst, dass eine Wahrscheinlichkeit, die einen Grad der Übereinstimmung zwischen der eingehenden Kommandostimme und Mustersprachdaten für eine Vielzahl von Wörtern anzeigt, ein vorherbestimmter Wert oder größer wird. Daher kann die eingehende Kommandostimme auf schnelle und korrekte Weise normalisiert werden.
Gemäß einem zwanzigsten Aspekt, in dem neunzehnten Aspekt, umfasst das Stimmlagennormalisierungsverfahren weiterhin einen Schritt des, wenn das Maximum der Wahrscheinlichkeiten kleiner ist als die vorherbestimmte Wahrscheinlichkeit, Erhöhens oder Erniedrigens des Zielsprachsignals auf der Basis des vorherbestimmten Grades.
Wie oben beschrieben kann, in dem zwanzigsten Aspekt, die eingehende Kommandostimme normalisiert werden, sogar wenn sie niedriger oder höher in Stimmlage ist im Vergleich mit den Mustersprachdaten.
Gemäß einem einundzwanzigsten Aspekt, in dem zwanzigsten Aspekt, umfasst das Stimmlagennormalisierungsverfahren weiterhin:
einen Schritt des vorübergehenden Speicherns der eingehenden Kommandostimme;
einen Schritt des Erzeugens des Zielsprachsignals von einem String der vorübergehend gespeicherten eingehenden Kommandostimme; und
einen Schritt des Bestimmens eines Zeittaktes durch Frequenz auf solche Weise, um mit dem dadurch spezifizierten Timing das Zielsprachsignal in Frequenz zu verändern auf der Basis des vorherbestimmten Grades.
Gemäß einem zweiundzwanzigsten Aspekt, in dem zwanzigsten Aspekt, umfasst das Stimmlagennormalisierungsverfahren weiterhin einen Schritt des Erhöhens des Zielsprachsignals in Stimmlage auf der Basis des vorherbestimmten Grades ausgehend von einem Lagenniveau der eingehenden Kommandostimme.
Gemäß einem dreiundzwanzigsten Aspekt, in dem zweiundzwanzigsten Aspekt, wird das Zielsprachsignal in Stimmlage nach oben begrenzt auf eine erste vorherbestimmte Lage, und das Verfahren umfasst weiterhin einen Schritt des, wenn das Maximum der Wahrscheinlichkeiten die vorherbestimmte Wahrscheinlichkeit oder höher nicht erreicht hat, bevor das Zielsprachsignal die erste vorherbestimmte Lage erreicht hat, Erniedrigens des Zielsprachsignals in Stimmlage auf der Basis des vorherbestimmten Grades ausgehend von dem Lagenniveau der eingehenden Kommandostimme.
Wie oben beschrieben bestimmt, in dem dreiundzwanzigsten Aspekt, die Fähigkeit der Spracherkennungsvorrichtung geeignet einen Bereich zum Normalisieren der eingehenden Kommandostimme.
Gemäß einem vierundzwanzigsten Aspekt, in dem dreiundzwanzigsten Aspekt, wird das Zielsprachsignal in Stimmlage nach unten begrenzt auf eine zweite vorherbestimmte Lage, und das Verfahren umfasst weiterhin einen Schritt des, wenn das Maximum der Wahrscheinlichkeiten die vorherbestimmte Wahrscheinlichkeit oder höher nicht erreicht hat, bevor das Zielsprachsignal die zweite vorherbestimmte Lage erreicht, Anhaltens des Normalisierens der eingehenden Kommandostimme.
Wie oben beschrieben bestimmt, in dem vierundzwanzigsten Aspekt, die Fähigkeit der Spracherkennungsvorrichtung geeignet einen Bereich zum Normalisieren der eingehenden Kommandostimme.
Gemäß einem fünfundzwanzigsten Aspekt, in dem zwanzigsten Aspekt, umfasst das Stimmlagen-Normalisierungsverfahren weiterhin einen Schritt des Erniedrigens des Zielsprachsignals in Stimmlage auf der Basis des vorherbestimmten Grads ausgehend von einem Lagenniveau der eingehenden Kommandostimme.
Gemäß einem sechsundzwanzigsten Aspekt, in dem fünfundzwanzigsten Aspekt, ist das Zielsprachsignal in Stimmlage begrenzt nach unten auf eine dritte vorherbestimmte Lage, und das Verfahren umfasst weiterhin einen Schritt des, wenn das Maximum der Wahrscheinlichkeiten die vorherbestimmte Wahrscheinlichkeit oder höher nicht erreicht hat, bevor das Zielsprachsignal die dritte vorherbestimmte Lage erreicht, Erhöhens des Zielsprachsignals in Stimmlage auf der Basis des vorherbestimmten Grades ausgehend von dem Lagenniveau der eingehenden Kommandostimme.
Wie oben beschrieben bestimmt, in dem sechsundzwanzigsten Aspekt, die Fähigkeit der Spracherkennungsvorrichtung geeignet einen Bereich zum Normalisieren der eingehenden Kommandostimme.
Gemäß einem siebenundzwanzigsten Aspekt, in dem sechsundzwanzigsten Aspekt, ist das Zielsprachsignal in Stimmlage nach unten begrenzt auf eine vierte vorherbestimmte Lage, und das Verfahren umfasst weiterhin einen Schritt des, wenn das Maximum der Wahrscheinlichkeiten die vorherbestimmte Wahrscheinlichkeit oder höher nicht erreicht hat, bevor das Zielsprachsignal die vierte vorherbestimmte Lage erreicht, Anhaltens des Normalisierens der eingehenden Kommandostimme.
Diese und andere Aufgaben, Eigenschaften, Aspekte und Vorteile der vorliegenden Erfindung werden ersichtlicher werden aus der folgenden detaillierten Beschreibung der vorliegenden Erfindung, wenn in Zusammenhang mit der beigefügten Zeichnung genommen.
KURZE BESCHREIBUNG DER ZEICHNUNG
1 ist ein Blockdiagramm, welches die Struktur einer Spracherkennungsvorrichtung zeigt, die mit einer Stimmlagennormalisierungsvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung ausgestattet ist;
2 ist ein Blockdiagramm, welches einen Sprachanalysator von 1 im Detail zeigt;
3 ist ein Diagramm, welches Frequenzspektren von Stimmen zeigt, die in Stimmlage variiert sind;
4 ist ein Diagramm zur Unterstützung des beispielhaften Erklärens der Stimmlagenveränderung von Sprachwellenformen und eines darauf angewandten Verfahrens der Stimmlagenveränderung;
5 ist ein Flussdiagramm, welches den Betrieb der Stimmlagennormalisierungsvorrichtung von 1 zeigt;
6 ist ein Flussdiagramm, welches den detaillierten Betrieb der Stimmlagennormalisierungsvorrichtung in einer in 5 gezeigten maximalen Wahrscheinlichkeit Pmax (Ni) Unterroutine zeigt; und
7 ist ein Blockdiagramm, welches die Struktur einer herkömmlichen Spracherkennungsvorrichtung zeigt.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Mit Bezug auf 1 wird eine Spracherkennungsvorrichtung beschrieben, in die eine Vorrichtung zum Normalisieren der Stimmlage gemäß einer Ausführungsform der vorliegenden Erfindung eingebaut ist. Eine Spracherkennungsvorrichtung VRAp enthält einen A/D-Konverter 1, eine Stimmlagen-Normalisierungsvorrichtung Tr, Mustersprachdatenspeicher 13 und Sprachanalysator 15. Der Mustersprachdatenspeicher 13 speichert Frequenzmuster Psf für jedes von einer Vielzahl von Wörtern, auf die sich bei der Spracherkennung bezogen wird. Die Frequenzmuster Psf werden mit einem vorherbestimmten Timing ausgegeben. Hier wird ein Laut oder Stimme, die durch einen Benutzer erzeugt wurde, von einem Spracheingabemittel (nicht gezeigt) eingenommen, das aus einem Mikrofon und einem Verstärker besteht, und wird dann der Spracherkennungsvorrichtung VRAp als ein Analogsignal Sva bereitgestellt.
Die so strukturierte Spracherkennungsvorrichtung VRAp gibt an einen Controller 17 ein Signal Ss aus, das den Betriebsstatus der darin befindlichen Bestandteile anzeigt. In Antwort darauf erzeugt der Controller 17 ein Steuersignal Sc zum Steuern des Betriebs dieser Bestandteile, d.h. den umfassenden Betrieb der Spracherkennungsvorrichtung VRAp. Man bemerke hierin, dass das Betriebsstatussignal Ss, das Steuersignal Sc und der Controller 17 wohl bekannt sind und daher nicht beschrieben werden, solange nicht anderweitig nötig.
Der A/D-Konverter 1 wendet auf das analoge Stimmensignal Sva eine A/D-Konversion an und erzeugt ein digitales Sprachsignal Svd. Die Stimmlagennormalisierungsvorrichtung Tr verändert die Stimmlage des digitalen Sprachsignals Svd um ein vorherbestimmtes Niveau und erzeugt ein in Stimmlage normalisiertes digitales Sprachsignal Svc, dessen Stimmlage hin zu einer optimalen Stimmlage für die Spracherkennungsvorrichtung VRAp normalisiert ist. Dieses in Stimmlage normalisierte digitale Sprachsignal Svc wird der Spracherkennungsverarbeitung unterworfen, um den Befehl wahrzunehmen, mit welchem der Benutzer versucht hat, seinen oder ihren Willen auszudrücken. Aus diesem Blickwinkel ist das in Stimmlage normalisierte digitale Sprachsignal Svc eine Kommandostimme, die mündlich durch ein Wort/Wörter ausgedrückt wurde.
Der Sprachanalysator 15 wendet eine FFT (schnelle Fourier-Transformation) auf das in Stimmlage normalisierte Sprachsignal Svc an und erhält ein Frequenzmuster Psvc (nicht gezeigt) dessen. Aus dem Mustersprachdatenspeicher 13 liest der Sprachanalysator 15 sukzessive all die Mustersprachdaten aus. Hier bestehen die Mustersprachdaten aus einer Vielzahl von Paaren von Frequenzmustern Psf Code Sr, entsprechend unterschiedlichen Worten. Der Sprachanalysator 15 liest auch aus dem Mustersprachdatenspeicher 13 die Mustersprachdaten für jedes Wort aus. Hier bestehen die Mustersprachdaten aus den Frequenzmustern Psf und einem Code Sr. Der Sprachanalysator 15 vergleicht dann, für jedes Wort, das Frequenzmuster Psf in den Mustersprachdaten mit den Frequenzmustern Psvc des in Stimmlage normalisierten digitalen Sprachsignals Svc. Auf diese Weise wird eine Wahrscheinlichkeit P berechnet, welche den Grad der Übereinstimmung zwischen dem Frequenzmuster Psf und dem Frequenzmuster Psvc anzeigt.
Die Berechnung der Wahrscheinlichkeit P wird mittels einer herkömmlichen Technologie gemacht, typisiert durch ein verstecktes Markov-Modell, das später beschrieben werden wird. Unter den Wahrscheinlichkeiten P, die für all die Wörter berechnet werden, die in den Mustersprachdaten gefunden wurden, wird auf den Maximalwert als maximale Wahrscheinlichkeit Bezug genommen. Der Code Sr, welcher der maximalen Wahrscheinlichkeit Pmax entspricht, wird als Code maximaler Wahrscheinlichkeit Srp bezeichnet.
Basierend auf der maximalen Wahrscheinlichkeit Pmax autorisiert die Stimmlagen-Normalisierungsvorrichtung Tr ein Wort, dessen Frequenzmuster Psf mit dem Frequenzmuster Psvc übereinstimmt, als erkannt. Zur Autorisierung wird auf einen vorherbestimmten Schwellenwert Bezug genommen, der Übereinstimmungsreferenz Pth genannt wird. Genauer bestimmt die Stimmlagen-Normalisierungsvorrichtung Tr ein Wort, das die maximale Wahrscheinlichkeit Pmax größer als die Übereinstimmungsreferenz Pth hat, als mit der eingehenden Kommandostimme übereinstimmend. Dann autorisiert die Stimmlagen-Normalisierungsvorrichtung Tr, dass die eingehende Kommandostimme korrekt erkannt ist.
Wenn die Autorisierung etabliert wurde, gibt die Stimmlagen-Normalisierungsvorrichtung Tr ein Übereinstimmungsautorisierungssignal Sj an den Sprachanalysator 15. In Antwort auf das Signal Sj gibt der Sprachanalysator 15 einen Code maximaler Wahrscheinlichkeit Srp aus, der anzeigend für das autorisierte Wort (sprachautorisierte Musterdaten) ist. In diesem Sinne wird sich auf den Code maximaler Wahrscheinlichkeit Srp als Erkennungscode Srp bezogen.
Andererseits, wenn die maximale Wahrscheinlichkeit Pmax kleiner als die Übereinstimmungsreferenz Pth in Wert ist, passt die Stimmlagen- Normalisierungsvorrichtung Tr das digitale Sprachsignal Svd in Stimmlage nur um einen vorherbestimmten Grad an und erzeugt so wieder das in Stimmlage normalisierte digitale Sprachsignal Svc. Basierend darauf wird dann die obige Prozedur wiederholt, bis irgendein Wort autorisiert wird. Genauer wird der Vergleich in Frequenzmustern für jedes Wort in den Mustersprachdaten gemacht. Jedoch wird der Autorisierungsprozess nur auf das Wort angewandt, das die maximale Wahrscheinlichkeit Pmax hat.
Hierin enthält, wie in 1 gezeigt, die Stimmlagen-Normalisierungsvorrichtung Tr einen Speicher 3, Auslese-Controller 5, Stimmlagenoptimierer 9 und Auslesetakt-Controller 11. Der Stimmlagenoptimierer 9 autorisiert Übereinstimmung zwischen dem stimmlagennormalisierten digitalen Sprachsignal Svc und einem bestimmten Wort in den Mustersprachdaten auf der Basis der maximalen Wahrscheinlichkeit Pmax, die von dem Sprachanalysator 15 bereitgestellt wird.
Um genauer zu sein, wenn die Übereinstimmungsreferenz Pth größer ist als die maximale Wahrscheinlichkeit Pmax in Wert, so autorisiert der Stimmlagenoptimierer 9 eine solche Übereinstimmung nicht. Falls dies der Fall ist, gibt der Stimmlagenoptimierer 9 ein Stimmlagen-Anpassungssignal Si an den Auslesetakt-Controller 11 aus. Dies wird gemacht, um das in Stimmlage normalisierte digitale Sprachsignal Svc, das der Stimmlagen-Normalisierungsvorrichtung Tr (dem Sprachanalysator 15) bereitgestellt wird, um einen Stimmlagen-Anpassungsgrad Ni für den nächsten Autorisierungsprozess anzupassen.
Hierin ist der Buchstabe i, der sowohl in dem Stimmlagenanpassungsgrad Ni und dem Stimmlagen-Anpassungssignal Si gefunden wird, ein Index, welcher den Grad zur Stimmlagenanpassung spezifiziert. In dieser Ausführungsform, obwohl der Stimmlagenanpassungsindex i beispielhaft eine positive oder eine negative ganze Zahl ist, ist dies nicht beschränkend und beliebig. In dieser Ausführungsform stimmt der Stimmlagenanpassungsindex i mutmaßlich, in Wert, mit einer Stimmlagen-Anpassungszyklus des in Stimmlage normalisierten digitalen Sprach signals Svc überein. Hierin bezeichnet daher der Stimmlagen-Anpassungsindex i den Stimmlagen-Anpassungszyklus, falls notwendig.
In Antwort auf das Stimmlagen-Anpassungssignal Si gibt der Auslesetakt-Controller 11 einen Auslesetakt Scc an den Speicher 3 aus. Dieser Auslesetakt Scc verändert das in Stimmlage normalisierte digitale Sprachsignal Svc in Stimmlage (hoch oder niedrig) um den vorherbestimmten Grad von Ni.
Der Auslese-Controller 5 überwacht das digitale Sprachsignal Svd in dem Speicher 3 und gibt ein Auslese-Steuersignal Src aus. Das Auslese-Steuersignal Src steuert den Speicher 3 so, einen Teil aus dem digitalen Sprachsignal Svd mit einem Timing zu extrahieren, das durch den Auslesetakt Scc spezifiziert ist. Der Teil ist eine unabhängige Lauteinheit(en), welche die eingehende Kommandostimme strukturieren, die in dem digitalen Sprachsignal Svc enthalten ist, und das als das in Stimmlage normalisierte digitale Sprachsignal Svc ausgelesen wird.
Der Speicher 3 liest daher das digitale Sprachsignal Svd aus, das darin gespeichert ist, mit dem Timing, das durch den Auslesetakt Scc spezifiziert ist, so dass das in Stimmlage normalisierte digitale Sprachsignal Svc, das dem eingehenden Kommando entspricht, ausgegeben wird. Das in Stimmlage normalisierte digitale Sprachsignal Svc ist ein Signal, das erhalten wurde durch Verändern des digitalen Sprachsignals Svd in Stimmlage um den Stimmlagen-Anpassungsgrad Ni, der durch das Stimmlagen-Anpassungssignal Si spezifiziert ist.
Der Stimmlagen-Anpassungsgrad Ni braucht nicht konstant zu sein, sondern ist beliebig variabel. Sicherlich bestimmt die Fähigkeit der Spracherkennungsvorrichtung VRAp (insbesondere die Kombination des Sprachanalysators 15 und der Mustersprachdaten) natürlich den zulässigen Bereich des Stimmlagen-Anpassungsgrads Ni. Hiernach wird sich auf das in Stimmlage normalisierte digitale Signal Svc, das um den Stimmlagen-Anpassungsgrad Ni angepasst wurde, als in Stimmlage normalisiertes digitales Sprachsignal Svc(Ni) bezogen. Falls notwendig, wird sich auch auf andere Signale in der gleichen Weise bezogen.
Mit Bezug auf das in Stimmlage normalisierte digitale Sprachsignal Svc, dessen Stimmlage angepasst wurde, berechnet der Sprachanalysator 15 die Wahrscheinlichkeit P für jedes Wort (M Wörter) in den Mustersprachdaten, die im Mustersprachdatenspeicher 13 gespeichert sind. Hier ist M eine beliebige ganze Zahl gleich oder größer als 1 und gleich der Anzahl an Codes Sr, welche die Frequenzmuster Psf haben. In diesem Sinn ist M die gesamte Anzahl an Wörtern in den Mustersprachdaten.
Wie in 2 gezeigt, enthält der Sprachanalysator 15 einen Bestimmer der maximalen Wahrscheinlichkeit 15a und eine übereinstimmungsautorisierte Codeausgabe 15b. Der Mustersprachdatenspeicher 13 gibt ein Frequenzmuster Psf(m) an den Bestimmer der maximalen Wahrscheinlichkeit 15a aus und gleichzeitig einen dem entsprechenden Code Sr(m) an die übereinstimmungsautorisierte Codeausgabe 15b.
Die übereinstimmungsautorisierte Codeausgabe 15b behält den Wert des Codes Sr(m) bei, bis der nächste Code Sr(m+1) kommt. Hierin ist m eine beliebige ganze Zahl von 1 bis einschließlich M und ist ein Parameter, welcher einen beliebigen Code anzeigt oder ein beliebiges der Frequenzmuster Psf1 bis PsfM, welche den M Wörtern in dem Mustersprachdatenspeicher 13 gespeicherten Mustersprachdaten entsprechen.
Basierend auf dem von dem Mustersprachdatenspeicher 13 bereitgestellten Frequenzmustern Psf(m) und dem in Stimmlage normalisierten digitalisierten Sprachsignal Svc(Ni) findet der Bestimmer der maximalen Wahrscheinlichkeit 15a eine maximale Wahrscheinlichkeit Pmax(Ni) für dieses in Stimmlage normalisierte digitale Sprachsignal Svc(Ni). Dann gibt der Bestimmer der maximalen Wahrscheinlichkeit 15 die maximale Wahrscheinlichkeit Pmax(Ni) an dem Stimmlagenoptimierer 9 aus und ein Code-Zurückbehaltungssignal Csr an die übereinstimmungsautorisierte Codeausgabe 15b.
In Antwort auf das Code-Zurückbehaltungssignal Csr behält die übereinstimmungsautorisierte Codeausgabe 15b den gegenwärtigen Code Sr(m) als einen autorisierungspotentiellen Code Srp' bei. Wie später beschrieben werden wird, unter der Bedingung, dass die Wahrscheinlichkeit P (d.h. maximale Wahrscheinlichkeit Pmax(Ni)) die Übereinstimmungsreferenz Pth oder größer ist, wird der Code Sr für ein Wort, das die maximale Wahrscheinlichkeit Pmax(Ni) hat, autorisiert, der Code Srp zu sein, welcher dem digitalen Sprachsignal Svd entspricht, äquivalent zu der eingehenden Kommandostimme (analoges Sprachsignal Sva). Das ist der Grund, warum der Code Sr(m), der die maximale Wahrscheinlichkeit Pmax (Ni) anzeigt, als der autorisierungspotentielle Code Srp' seiend identifiziert wird. Hierin wird dieser autorisierte Code als der übereinstimmungsautorisierte Code Srp' seiend identifiziert.
Die übereinstimmungsautorisierte Codeausgabe 15b gibt den übereinstimmungsautorisierten Code Srp nach außen der Spracherkennungsvorrichtung VRAp aus, basierend auf dem Code-Zurückbehaltungssignal Csr von dein Bestimmer maximaler Wahrscheinlichkeit 15a, dem Code Sr(m) von dem Mustersprachdatenspeicher 13 und dem Übereinstimmungsautorisierungssignal Sj von dem Stimmlagenoptimierer 9. Genauer, nach Empfangen des in Stimmlage normalisierten digitalen Sprachsignals Svc(Ni), behält der Bestimmer maximaler Wahrscheinlichkeit 15a das Signal bei, bis ein anderes in Stimmlage normalisiertes digitales Sprachsignal Svc(Ni) kommt, das um einen weiteren Grad in Stimmlage angepasst wurde.
Der Mustersprachdatenspeicher 13 gibt sukzessive die zuvor gespeicherten Frequenzmuster Psf(m) aus, die den Wörtern entsprechen. Mit jeder Ausgabe davon wird das Frequenzmuster Psvc(Ni) des digitalen Sprachsignals Svc(Ni) verglichen, um die Wahrscheinlichkeit P(m) zu berechnen. Wenn die so berechnete Wahrscheinlichkeit P(m) die Wahrscheinlichkeit P(m+β) überschreitet, die bis dato als maximal betrachtet wurde, wird die berechnete Wahrscheinlichkeit P(Ni) mit der Wahrscheinlichkeit P(m) aktualisiert. Hier ist β eine beliebige ganze Zahl von 1 bis einschließlich m.
In Antwort auf eine solche Aktualisierung gibt der Bestimmer maximaler Wahrscheinlichkeit 15a das Code-Zurückbehaltungssignal Csr an die übereinstimmungsautorisierte Codeausgabe 15b aus. Das Code-Zurückbehaltungssignal Csr zeigt an, dass die Wahrscheinlichkeit P(m) des gegenwärtigen Frequenzmusters Psf(m) bis dato als maximal betrachtet wird. Diese Verarbeitung wird ausgeführt mit Bezug auf all die Frequenzmuster Psf1 bis PsfM für M Wörter, die in dem Mustersprachdatenspeicher 13 gespeichert sind, und dann wird die maximale Wahrscheinlichkeit Pmax(Ni) bestimmt. Danach wird die maximale Wahrscheinlichkeit Pmax(Ni) an den Stimmlagenoptimierer 9 zur Autorisierung ausgegeben. Auch wird das Autorisierungssignal Sr(m) für das Wort, welches die maximale Wahrscheinlichkeit Pmax(Ni) anzeigt, in der übereinstimmungsautorisierten Codeausgabe 15b gespeichert als der autorisierungspotentielle Code Srp'.
In dem Fall, dass das Code-Zurückbehaltungssignal Csr durch den Bestimmer maximaler Wahrscheinlichkeit 15a bereitgestellt wird, wird der gegenwärtige Code Sr(m), der bis dato als die maximale Wahrscheinlichkeit P habend betrachtet wurde, zurückbehalten als der autorisierungspotentielle Code Srp', bis das nächste Code-Zurückbehaltungssignal Csr kommt. Wenn es kommen würde, wird der Code Sr(m+γ) zu dieser Zeit als der der autorisierungspotentielle Code Srp' betrachtet. Dies macht es möglich, dass der Code Sr, der als die maximale Wahrscheinlichkeit Pmax(Ni) besitzend betrachtet wird, als der autorisierungspotentielle Code Srp' gespeichert ist. Hierin ist γ eine beliebige ganze Zahl von 1 bis einschließlich (M – m).
Wenn das in Stimmlage normalisierte digitale Sprachsignal Svc(Ni) gründlich mit allen Mustersprachdaten (Frequenzmustern Psf(m)), die dazu entsprechend sind, verglichen wurde, wird die Wahrscheinlichkeit P, die im Wert maximal ist, unter denen, die in dem Bestimmer maximaler Wahrscheinlichkeit 15a gefunden wurden, an den Stimmlagenoptimierer 9 ausgegeben als die maximale Wahrscheinlichkeit Pmax(Ni). In dem Stimmlagenoptimierer 9 wird die maximale Wahrscheinlichkeit Pmax(Ni) mit der Übereinstimmungsreferenz Pth verglichen.
Wenn die maximale Wahrscheinlichkeit Pmax(Ni) gleich ist oder größer als die Übereinstimmungsreferenz Pth, gibt der Stimmlagenoptimierer 9 das Übereinstimmungsautorisierungssignal Sj an die übereinstimmungsautorisierte Codeausgabe 15b aus. Das Übereinstimmungsautorisierungssignal Sj autorisiert den autorisierungspotentiellen Code Srp', der in der übereinstimmungsautorisierten Codeausgabe 15b gespeichert ist, als der übereinstimmungsautorisierte Code Srp seiend. In Antwort darauf autorisiert die übereinstimmungsautorisierte Codeausgabe 15b das Wort, das die maximale Wahrscheinlichkeit Pmax(Ni) hat, korrekt die eingehende Kommandostimme erkennt und gibt daher den übereinstimmungsautorisierten Code Srp aus.
Mit anderen Worten gibt die übereinstimmungsautorisierte Codeausgabe 15b den übereinstimmungsautorisierten Code Srp niemals aus, ohne das Übereinstimmungsautorisierungssignal Sj von dem Stimmlagenoptimierer 9 empfangen zu haben. Der übereinstimmungsautorisierte Code Srp bedeutet, dass die Wahrscheinlichkeit P (maximale Wahrscheinlichkeit Pmax) mit Bezug auf das in Stimmlage normalisierte digitale Sprachsignal Svc(Ni) größer ist als die Übereinstimmungsreferenz Pth.
Im Detail vergleicht der Stimmlagenoptimierer 9 mit der Übereinstimmungsreferenz Pth die maximale Wahrscheinlichkeit Pmax des Codes Sr, welcher dem in Stimmlage normalisierten digitalen Sprachsignal Scv(Ni) zur gegenwärtigen Verarbeitungszeit (i) entspricht. Dann bestimmt der Stimmlagenoptimierer 9, ob das Wort (autorisierungspotentieller Code Srp'), welche die maximale Wahrscheinlichkeit Pmax zu der gegenwärtigen Verarbeitungszeit (i) hat, bis dato korrekt erkannt wurde oder nicht. In diesem Fall fällt der autorisierungspotentielle Code Srp(i) zur gegenwärtigen Verarbeitungszeit nicht immer auf den autorisierungspotentiellen Code Srp'(i–1) zur vorhergehenden Verarbeitungszeit.
Wenn die maximale Wahrscheinlichkeit Pmax gleich oder größer ist als die Übereinstimmungsreferenz Pth, autorisiert der Stimmlagenoptimierer 9 den autorisierungspotentiellen Code Srp', der mit dem in Stimmlage normalisierten digitalen Sprachsignal Svc zusammenfällt, und gibt dann das Übereinstimmungsautorisierungssignal Sj an den Sprachanalysator 15 für diese Information aus. Nachdem er das Übereinstimmungsautorisierungssignal Sj empfangen hat, gibt der Sprachanalysator 15 den autorisierungspotentiellen Code Srp', der darin gespeichert ist, als den übereinstimmungsautorisierten Code Srp aus.
Als Nächstes wird mit Bezug auf 3 und 4 das grundlegende Arbeitsprinzip der Spracherkennungsvorrichtung VRAp beschrieben.
3 zeigt beispielhaft Frequenzspektren (Frequenzmuster Psvc), die erhalten wurden durch Unterwerfen des in Stimmlage normalisierten digitalen Sprachsignals Svc einer schnellen Fourier-Transformation in dem Sprachanalysator 15. In der Zeichnung zeigt eine seitliche Achse die Frequenz f an und eine longitudinale Stärke A. Darin zeigt beispielhaft eine gestrichpunktete Linie L1 ein typisches Frequenzspektrum des digitalen Sprachsignals Scd an, das eine von einem Mann geäußerte Stimme enthält, während eine unterbrochene Linie L2 ein typisches Frequenzspektrum des digitalen Sprachsignals Svd zeigt, das eine von einer Frau oder einem Kind geäußerte Stimme enthält.
Eine durchgehende Linie Ls zeigt ein beispielhaftes Frequenzspektrum (Frequenzmuster Psf) eines Worts (Code Sr) an, das in dem Mustersprachdatenspeicher 13 als das Mustersprachdatum zur Spracherkennung gespeichert ist. Das Wort ist dasjenige, welches den Frequenzspektren von Stimmen entspricht, die durch Linien L1 und L2 angezeigt sind. Im Allgemeinen, sogar wenn die gleiche Stimme (Wort) geäußert wird, wie durch die gestrichpunktete Linie L1 angezeigt, bedeckt das Frequenzspektrum für den Mann den niedrigeren Frequenzbereich verglichen mit der Musterstimme. Andererseits, wie durch die unterbrochene Linie L2 angezeigt, bedeckt diejenige für die Frau oder das Kind den höheren Frequenzbereich.
Indem solche Frequenzspektren in Betracht gezogen werden, geht der Sprachanalysator 15 durch Vergleich zwischen den Frequenzmustern Psvc des in Stimmlage normalisierten digitalen Sprachsignals Svc, das durch die Linien L1 oder L2 typisiert wird, und die Frequenzmuster Psf(m) für jedes Wort (Sr(m)) in den Mustersprachdaten, typisiert durch die Linie Ls. Dann wird der Grad der Übereinstimmung P(m) für jedes Wort (Sr(m)) berechnet. Eine solche Berechnung der Wahrscheinlichkeit P(m) kann gemacht werden unter der herkömmlichen Technologie, wie verstecktes Markov-Modell.
Die Mustersprachdaten (Ls), die in dem Mustersprachdatenspeicher 13 gespeichert sind, werden oft so gesetzt, dass sie auf dem mittleren Niveau der Stimme des Mannes (L1) und der Stimme der Frau (L2) sind. Wenn ihre Stimmen extrem hoch oder niedrig sind, sind daher deren Frequenzen (L1, L2) zu einem größeren Grad unterschiedlich zu den Mustersprachdaten Ls. Demzufolge kann, sogar wenn das Wort korrekt ist, die Wahrscheinlichkeit P dessen die Übereinstimmungsreferenz Pth nicht erreichen, was die Sprachkorrektur verfehlen lässt.
Daher, in der vorliegenden Erfindung, falls die maximale Wahrscheinlichkeit Pmax(m) unter den M Wörtern, die in den Mustersprachdaten gespeichert sind, die Übereinstimmungsreferenz Pth nicht erfüllt, wird das Stimmlagenniveau des in Stimmlage normalisierten digitalen Sprachsignals Svc als der Grund dafür betrachtet. Daher wird die Stimmlage angepasst (hoch oder niedrig).
Um genau zu sein, wenn die maximale Wahrscheinlichkeit Pmax(m), die durch den Sprachanalysator 15 erkannt wurde, von dem Stimmlagenoptimierer 9 als die Übereinstimmungsreferenz Pth nicht erreichend bestimmt wurde, wird das Stimmlagen-Anpassungssignal Si an den Auslesetakt-Controller 11 ausgegeben. Das Stimmlagen-Anpassungssignal Si wurde so gesetzt, um das in Stimmlage normalisierte digitale Sprachsignal Svc in Stimmlage um den vorherbestimmten Grad von Ni anzupassen.
Wie im Vorhergehenden beschrieben, gibt der Speicher 3 das in Stimmlage angepasste digitale Sprachsignal Svc(Ni) an den Sprachanalysator 15 aus, das in Stimmlage um den Grad von Ni angepasst wurde. Darin wird das in Stimmlage normalisierte digitale Sprachsignal Svc(Ni) der oben beschriebenen Sprachanalyse unterworfen, so dass die maximale Wahrscheinlichkeit Pmax berechnet wird. In diesem Fall zeigt das Wort, das während der Sprachanalyse zur vorherigen Verarbeitungszeit (i–1) die maximale Wahrscheinlichkeit Pmax(i–1) angezeigt hat, nicht notwendigerweise die maximale Wahrscheinlichkeit Pmax(i) zur gegenwärtigen Verarbeitungszeit (i) an.
Dies kommt daher, dass, wie mit Bezug auf 3 beschrieben, die Wahrscheinlichkeit P(m) zu einem erheblichen Grad variiert, abhängend von der Nähe zwischen den Frequenzmustern Psvc(Ni) des in Stimmlage normalisierten digitalen Sprachsignals Svc(Ni), beispielhaft angezeigt durch die Linien L1 oder L2, und den Frequenzmustern Psf(m) der Musterstimme, beispielhaft angezeigt durch die Linie Ls. Als Ergebnis, wenn die Nähe der Stimmlage ungenügend ist, kann das Wort, das nicht dem in Stimmlage normalisierten digitalen Sprachsignal Svc entspricht, in Wahrscheinlichkeit P fehlerhaft höher werden im Vergleich mit dem dazu entsprechenden Wort.
Hier gilt, je größer die Nähe der Stimmlage, desto größer die Wahrscheinlichkeit P des korrekten Worts. Mit Fokus auf diesen Gesichtspunkt wird in dieser Erfindung die Übereinstimmungsreferenz Pth gemäß der Fähigkeit der Spracherkennungsvorrichtung VRAp gesetzt. Wenn die maximale Wahrscheinlichkeit Pmax gleich oder größer als die Übereinstimmungsreferenz Pth ist, wird das dazu entsprechende Wort als durch Stimme korrekt erkannt autorisiert.
Das heißt, dass in der vorliegenden Erfindung die Stimmlage des in Stimmlage normalisierten digitalen Sprachsignals Svc durch Anpassung normalisiert wird, bis die maximale Wahrscheinlichkeit Pmax die Übereinstimmungsreferenz Pth erfüllt. Auf diese Weise basiert das Auffinden des korrekten Wortes nicht auf jedem Wort, sondern nur auf der maximalen Wahrscheinlichkeit Pmax, wodurch die Last an Datenverarbeitung beträchtlich vermindert wird. Auch wird jedes einzelne Wort, das in den Mustersprachdaten enthalten ist, zur Spracherkennung ins Ziel genommen, wodurch Spracherkennung schnell und korrekt gemacht wird.
Mit Bezug auf 4 wird die Stimmlagennormalisierungsvorrichtung Tr (Auslesetakt-Controller 11) zu einem weiteren Grad für dessen Stimmlagenveränderung beschrieben. In der Zeichnung zeigt eine seitliche Achse die Zeit t und eine longitudinale Stimmstärke A. Eine Wellenform WS zeigt die Veränderung einer Stimmwellenform (Frequenz Psf(m)) über die Zeit, gespeichert in dem Mustersprachdatenspeicher 13.
Eine Wellenform WL zeigt ein Frequenzmuster Psvc (z.B. die Stimme eines Mannes), die niedriger in Stimmlage ist als die Mustersprachdaten, während eine Wellenform Wh ein Frequenzmuster (z.B. die Stimme einer Frau oder eines Kindes) zeigt, das höher in Stimmlage als die Mustersprachdaten ist. In 4 bezeichnen Bezugszeichen PL, PS und PH jeweils eine Periode der Wellenformen, WS, WL bzw. WH. Die Perioden PL und PH korrespondieren jeweils mit einem Umkehrwert einer Grundstimmfrequenz fi, während die Periode PS ein Umkehrwert einer Grundmustersprachenfrequenz fs entspricht.
Um die Wellenform WL in Stimmlage in Übereinstimmung mit der Wellenform WS zu verändern, braucht es nur, die Wellenform WL mit einem Takt auszulesen, der schneller als ein Abtasttakt ist, der verwendet wurde, um eine eingehende Kommandostimmenwellenform der A/D-Konversion zu unterwerfen. Um solch eine Veränderung auf einmal zu machen, kann die Frequenz des Auslesetakts Scc auf Vielfache von PL/PS gesetzt werden. Falls gesetzt, wird die Stimmlage auf Mehrfache von PL/PS gesetzt. In Anbetracht dessen, dass die Periode PL des aktuellen in Stimmlage normalisierten digitalen Sprachsignals Svc variabel ist, wird die Stimmlage bevorzugterweise im vorherbestimmten Grad von Ni angepasst. Daher wird in der Erfindung die Frequenz des Auslesetakts Scc auf einen Wert gesetzt, der dem Stimmlagenanpassungswert von Ni entspricht. Hierin wird der Auslesetakt Scc ähnlich gesetzt in dem Fall, dass die Wellenform WH in Übereinstimmung mit der Wellenform WS verändert wird.
Als solches wird die Stimmlage des digitalen Sprachsignals Svd in Übereinstimmung mit der der Musterstimme verändert, so dass das in Stimmlage normalisierte digitale Sprachsignal Svc erhalten wird. Das Problem hierin ist, dass Erhöhen der Stimmlage dazu führt, dass die Zeitachse der Sprachwellenform kürzer wird, und umgekehrt, und auch die Geschwindigkeit ändert. Um die Geschwindigkeit anzupassen, wird eine Addition oder Dezimierung der Vokalwellenformen ausgeführt. Da dies in der bekannten Technik ist und nicht Gegenstand der vorliegenden Erfindung ist, wird hierin weder Beschreibung noch Angabe gegeben. Zudem kann die Frequenz des Auslesetakts einfach verändert werden mit einer bekannten Technik, indem ein Teilen eines Mastertaktes verwendet wird.
Mit Bezug auf 5 und 6 für Flussdiagramme wird als Nächstes der Betrieb der Bestandteile in der Stimmlagennormalisierungsvorrichtung Tr beschrieben, die in der Spracherkennungsvorrichtung VRAp ausgestattet ist. Sobald die Spracherkennungsvorrichtung VRAp aktiviert wurde, wird der Betrieb der Spracherkennung, der in 5 gezeigt ist, gestartet. Zuerst wird in Schritt S2 die Stimmlagennormalisierungsvorrichtung Tr initialisiert. Um genau zu sein, wird der Index i zum Anpassen der Stimmlage des in Stimmlage normalisierten digitalen Sprachsignals Svc um den Grad von Ni auf 0 gesetzt. Auch werden, nach Anpassen des in Stimmlage normalisierten digitalen Sprachsignals Svc, dessen zulässige maximale und minimale Stimmlagen Nmax bzw. Nmin auf einen vorherbestimmten Wert gesetzt. Hierin zeigt i=0 an, dass das in Stimmlage normalisierte digitale Sprachsignal Svc gleich in Stimmlage zu dem digitalen Sprachsignal Svd ist. Das Verfahren geht dann zu Schritt S4.
In Schritt S4 wird die Stimme eines Sprechers, die z.B. über ein Mikrofon eingefangen wurde, sequentiell einem A/D-Konverter 1 als ein analoges Sprachsignal Sva eingegeben. Die Prozedur geht dann zu Schritt S6.
In Schritt S6 unterwirft der A/D-Konverter 1 das analoge Sprachsignal Sva einer A/D-Konversion. Dann wird das so erzeugte digitale Sprachsignal Svd an den Speicher 3 ausgegeben. Das Verfahren geht zu Schritt S8.
In Schritt S8 speichert der Speicher 3 jedes einkommende digitale Sprachsignal Svd. Das Verfahren geht dann zu Schritt S10.
In Schritt S10 überwacht der Auslese-Controller 5 den Speicher 3 für dessen Eingabestatus, um zu bewerten, ob die sprachliche Eingabe des Sprechers (analoges Sprachsignal Sva) durch ist. In dieser Beurteilung wird sich z.B. auf eine Länge von Zeit bezogen, die keine Eingabe eines analogen Sprachsignals Sva hat, um zu sehen, ob ein vorherbestimmter Referenzschwellenwert erreicht wird. Alternativ kann der Sprecher geeignete Mittel verwenden, um die Sprachverarbeitungsvorrichtung VRAp oder die Stimmlagennormalisierungsvorrichtung Tr darüber zu informieren, dass die Signaleingabe nun durch ist.
Wenn der Sprecher weiter spricht, so ist die Beurteilung Nein, daher kehrt das Verfahren zum Schritt S4 zurück, um die Schritte S4, S6 und S8 zum Eingeben der Stimme des Sprechers, Erzeugen des digitalen Sprachsignals Svd und Speichern des Signals in dem Speicher 3 zu wiederholen. Sobald das analoge Sprachsignal Sva, das ein unabhängiger Sprachstring ist, der durch einen oder mehrere Lauteinheiten strukturiert ist, die durch den Sprecher geäußert wurden, vollständig eingegeben wurde, wird die Bestimmung Ja. Dies bedeutet, dass der Speicher 3 durch ist mit Speichern des digitalen Sprachsignals Svd, das die von dem Sprecher geäußerte Stimme enthält. Daher geht das Verfahren zum Schritt S12.
In Schritt S12 bezieht sich der Auslese-Controller 5 auf den Speicher 3 für das digitale Sprachsignal Svd und den Auslesetakt Scc, der darin gespeichert ist, um das in Stimmlage normalisierte digitale Sprachsignal Svc(Ni) auszulesen. Hier wird das in Stimmlage normalisierte digitale Sprachsignal Svc(Ni) erhalten durch Anpassen (Erhöhen oder Erniedrigen) des digitalen Sprachsignals Svd in Stimmlage um einen vorherbestimmten Grad durch Ni, was äquivalent zu dem Stimmlagen-Anpassungssignal Si ist, auf das zur Erzeugung des Auslesetakts Scc bezogen wird.
Es sei hierin bemerkt, dass, wenn das in Stimmlage normalisierte digitale Sprachsignal Svc(Ni) aus dem Speicher 3 zum ersten Mal ausgelesen wird, der Stimmlagen-Anpassungsgrad 0 ist, da der Index i in Schritt 2 initialisiert wurde. Mit anderen Worten wird das digitale Sprachsignal Svd als das in Stimmlage normalisierte digitale Sprachsignal Svc(Ni) ausgelesen, ohne in der Stimmlage angepasst zu werden. Das Verfahren geht dann zu Schritt S14.
In Schritt S14, was das in Stimmlage normalisierte digitale Sprachsignal Svc(Ni) betrifft, das so in Stimmlage um den Grad Ni angepasst wurde, das durch den Index i spezifiziert wird, unterwirft der Sprachanalysator 15 das Signal einer Fourier-Transformation, so dass ein Frequenzmuster Psvc(Ni) erzeugt wird. Danach wird die Frequenzspektrenanalyse ausgeführt. Das Verfahren geht dann zu Schritt #100 für die Unterroutine zur Erkennung der maximalen Wahrscheinlichkeit Pmax(Ni).
In Schritt #100 wird das Frequenzmuster Psvc(Ni) des in Stimmlage normalisierten digitalen Sprachsignals Svc(Ni) verglichen mit dem Frequenzmuster Psf(m), welches das Mustersprachdatum für jedes Wort, das aus dem Mustersprachdaten speicher 13 ausgelesen wird, und dann wird die Wahrscheinlichkeit P(m), welche den Grad der Übereinstimmung dazwischen anzeigt, erkannt. Eine solche Technik zum Vergleichen der Muster von digitalen Sprachsignalen und Mustersprachdaten miteinander zum Berechnen der Wahrscheinlichkeit P wird durch das versteckte Markov-Modell typisiert, das die bekannte Technik ist.
Mit Bezug auf 6 wird als Nächstes der detaillierte Betrieb in Schritt #100 beschrieben. Sobald die Unterroutine für maximale Wahrscheinlichkeit Pmax(Ni) in #100 gestartet wurde, wird zuerst, in Schritt S102, aus dem Speicher 3 das Frequenzmuster Psvc(Ni) des in Stimmlage normalisierten digitalen Sprachsignals Svc(Ni) an den Bestimmer maximaler Wahrscheinlichkeit 15a in dem Sprachanalysator 15 bereitgestellt. Das Verfahren geht dann zu Schritt S104.
In Schritt S104 wird der Sprachanalysator 15 initialisiert.
Genauer wird in dem Bestimmer maximaler Wahrscheinlichkeit 15a m auf 1 gesetzt und die maximale Wahrscheinlichkeit Pmax(Ni) auf 0. Weiter wird in der Übereinstimmungsautorisierungs-Codeausgabe 15b der autorisierungspotentielle Code Srp' auf 0 gesetzt. Das Verfahren geht dann zum Schritt S106.
Im Schritt S106 werden, von dem Mustersprachdatenspeicher 13, die Frequenzmuster Psf(m) und Code Sr(m) in den Bestimmer maximaler Wahrscheinlichkeit 15a bzw. die Übereinstimmungsautorisierungs-Codeausgabe 15b eingegeben. Das Verfahren geht dann zum Schritt S108.
In Schritt S108 berechnet der Bestimmer maximaler Wahrscheinlichkeit 15a die Wahrscheinlichkeit P(m), welche den Grad der Übereinstimmung zwischen dem Frequenzmuster Psvc(Ni), das in Schritt S102 eingegeben wurde, und dem Frequenzmuster Psf(m), empfangen in Schritt S106, anzeigt. Das Verfahren geht dann zum Schritt S110.
In Schritt S110 bestimmt der Bestimmer maximaler Wahrscheinlichkeit 15a, ob die maximale Wahrscheinlichkeit P(m) gleich oder größer als die maximale Wahrscheinlichkeit Pmax ist oder nicht. Falls ja, geht das Verfahren zu Schritt 5112.
In Schritt S112 wird die augenblickliche Wahrscheinlichkeit P(m) in dem Bestimmer maximaler Wahrscheinlichkeit 15a auf die maximale Wahrscheinlichkeit Pmax(Ni) gesetzt. Das Verfahren geht dann zu Schritt S114.
In Schritt S114 gibt der Bestimmer maximaler Wahrscheinlichkeit 15a ein Code-Zurückbehaltungssignal Csr aus an die Übereinstimmungsautorisierungs-Codeausgabe 15b. Das Verfahren geht dann zu Schritt S116.
In Schritt S116 setzt die Übereinstimmungsautorisierungs-Codeausgabe 15b, in Antwort auf das Code-Zurückbehaltungssignal Csr, den Code Sr(m), der gegenwärtig darin gespeichert ist, auf den autorisierungspotentiellen Code Srp'. Das Verfahren geht dann zu Schritt S118.
Andererseits, falls es im Schritt S110 als Nein bestimmt wird, d.h., wenn die Wahrscheinlichkeit P(m) bestimmt wird als kleiner als die maximale Wahrscheinlichkeit Pmax zu sein, überspringt das Verfahren die Schritte S112, S114 und S116 und geht zum Schritt S118.
In Schritt S118 wird Bestimmung gemacht, ob m gleich M ist oder nicht. Im Fall, dass m kleiner ist als M, wird es als Nein bestimmt, und dann geht das Verfahren zu Schritt S120.
In Schritt S120 wird m um 1 erhöht, und dann kehrt das Verfahren zum Schritt S106 zurück. Danach wird die Verarbeitung in den Schritten S106 bis S120 wiederholt, bis die in Schritt S118 gemachte Bestimmung Ja wird, indem m gleich zu M durch Inkrementieren wird.
In Schritt S118 wird die Wahrscheinlichkeit P(m) bestimmt für die Frequenzmuster Psf(1) bis Psf(M) in den Mustersprachdaten, die in dem Mustersprachdatenspeicher 13 gespeichert sind, und welche von den berechneten Wahrscheinlichkeiten P(m) die maximale Wahrscheinlichkeit Pmax ist. Als solches wird, mit Bezug auf jedes Autorisierungssignal Sr, das in dem Mustersprachdatenspeicher 13 gespeichert ist, die maximale Wahrscheinlichkeit Pmax und der autorisierungspotentielle Code Srp' berechnet. Dann geht das Verfahren zu Schritt S122.
In Schritt S122 gibt die maximale Wahrscheinlichkeit 15a die maximale Wahrscheinlichkeit Pmax(Ni), die darin intern gespeichert ist, in Schritt S112 an den Stimmlagenoptimierer 9 aus.
Auf diese Weise sucht der Sprachanalysator 15 nach der Wahrscheinlichkeit P, die unter denen für die Mustersprachdaten (Sprachfrequenzmuster Psf) am höchsten ist und das Sprachsignal (stimmlagennormalisiertes digitales Sprachsignal Svc, welches die eingehende Kommandostimme (analoges Sprachsignal Sva) enthält, und gibt dann nur die Mustersprachdaten (Übereinstimmungsautorisierungscode Srp) aus, welches das maximale Pmax(Ni) zeigt. Dieses ist das Ende des Schrittes #100.
In Schritt S18 bestimmt der Stimmlagenoptimierer 9, ob die maximale Wahrscheinlichkeit Pmax(Ni) gleich oder größer als die Übereinstimmungsreferenz Pth ist oder nicht. In dem Fall, dass die maximale Wahrscheinlichkeit Pmax(Ni) kleiner ist als die Übereinstimmungsreferenz Pth, d.h., wenn es nicht genügend ist, zu bestimmen, ob die Spracherkennung korrekt gemacht wurde, sogar wenn die Mustersprachdaten die höchste Wahrscheinlichkeit P zu der gegebenen Verarbeitungszeit (i) zeigen, wird Nein bestimmt und das Verfahren geht zu Schritt S20.
In Schritt S20 wird sich auf ein maximales Stimmlagen-Flag FNmax bezogen, welches zeigt, ob der Grad Ni der Stimmlagenanpassung für das in Stimmlage normalisierte digitale Sprachsignal Svc(Ni) eine zulässige maximale Stimmlage Nmax erreicht hat. In dem Fall, dass das maximale Stimmlagen-Flag FNmax nicht 1 ist, d.h., wenn der Stimmlagenanpassungsgrad Ni das maximale Stimmlagen-Flag FNmax noch nicht erreicht, wird Nein bestimmt, und das Verfahren geht zu Schritt S22.
In Schritt S22 wird bestimmt, ob der Stimmlagenanpassungsgrad Ni gleich oder größer als die zulässige maximale Stimmlage Nmax ist. Falls Nein, bestimmt wird, geht das Verfahren zu Schritt S24.
In Schritt S24 wird der Index i zum Anpassen der Stimmlage um 1 inkrementiert. Dies bedeutet, dass der Stimmlagenanpassungsgrad Ni erhöht wird (höher gesetzt wird). Das Verfahren geht dann zu Schritt S26.
In Schritt S26 erzeugt der Stimmlagenoptimierer 9 ein Stimmlagenanpassungssignal Si zur Ausgabe an den Auslesetakt-Controller 11. Danach kehrt das Verfahren zu Schritt S12 zurück.
Einerseits, falls in Schritt S22 Ja bestimmt wird, d.h., wenn der Stimmlagenanpassungsgrad Ni bestimmt wird als die zulässige maximale Stimmlage Nmax erreicht zu haben, geht das Verfahren zu Schritt S28.
In Schritt S28 wird das maximale Stimmlagen-Flag FNmax auf 1 gesetzt. Das Verfahren geht dann zu Schritt S30.
In Schritt S30 wird der Index i zum Anpassen der Stimmlage auf 0 zurückgesetzt. Das Verfahren geht dann zu Schritt S32.
In Schritt S32 wird bestimmt, ob der Stimmlagenanpassungsgrad Ni kleiner oder gleich einer zulässigen minimalen Stimmlage Nmin ist. Falls Nein bestimmt wird, geht das Verfahren zu Schritt S34.
In Schritt S34 wird der Index i um 1 dekrementiert. Dies bedeutet, dass der Stimmlagenanpassungsgrad Ni erniedrigt wird (niedriger gesetzt). Um genauer zu sein, verglichen mit dem digitalen Sprachsignal Svd, wird das in Stimmlage normalisierte digitale Sprachsignal Svc(Ni) in Stimmlage erniedrigt, um im Stimmlagenanpassungsgrad Ni niedriger zu sein. Das Verfahren geht dann zu Schritt S26.
Andererseits, wenn in Schritt 32 Ja bestimmt wird, d.h., wenn der Stimmlagenanpassungsgrad Ni bestimmt wird als die zulässige minimale Stimmlage Nmin oder kleiner zu sein, ist dies das Ende des Verfahrens. Dies zeigt an, dass das analoge Sprachsignal Sva stimmlich nicht erkennbar war.
In dem Fall, dass in Schritt S20 Ja bestimmt wird, d.h., wenn das maximale Stimmlagen-Flag 1 ist (gesetzt in Schritt S28), geht das Verfahren zu Schritt S32.
In dem Fall, dass in Schritt S 18 Ja bestimmt wird, d.h., wenn die maximale Wahrscheinlichkeit Pmax(Ni) gleich oder größer als die Übereinstimmungsreferenz Pth ist, so zeigt dies, dass das Wort (Srp), das dem entspricht, korrekt ist. Das Verfahren geht dann zu Schritt S36.
In Schritt S36 gibt der Bestimmer maximaler Wahrscheinlichkeit 15a das Übereinstimmungsautorisierungssignal Sj an die Übereinstimmungsautorisierungs-Codeausgabe 15b aus. Das Verfahren geht dann zu Schritt S38.
In Antwort auf das Ubereinstimmungsautorisierungssignal Sj gibt die Übereinstimmungsautorisierungs-Codeausgabe 15b, extern zu der Spracherkennungsvorrichtung VRAp, den autorisierungspotentiellen Code Srp' aus, der in Schritt S116 (#100) gesetzt wurde, als den Übereinstimmungsautorisierungscode Srp. Dies ist das Ende des Betriebs der Spracherkennungsvorrichtung VRAp.
Indem sich auf die oben erwähnten Flussdiagramme bezogen wird, wird der Betrieb der Spracherkennungsvorrichtung VRAp in einer bestimmten Weise beschrieben. Sobald die Spracherkennungsvorrichtung VRAp zu ihrem Betrieb der Spracherkennung gestartet wurde, wird die Stimmlagennormalisierungsvorrichtung Tr in Schritt S2 initialisiert. Dementsprechend wird der Stimmlagenanpassungsindex i auf 0 gesetzt, und die zulässige maximale Stimmlage Nmax und die zulässige minimale Stimmlage Nmin werden jeweils auf einen vorherbestimmten Wert gesetzt.
In den Schritten S4, S6, S8 und S10 wird die Stimme des Sprechers in dem Speicher 3 als das digitale Sprachsignal Svd gespeichert.
In Schritt S12 wird das digitale Sprachsignal Svd aus dem Speicher 3 gemäß dem Auslesetakt Scc(i) ausgelesen, das dem Index i (i=0), der in Schritt S2 initialisiert wurde, entspricht. Dementsprechend wird das in Stimmlage normalisierte digitale Sprachsignal Svc(Ni) an den Sprachanalysator 15 ausgegeben. Hier, da i=0, ist der Stimmlagen-Anpassungsgrad Ni=0 und das in Stimmlage normalisierte digitale Sprachsignal Svc(Ni) ist gleich in Stimmlage zu dem digitalen Sprachsignal Svd.
Der Sprachanalysator 15 führt die Frequenzspektrenanalyse durch mit Bezug auf das in Stimmlage normalisierte digitale Sprachsignal Svc(Ni) (S14). Weiter werden die Wahrscheinlichkeiten P(1) bis P(M) erkannt für unter den Frequenzmustern Psvc(Ni) des in Stimmlage normalisierten digitalen Sprachsignals Svc(Ni) bei i = 0 und den Frequenzmustern Psf(1) bis Psf(M) der Mustersprachdaten, die aus dem Mustersprachspeicher 13 gelesen wurden. Danach wird nach dem Mustersprachdatum (autorisationspotentieller Code Srp') gesucht, das die höchste Wahrscheinlichkeit P darunter hat, so dass die maximale Wahrscheinlichkeit Pmax berechnet wird. Auf diese Weise wird die Wahrscheinlichkeit Pmax(Ni), welche dem gegenwärtigen Stimmlagenanpassungsgrad Ni entspricht, erzeugt (#100).
Wenn die maximale Wahrscheinlichkeit Pmax gleich oder größer als die Übereinstimmungsreferenz Pth ist, autorisiert der Stimmlagenoptimierer 9 die Sprachdaten (autorisationspotentieller Code Srp') des Wortes, das die maximale WahrscheinlichkeitPmax zeigt als in Übereinstimmung mit dem digitalen Sprachsignal Svd, d.h. der Stimme des Sprechers (S18). Der Stimmlagenoptimierer 9 gibt auch das Übereinstimmungsautorisationssignal Sj aus (S36), um den Sprachanalysator 15 dazu zu bringen, den autorisationspotentiellen Code Srp' als den übereinstimmungsautorisierten Code Srp auszugeben (S38).
Andererseits, wenn die maximale Wahrscheinlichkeit Pmax(Ni) kleiner ist als die Übereinstimmungsreferenz Pth, wird in Schritt S18 bestimmt, dass die Spracherkennung nicht korrekt gemacht wurde, ungeachtet des Mustersprachdatum, das zu der Zeit die höchste Wahrscheinlichkeit P zeigt. Dann wird in Schritt S20 Bestimmung gemacht, ob der Stimmlagenanpassungsgrad Ni seine obere Grenze erreicht hat (d.h., ob die Stimmlage so weit einstellbar erhöht wurde) mit Bezug auf das maximale Stimmlagen-Flag FNmax zum Auslesen des in Stimmlage normalisierten digitalen Sprachsignals Svc(Ni) aus dem digitalen Sprachsignal Svd. Falls bestimmt wird, dass dies noch nicht der Fall ist, wird in Schritt S22 bestätigt, dass der Stimmlagenanpassungsgrad Ni noch nicht die zulässige maximale Stimmlage Nmax erreicht hat. Dann wird in Schritt S24 der Index i zum Anpassen der Stimmlage um 1 inkrementiert. Auf der Basis des Stimmlagenanpassungssignals Si, das den inkrementierten Index i anzeigt, wird der Auslesetakt Scc erzeugt zur Ausgabe an den Speicher 3.
In Schritt S12, gemäß dem Auslesetakt Scc, gibt der Speicher 3 das in Stimmlage normalisierte digitale Sprachsignal Svc(Ni) aus, dessen Stimmlage um den Grad von Ni erhöht wurde, der für das digitale Sprachsignal Svd durch den Index i spezifiziert ist. Danach wird die Verarbeitung in den Schritten S20 bis S34 wiederholt, bis die in Schritt S18 gemachte Bestimmung Ja wird, d.h., bis die maximale Wahrscheinlichkeit Pmax als gleich oder größer als die Übereinstimmungsreferenz Pth bestimmt wird.
Um genauer zu sein, bis der Stimmlagenanpassungsgrad Ni in Schritt S22 bestimmt wird als die zulässige maximale Stimmlage Nmax erreicht zu haben, werden die Schleifen, die jede aus den Schritten S20 bis S26 und S12 bis S18 bestehen, wiederholt, außer die in Schritt S 18 gemachte Bestimmung wird Ja. Auf diese Weise, für jedes in Stimmlage normalisierte digitale Sprachsignal Svc(Ni), dessen Sprachlage um den vorherbestimmten Grad von Ni erhöht wurde (S24, S26, S212), wird die maximale Wahrscheinlichkeit Pmax (S14, #100) berechnet.
Während solcher Verarbeitung, für jede Erhöhung in Stimmlage des in Stimmlage normalisierten digitalen Sprachsignals Svc(Ni) um Grad von Ni, können die Mustersprachdaten, welche die höchste Wahrscheinlichkeit Pmax zeigen, wechseln. Im Detail zeigt das Musterdatum, das die maximale Wahrscheinlichkeit Pmax zu der vorhergehenden Verarbeitungszeit (i – 1) zeigt, nicht notwendigerweise die maximale Wahrscheinlichkeit Pmax zur gegenwärtigen Verarbeitungszeit (i). Als solches, für jede Erhöhung um den vorherbestimmten Grad von Ni, wird die maximale Wahrscheinlichkeit Pmax des in Stimmlage normalisierten digitalen Sprachsignals Svc(Ni), auf das gezielt wird, mit der Übereinstimmungsreferenz Pth verglichen. Falls die maximale Wahrscheinlichkeit Pmax gleich oder größer als die Übereinstimmungsreferenz Pth ist, wird bewertet, dass die Spracherkennung unter besten Umständen gemacht wurde und dass daher der Code Sr, welcher dem Mustersprachdatum entspricht, das die maximale Wahrscheinlichkeit Pmax zeigt, als der übereinstimmungsautorisierte Code Srp ausgegeben wird.
Wie aus dem Obigen gemäß der vorliegenden Erfindung bekannt ist, wird eine Bedingung für optimale Spracherkennung nur auf die maximale Wahrscheinlichkeit Pmax gesetzt. Auf dieses Weise, bis diese Bedingung erfüllt ist, wird die Stimmlagenanpassung des in Stimmlage normalisierten digitalen Sprachsignals Svc gemacht, indem alle der Mustersprachdaten in Betracht gezogen werden, ungeachtet derer Wahrscheinlichkeit P. In dieser Ausführungsform wird eine Stimmlage eines eingehenden analogen Sprachsignals Sva (digitales Sprachsignal Svd) als ein Bezug genommen (i = 0), so dass zuerst Erhöhung in Stimmlage gemacht wird (S22, S24, S26) um den vorherbestimmten Grad von Ni. Dann, bis die Bedingung als erfüllt bestimmt wird (S12, S14, #100) (Nein in Schritt S18), wird die Stimmlage erhöht bis zu der zulässigen maximalen Stimmlage Nmax (S22).
In dem Fall, dass die Bedingung nicht als erfüllt bestimmt wird (Nein in Schritt S18), auch wenn die Stimmlage bis zur zulässigen maximalen Stimmlage Nmax erhöht wird, wird diesmal Stimmlagenanpassung gemacht in einem abnehmenden Anpassungsmodus. Der Modus kann umgeschaltet werden, indem das maximale Stimmlagen-Flag FNmax auf 1 gesetzt wird (S28) und der Index i zum Anpassen der Stimmlage auf 0 (Schritt S30).
In dem abnehmenden Anpassungsmodus ist das maximale Stimmlagen-Flag FNmax (S20), wodurch die Verarbeitung des Erhöhens der Stimmlage übersprungen wird (S22, S24). Hier, bis der Stimmlagenanpassungsgrad Ni die zulässige minimale Stimmlage Nmin erreicht (Nein in Schritt S32), wird der Index i um 1 erniedrigt (S34), so dass das Stimmlagenanpassungssignal Si erzeugt wird (S34).
Als ein Ergebnis solcher Verarbeitung wird zuerst Vermindern in Stimmlage gemacht, um den vorherbestimmten Grad von Ni, indem die Stimmlage des analogen Sprachsignals Sva (digitales Sprachsignal Svd) als eine Referenz (i = 0) genommen wird (S32, S34, S26, S12, S14, #100). Dann, bis die Bedingung zur optimalen Spracherkennung als erfüllt bestimmt wird (Nein in Schritt S18), wird die Stimmlage herunter bis zur zulässigen minimalen Stimmlage Nmin erniedrigt. Wenn die maximale Wahrscheinlichkeit Pmax nicht als gleich oder größer als die Übereinstimmungsreferenz Pth bestimmt wird (Ja in Schritt S18) in dem Modus des Erhöhens und Erniedrigens der Stimmlage, wird die Verarbeitung als Ja in Schritt S32 beendet.
In dieser Ausführungsform wird das in Stimmlage normalisierte digitale Sprachsignal Svc zuerst in Stimmlage erhöht, ausgehend von dem Stimmlagenniveau des digitalen Sprachsignals Svd, bis zu der zulässigen maximalen Stimmlage Nmax. Man bemerke hierin, dass danach die Stimmlage des in Stimmlage normalisierten digitalen Sprachsignals Svc, das bis zu der zulässigen maximalen Stimmlage Nmax erhöht wurde, zurück auf die Stimmlage des digitalen Sprachsignals Svd gebracht wird und es dann begonnen wird, herunter auf die zulässige minimale Stimmlage Nmin vermindert zu werden. Jedoch ist zuerst Vermindern und dann Erhöhen der Stimmlage einfacher als die obige Offenbarung.
Alternativ kann in Stimmlage normalisierte digitale Sprachsignal Svc zuerst in Stimmlage erhöht werden bis ganz hinauf zu der zulässigen maximalen Stimmlage Nmax und dann erniedrigt werden herunter zu der zulässigen minimalen Stimmlage Nmin um Grade. Dies ist auch einfacher als die obige Offenbarung.
Oder, anstelle des Bereichs zwischen der zulässigen minimalen Stimmlage Nmin und der zulässigen maximalen Stimmlage Nmax, die auf die Stimmlagenanpassung angewendet werden, mag ein Bereich zwischen dem Stimmlagenniveau des digitalen Sprachsignals Scd und der zulässigen minimalen Stimmlage Nmin angewandt werden oder ein Bereich zwischen dem Stimmlagenniveau des digitalen Sprachsignals Svd und der zulässigen maximalen Stimmlage Nmax. Dies ist auch einfacher als die obige Offenbarung.
Wie im Vorhergehenden in der vorliegenden Erfindung beschrieben, wird die Stimmlage normalisiert durch wiederholtes Anpassen unter der Bedingung, dass die maximale Wahrscheinlichkeit Pmax die Übereinstimmungsreferenz Pth erfüllt. Auf diese Weise, während jedes Wort in den Mustersprachdaten zur Spracherkennung in Betracht gezogen wird, wird sich allein auf die maximale Wahrscheinlichkeit Pmax zur Wortauswahl bezogen. Dementsprechend wird die Datenverarbeitung wesentlich in Last vermindert, was erfolgreich zu einer schnellen und korrekten Spracherkennung führt.
Während die Erfindung im Detail beschrieben wurde, so ist die vorhergehende Beschreibung in allen Aspekten illustrativ und nicht beschränkend. Es wird verstanden werden, dass zahlreiche andere Modifikationen und Variationen erdacht werden können, ohne den Bereich der Erfindung zu verlassen.

Claims

Stimmlagen-Normalisierungsvorrichtung (Tr) ausgestattet in einer Spracherkennungsvorrichtung (VRAp) zum Erkennen einer eingehenden Kommandostimme (Sva), welche von irgendeinem Sprecher geäußert wird, basierend auf Musterdaten (Psf) für eine Vielzahl von Wörtern, und verwendet, um die eingehende Kommandostimme (Svc) zu normalisieren, um in einer optimalen Lage für Spracherkennung zu sein, wobei die Vorrichtung umfasst: Zielspracherzeugungsmittel (9, 11, 3, 5; S24, S34, S26, S12) zum Erzeugen eines Zielsprachsignals (Svc(Ni)) durch Verändern der eingehenden Kommandostimme (Svd) auf Basis eines vorherbestimmten Grades (Ni); Wahrscheinlichkeitsberechnungsmittel (15; S14, #100) zum Berechnen einer Wahrscheinlichkeit (P), welche anzeigend für einen Grad der Übereinstimmung unter dem Zielsprachsignal (Svc(Ni)) und den Wörtern in den Musterdaten (Psf) ist; und Stimmlagenveränderungsmittel (9, 11, 3, 5; S18, S20, S32) zum wiederholten Verändern des Zielsprachsignals (Scv(Ni)) in Stimmlage, bis ein Maximum (Pmax) der Wahrscheinlichkeiten (P) eine vorherbestimmte Wahrscheinlichkeit (Pth) oder höher erreicht.
Stimmlagen-Normalisierungsvorrichtung (Tr) nach Anspruch 1, worin, wenn das Maximum (Pmax) der Wahrscheinlichkeiten (P) kleiner als die vorherbestimmte Wahrscheinlichkeit (Pth) ist, die Stimmlagenveränderungsmittel (9, 11, 3, 5) Stimmlagenanpassungsmittel (S24, S34) beinhalten zum Erhöhen oder Erniedrigen des Zielsprachsignals (Svc(Ni)) auf der Basis des vorherbestimmten Grades (Ni).
Stimmlagen-Normalisierungsvorrichtung (Tr) nach Anspruch 2, weiterhin umfassend: Speichermittel (3; S8) zum zeitweisen Speichern der eingehenden Kommandostimme (Svd); Auslesesteuermittel (5, S4, S6, S8) zum Auslesen eines Strings der eingehenden Kommandostimme (Svd) aus den Speichermitteln (3) und Erzeugen des Zielsprachsignals (Svd); und Auslesetaktsteuermittel (11, S22) zum Erzeugen eines Auslesetaktsignals (Scc) mit einem Zeittakt, der durch Frequenz bestimmt ist, und Ausgeben des Zeittaktes (Scc) an die Speichermittel (3), um mit dem dadurch spezifizierten Timing das Zielsprachsignal (Svc(Ni)) in Frequenz zu verändern auf Basis des vorherbestimmten Grades (Ni).
Stimmlagen-Normalisierungsvorrichtung (Tr) nach Anspruch 2, worin das Zielsprachsignal (Svc(Ni)) ausgehend von einem Lagenniveau der eingehenden Kommandostimme (Scd) in Stimmlage erhöht wird, basierend auf dem vorherbestimmten Grad (Ni).
Stimmlagen-Normalisierungsvorrichtung (Tr) nach Anspruch 4, worin das Zielsprachsignal (Svc(Ni)) in Stimmlage begrenzt ist bis zu einer ersten vorherbestimmten Lage (Mmax), und wenn das Maximum (Pmax) der Wahrscheinlichkeiten (P) die vorherbestimmte Wahrscheinlichkeit (Pth) oder höher nicht erreicht hat, bevor das Zielsprachsignal (Svc(Ni)) die erste vorherbestimmte Lage (Mmax) erreicht, das Zielsprachsignal (Svc(Ni)) in Stimmlage erniedrigt wird basierend auf dem vorherbestimmten Grad (Ni) ausgehend von dem Lagenniveau der eingehenden Kommandostimme (Svd).
Stimmlagen-Normalisierungsvorrichtung (Tr) nach Anspruch 5, worin das Zielsprachsignal (Svc(Ni)) in Stimmlage begrenzt ist nach unten auf eine zweite vorherbestimmte Lage (Mmin), und wenn das Maximum (Pmax) der Wahrscheinlichkeiten (P) die vorherbestimmte Wahrscheinlichkeit (Pth) oder höher nicht erreicht, bevor das Zielsprachsignal (Svc(Ni)) die zweite vorherbestimmte Lage (Mmin) erreicht, die eingehende Kommandostimme angehalten wird, normalisiert zu werden.
Stimmlagen-Normalisierungsvorrichtung (Tr) nach Anspruch 2, worin das Zielsprachsignal (Svc(Ni)) in Stimmlage erniedrigt wird auf den vorbestimmten Grad (Ni) ausgehend von einem Lagenniveau der eingehenden Kommandostimme (Scd).
Stimmlagen-Normalisierungsvorrichtung (Tr) nach Anspruch 7, worin das Zielsprachsignal (Svc(Ni)) in Stimmlage begrenzt ist nach unten auf eine dritte vorherbestimmte Lage (Mmin), und wenn das Maximum (Pmax) der Wahrscheinlichkeiten (P) die vorherbestimmte Wahrscheinlichkeit (Pth) oder höher nicht erreicht hat, bevor das Zielsprachsignal (Svc(Ni)) die dritte vorherbestimmte Lage (Mmin) erreicht, das Zielsprachsignal (Svc(Ni)) in Stimmlage erhöht wird, basierend auf dem vorherbestimmten Grad (Ni) ausgehend von dem Lageniveau der eingehenden Kommandostimme (Svd).
Stimmlagen-Normalisierungsvorrichtung (Tr) nach Anspruch 8, worin das Zielsprachsignal (Svc(Ni)) in Stimmlage begrenzt ist nach unten auf eine vierte vorherbestimmte Lage (Mmax), und wenn das Maximum (Pmax) der Wahrscheinlichkeiten (P) die vorherbestimmte Wahrscheinlichkeit (Pth) oder höher nicht erreicht hat, bevor das Zielsprachsignal (Svc(Ni)) die vierte vorherbestimmte Lage (Mmax) erreicht, die eingehende Kommandostimme angehalten wird, normalisiert zu werden.
Spracherkennungsvorrichtung (VRAp) zum Erkennen einer eingehenden Kommandostimme (Sva), welche zur Spracherkennung optimal normali siert ist basierend auf Musterdaten (Psf) für eine Vielzahl von Wörtern, wobei die Vorrichtung umfasst: Zielspracherzeugungsmittel (9, 11, 3, 5; S24, 534, 526, S12) zum Erzeugen eines Zielsprachsignals (Svc(Ni)) durch Verändern der eingehenden Kommandostimme (Svd) auf Basis eines vorherbestimmten Grades (Ni); Wahrscheinlichkeitsberechnungsmittel (15; S14, #100) zum Berechnen einer Wahrscheinlichkeit (P), welche anzeigend für einen Grad der Übereinstimmung unter dem Zielsprachsignal (Svc(Ni)) und den Wörtern in den Musterdaten (Psf) ist; und Stimmlagenveränderungsmittel (9, 11, 3, 5; S18, S20, S32) zum wiederholten Verändern des Zielsprachsignals (Scv(Ni)) in Stimmlage, bis ein Maximum (Pmax) der Wahrscheinlichkeiten (P) eine vorherbestimmte Wahrscheinlichkeit (Pth) oder höher erreicht.
Spracherkennungsvorrichtung (VRAp) nach Anspruch 10, worin, wenn das Maximum (Pmax) der Wahrscheinlichkeiten (P) kleiner als die vorherbestimmte Wahrscheinlichkeit (Pth) ist, das Zielspracherzeugungsmittel Stimmlagenanpassungsmittel (S24, S34) beinhaltet zum Erhöhen oder Erniedrigen des Zielsprachsignals (Svc(Ni)) auf der Basis des vorherbestimmten Grades (Ni).
Spracherkennungsvorrichtung (VRAp) nach Anspruch 11, weiterhin umfassend: Speichermittel (3; S8) zum zeitweisen Speichern der eingehenden Kommandostimme (Svd); Auslesesteuermittel (5, S4, S6, S8) zum Auslesen eines Strings der eingehenden Kommandostimme (Svd) aus den Speichermitteln (3) und Erzeugen des Zielsprachsignals (Svd); und Auslesetaktsteuermittel (11, S22) zum Erzeugen eines Auslesetaktsignals (Scc) mit einem Zeittakt, der durch Frequenz bestimmt ist, und Ausgeben des Zeittaktes (Scc) an die Speichermittel (3), um mit dem dadurch spezi fizierten Timing das Zielsprachsignal (Svc(Ni)) in Frequenz zu verändern auf Basis des vorherbestimmten Grades (Ni).
Spracherkennungsvorrichtung (VRAp) nach Anspruch 11, worin das Zielsprachsignal (Svc(Ni)) ausgehend von einem Lagenniveau der eingehenden Kommandostimme (Scd) in Stimmlage erhöht wird, basierend auf dem vorherbestimmten Grad (Ni).
Spracherkennungsvorrichtung (VRAp) nach Anspruch 13, worin das Zielsprachsignal (Svc(Ni)) in Stimmlage begrenzt ist nach oben bis zu einer ersten vorherbestimmten Lage (Mmax), und, wenn das Maximum (Pmax) der Wahrscheinlichkeiten (P) die vorherbestimmte Wahrscheinlichkeit (Pth) oder höher nicht erreicht hat, bevor das Zielsprachsignal (Svc(Ni)) die erste vorherbestimmte Lage (Mmax) erreicht, das Zielsprachsignal (Svc(Ni)) in Stimmlage erniedrigt wird basierend auf dem vorherbestimmten Grad (Ni) ausgehend von dem Lagenniveau der eingehenden Kommandostimme (Svd).
Spracherkennungsvorrichtung (VRAp) nach Anspruch 14, worin das Zielsprachsignal (Svc(Ni)) in Stimmlage begrenzt ist nach unten bis zu einer zweiten vorherbestimmten Lage (Mmin), und, wenn das Maximum (Pmax) der Wahrscheinlichkeiten (P) die vorherbestimmte Wahrscheinlichkeit (Pth) oder höher nicht erreicht hat, bevor das Zielsprachsignal (Svc(Ni)) die zweite vorherbestimmte Lage (Mmin) erreicht, die eingehende Kommandostimme angehalten wird, normalisiert zu werden.
Spracherkennungsvorrichtung (VRAp) nach Anspruch 11, worin das Zielsprachsignal (Svc(Ni)) in Stimmlage erniedrigt wird auf Basis des vorherbestimmten Grades (Ni) ausgehend von einem Lagenniveau der eingehenden Kommandostimme (Svd).
Spracherkennungsvorrichtung (VRAp) nach Anspruch 16, worin das Zielsprachsignal (Svc(Ni)) in Stimmlage begrenzt ist nach unten auf eine dritte vorherbestimmte Lage (Mmin), und, wenn das Maximum (Pmax) der Wahrscheinlichkeiten (P) die vorherbestimmte Wahrscheinlichkeit (Pth) oder höher nicht erreicht hat, bevor das Zielsprachsignal (Svc(Ni)) die dritte vorherbestimmte Lage (Mmin) erreicht hat, das Zielsprachsignal (Svc(Ni)) in Stimmlage erhöht wird, basierend auf dem vorherbestimmten Grad (Ni) ausgehend von dem Lageniveau der eingehenden Kommandostimme (Svd).
Spracherkennungsvorrichtung (VRAp) nach Anspruch 17, worin das Zielsprachsignal (Svc(Ni)) in Stimmlage begrenzt ist nach unten auf eine vierte vorherbestimmte Lage (Mmax), und, wenn das Maximum (Pmax) der Wahrscheinlichkeiten (P) die vorherbestimmte Wahrscheinlichkeit (Pth) oder höher nicht erreicht hat, bevor das Zielsprachsignal (Svc(Ni)) die vierte vorherbestimmte Lage (Mmax) erreicht, die eingehende Kommandostimme angehalten wird, normalisiert zu werden.
Stimmlagennormalisierungsverfahren, welches für eine Spracherkennungsvorrichtung (VRAp) verwendet wird zum Erkennen einer eingehenden Kommandostimme (Sva), welche durch irgendeinen Sprecher geäußert wird, basierend auf Musterdaten (Psf) für eine Vielzahl von Wörtern, und angewandt, um die eingehende Kommandostimme (Svc) zu normalisieren, so dass sie in einer optimalen Lage der Spracherkennung ist, wobei das Verfahren umfasst: einen Schritt (S24, S34, S26, S12) des Erzeugens eines Zielsprachsignals (Svc(Ni)) durch Verändern der eingehenden Kommandostimme (Svd) auf Basis eines vorherbestimmten Grades (Ni); einen Schritt (S14, #100) des Berechnens einer Wahrscheinlichkeit (P), welche anzeigend für einen Grad der Übereinstimmung zwischen dem Zielsprachsignal (Svc(Ni)) und den Wörtern in den Musterdaten (Psf) ist; und einen Schritt (S18, S20, S32) des wiederholten Veränderns des Zielsprachsignals (Svc(Ni)) in Stimmlage, bis ein Maximum (Pmax) der Wahrscheinlichkeiten (P) eine vorherbestimmte Wahrscheinlichkeit (Pth) oder höher erreicht.
Stimmlagennormalisierungsverfahren nach Anspruch 19, weiterhin umfassend einen Schritt (S24, S34) des, wenn das Maximum (Pmax) der Wahrscheinlichkeiten (P) kleiner als die vorherbestimmte Wahrscheinlichkeit (Pth) ist, Erhöhens oder Erniedrigens des Zielsprachsignals (Svc(Ni)) auf der Basis des vorherbestimmten Grades (Ni).
Stimmlagennormalisierungsverfahren nach Anspruch 20, weiterhin umfassend: einen Schritt (S8) des vorübergehenden Speicherns der eingehenden Kommandostimme (Svd); einen Schritt (S4, S6, S8) des Erzeugens des Zielsprachsignals (Svd) von einem String der vorübergehend gespeicherten eingehenden Kommandostimme (Svd); und einen Schritt (S22) des Bestimmens eines Zeittaktes durch Frequenz, auf solche Weise, um mit dem dadurch spezifizierten Timing das Zielsprachsignal (Svc) in Frequenz zu verändern auf der Basis des vorherbestimmten Grades (Ni).
Stimmlagennormalisierungsverfahren nach Anspruch 20, weiterhin umfassend einen Schritt (S24) des Erhöhens des Zielsprachsignals (Svc(Ni)) in Stimmlage auf der Basis des vorherbestimmten Grades (Ni) ausgehend von einem Lagenniveau der eingehenden Kommandostimme (Svd).
Stimmlagennormalisierungsverfahren nach Anspruch 22, worin das Zielsprachsignal (Svc(Ni)) in Stimmlage begrenzt ist nach oben auf eine erste vorherbestimmte Lage (Mmax), und das Verfahren weiterhin einen Schritt (S30, S34) umfasst des, wenn das Maximum (Pmax) der Wahrscheinlichkeiten (P) die vorherbestimmte Wahrscheinlichkeit (Pth) oder höher nicht erreicht hat, bevor das Zielsprachsignal (Svc(Ni)) die erste vorherbestimmte Lage (Mmax) erreicht, Erniedrigens des Zielsprachsignals (Svc(Ni)) in Stimmlage auf der Basis des vorherbestimmten Grades (Ni) ausgehend von dem Lagenniveau der eingehenden Kommandostimme (Svd).
Stimmlagennormalisierungsverfahren nach Anspruch 23, worin das Zielsprachsignal (Svc(Ni)) in Stimmlage begrenzt ist nach unten auf eine zweite vorherbestimmte Lage (Mmin), und das Verfahren weiterhin einen Schritt (S32) umfasst des, wenn das Maximum (Pmax) der Wahrscheinlichkeiten (P) die vorherbestimmte Wahrscheinlichkeit (Pth) oder höher nicht erreicht hat, bevor das Zielsprachsignall (Svc(Ni)) die zweite vorherbestimmte Lage (Mmin) erreicht, Anhaltens des Normalisierens der eingehenden Kommandostimme.
Stimmlagennormalisierungsverfahren nach Anspruch 20, weiterhin umfassend einen Schritt (S34) des Erniedrigens des Zielsprachsignals (Svc(Ni)) in Stimmlage auf der Basis des vorherbestimmten Grades (Ni) ausgehend von einem Lagenniveau der eingehenden Kommandostimme (Svd).
Stimmlagennormalisierungsverfahren nach Anspruch 25, worin das Zielsprachsignal (Svc(Ni)) in Stimmlage begrenzt ist nach unten auf eine dritte vorherbestimmte Lage (Mmin), und das Verfahren weiterhin einen Schritt (S24) umfasst des, wenn das Maximum (Pmax) der Wahrscheinlichkeiten (P) die vorherbestimmte Wahrscheinlichkeit (Pth) oder höher nicht erreicht hat, bevor das Zielsprachsig nal (Svc(Ni)) die dritte vorherbestimmte Lage (Mmin) erreicht, Erhöhens des Zielsprachsignals (Svc(Ni)) in Stimmlage auf der Basis des vorherbestimmten Grades (Ni) ausgehend von dem Lagenniveau der eingehenden Kommandostimme (Svd).
Stimmlagennormalisierungsverfahren nach Anspruch 26, worin das Zielsprachsignal (Svc(Ni)) in Stimmlage begrenzt ist nach unten auf eine vierte vorherbestimmte Lage (Mmax), und das Verfahren weiterhin einen Schritt (S32) umfasst des, wenn das Maximum (Pmax) der Wahrscheinlichkeiten (P) die vorherbestimmte Wahrscheinlichkeit (Pth) oder höher nicht erreicht hat, bevor das Zielsprachsignal (Svc(Ni)) die vierte vorherbestimmte Lage (Mmax) erreicht, Anhaltens des Normalisierens der eingehenden Kommandostimme.