DE69923191T2 - Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem - Google Patents

Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem Download PDF

Info

Publication number
DE69923191T2
DE69923191T2 DE69923191T DE69923191T DE69923191T2 DE 69923191 T2 DE69923191 T2 DE 69923191T2 DE 69923191 T DE69923191 T DE 69923191T DE 69923191 T DE69923191 T DE 69923191T DE 69923191 T2 DE69923191 T2 DE 69923191T2
Authority
DE
Germany
Prior art keywords
phrase
database
grammar file
grammar
appropriate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69923191T
Other languages
English (en)
Other versions
DE69923191D1 (de
Inventor
C. Dean WEBER
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ONE VOICE TECHNOLOGIES Inc
ONE VOICE TECHNOLOGIES Inc SAN DIEGO
Original Assignee
ONE VOICE TECHNOLOGIES Inc
ONE VOICE TECHNOLOGIES Inc SAN DIEGO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=22534628&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE69923191(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by ONE VOICE TECHNOLOGIES Inc, ONE VOICE TECHNOLOGIES Inc SAN DIEGO filed Critical ONE VOICE TECHNOLOGIES Inc
Publication of DE69923191D1 publication Critical patent/DE69923191D1/de
Application granted granted Critical
Publication of DE69923191T2 publication Critical patent/DE69923191T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Description

  • Hintergrund der Erfindung
  • I. Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf Spracherkennung für eine Computer-Benutzerschnittstelle. Insbesondere bezieht sich die vorliegende Erfindung auf ein neues Verfahren und ein System zur Benutzerschnittstellen-Interaktion mit einem Computer mittels Spracherkennung und Verarbeitung natürlicher Sprache.
  • II. Beschreibung des Stands der Technik
  • Mit der zunehmenden Bedeutung von Computern in der Gesellschaft, wurde es deutlich, dass viele Menschen große Schwierigkeiten haben, Computer zu verstehen und mit diesen zu kommunizieren. Ein Benutzer muss oft archaische Befehle und nicht intuitive Verfahren lernen, um den Computer zu bedienen. Die meisten PCs verwenden z.B. Betriebssysteme auf Windows-Basis, die weitgehend menügesteuert sind. Dies erfordert, dass der Benutzer lernt, welche Menübefehle oder Befehlssequenzen die gewünschten Ergebnisse bringen.
  • Weiterhin wird die herkömmliche Interaktion mit einem Computer oft durch manuelle Eingabevorrichtungen, wie Keyboards oder eine Maus, verlangsamt. Viele Computerbenutzer können nicht schnell maschinenschreiben. Folglich wird viel Zeit aufgewandt, Befehle und Wörter in den Computer mittels dieser manuellen Eingabevorrichtungen einzugeben. Es wird klar, dass ein einfacheres, schnelleres und intuitiveres Verfahren zur Kommunikation mit Computern erforderlich ist.
  • Ein vorgeschlagenes Verfahren zur Computer-Interaktion ist die Spracherkennung. Spracherkennung beinhaltet Software und Hardware, die zusammenwirken, um die menschliche Sprache hörbar zu detektieren und die detektierte Sprache in eine Reihe von Worten zu übersetzen. Wie bekannt ist, funktioniert Spracherkennung durch Zergliedern von durch die Hardware detektierten Tönen in kleinere nicht teilbare Töne, die Phoneme genannt werden. Phoneme sind klare Toneinheiten. Das Wort „those" z.B. besteht aus drei Phonemen. Das erste ist der Laut „th", der zweite „o" und der dritte „s". Die Spracherkennungs-Software versucht, die detektierten Phoneme mit bekannten Wörtern von einem gespeicherten Wörterbuch zu vergleichen. Ein Beispiel eines Spracherkennungssystems ist in dem US-Patent Nr. 4,783,803 „Speech recognition apparatus and method" gegeben, erteilt am 8.11.1998 in Namen von Dragon Systems, Inc., auf das hier Bezug genommen wird. Derzeit gibt es viele kommerziell erhältliche Spracherkennungs-Softwarepakete, die von Firmen wie Dragon Systems, Inc. und International Business Machines, Inc. vertrieben werden.
  • Eine Einschränkung dieser Spracherkennungs-Softwarepakete oder -systeme besteht darin, dass sie normalerweise nur Befehls-, Steuer- oder Diktierfunktionen ausführen. Somit muss der Benutzer immer noch ein Vokabular von Befehlen lernen, um den Computer zu betreiben.
  • Ein Vorschlag zur Verbesserung dieser Spracherkennungssysteme besteht darin, die detektierten Wörter mittels eines Verarbeitungssystems für natürliche Sprache zu verarbeiten. Die Verarbeitung natürlicher Sprache beinhaltet generell das Bestimmen einer konzeptionellen „Bedeutung" (z.B. was der Sprecher übermitteln möchte) der detektierten Worte durch Analysieren ihres grammatikalischen Verhältnisses und relativen Kontextes. Das US-Patent Nr. 4,887,212 mit dem Titel „Parser for natural language text", erteilt am 12.12.1989 im Namen von International Business Machines Corporation, auf das hier Bezug genommen wird, lehrt ein Verfahren zum Analysieren (Parsen) eines Eingabestroms von Worten mittels Wortisolierung, morphologischer Analyse, Nachschlagen im Wörterbuch und Grammatikanalyse.
  • Verarbeitung natürlicher Sprache zusammen mit Spracherkennung bietet ein leistungsstarkes Tool zum Betreiben eines Computers mittels gesprochener Worte im Vergleich zu manueller Eingabe, wie über eine Tastatur oder Maus. Ein Nachteil eines konventionellen Verarbeitungssystems natürlicher Sprache besteht darin, dass es die korrekte „Bedeutung" der von dem Spracherkennungssystem detektierten Worte nicht richtig bestimmt. In diesem Fall muss der Benutzer normalerweise den Satz neu zusammenstellen oder erneut sagen in der Hoffnung, dass das Verarbeitungssystem für natürliche Sprache die richtige „Bedeutung" bei nachfolgenden Versuchen feststellt. Dies kann natürlich wesentliche Verzögerungen mit sich bringen, da der Benutzer den gesamten Satz oder Befehl neu sagen muss.
  • Ein weiterer Nachteil von herkömmlichen Systemen besteht darin, dass die Verarbeitungszeit, die für die Spracherkennung erforderlich ist, unzulässig lang sein kann. Dies in erster Linie aufgrund der endlichen Sprache der Verarbeitungsquellen im Vergleich zu der großen Menge an zu verarbeitenden Informationen. Bei vielen herkömmlichen Spracherkennungsprogrammen ist z.B. die Zeit zum Erkennen der Äußerung aufgrund der Größe der durchsuchten Wörterbuchdatei lang.
  • Ein zusätzlicher Nachteil natürlicher Spracherkennungs- und Verarbeitungssystemen für natürliche Sprache besteht darin, dass sie nicht interaktiv sind. Als Folge ist eine konversationsartige Interaktion mit dem Computer nicht möglich. Der Benutzer muss dem Computer vollständige Konzepte übermitteln. Der Benutzer kann nicht in Satzfragmenten sprechen, da die Bedeutung dieser Satzfragmente verloren geht (was von der Bedeutung von vorherigen Äußerungen abhängt).
  • Die EP-A-0834862 offenbart ein Spracherkennungsverfahren, wobei auf der Basis eines Satzes von Untergrammatiken von Wendungen, die Schlüssel-Wendungen, semantisch bedeutende Teile eines Satzes enthalten, detektiert werden und irrelevante Teile verworfen werden.
  • Es ist eine interaktive Benutzerschnittstelle für einen Computer erforderlich, welche Spracherkennung und Verarbeitung natürlicher Sprache verwendet und die obengenannten Nachteile vermeidet.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung ist ein neuartiges und verbessertes System und Verfahren zur Interaktion mit einem Computer mittels Äußerungen, Sprachverarbeitung und Verarbeitung natürlicher Sprache. Allgemein umfasst das System einen Sprachprozessor zum Suchen in einer ersten Grammatikdatei nach einer passenden Wendung für die Äußerung und zum Suchen in einer zweiten Grammatikdatei nach der passenden Wendung, falls die passende Wendung nicht in der ersten Grammatikdatei gefunden wird. Das System beinhaltet auch einen Prozessor für natürliche Sprache zum Suchen in einer Datenbank nach einem passenden Eintrag für die passende Wendung; und eine Anwendungs-Schnittstelle zum Durchführen einer Maßnahme, die dem passenden Eintrag zugeordnet ist, wenn der passende Eintrag in der Datenbank gefunden wird.
  • Bei dem bevorzugten Ausführungsbeispiel aktualisiert der Prozessor für natürliche Sprache mindestens die Datenbank, die erste Grammatikdatei oder die zweite Grammatikdatei mit der passenden Wendung, wenn der passende Eintrag nicht in der Datenbank gefunden wurde.
  • Die erste Grammatikdatei ist eine kontext-spezifische Grammatikdatei. Eine kontext-spezifische Grammatikdatei ist eine, die Worte und Wendungen enthält, die höchst relevant für ein spezifisches Subjekt sind. Die zweite Grammatikdatei ist eine allgemeine Grammatikdatei. Eine allgemeine Grammatikdatei ist eine, welche Worte und Wendungen enthält, die nicht in Bezug auf einen Kontext interpretiert werden müssen. Das heißt, die Worte und Wendungen in der allgemeinen Grammatikdatei gehören nicht zu einem Stammkontext. Durch Durchsuchen der kontext-spezifischen Grammatikdatei vor dem Suchen in der allgemeinen Grammatikdatei, ermöglicht die vorliegende Erfindung, dass der Benutzer mit dem Computer eher in der Art einer Konversation kommuniziert, wobei die gesprochenen Worte, falls sie in der kontext-spezifischen Grammatikdatei gefunden werden, im Hinblick auf das zuletzt erörterte Thema interpretiert werden.
  • Bei einem weiteren Aspekt der vorliegenden Erfindung sucht der Sprachprozessor in einer Diktiergrammatik nach der passenden Wendung, wenn die passende Wendung nicht in der allgemeinen Grammatikdatei gefunden wird. Die Diktiergrammatik ist ein großes Vokabular von allgemeinen Worten und Wendungen. Dadurch, dass die kontext-spezifische und allgemeine Grammatik zuerst durchsucht werden, wird erwartet, dass die Spracherkennungszeit sich stark reduziert, da die kontextspezifische und allgemeine Grammatik physisch kleinere Dateien als die Diktiergrammatik sind.
  • Bei einem weiteren Aspekt der vorliegenden Erfindung ersetzt der Prozessor für natürliche Sprache mindestens ein Wort in der passenden Wendung bevor er in der Datenbank sucht. Dies kann durch einen variablen Ersetzer in dem Prozessor für natürliche Sprache erfolgen, um einen Platzhalter für das mindestens eine Wort in der passenden Wendung zu setzen. Durch Ersetzen gewisser Worte („Wortvariable" genannt) durch Platzhalter in der Wendung kann die Anzahl an Einträgen in der Datenbank bedeutend reduziert werden. Außerdem kann ein Pronomen-Ersetzer in dem Prozessor für natürliche Sprache einen richtigen Namen für Pronomen in der passenden Wendung ersetzen, wodurch benutzerspezifische Tatsachen in der Datenbank gespeichert werden können.
  • Bei einem weiteren Aspekt der vorliegenden Erfindung formatiert ein Zeichenreihen-Formatiertext die passende Wendung vor dem Durchsuchen der Datenbank. Ein Wortgewichter gewichtet ebenfalls einzelne Worte in der passenden Wendung gemäß einer relativen Bedeutung der einzelnen Worte vor dem Durchsuchen der Datenbank. Diese Schritte ermöglichen ein schnelleres, akkurateres Durchsuchen der Datenbank.
  • Eine Suchmaschine in dem Prozessor für natürliche Sprache erzeugt einen Vertrauenswert für den passenden Eintrag. Der Prozessor für natürliche Sprache vergleicht den Vertrauenswert mit einem Schwellenwert. Ein boolescher Tester stellt fest, ob eine erforderliche Anzahl an Worten aus der passenden Wendung in dem passenden Eintrag vorhanden sind. Dieser boolesche Test dient als Verifizierung der von der Suchmaschine gelieferten Ergebnisse.
  • Der Prozessor für natürliche Sprache fordert den Benutzer auf, ob der passende Eintrag eine korrekte Interpretation der Äußerung ist, falls die erforderliche Anzahl an Worten aus der passenden Wendung nicht in dem passenden Eintrag vorhanden ist, um Unklarheiten zu lösen. Der Prozessor für natürliche Sprache fordert vom Benutzer auch zusätzliche Informationen, falls der passende Eintrag keine korrekte Interpretation der Äußerung ist. Mindestens eines von Datenbank, erster Grammatikdatei und zweiter Grammatikdatei werden mit den zusätzlichen Informationen aktualisiert. Auf diese Weise „lernt" die vorliegende Erfindung adaptiv die Bedeutung von zusätzlichen Äußerungen, wobei die Effektivität der Benutzerschnittstelle verbessert wird.
  • Schließlich aktiviert der Sprachprozessor eine kontext-spezifische Grammatik, die dem passenden Eintrag zugeordnet ist, und sucht darin nach einer folgenden passenden Wendung für eine folgende Äußerung. Dadurch wird sichergestellt, dass die wichtigsten Worte und Wendungen zuerst gesucht werden, wodurch sich die Spracherkennungszeiten reduzieren.
  • Kurze Beschreibung der Zeichnungen
  • Die Merkmale, Ziele und Vorteile der vorliegenden Erfindung ergeben sich deutlicher aus der folgenden detaillierten Beschreibung in Verbindung mit den Zeichnungen, in welchen gleiche Bezugszeichen Entsprechungen zeigen.
  • 1 ist ein funktionelles Blockdiagramm eines beispielhaften Computersystems zur Verwendung mit der vorliegenden Erfindung;
  • 2 ist ein erweitertes funktionelles Blockdiagramm der CPU 102 und Speichermedium 108 des Computersystems von 1 der vorliegenden Erfindung;
  • 3A3D sind Flussdiagramme des Verfahrens der vorliegenden Erfindung; und
  • 4 ist ein Diagram von ausgewählten Spalten einer beispielhaften Verarbeitungs-(NLP) Datenbank für natürliche Sprache der vorliegenden Erfindung;
  • Detaillierte Beschreibung der bevorzugten Ausführungsformen
  • Die vorliegende Erfindung wird nun in Bezug auf ein funktionelles Blockdiagramm eines beispielhaften Computersystems 100 von 1 offenbart. In 1 beinhaltet das Computersystem 100 eine zentrale Verarbeitungseinheit (CPU) 102. Die CPU 102 kann ein beliebiger Mikroprozessor für allgemeine Zwecke oder ein bekanntes Mikrosteuersystem sein, der/das entsprechend programmiert ist, um das hier in Bezug auf 3A3D beschriebene Verfahren auszuführen. Die CPU 102 kann z.B. ein herkömmlicher Mikroprozessor wie ein Pentium II Prozessor sein, hergestellt von Intel Corporation oder dergleichen.
  • Die CPU 102 kommuniziert mit einer Mehrzahl von Peripheriegeräten, einschließlich einem Display 104, einer manuellen Eingabevorrichtung 106, einem Speichermedium 108, einem Mikrophon 110, einem Lautsprecher 112 und einem Dateneingangsport 114. Das Display 104 kann ein visuelles Display wie ein CRT, LCD-Bildschirm, berührungsempfindlicher Bildschirm oder andere bekannte Monitore zur visuellen Anzeige von Bildern und Texten für einen Benutzer sein. Die manuelle Eingabevorrichtung 106 kann eine herkömmliche Tastatur, ein Tastenfeld, eine Maus, ein Trackball oder eine andere Eingabevorrichtung sein, wie sie zur manuellen Eingabe von Daten bekannt sind. Das Speichermedium 108 kann ein herkömmlicher Lese/Schreib-Speicher wie ein Magnetlaufwerk, ein Floppy-Disk-Laufwerk, ein CD-Rom-Laufwerk, ein Speicherchip oder eine andere Speichervorrichtung sein, die herkömmlicherweise zum Speichern und zur Wiedergabe von Daten verwendet werden. In bedeutender Weise kann das Speichermedium 108 von der CPU 102 entfernt angeordnet sein und mit der CPU 102 über ein Netz, wie ein Local Area Network (LAN) oder Wide Area Network (WAN) oder Internet verbunden sein. Das Mikrophon 110 kann ein beliebiges, geeignetes, bekanntes Mikrophon sein, um Audiosignale der CPU 102 zuzuführen. Der Lautsprecher 112 kann ein beliebiger, geeigneter, bekannter Lautsprecher zum Reproduzieren von Audiosignalen von der CPU 102 sein. Es ist klar, dass das Mikrophon 110 und der Lautsprecher 112 entsprechende Digital-Analog- und Analog-Digital-Umwandlungsschaltungen je nach Bedarf beinhalten kann. Der Dateneingabeport 114 kann ein beliebiger bekannter Datenport zum Verbinden mit einer externen Zugriffsvorrichtung sein unter Verwendung eines Datenprotokolls, wie RS-232, Universal Serial Bus oder dergleichen.
  • 1 zeigt somit die funktionellen Elemente eines Computersystems 100. Alle Elemente des Computersystems 100 können geeignete Standardkomponenten, wie oben beschrieben, sein. Die vorliegende Erfindung liefert ein Verfahren und ein System zum Anschließen an das Computersystem 100 mittels Sprache.
  • 2 zeigt ein erweitertes funktionelles Blockdiagramm von CPU 102 und einem Speichermedium 108. Die CPU 102 beinhaltet einen Spracherkennungsprozessor 220, einen Prozessor für natürliche Sprache 202 und eine Anwendungs-Schnittstelle 220. Der Prozessor für natürliche Sprache 202 beinhaltet weiterhin einen variablen Ersetzer 204, eine Zeichenreihen-Formatiervorrichtung 206, einen Wortgewichter 208, einen booleschen Tester 210, einen Pronomen-Ersetzer 211 und eine Suchmaschine 213. Das Speichermedium 108 beinhaltet eine Mehrzahl von kontextspezifischen Grammatikdateien 212, eine allgemeine Grammatikdatei 214, eine Diktiergrammatik 216 und eine Prozessor (NLP) Datenbank für natürliche Sprache 218. Bei der bevorzugten Ausführungsform sind die Grammatikdateien 212, 214 und 216 Bakus-Naur Form (BNF) Dateien, die die Struktur der von dem Benutzer gesprochenen Sprache beschreiben. BNF-Dateien zum Beschreiben der Sprachstruktur und Details von BNF-Dateien sind sehr bekannt und werden deshalb hier nicht erörtert. Ein Vorteil von BNF-Dateien besteht darin, dass hierarchische baumähnliche Strukturen verwendet werden können, um Wendungen oder Wortsequenzen zu beschreiben, ohne explizit alle Kombinationen dieser Wortsequenzen zitieren zu müssen. Somit wird durch die Verwendung von BNF-Dateien in der bevorzugten Ausführungsform die physische Größe der Dateien 212, 214 und 216 in dem Speichermedium 108 minimiert, wodurch die Geschwindigkeit, mit welcher diese Dateien aktiviert und durchsucht werden können steigt, was im folgenden beschrieben ist. Bei anderen Ausführungsformen werden jedoch andere Dateistrukturen verwendet.
  • Der Betrieb und Interaktion dieser funktionellen Elemente von 2 werden in Bezug auf das Flussdiagramm von 3A3D beschrieben. In 3A beginnt der Fluss bei Block 300 durch Bereitstellen einer Äußerung an den Sprachprozessor 200. Eine Äußerung ist eine Reihe von Tönen mit einem Beginn und Ende und kann eines oder mehr gesprochene Worte beinhalten. Das Mikrophon 110, welches gesprochene Worte aufnimmt, kann den Schritt von Block 300 ausführen. Alternativ kann die Äußerung dem Sprachprozessor 200 über den Dateneingabeport 114 oder von einem Speichermedium 108 bereitgestellt werden. Vorzugsweise ist die Äußerung in einem digitalen Format, wie dem bekannten „wav"-Audio-Dateiformat.
  • Der Fluss schreitet weiter zur Entscheidung 302, wo der Sprachprozessor 200 feststellt, ob eine der kontext-spezifischen Grammatiken 212 aktiviert wurde. In der bevorzugten Ausführungsform sind die kontext-spezifischen Grammatiken 212 BNF-Dateien, die Worte und Wendungen enthalten, die sich auf einen Stammkontext beziehen. Allgemein ist ein Kontext ein Subjektbereich. Bei einer Ausführungsform der vorliegenden Erfindung, die bei PCs angewandt werden kann, können Kontexte zum Beispiel „Nachrichten" oder „Wetter" oder „Aktien" sein. In diesem Fall würden die kontext-spezifischen Grammatiken 212 jeweils Befehle, Steuerworte, Beschreiber, Qualifizierer oder Parameter enthalten, die einem anderen dieser Kontexte entsprechen. Die Verwendung von Kontexten liefert eine hierarchische Struktur für Arten von Informationen. Kontexte und ihre Verwendung werden im Folgenden in Bezug auf die NLP-Datenbank 218 beschrieben.
  • Wenn eine kontext-spezifische Grammatik 212 aktiviert wurde, wird die kontext-spezifische Grammatik 212 nach einer Entsprechung für die in Block 300 bereitgestellte Äußerung durchsucht. Wenn jedoch keine kontext-spezifische Grammatik 212 aktiviert wurde, geht der Fluss weiter zu Block 308, wo die allgemeine Grammatik 214 aktiviert wird.
  • Bei der bevorzugten Ausführungsform ist die allgemeine Grammatik 214 eine BNF-Datei, welche Worte und Wendungen enthält, die nicht selbst zu einem Stammkontext gehören, jedoch einen zugeordneten Kontext haben können, für welchen eine kontext-spezifische Grammatikdatei 212 existiert. Mit anderen Worten können die Worte und Wendungen in der allgemeinen Grammatik 214 an der Wurzel der hierarchischen Kontextstruktur sein. Bei einer Ausführungsform, die bei PCs anwendbar ist, würde die allgemeine Grammatik 214 z.B. Befehle und Steuersätze enthalten.
  • In Block 310 wird die allgemeine Grammatik 214 nach einem passenden Wort oder Wendung für die bei Block 300 bereitgestellte Äußerung durchsucht. Wenn keine Entsprechung gefunden wird, wird die Diktiergrammatik 216 aktiviert. Bei der bevorzugten Ausführungsform ist die Diktiergrammatik 216 eine BNF-Datei, die eine Liste von Worten enthält, die selbst weder einen Stammkontext noch einen zugeordneten Kontext haben. Bei einer Ausführungsform z.B. die bei PCs angewendet werden kann, enthält die Diktiergrammatik 216 eine relativ große Liste von allgemeinen Worten, die einem allgemeinen Wörterbuch ähnlich ist.
  • In Block 316 wird die Diktiergrammatik nach passenden Worten für jedes Wort der bei Block 300 bereitgestellten Äußerung durchsucht. Wenn keine passenden Worte gefunden werden, wird wahlweise eine visuelle Fehlernachricht bei Anzeige 104 angezeigt oder eine hörbare Fehlernachricht wird wahlweise mittels Lautsprecher 112 reproduziert und der Vorgang endet, wenn eine weitere Äußerung dem Sprachprozessor 200 bei Block 300 bereitgestellt wird.
  • Wie aus der obigen Beschreibung hervorgeht, wird, wenn eine Äußerung dem Sprachprozessor 200 zugeführt wird, die aktivierte kontext-spezifische Grammatik 212, falls vorhanden, zuerst durchsucht. Wenn keine Entsprechungen in der aktivierten kontext-spezifischen Grammatik 212 gefunden werden, wird die allgemeine Grammatik 214 aktiviert und durchsucht. Wenn keine Entsprechungen in der allgemeinen Grammatik 214 gefunden werden, wird die Diktiergrammatik 316 aktiviert und durchsucht.
  • Bei der bevorzugten Ausführungsform ist der Spracherkennungs-Prozessor 200 in dem sogenannten „Befehls- und Steuer"-Modus, wenn er entweder die kontext-spezifische Grammatik 212 oder die allgemeine Grammatik 214 durchsucht. In diesem Modus vergleicht der Spracherkennungs-Prozessor 200 die gesamte Äußerung als ein Ganzes mit den Einträgen in der Grammatik. Im Vergleich dazu ist der Spracherkennungs-Prozessor 200 in dem sogenannten „Diktier"-Modus, wenn er die Diktiergrammatik durchsucht. In diesem Modus vergleicht der Spracherkennungs-Prozessor 200 die Äußerung mit den Einträgen in der Diktiergrammatik 216 Wort für Wort. Es wird angenommen, dass die Suche nach einer Entsprechung für eine gesamte Äußerung in dem Befehls- und Steuermodus allgemein schneller sein wird als eine Wort-für-Wort-Suche im Diktiermodus.
  • Es wird weiterhin erwartet, dass eine beliebige individuelle kontext-spezifische Grammatik 212 kleiner ist (d.h. weniger Gesamtworte und Wendungen) als die allgemeine Grammatik 214, welche wiederum kleiner ist als die Diktiergrammatik 216. Somit ist es beim Durchsuchen von zuerst einer beliebigen aktivierten kontext-spezifischen Grammatik 212 wahrscheinlich, dass eine Übereinstimmung, falls vorhanden, schneller gefunden wird, zumindest teilweise dadurch, dass sie kleiner ist. In ähnlicher Weise ist es beim Durchsuchen der allgemeinen Grammatik 214 vor der Diktiergrammatik 216 wahrscheinlich, dass, wenn eine Übereinstimmung gefunden wird, diese schneller gefunden wird.
  • Außerdem werden sie die häufigsten Äußerungen enthalten, was weiter unten in Bezug auf die Fähigkeit der vorliegenden Erfindung erklärt wird, dass sie diese adaptiv sowohl der kontext-spezifischen Grammatik 212 als auch der allgemeinen Grammatik 214 hinzufügt. Somit wird erwartet, dass eine Übereinstimmung mit größerer Wahrscheinlichkeit schneller in der kontext-spezifischen Grammatik 212 oder in der allgemeinen Grammatik 214 als in der Diktiergrammatik 216 gefunden wird.
  • Schließlich werden die Worte und Wendungen in der aktivierten kontext-spezifischen Grammatik 212 wahrscheinlicher von dem Benutzer geäußert, da es Worte sind, die für das Thema, über welches der Benutzer gerade erst gesprochen hat, höchst relevant sind, was im folgenden weiter erklärt wird. Dies ermöglicht es auch dem Benutzer eher im Konversationsstil zu sprechen, wobei er Satzfragmente verwendet, wobei die Bedeutung seiner Worte entsprechend der aktivierten kontext-spezifischen Grammatik 212 interpretiert werden.
  • Beim Durchsuchen der oben beschriebenen Sequenz kann die vorliegende Erfindung effektiver suchen als wenn nur ein Eintrag zu jedem Zeitpunkt in einer einzelnen großen Liste aller erwarteten Wörter und Wendungen durchsucht würde.
  • In Bezug auf die Entscheidung 306 gibt es drei mögliche folgende Schritte (3A), wenn eine Übereinstimmung in der kontext-spezifischen Grammatik 212 gefunden wird. Für jeden passenden Eintrag in der aktivierten kontext-spezifischen Grammatik 212 kann eine entsprechende Maßnahme durch den Spracherkennungs-Prozessor 200 erforderlich sein. Block 322 zeigt, dass eine Maßnahme darin bestehen kann, dass die Anwendungs-Schnittstelle 220 angewiesen wird, eine Maßnahme in Bezug auf eine separate Software-Anwendung oder -einheit zu ergreifen. Die Anwendungs-Schnittstelle 220 kann z.B. die Sprachanwendungs-Programmierschnittstellen (SAPI) Standard von Microsoft verwenden, um mit einer externen Anwendung zu kommunizieren. Die externe Anwendung kann z.B. so angewiesen werden, dass sie z.B. auf eine bestimmte Internet-Website URL zugreift oder eine bestimmte Wendung ausspricht, indem Text in Sprache konvertiert wird. Andere Maßnahmen können ergriffen werden, was weiter unten in Bezug auf die NLP-Datenbank 218 von 4 erörtert wird.
  • Block 324 zeigt, dass eine andere Maßnahme darin bestehen kann, auf eine Reihe in der Verarbeitungs (NLP) Datenbank 218 für natürliche Sprache direkt zuzugreifen, wobei die weiter unten beschriebenen Verarbeitungsschritte für natürliche Sprache umgangen werden. Block 326 zeigt, dass eine anderen Maßnahme darin bestehen kann, ein Wort oder Wendung für den aktivierten Kontext zu dem passenden Wort oder Wendung, die in der kontext-spezifischen Grammatik 306 gefunden wurde, voranzustellen. Wenn z.B. der aktivierte Kontext „Filme" ist und die passende Äußerung „8 Uhr" ist, würde das Wort „Filme" der Wendung „8 Uhr" vorangestellt werden, um die Wendung „Filme um 8 Uhr" zu bilden.
  • In ähnlicher Weise kann der Fluss, wenn eine Übereinstimmung in der allgemeinen Grammatik 214 gefunden wird, zu Block 322 weitergehen, wo die Anwendungs-Schnittstelle 220 angewiesen wird, eine Maßnahme wie oben beschrieben zu ergreifen, oder zu Block 324, wo auf eine Reihe in der NLP-Datenbank direkt Zugriff genommen wird. Wenn jedoch eine Übereinstimmung in der allgemeinen Grammatik 214 gefunden wird, findet kein Voranstellen eines Kontextes statt, da, wie oben erwähnt, die Einträge in der allgemeinen Grammatik 214 nicht selbst einen Stammkontext haben.
  • Schließlich können in Bezug auf 3A Worte manuell über eine manuelle Eingabe 106 eingegeben werden. In diesem Fall ist keine Spracherkennung erforderlich und trotzdem ist eine natürliche Sprachverarbeitung der eingegebenen Worte immer noch erwünscht. Somit geht der Fluss zu 3B weiter.
  • In 3B bei Block 328 formatiert der Prozessor 202 für natürliche Sprache die Wendung für eine Verarbeitungsanalyse für natürliche Sprache. Dieses Formatieren erfolgt durch einen Zeichenreihenformatierer 206 und kann Textverarbeitung wie z.B. Entfernen von doppelten Leerstellen zwischen Worten beinhalten, Kleinschreibung aller Buchstaben (oder Großschreibung), Erweitern von Verkürzungen (z.B. Ändern von „it's" in „it is") und dergleichen. Der Zweck dieses Formatierschrittes besteht darin, die Phrase für das Parsen vorzubereiten.
  • Der Fluss geht weiter zu Block 330, wo bestimmte „Wort-Variable" durch eine zugeordnete Platzhalterfunktion von einem variablen Ersetzer 204 ersetzt werden, um dadurch den Zugriff auf die NLP Datenbank 218 vorzubereiten. Bei der vorliegenden Verwendung bezieht sich der Begriff „Wort-Variable" auf Worte oder Wendungen, die Mengen, Daten, Zeiten, Währungen und dergleichen darstellen. Bei einer Ausführungsform z.B. würde die Wendung „welche Filme laufen um 8 Uhr" bei Block 330 in „welche Filme laufen um $ Uhr" umgewandelt, wobei „$ Uhr" eine Platzhalterfunktion ist, die verwendet wird, um einen beliebigen Zeitwert darzustellen. Als weiteres Beispiel würde in einer Ausführungsform die Wendung „verkaufe IBM Aktien zu 100 Dollar" in Block 330 zu „verkaufe IBM Aktien zu $ Dollar" umgewandelt, wobei $ Dollar eine Platzhalterfunktion ist, die verwendet wird, um jeglichen Dollarwert darzustellen. Dieser Schritt kann durch eine einfache Schleife ausgeführt werden, welche die Wendung nach Key Tokens, so wie die Worte „Dollar" oder „Uhr" durchsucht und die Wort-Variablen mit einer spezifizierten Platzhalterfunktion ersetzt. Um die Stelle in der Wendung wieder zu finden, wo die Ersetzung erfolgte, kann eine Aufstellung verwendet werden. Dies ermöglicht erneutes Ersetzen der ursprünglichen Wort-Variablen zurück in die Wendung an dieselbe Position nachdem die NLP-Datenbank 218 durchsucht wurde.
  • Der Zweck des Ersetzens von Wort-Variablen durch eine zugeordnete Platzhalterfunktion bei Block 330 besteht darin, die Anzahl an Eingaben zu reduzieren, die in der NLP-Datenbank 218 vorhanden sein müssen. Die NLP-Datenbank 218 würde nur die Wendung „welche Filme laufen um $ Uhr" enthalten statt eines separaten Eintrags für 8 Uhr, 9 Uhr, 10 Uhr usw. Die NLP-Datenbank 218 wird im folgenden beschrieben.
  • Bei Block 332 werden Pronomen in der Wendung mit richtigen Namen von dem Pronomenersetzer 211 ersetzt. Bei einer Ausführungsform würden die Pronomen „ich", „mein" oder „mir" durch den Namen des Sprechers ersetzt. Der Zweck dieses Schrittes besteht darin, zu ermöglichen, dass benutzerspezifische Tatsachen gespeichert und Zugriff auf diese in der NLP-Datenbank 218 genommen werden kann. Z.B. der Satz, „wer sind meine Kinder" würde transformiert in „wer sind die Kinder von Dean", wobei „Dean" der eigene Name des Sprechers ist. Wiederum kann dieser Schritt in einer einfachen Schleife ausgeführt werden, welche die Wendung nach Pronomen durchsucht und die Pronomen, die bei einem entsprechenden eigenen Namen gefunden werden, ersetzt. Um die Stellen in der Wendung, wo eine Ersetzung stattgefunden hat, wieder zu finden, kann eine Aufstellung verwendet werden.
  • Bei Block 334 werden die einzelnen Worte in der Wendung entsprechend ihrer relativen „Bedeutung" oder „Signifikanz" für die Gesamtbedeutung der Wendung von dem Wortgewichter 208 gewichtet. Bei einer Ausführungsform sind z.B. drei Gewichtungsfaktoren zugeordnet. Der kleinste Gewichtungsfaktor ist Worten wie „a", „an", „the" und anderen Artikeln zugeordnet. Der höchste Gewichtungsfaktor wird Worten verliehen, die wahrscheinlich einen bedeutenden Bezug zu der Bedeutung der Wendung haben. Diese können z.B. alle Verben, Hauptwörter, Adjektive und eigene Namen in der NLP-Datenbank 218 beinhalten. Alle anderen Worte in der Wendung erhalten einen mittleren Gewichtungsfaktor. Der Zweck dieser Gewichtung besteht darin, die NLP-Datenbank 218 effektiver zu durchsuchen.
  • Ein Beispiel von ausgewählten Spalten der NLP-Datenbank 218 einer Ausführungsform ist in 4 gezeigt. Die NLP-Datenbank 218 umfasst eine Mehrzahl von Spalten 400410 und eine Mehrzahl von Reihen 412412N. In Spalte 400 stellen die Einträge der NLP-Datenbank „bekannte" Wendungen dar. In Spalte 402 ist eine Anzahl von erforderlichen Worten für jeden Eintrag in Spalte 400 gezeigt. In Spalte 404 ist ein zugehöriger Kontext oder Subkontext für jeden Eintrag in Spalte 400 gezeigt. In Spalten 408 und 410 sind eine oder mehr zugeordnete Maßnahmen für jeden Eintrag in Spalte 400 gezeigt. Es sollte beachtet werden, dass die in 4 gezeigte NLP-Datenbank 218 nur ein vereinfachtes Beispiel ist, um die Erfindung zu lehren. Andere Ausführungsformen können weniger oder mehr Spalten mit unterschiedlichen Einträgen haben.
  • In Bezug zurück zu 3B wird bei Block 336 die NLP-Datenbank 218 nach möglichen Übereinstimmungen mit der Wendung durchsucht, basierend darauf, ob die Eingabe in Spalte 400 der NLP-Datenbank 218 eines der Worte in der Wendung (oder Synonyme dazu) enthält und auf die relative Gewichtung dieser Worte. Bei Block 338 wird ein Vertrauenswert für jeden möglichen passenden Eintrag auf der Basis der Anzahl des Vorkommens jedes der Worte in der Wendung und ihrer relativen Gewichtungen erzeugt. Gewichtete Wortsuche einer Datenbank ist wohlbekannt im Stand der Technik und kann durch kommerziell erhältliche Suchmaschinen, z.B. das Produkt „dtSuche" von DT Software, Inc. Arlington, Virginia ausgeführt werden. Das Suchen mittels Synonymen ist ebenfalls wohlbekannt im Stand der Technik und kann mittels öffentlich erhältlichen Tools wie „WordNet", entwickelt von dem Cognitive Science Laboratory der Princeton University in Princeton, New Jersey ausgeführt werden. Die Suchmaschine kann ein integraler Teil des Prozessors 202 für natürliche Sprache sein.
  • Bei der Entscheidung 340 bestimmt der Prozessor 202 für natürliche Sprache, ob einige der möglicherweise passenden Einträge einen Vertrauenswert von mehr oder gleich einem vorbestimmten minimalen Schwellenwert T hat. Der Schwellenwert T stellt den geringsten akzeptierbaren Vertrauenswert dar, für welchen eine Entscheidung getroffen werden kann, ob die Wendung mit einem der Einträge in der NLP-Datenbank 218 übereinstimmt. Falls kein möglicherweise passender Eintrag mit einem Vertrauenswert von mehr oder gleich T existiert, geht der Fluss zurück zu Block 342, wo eine wahlfreie Fehlernachricht dem Benutzer entweder visuell über ein Display 104 dargestellt oder hörbar über einen Lautsprecher 112 reproduziert wird. Bei einer Ausführungsform kann die Art der möglicherweise vorhandenen Fehlernachricht, die dem Benutzer angezeigt wird, davon abhängen, wie viele „Treffer" (d.h. wie viele passenden Worte der Wendung) in dem NLP-Datenbankeintrag von höchstem Vertrauen gefunden wurden. Falls es null oder einen Treffer gäbe, würde eine andere Art von Fehlernachricht erzeugt als wenn es zwei oder mehr Treffer gäbe.
  • Wenn jedoch mindestens ein Eintrag in der NLP-Datenbank 218 vorgesehen ist, für welche ein Vertrauenswert von mehr oder gleich T existiert, geht der Fluss zurück zu Block 344, wo die „noise" Worte aus der Wendung entfernt werden. Die „noise" Worte beinhalten Worte, die nicht wesentlich zu der Gesamtbedeutung der Wendung relativ zu den anderen Worten in der Wendung beitragen. Diese können Artikel, Pronomen, Konjunktionen und Worte ähnlicher Natur beinhalten. „non noise" Worte würden Worte beinhalten, die bedeutend zu der Gesamtbedeutung der Wendung beitragen. „non noise" Worte würden Verben, Hauptwörter, Adjektive, eigene Namen und Worte ähnlicher Natur beinhalten.
  • Der Fluss geht zu 3C weiter, wo die Anforderung für „non noise" Worte aus Spalte 402 der NLP-Datenbank 218 für den passenden Eintrag mit höchstem Vertrauen bei Block 346 wiedergewonnen wird. Wenn die passende Wendung mit höchstem Vertrauen der Eintrag in Reihe 412A wäre (z.B. „welche Filme laufen um $ Uhr"), dann ist die Anzahl der erforderlichen „non noise" Worte 3.
  • Bei Entscheidung 348 erfolgt ein Test, um festzustellen, ob die Anzahl an erforderlichen „non noise" Worte aus der Wendung tatsächlich in dem Eintrag mit höchstem Vertrauen, der aus der NLP-Datenbank 218 wiedergewonnen wurde, vorhanden ist. Dieser Test ist eine Verifizierung der Genauigkeit der Relevanz-artigen Suche, die bei Block 336 durchgeführt wird, wobei klar ist, dass ein Eintrag einen Vertrauenswert erzeugen kann, der höher ist als der minimale Schwellenwert T, ohne eine akzeptable Übereinstimmung für die Wendung zu sein.
  • Die Art des bei Entscheidung 348 durchgeführten Tests ist ein boolescher „AND" Test, der von einem booleschen Tester 210 ausgeführt wird. Der Test stellt fest, ob jedes der „non noise" Worte in der Wendung (oder sein Synonym) tatsächlich in dem Eintrag höchsten Vertrauens vorhanden ist. Wenn eine ausreichende Anzahl an erforderlichen Worten tatsächlich in dem Eintrag höchsten Vertrauens vorhanden ist, geht der Fluss zurück zu Block 350, wo der Prozessor 202 für natürliche Sprache die Anwendungs-Schnittstelle 220 anweist, eine zugeordnete Maßnahme von Spalte 408 oder 410 zu ergreifen. Es ist klar, dass zusätzliche Maßnahmenspalten auch vorhanden sein können.
  • Wenn z.B. der Eintrag höchsten Vertrauens der Eintrag in Reihe 412A ist und der boolesche Test der Entscheidung 348 feststellte, dass tatsächlich 3 „non noise" Worte aus der Wendung in dem Eintrag in Spalte 400 gefunden wurden, würde die zugeordnete Maßnahme in Spalte 408 (z.B. Zugriff auf Film-Website) ergriffen. Andere Einträge in der NLP-Datenbank haben andere zugeordnete Maßnahmen. Wenn z.B. der Eintrag höchsten Vertrauens der in Spalte 412E ist (z.B. „wie spät ist es"), kann die zugeordnete Maßnahme für einen Prozessor 202 für natürliche Sprache sein, eine Text-Sprach-Anwendung (nicht gezeigt) anzuweisen, dem Benutzer die momentane Zeit über den Lautsprecher 112 zu übermitteln. Als weiteres Beispiel, wenn der Eintrag höchsten Vertrauens der in Reihe 412N ist (z.B. „Nachrichten zeigen") kann die erste zugehörige Maßnahme darin bestehen, auf eine vorbestimmte Nachrichten-Website im Internet zuzugreifen und eine zweite zugeordnete Maßnahme kann darin bestehen, eine Bildanzeige-Anwendung (nicht gezeigt) anzuweisen, den Nachrichten zugeordnete Bilder anzuzeigen. Andere oder zusätzliche Maßnahmen können ebenfalls ausgeführt werden.
  • Wenn außerdem der Eintrag mit dem höchsten Vertrauen die erforderliche Anzahl an „non noise" Worten aus der Wendung, bestimmt bei Entscheidung 348, enthält, weist der Prozessor 202 für natürliche Sprache den Spracherkennungs-Prozessor 200 an, die kontext-spezifische Grammatik 212 für den zugeordneten Kontext von Spalte 404 zu aktivieren. Somit würde für Reihe 412A die kontext-spezifische Grammatik 212 für den Kontext „Filme" aktiviert werden. Wenn somit die nächste Äußerung dem Spracherkennungs-Prozessor 200 in Block 300 von 3A bereitgestellt wird, würde er die aktivierte kontext-spezifische Grammatik 212 für „Filme" durchsuchen, bevor er die allgemeine Grammatik 214 durchsucht. Wie zuvor erwähnt wurde, erhöht sich durch die entsprechende kontext-spezifische Grammatik 212 bedeutend die Wahrscheinlichkeit einer schnellen erfolgreichen Spracherkennung und die Fähigkeit des Benutzers mit dem Computer in einer Konversationsart zu kommunizieren, wird verbessert.
  • Wenn jedoch zurück bei Entscheidung 348 die erforderliche Anzahl an „non noise" Worten von der Wendung nicht tatsächlich in dem Eintrag höchsten Vertrauens, der von der NLP-Datenbank 218 wiedergewonnen wird, vorhanden ist, geht der Fluss zurück zu Block 354, wo beim Benutzer über ein Display 104 oder Lautsprecher 112 angefragt wird, ob der Eintrag höchsten Vertrauens gemeint war. Wenn z.B. der Benutzer sagte „wie hoch liegen heute die IBM Aktien", kann der Eintrag in der NLP-Datenbank 218 von höchstem Vertrauen der Eintrag in Reihe 412B sein. In diesem Fall kann die Anzahl an erforderlichen Worten (oder ihre Synonyme) nicht ausreichend sein, obwohl der Relevanzfaktor hoch sein mag. Somit würde beim Benutzer bei Block 354 nachgefragt, ob er meinte, „wie hoch ist der Preis der IBM Aktien am 28.08.1998".
  • Der Benutzer kann entweder bejahend oder verneinend antworten. Wenn bei Entscheidung 356 festgestellt wird, das der Benutzer bejahend geantwortet hat, dann werden die dem Eintrag von höchstem Vertrauen zugeordneten Maßnahme(n) bei Block 350 ergriffen und die zugeordnete kontext-spezifische Grammatik 212 wird bei Block 352 aktiviert.
  • Wenn jedoch bei Entscheidung 356 festgestellt wird, dass der Benutzer negativ geantwortet hat, geht der Fluss zu 3D weiter, wo der zugeordnete Kontext von Spalte 404 der NLP-Datenbank 218 für den Eintrag höchsten Vertrauens wiedergewonnen wird und der Benutzer wird bei Block 360 aufgefordert, Informationen mittels eines kontext-basierenden interaktiven Dialogs zu geben. Wenn der Benutzer z.B. äußerte „wie hoch ist der Preis der XICOR Aktie heute" und der Eintrag höchsten Vertrauens von der NLP-Datenbank 218 war Reihe 412B (z.B. „was ist der Preis der IBM-Aktie am $ Datum), dann würde beim Benutzer bei Block 354 angefragt, ob er dies meinte.
  • Wenn der Benutzer verneint, wird der Kontext „Aktie" aus Spalte 404 bei Block 358 wiedergewonnen und der kontext-basierende interaktive Dialog für den Aktienkontext wird dem Benutzer über das Display 104 und Lautsprecher 112 präsentiert. Ein solcher kontext-basierender interaktiver Dialog kann eine Aufforderung an den Benutzer nach Name und Börsenschreibersymbol der XICOR Aktie beinhalten. Der Benutzer kann durch Sprechen der erforderten Informationen antworten. Ein anderer kontext-basierender interaktiver Dialog kann für jeden möglichen Kontext verwendet werden. Der interaktive Dialog der auf dem Kontext „Wetter" basiert, kann eine Nachfrage an den Benutzer über den Namen des Orts (z.B. die Stadt) zur Folge haben, von welchem die Wetterinformationen gewünscht sind. Auch kann der interaktive Dialog basierend auf dem Kontext „Nachrichten" eine Nachfrage an den Benutzer über Arten von Artikeln, Nachrichtenquellen, Internet-URL für die Nachrichten-Site oder andere zugehörige Informationen zur Folge haben.
  • Bei Beenden des kontext-basierenden interaktiven Dialogs werden die NLP-Datenbank 218, allgemeine Grammatik 214 und kontext-spezifische Grammatik 212 aktualisiert, so dass sie die neuen Informationen beinhalten. Auf diese Weise wird das nächste mal, wenn der Benutzer Informationen anfordert, eine richtige Übereinstimmung gefunden und die entsprechende Maßnahme wird vorgenommen, ohne den Benutzer nach mehr Informationen zu fragen. Somit „lernt" die vorliegende Erfindung adaptiv, um die von dem Benutzer geäußerten Wendungen zu erkennen.
  • Bei einer Ausführungsform der vorliegenden Erfindung enthalten eine oder mehr der NLP-Datenbank 218, kontext-spezifischer Grammatik 212, allgemeiner Grammatik 214 und Diktiergrammatik 216 auch Zeitstempel-Werte (nicht gezeigt), die jedem Eintrag zugeordnet sind. Jedes Mal, wenn ein passender Eintrag verwendet wird, wird der diesem Eintrag zugeordnete Zeitstempel-Wert aktualisiert. In periodischen Intervallen oder durch Initiierung durch den Benutzer werden Einträge, die einen Zeitstempel-Wert vor einem bestimmten Datum und Zeit haben von den entsprechenden Datenbanken/Grammatiken entfernt. Auf diese Weise können die Datenbanken/Grammatiken in einer effektiven Größe gehalten werden, indem alte oder nicht mehr aktuelle Einträge „gesäubert" werden. Dies hilft auch dabei, falsche Übereinstimmungen zu vermeiden.
  • Zusammenfassend liefert die vorliegende Erfindung ein Verfahren und ein System für eine interaktive Benutzer-Schnittstelle für einen Computer. Durch Verwendung der kontext-spezifischen Grammatiken verringert die vorliegende Ausführungsform die Spracherkennungszeit und erhöht die Fähigkeit des Benutzers, mit dem Computer im Stil einer Konversation zu kommunizieren. Weiterhin stärkt die vorliegende Erfindung durch Verwendung adaptiver Aktualisierung der verschiedenen Grammatiken und der NLP-Datenbank die interaktive Effektivität.
  • Die obige Beschreibung der bevorzugten Ausführungsformen ist vorgesehen, um dem Fachmann die Herstellung oder Verwendung der vorliegenden Erfindung zu ermöglichen. Die unterschiedlichen Modifikationen an diesen Ausführungsformen ergeben sich deutlich für den Fachmann und die allgemeinen Prinzipien, die hier definiert sind, können bei anderen Ausführungsformen verwendet werden, ohne erfinderisch tätig zu werden.
  • Somit ist die vorliegende Erfindung nicht auf die darin gezeigten Ausführungsformen beschränkt, sondern entspricht dem Schutzumfang der beiliegenden Ansprüche.

Claims (34)

  1. Verfahren für eine Interaktion mit einem Computer mittels Äußerungen, wobei das Verfahren die folgenden Schritte aufweist: Suchen in einer ersten Grammatikdatei (212) nach einer passenden Wendung für die Äußerung; Suchen in einer zweiten Grammatikdatei (214) nach der passenden Wendung, falls die passende Wendung nicht in der ersten Grammatikdatei gefunden wird; Suchen in einer Datenbank (218) zum Verarbeiten natürlicher Sprache (NLP) (natural language processing (NLP)) nach einem passenden Eintrag für die passende Wendung, wobei die Einträge Wendungen darstellen, die der NLP-Datenbank bekannt sind, Durchführen einer Maßnahme, die dem passenden Eintrag zugeordnet ist, falls der passende Eintrag in der Datenbank gefunden wird.
  2. Verfahren nach Anspruch 1, das weiterhin den Schritt des Aktualisierens mindestens einer der Folgenden: der Datenbank, der ersten Grammatikdatei und der zweiten Grammatikdatei, mit der passenden Wendung aufweist, falls der passende Eintrag nicht in der Datenbank gefunden wird.
  3. Verfahren nach Anspruch 2, wobei die erste Grammatikdatei eine kontext-spezifische Grammatikdatei ist.
  4. Verfahren nach Anspruch 3, wobei die zweite Grammatikdatei eine allgemeine Grammatikdatei ist.
  5. Verfahren nach Anspruch 4, das weiterhin den Schritt des Suchens in einer Diktiergrammatik nach der passenden Wendung beinhaltet, falls die passende Wendung nicht in der allgemeinen Grammatikdatei gefunden wird.
  6. Verfahren nach Anspruch 1, das weiterhin den Schritt des Ersetzens mindestens eines Wortes in der passenden Wendung vor dem Schritt des Suchens in der Datenbank aufweist.
  7. Verfahren nach Anspruch 6, wobei der Schritt des Ersetzens des mindestens einen Wortes, das Setzen eines Jokers/Platzhalters (wildcard) anstelle des mindestens einen Wortes aufweist.
  8. Verfahren nach Anspruch 6, wobei der Schritt des Ersetzens des mindestens einen Wortes das Austauschen des mindestens einen Wortes durch einen Eigennamen aufweist.
  9. Verfahren nach Anspruch 1, das weiterhin den Schritt des Text-Formatierens der passenden Wendung vor dem Schritt des Suchens in der Datenbank aufweist.
  10. Verfahren nach Anspruch 1, das weiterhin den Schritt des Gewichtens einzelner Worte in der passenden Wendung entsprechend einer relativen Bedeutung der einzelnen Worte vor dem Schritt des Suchens in der Datenbank aufweist.
  11. Verfahren nach Anspruch 1, das weiterhin den Schritt des Erzeugens eines Vertrauenswertes für den passenden Eintrag aufweist.
  12. Verfahren nach Anspruch 11, das weiterhin den Schritt des Vergleichens des Vertrauenswertes mit einem Schwellenwert aufweist.
  13. Verfahren nach Anspruch 12, das weiterhin den Schritt des Feststellens aufweist, ob eine erforderliche Anzahl an Worten von der passenden Wendung in dem passenden Eintrag vorhanden ist.
  14. Verfahren nach Anspruch 13, das weiterhin den Schritt des Aufforderns eines Benutzers aufweist, anzuzeigen, ob der passende Eintrag eine korrekte Interpretation der Äußerung ist, falls die erforderliche Anzahl an Worten von der passenden Wendung in dem passenden Eintrag nicht vorhanden ist.
  15. Verfahren nach Anspruch 14, das weiterhin den Schritt des Aufforderns eines Benutzers aufweist, zusätzliche Information anzugeben, falls der passende Eintrag keine korrekte Interpretation der Äußerung ist.
  16. Verfahren nach Anspruch 15, das weiterhin den Schritt des Aktualisierens mindestens einer der Folgenden: der Datenbank, der ersten Grammatikdatei und der zweiten Grammatikdatei, mit der zusätzlichen Information aufweist.
  17. Verfahren nach Anspruch 2, das weiterhin den Schritt des Suchens in einer kontext-spezifischen Grammatik, die dem passenden Eintrag zugeordnet ist, nach einer folgenden passenden Wendung für eine folgende Äußerung aufweist.
  18. System für eine Interaktion mit einem Computer mittels Äußerungen, wobei das System aufweist: einen Sprachprozessor (200) zum Suchen in einer ersten Grammatikdatei (212) nach einer passenden Wendung für die Äußerung, und zum Suchen in einer zweiten Grammatikdatei (214) nach der passenden Wendung, falls die passende Wendung nicht in der ersten Grammatikdatei gefunden wird; einen Prozessor für natürliche Sprache zum Suchen in einer Datenbank (218) für das Verarbeiten von natürlicher Sprache (NLP) für einen passenden Eintrag für die passende Wendung, wobei die Einträge Wendungen darstellen, die der NLP-Datenbank bekannt sind; und eine Anwendungs-Schnittstelle (220) zum Durchführen einer Maßnahme, die dem passenden Eintrag zugeordnet ist, falls der passende Eintrag in der Datenbank gefunden wird.
  19. System nach Anspruch 18, wobei der Prozessor für natürliche Sprache mindestens eine der Folgenden: die Datenbank, die erste Grammatikdatei und die zweite Grammatikdatei, mit der passenden Wendung aktualisiert, falls der passende Eintrag nicht in der Datenbank gefunden wird.
  20. System nach Anspruch 19, wobei die erste Grammatikdatei eine kontext-spezifische Grammatikdatei ist.
  21. System nach Anspruch 20, wobei die zweite Grammatikdatei eine allgemeine Grammatikdatei ist.
  22. System nach Anspruch 21, wobei der Sprachprozessor in einer Diktiergrammatik nach der passenden Wendung sucht, falls die passende Wendung nicht in der allgemeinen Grammatikdatei gefunden wird.
  23. System nach Anspruch 18, wobei weiterhin der Prozessor für natürliche Sprache mindestens ein Wort in der passenden Wendung ersetzt, bevor er in der Datenbank sucht.
  24. System nach Anspruch 23, das weiterhin einen variablen Ersetzer in dem Prozessor für natürliche Sprache aufweist, um einen Joker/Platzhalter (wildcard) anstelle des mindestens einen Wortes in der passenden Wendung zu setzen.
  25. System nach Anspruch 23, das weiterhin einen Pronomenersetzer in dem Prozessor für natürliche Sprache aufweist, um einen Eigennamen anstelle des mindestens einen Wortes in der passenden Wendung zu setzen.
  26. System nach Anspruch 18, das weiterhin eine Zeichenketten-Formatiereinrichtung aufweist, zum Text-Formatieren der passenden Wendung bevor die Datenbank abgesucht wird.
  27. System nach Anspruch 18, das weiterhin einen Wortgewichter aufweist zum Gewichten einzelner Worte in der passenden Wendung gemäß einer relativen Bedeutung der einzelnen Worte, bevor die Datenbank abgesucht wird.
  28. System nach Anspruch 18, das weiterhin eine Suchmaschine in dem Prozessor für natürliche Sprache aufweist, um einen Vertrauenswert für den passenden Eintrag zu erzeugen.
  29. System nach Anspruch 28, wobei der Prozessor für natürliche Sprache den Vertrauenswert mit einem Schwellenwert vergleicht.
  30. System nach Anspruch 29, das weiterhin einen Booleschen Tester aufweist, um festzustellen, ob eine erforderliche Anzahl an Worten von der passenden Wendung in dem passenden Eintrag vorhanden ist.
  31. System nach Anspruch 30, wobei der Prozessor für natürliche Sprache einen Benutzer auffordert, anzuzeigen, ob der passende Eintrag eine korrekte Interpretation der Äußerung ist, falls die erforderliche Anzahl an Worten von der passenden Wendung nicht in dem passenden Eintrag vorhanden ist.
  32. System nach Anspruch 30, wobei der Prozessor für natürliche Sprache von einem Benutzer zusätzliche Information verlangt, falls der passende Eintrag keine korrekte Interpretation der Äußerung ist.
  33. System nach Anspruch 32, wobei der Prozessor für natürliche Sprache mindestens eine der Folgenden: die Datenbank, die erste Grammatikdatei und die zweite Grammatikdatei, mit der zusätzlichen Information aktualisiert.
  34. System nach Anspruch 19, wobei der Sprachprozessor in einer kontext-spezifischen Grammatik, die dem passenden Eintrag zugeordnet ist, nach einer folgenden passenden Wendung für eine folgende Äußerung sucht.
DE69923191T 1998-09-09 1999-09-08 Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem Expired - Lifetime DE69923191T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/150,459 US6499013B1 (en) 1998-09-09 1998-09-09 Interactive user interface using speech recognition and natural language processing
US150459 1998-09-09
PCT/US1999/020445 WO2000014727A1 (en) 1998-09-09 1999-09-08 Interactive user interface using speech recognition and natural language processing

Publications (2)

Publication Number Publication Date
DE69923191D1 DE69923191D1 (de) 2005-02-17
DE69923191T2 true DE69923191T2 (de) 2006-01-05

Family

ID=22534628

Family Applications (2)

Application Number Title Priority Date Filing Date
DE69923191T Expired - Lifetime DE69923191T2 (de) 1998-09-09 1999-09-08 Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem
DE69922971T Expired - Lifetime DE69922971T2 (de) 1998-09-09 1999-09-08 Netzwerk-interaktive benutzerschnittstelle mittels spracherkennung und verarbeitung natürlicher sprache

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE69922971T Expired - Lifetime DE69922971T2 (de) 1998-09-09 1999-09-08 Netzwerk-interaktive benutzerschnittstelle mittels spracherkennung und verarbeitung natürlicher sprache

Country Status (10)

Country Link
US (2) US6499013B1 (de)
EP (2) EP1110206B1 (de)
JP (2) JP2002524776A (de)
CN (2) CN1161747C (de)
AT (2) ATE287117T1 (de)
AU (2) AU763059B2 (de)
CA (2) CA2343229A1 (de)
DE (2) DE69923191T2 (de)
ES (2) ES2235508T3 (de)
WO (2) WO2000014727A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006029755A1 (de) * 2006-06-27 2008-01-03 Deutsche Telekom Ag Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung

Families Citing this family (389)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6775264B1 (en) 1997-03-03 2004-08-10 Webley Systems, Inc. Computer, internet and telecommunications based network
US6499013B1 (en) 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
US6434524B1 (en) * 1998-09-09 2002-08-13 One Voice Technologies, Inc. Object interactive user interface using speech recognition and natural language processing
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
WO2000073936A1 (en) * 1999-05-28 2000-12-07 Sehda, Inc. Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces
JP3702414B2 (ja) * 1999-08-11 2005-10-05 株式会社日立製作所 情報検索支援方法、コンピュータ読み取り可能な記憶媒体および情報検索装置
AU6630800A (en) 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US6862713B1 (en) * 1999-08-31 2005-03-01 International Business Machines Corporation Interactive process for recognition and evaluation of a partial search query and display of interactive results
DE19944325A1 (de) * 1999-09-15 2001-03-22 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Spracherkennung
AU8030300A (en) * 1999-10-19 2001-04-30 Sony Electronics Inc. Natural language interface control system
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6721705B2 (en) * 2000-02-04 2004-04-13 Webley Systems, Inc. Robust voice browser system and voice activated device controller
US7516190B2 (en) * 2000-02-04 2009-04-07 Parus Holdings, Inc. Personal voice-based information retrieval system
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
CA2408584A1 (en) * 2000-04-06 2001-10-18 One Voice Technologies, Inc. Natural language and dialogue generation processing
EP1376418B1 (de) * 2000-08-31 2006-12-27 Hitachi, Ltd. Vorrichtung für die Dienstleistungsvermittlung
US7024348B1 (en) * 2000-09-28 2006-04-04 Unisys Corporation Dialogue flow interpreter development tool
US7660740B2 (en) * 2000-10-16 2010-02-09 Ebay Inc. Method and system for listing items globally and regionally, and customized listing according to currency or shipping area
KR20020032835A (ko) * 2000-10-27 2002-05-04 정우성 자연어 처리와 음성 인식 병합에 의거한 음성 언어 이해기술 및 그 비즈니스 모델
DE50106815D1 (de) * 2000-11-03 2005-08-25 Voicecom Solutions Gmbh Robuste spracherkennung mit datenbankorganisation
JP3714159B2 (ja) * 2000-11-30 2005-11-09 日本電気株式会社 ブラウザ搭載装置
AU2002227096A1 (en) * 2000-12-01 2002-06-11 The Trustees Of Columbia University In The City Of New York A method and system for voice activating web pages
WO2002050816A1 (en) * 2000-12-18 2002-06-27 Koninklijke Philips Electronics N.V. Store speech, select vocabulary to recognize word
US7027987B1 (en) * 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US7103533B2 (en) * 2001-02-21 2006-09-05 International Business Machines Corporation Method for preserving contextual accuracy in an extendible speech recognition language model
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
US7072837B2 (en) * 2001-03-16 2006-07-04 International Business Machines Corporation Method for processing initially recognized speech in a speech recognition session
WO2002086864A1 (en) * 2001-04-18 2002-10-31 Rutgers, The State University Of New Jersey System and method for adaptive language understanding by computers
US7203645B2 (en) * 2001-04-27 2007-04-10 Intel Corporation Speech recognition system loading different recognition engines for different applications
US7506022B2 (en) 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US7409349B2 (en) 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US7610547B2 (en) 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7519529B1 (en) 2001-06-29 2009-04-14 Microsoft Corporation System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service
US7409335B1 (en) 2001-06-29 2008-08-05 Microsoft Corporation Inferring informational goals and preferred level of detail of answers based on application being employed by the user
US20030009334A1 (en) * 2001-07-03 2003-01-09 International Business Machines Corporation Speech processing board for high volume speech processing applications
US20030037053A1 (en) * 2001-08-09 2003-02-20 Zhong-Hua Wang Method and apparatus for automatically updating stock and mutual fund grammars in speech recognition systems
US6985865B1 (en) * 2001-09-26 2006-01-10 Sprint Spectrum L.P. Method and system for enhanced response to voice commands in a voice command platform
US7752266B2 (en) * 2001-10-11 2010-07-06 Ebay Inc. System and method to facilitate translation of communications between entities over a network
US8229753B2 (en) 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7711570B2 (en) 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US6915246B2 (en) * 2001-12-17 2005-07-05 International Business Machines Corporation Employing speech recognition and capturing customer speech to improve customer service
US7058565B2 (en) * 2001-12-17 2006-06-06 International Business Machines Corporation Employing speech recognition and key words to improve customer service
KR20020023197A (ko) * 2001-12-27 2002-03-28 김연수 자연음 처리를 이용한 데이터 제공 방법과 이를 위한 시스템
US7203644B2 (en) * 2001-12-31 2007-04-10 Intel Corporation Automating tuning of speech recognition systems
AU2003205166A1 (en) * 2002-01-14 2003-07-30 Jerzy Lewak Identifier vocabulary data access method and system
DE10211777A1 (de) * 2002-03-14 2003-10-02 Philips Intellectual Property Erzeugung von Nachrichtentexten
US20030187658A1 (en) * 2002-03-29 2003-10-02 Jari Selin Method for text-to-speech service utilizing a uniform resource identifier
JP3967952B2 (ja) * 2002-04-16 2007-08-29 富士通株式会社 文法更新システム及び方法
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
US20030216923A1 (en) * 2002-05-15 2003-11-20 Gilmore Jeffrey A. Dynamic content generation for voice messages
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US8078505B2 (en) 2002-06-10 2011-12-13 Ebay Inc. Method and system for automatically updating a seller application utilized in a network-based transaction facility
US7941348B2 (en) * 2002-06-10 2011-05-10 Ebay Inc. Method and system for scheduling transaction listings at a network-based transaction facility
US20030229554A1 (en) * 2002-06-10 2003-12-11 Veres Robert Dean Method and system for composing transaction listing descriptions for use in a network-based transaction facility
US8719041B2 (en) * 2002-06-10 2014-05-06 Ebay Inc. Method and system for customizing a network-based transaction facility seller application
EP1652173B1 (de) 2002-06-28 2015-12-30 Chemtron Research LLC Verfahren und System zur Sprachverarbeitung
US20040008828A1 (en) * 2002-07-09 2004-01-15 Scott Coles Dynamic information retrieval system utilizing voice recognition
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7363398B2 (en) * 2002-08-16 2008-04-22 The Board Of Trustees Of The Leland Stanford Junior University Intelligent total access system
US6907397B2 (en) * 2002-09-16 2005-06-14 Matsushita Electric Industrial Co., Ltd. System and method of media file access and retrieval using speech recognition
US20060276230A1 (en) * 2002-10-01 2006-12-07 Mcconnell Christopher F System and method for wireless audio communication with a computer
US20050180464A1 (en) * 2002-10-01 2005-08-18 Adondo Corporation Audio communication with a computer
US7197494B2 (en) * 2002-10-15 2007-03-27 Microsoft Corporation Method and architecture for consolidated database search for input recognition systems
CN100517300C (zh) * 2002-11-28 2009-07-22 皇家飞利浦电子股份有限公司 分配词类信息的设备和方法
US20040111259A1 (en) * 2002-12-10 2004-06-10 Miller Edward S. Speech recognition system having an application program interface
EP1450350A1 (de) * 2003-02-20 2004-08-25 Sony International (Europe) GmbH Verfahren zur Spracherkennung mittels Attributen
US7480619B1 (en) 2003-03-04 2009-01-20 The Board Of Trustees Of The Leland Stanford Junior University Integration manager and natural interaction processor
US6980949B2 (en) 2003-03-14 2005-12-27 Sonum Technologies, Inc. Natural language processor
US7729913B1 (en) 2003-03-18 2010-06-01 A9.Com, Inc. Generation and selection of voice recognition grammars for conducting database searches
US7260535B2 (en) 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US8223944B2 (en) * 2003-05-05 2012-07-17 Interactions Corporation Conference call management system
US9710819B2 (en) * 2003-05-05 2017-07-18 Interactions Llc Real-time transcription system utilizing divided audio chunks
CA2524591A1 (en) * 2003-05-05 2004-11-18 Interactions, Llc Apparatus and method for processing service interactions
EP1632932B1 (de) * 2003-06-02 2007-12-19 International Business Machines Corporation Sprach-antwortsystem, sprach-antwortverfahren, sprach-server, sprach-datei-verarbeitungsverfahren, programm und aufzeichnungsmedium
EP1631899A4 (de) * 2003-06-06 2007-07-18 Univ Columbia System und verfahren zur sprachaktivierung von web-seiten
US20040254790A1 (en) * 2003-06-13 2004-12-16 International Business Machines Corporation Method, system and recording medium for automatic speech recognition using a confidence measure driven scalable two-pass recognition strategy for large list grammars
US7742985B1 (en) 2003-06-26 2010-06-22 Paypal Inc. Multicurrency exchanges between participants of a network-based transaction facility
US20050027539A1 (en) * 2003-07-30 2005-02-03 Weber Dean C. Media center controller system and method
US7383172B1 (en) 2003-08-15 2008-06-03 Patrick William Jamieson Process and system for semantically recognizing, correcting, and suggesting domain specific speech
US8311835B2 (en) 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
US9552354B1 (en) * 2003-09-05 2017-01-24 Spoken Traslation Inc. Method and apparatus for cross-lingual communication
US7376752B1 (en) 2003-10-28 2008-05-20 David Chudnovsky Method to resolve an incorrectly entered uniform resource locator (URL)
GB2409561A (en) * 2003-12-23 2005-06-29 Canon Kk A method of correcting errors in a speech recognition system
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US8160883B2 (en) 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US20080235018A1 (en) * 2004-01-20 2008-09-25 Koninklikke Philips Electronic,N.V. Method and System for Determing the Topic of a Conversation and Locating and Presenting Related Content
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
US7496500B2 (en) * 2004-03-01 2009-02-24 Microsoft Corporation Systems and methods that determine intent of data and respond to the data based on the intent
US9189568B2 (en) 2004-04-23 2015-11-17 Ebay Inc. Method and system to display and search in a language independent manner
JP2005339237A (ja) * 2004-05-27 2005-12-08 Aruze Corp アプリケーション利用補助システム
WO2005122145A1 (en) * 2004-06-08 2005-12-22 Metaphor Solutions, Inc. Speech recognition dialog management
US7580837B2 (en) 2004-08-12 2009-08-25 At&T Intellectual Property I, L.P. System and method for targeted tuning module of a speech recognition system
US7925506B2 (en) * 2004-10-05 2011-04-12 Inago Corporation Speech recognition accuracy via concept to keyword mapping
US7242751B2 (en) 2004-12-06 2007-07-10 Sbc Knowledge Ventures, L.P. System and method for speech recognition-enabled automatic call routing
US7921091B2 (en) * 2004-12-16 2011-04-05 At&T Intellectual Property Ii, L.P. System and method for providing a natural language interface to a database
ES2261053B1 (es) * 2004-12-29 2008-04-16 France Telecom España, S.A. Metodo para la utilizacion de lenguaje natural como interfaz para los terminales moviles.
US7751551B2 (en) 2005-01-10 2010-07-06 At&T Intellectual Property I, L.P. System and method for speech-enabled call routing
KR100718147B1 (ko) * 2005-02-01 2007-05-14 삼성전자주식회사 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법
US7593962B2 (en) * 2005-02-18 2009-09-22 American Tel-A-Systems, Inc. System and method for dynamically creating records
US8225232B2 (en) * 2005-02-28 2012-07-17 Microsoft Corporation Dynamic configuration of unified messaging state changes
US7409344B2 (en) 2005-03-08 2008-08-05 Sap Aktiengesellschaft XML based architecture for controlling user interfaces with contextual voice commands
US7996219B2 (en) 2005-03-21 2011-08-09 At&T Intellectual Property Ii, L.P. Apparatus and method for model adaptation for spoken language understanding
US7657020B2 (en) 2005-06-03 2010-02-02 At&T Intellectual Property I, Lp Call routing system and method of using the same
JP4667138B2 (ja) * 2005-06-30 2011-04-06 キヤノン株式会社 音声認識方法及び音声認識装置
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7542904B2 (en) * 2005-08-19 2009-06-02 Cisco Technology, Inc. System and method for maintaining a speech-recognition grammar
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
WO2007027989A2 (en) 2005-08-31 2007-03-08 Voicebox Technologies, Inc. Dynamic speech sharpening
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US8229745B2 (en) * 2005-10-21 2012-07-24 Nuance Communications, Inc. Creating a mixed-initiative grammar from directed dialog grammars
US8315874B2 (en) * 2005-12-30 2012-11-20 Microsoft Corporation Voice user interface authoring tool
US8229733B2 (en) * 2006-02-09 2012-07-24 John Harney Method and apparatus for linguistic independent parsing in a natural language systems
US20070225970A1 (en) * 2006-03-21 2007-09-27 Kady Mark A Multi-context voice recognition system for long item list searches
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US8107610B2 (en) * 2006-06-06 2012-01-31 At&T Intellectual Property I, L.P. Callback processing of interactive voice response requests
US8639782B2 (en) 2006-08-23 2014-01-28 Ebay, Inc. Method and system for sharing metadata between interfaces
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7742922B2 (en) * 2006-11-09 2010-06-22 Goller Michael D Speech interface for search engines
CN101558443B (zh) 2006-12-15 2012-01-04 三菱电机株式会社 声音识别装置
US7809564B2 (en) * 2006-12-18 2010-10-05 International Business Machines Corporation Voice based keyword search algorithm
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US7912828B2 (en) * 2007-02-23 2011-03-22 Apple Inc. Pattern searching methods and apparatuses
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101075435B (zh) * 2007-04-19 2011-05-18 深圳先进技术研究院 一种智能聊天系统及其实现方法
US20080273672A1 (en) * 2007-05-03 2008-11-06 Microsoft Corporation Automated attendant grammar tuning
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
WO2009039867A1 (de) 2007-09-20 2009-04-02 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und kommunikationsanordnung zum betreiben einer kommunikationsverbindung
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8355919B2 (en) 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US20100082328A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for speech preprocessing in text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010051591A1 (en) * 2008-11-06 2010-05-14 Digital Intermediary Pty Limited Context layered object engine
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110010179A1 (en) * 2009-07-13 2011-01-13 Naik Devang K Voice synthesis and processing
US20110066438A1 (en) * 2009-09-15 2011-03-17 Apple Inc. Contextual voiceover
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US20110167350A1 (en) * 2010-01-06 2011-07-07 Apple Inc. Assist Features For Content Display Device
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US20110189646A1 (en) * 2010-02-01 2011-08-04 Amos Benninga Pedagogical system method and apparatus
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8521513B2 (en) 2010-03-12 2013-08-27 Microsoft Corporation Localization for interactive voice response systems
US8694313B2 (en) * 2010-05-19 2014-04-08 Google Inc. Disambiguation of contact information using historical data
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8560321B1 (en) 2011-01-05 2013-10-15 Interactions Corportion Automated speech recognition system for natural language understanding
US8484031B1 (en) 2011-01-05 2013-07-09 Interactions Corporation Automated speech recognition proxy system for natural language understanding
US9472185B1 (en) 2011-01-05 2016-10-18 Interactions Llc Automated recognition system for natural language understanding
US9245525B2 (en) 2011-01-05 2016-01-26 Interactions Llc Automated speech recognition proxy system for natural language understanding
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
KR101963915B1 (ko) * 2011-03-31 2019-03-29 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 강화된 대화 이해 아키텍처
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9454962B2 (en) 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
EP2667268A1 (de) * 2012-05-24 2013-11-27 Siemens Aktiengesellschaft Verfahren zum Betrieb eines Automatisierungsgeräts
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
CN103678283B (zh) * 2012-08-30 2016-08-17 英业达科技有限公司 提供外语词组以辅助外语文章撰写的系统及其方法
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US10276157B2 (en) * 2012-10-01 2019-04-30 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
EP2954514B1 (de) 2013-02-07 2021-03-31 Apple Inc. Sprachtrigger für einen digitalen assistenten
US9020809B1 (en) 2013-02-28 2015-04-28 Google Inc. Increasing semantic coverage with semantically irrelevant insertions
US9047271B1 (en) 2013-02-28 2015-06-02 Google Inc. Mining data for natural language system
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US8694305B1 (en) * 2013-03-15 2014-04-08 Ask Ziggy, Inc. Natural language processing (NLP) portal for third party applications
US10078487B2 (en) 2013-03-15 2018-09-18 Apple Inc. Context-sensitive handling of interruptions
US11151899B2 (en) 2013-03-15 2021-10-19 Apple Inc. User training by intelligent digital assistant
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US8768687B1 (en) * 2013-04-29 2014-07-01 Google Inc. Machine translation of indirect speech
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
US9251202B1 (en) 2013-06-25 2016-02-02 Google Inc. Corpus specific queries for corpora from search query
US9123336B1 (en) 2013-06-25 2015-09-01 Google Inc. Learning parsing rules and argument identification from crowdsourcing of proposed command inputs
US9183196B1 (en) 2013-06-25 2015-11-10 Google Inc. Parsing annotator framework from external services
US9280970B1 (en) 2013-06-25 2016-03-08 Google Inc. Lattice semantic parsing
US9330195B1 (en) 2013-06-25 2016-05-03 Google Inc. Inducing command inputs from property sequences
US9117452B1 (en) 2013-06-25 2015-08-25 Google Inc. Exceptions to action invocation from parsing rules
US9299339B1 (en) 2013-06-25 2016-03-29 Google Inc. Parsing rule augmentation based on query sequence and action co-occurrence
US9092505B1 (en) 2013-06-25 2015-07-28 Google Inc. Parsing rule generalization by n-gram span clustering
US9984684B1 (en) 2013-06-25 2018-05-29 Google Llc Inducing command inputs from high precision and high recall data
US9177553B1 (en) 2013-06-25 2015-11-03 Google Inc. Identifying underserved command inputs
US20150032238A1 (en) 2013-07-23 2015-01-29 Motorola Mobility Llc Method and Device for Audio Input Routing
CN104346151B (zh) * 2013-07-30 2018-04-27 联想(北京)有限公司 一种信息处理方法及电子设备
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US10109273B1 (en) * 2013-08-29 2018-10-23 Amazon Technologies, Inc. Efficient generation of personalized spoken language understanding models
US9507849B2 (en) * 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
CN105934791B (zh) * 2014-01-31 2019-11-22 惠普发展公司,有限责任合伙企业 语音输入命令
CN109949815A (zh) * 2014-04-07 2019-06-28 三星电子株式会社 电子装置
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US20150331853A1 (en) * 2014-05-15 2015-11-19 Marco Palmonari Automated multi-grammar language processing system to optimize request handling in contact centers
US10726831B2 (en) * 2014-05-20 2020-07-28 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
US20150340024A1 (en) * 2014-05-23 2015-11-26 Google Inc. Language Modeling Using Entities
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) * 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US9257120B1 (en) * 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9626703B2 (en) 2014-09-16 2017-04-18 Voicebox Technologies Corporation Voice commerce
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
EP3207467A4 (de) 2014-10-15 2018-05-23 VoiceBox Technologies Corporation System und verfahren zur bereitstellung nachfolgender reaktionen auf natürliche spracheingaben eines benutzers
CN104360897B (zh) * 2014-10-29 2017-09-22 百度在线网络技术(北京)有限公司 对话处理方法和对话管理系统
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
CN105869632A (zh) * 2015-01-22 2016-08-17 北京三星通信技术研究有限公司 基于语音识别的文本修订方法和装置
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160379630A1 (en) * 2015-06-25 2016-12-29 Intel Corporation Speech recognition services
US10515150B2 (en) * 2015-07-14 2019-12-24 Genesys Telecommunications Laboratories, Inc. Data driven speech enabled self-help systems and methods of operating thereof
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10382623B2 (en) 2015-10-21 2019-08-13 Genesys Telecommunications Laboratories, Inc. Data-driven dialogue enabled self-help systems
US10455088B2 (en) 2015-10-21 2019-10-22 Genesys Telecommunications Laboratories, Inc. Dialogue flow optimization and personalization
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10843080B2 (en) * 2016-02-24 2020-11-24 Virginia Tech Intellectual Properties, Inc. Automated program synthesis from natural language for domain specific computing applications
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US20180052573A1 (en) * 2016-08-17 2018-02-22 Microsoft Technology Licensing, Llc Interaction with a file storage service through a messaging bot
US10838992B2 (en) * 2016-08-17 2020-11-17 International Business Machines Corporation Content selection for usage within a policy
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
GB201618479D0 (en) 2016-11-02 2016-12-14 Syngenta Participations Ag Adjuvants
CA3042248C (en) * 2016-11-02 2021-08-10 Greeneden U.S. Holdings Ii, Llc System and method for parameterization of speech recognition grammar specification (srgs) grammars
US10482885B1 (en) * 2016-11-15 2019-11-19 Amazon Technologies, Inc. Speaker based anaphora resolution
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US20180330725A1 (en) * 2017-05-09 2018-11-15 Microsoft Technology Licensing, Llc Intent based speech recognition priming
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
EP3496090A1 (de) * 2017-12-07 2019-06-12 Thomson Licensing Vorrichtung und verfahren für datenschutzbewahrende stimminteraktion
US11188706B2 (en) * 2018-01-18 2021-11-30 Christopher Anthony Silva System and method for regionalized resolution of a network path
CN108694939B (zh) * 2018-05-23 2020-11-03 广州视源电子科技股份有限公司 语音搜索优化方法、装置和系统
CN110728976B (zh) * 2018-06-30 2022-05-06 华为技术有限公司 语音识别的方法、装置及系统
CN108899030A (zh) * 2018-07-10 2018-11-27 深圳市茁壮网络股份有限公司 一种语音识别方法及装置
US10789943B1 (en) 2018-08-31 2020-09-29 Interactions Llc Proxy for selective use of human and artificial intelligence in a natural language understanding system
US11481558B2 (en) 2018-09-12 2022-10-25 Samsung Electroncis Co., Ltd. System and method for a scene builder
DE102018222156A1 (de) * 2018-12-18 2020-06-18 Volkswagen Aktiengesellschaft Verfahren, Anordnung und Verwendung zum Erzeugen einer Antwortausgabe in Reaktion auf eine Spracheingabeinformation
CN110223679A (zh) * 2019-06-14 2019-09-10 南京机电职业技术学院 一种语音识别输入装置
CN110265013A (zh) * 2019-06-20 2019-09-20 平安科技(深圳)有限公司 语音的识别方法及装置、计算机设备、存储介质
US11151981B2 (en) 2019-10-10 2021-10-19 International Business Machines Corporation Audio quality of speech in sound systems
JP2023535102A (ja) 2021-07-19 2023-08-16 グーグル エルエルシー サードパーティデジタルアシスタントのアクションのためのビットベクトルに基づくコンテンツマッチング

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4783803A (en) 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US4887212A (en) 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US5127055A (en) * 1988-12-30 1992-06-30 Kurzweil Applied Intelligence, Inc. Speech recognition apparatus & method having dynamic reference pattern adaptation
JPH02301869A (ja) 1989-05-17 1990-12-13 Hitachi Ltd 自然言語処理システム保守支援方式
US5222187A (en) * 1989-12-29 1993-06-22 Texas Instruments Incorporated Grammar-based checksum constraints for high performance speech recognition circuit
JP3266246B2 (ja) * 1990-06-15 2002-03-18 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
DE69232407T2 (de) * 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
US5511213A (en) * 1992-05-08 1996-04-23 Correa; Nelson Associative memory processor architecture for the efficient execution of parsing algorithms for natural language processing and pattern recognition
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
US5699456A (en) * 1994-01-21 1997-12-16 Lucent Technologies Inc. Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
JP2967688B2 (ja) * 1994-07-26 1999-10-25 日本電気株式会社 連続単語音声認識装置
US5799268A (en) * 1994-09-28 1998-08-25 Apple Computer, Inc. Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like
US5715468A (en) * 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
DE4440598C1 (de) * 1994-11-14 1996-05-23 Siemens Ag Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments
JP2855409B2 (ja) 1994-11-17 1999-02-10 日本アイ・ビー・エム株式会社 自然言語処理方法及びシステム
US5758322A (en) * 1994-12-09 1998-05-26 International Voice Register, Inc. Method and apparatus for conducting point-of-sale transactions using voice recognition
US5748974A (en) * 1994-12-13 1998-05-05 International Business Machines Corporation Multimodal natural language interface for cross-application tasks
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US6188985B1 (en) * 1997-01-06 2001-02-13 Texas Instruments Incorporated Wireless voice-activated device for control of a processor-based host system
US6456974B1 (en) * 1997-01-06 2002-09-24 Texas Instruments Incorporated System and method for adding speech recognition capabilities to java
WO1998035491A1 (en) * 1997-02-05 1998-08-13 British Telecommunications Public Limited Company Voice-data interface
US6138098A (en) * 1997-06-30 2000-10-24 Lernout & Hauspie Speech Products N.V. Command parsing and rewrite system
US5960384A (en) * 1997-09-03 1999-09-28 Brash; Douglas E. Method and device for parsing natural language sentences and other sequential symbolic expressions
US5995918A (en) * 1997-09-17 1999-11-30 Unisys Corporation System and method for creating a language grammar using a spreadsheet or table interface
US6094635A (en) * 1997-09-17 2000-07-25 Unisys Corporation System and method for speech enabled application
US6058166A (en) * 1997-10-06 2000-05-02 Unisys Corporation Enhanced multi-lingual prompt management in a voice messaging system with support for speech recognition
US6157705A (en) * 1997-12-05 2000-12-05 E*Trade Group, Inc. Voice control of a server
US6154722A (en) * 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
US6138100A (en) * 1998-04-14 2000-10-24 At&T Corp. Interface for a voice-activated connection system
US6499013B1 (en) 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
US6178404B1 (en) * 1999-07-23 2001-01-23 Intervoice Limited Partnership System and method to facilitate speech enabled user interfaces by prompting with possible transaction phrases

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006029755A1 (de) * 2006-06-27 2008-01-03 Deutsche Telekom Ag Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung
US9208787B2 (en) 2006-06-27 2015-12-08 Deutsche Telekom Ag Method and device for the natural-language recognition of a vocal expression

Also Published As

Publication number Publication date
CN1325528A (zh) 2001-12-05
ES2235508T3 (es) 2005-07-01
EP1110205B1 (de) 2005-01-12
US6499013B1 (en) 2002-12-24
ES2235520T3 (es) 2005-07-01
CA2343229A1 (en) 2000-03-16
CN1153190C (zh) 2004-06-09
CN1161747C (zh) 2004-08-11
AU6243999A (en) 2000-03-27
DE69923191D1 (de) 2005-02-17
JP2002524806A (ja) 2002-08-06
EP1110206A1 (de) 2001-06-27
EP1110205A1 (de) 2001-06-27
AU762282B2 (en) 2003-06-19
EP1110206B1 (de) 2004-12-29
CA2343150A1 (en) 2000-03-16
DE69922971D1 (de) 2005-02-03
JP2002524776A (ja) 2002-08-06
ATE287117T1 (de) 2005-01-15
AU763059B2 (en) 2003-07-10
AU5813099A (en) 2000-03-27
DE69922971T2 (de) 2005-12-29
ATE286296T1 (de) 2005-01-15
US6532444B1 (en) 2003-03-11
CN1325527A (zh) 2001-12-05
WO2000014727A1 (en) 2000-03-16
WO2000014728A1 (en) 2000-03-16

Similar Documents

Publication Publication Date Title
DE69923191T2 (de) Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE60201262T2 (de) Hierarchische sprachmodelle
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE60125397T2 (de) Sprachunabhängige stimmbasierte benutzeroberfläche
DE69634239T2 (de) Erkennung kontinuierlich gesprochener Texte und Befehle
DE69829235T2 (de) Registrierung für die Spracherkennung
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE60005326T2 (de) Erkennungseinheiten mit komplementären sprachmodellen
DE69828141T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE69632517T2 (de) Erkennung kontinuierlicher Sprache
DE602004012347T2 (de) Spracherkennung
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE60020773T2 (de) Graphische Benutzeroberfläche und Verfahren zur Änderung von Aussprachen in Sprachsynthese und -Erkennungssystemen
DE69914131T2 (de) Positionshandhabung bei der Spracherkennung
DE60123952T2 (de) Erzeugung von einem einheitlichen aufgabeabhängigen sprachmodell mittels informationsauffindungverfahren
US6434524B1 (en) Object interactive user interface using speech recognition and natural language processing
DE602005001125T2 (de) Erlernen der Aussprache neuer Worte unter Verwendung eines Aussprachegraphen
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE10111056B4 (de) Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem
US20020095289A1 (en) Method and apparatus for identifying prosodic word boundaries
US20070094004A1 (en) Conversation controller
DE60207217T2 (de) Verfahren zum ermöglichen der sprachinteraktion mit einer internet-seite
DE102006006069A1 (de) Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon

Legal Events

Date Code Title Description
8364 No opposition during term of opposition