DE10042944A1 - Graphem-Phonem-Konvertierung - Google Patents
Graphem-Phonem-KonvertierungInfo
- Publication number
- DE10042944A1 DE10042944A1 DE10042944A DE10042944A DE10042944A1 DE 10042944 A1 DE10042944 A1 DE 10042944A1 DE 10042944 A DE10042944 A DE 10042944A DE 10042944 A DE10042944 A DE 10042944A DE 10042944 A1 DE10042944 A1 DE 10042944A1
- Authority
- DE
- Germany
- Prior art keywords
- grapheme
- word
- interface
- partial words
- partial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Bei dem Verfahren zur Graphem-Phonem-Konvertierung eines Worts, das als Ganzes nicht in einem Aussprachelexikon enthalten ist, wird das Wort zunächst in Teilwörter zerlegt. Die Teilwörter werden transkribiert und verkettet. Dadurch bilden sich Schnittstellen zwischen den Transkriptionen der Teilwörter. Die Phoneme an den Schnittstellen müssen häufig geändert werden. Daher werden sie einer erneuten Berechnung unterzogen.
Description
Die Erfindung betrifft ein Verfahren, ein Computerprogramm
produkt, einen Datenträger und ein Computersystem zur Gra
phem-Phonem-Konvertierung eines Worts, das als Ganzes nicht
in einem Aussprachelexikon enthalten ist.
Sprachverarbeitungsverfahren im Allgemeinen sind beispiels
weise aus US 6 029 135, US 5 732 388, DE 196 36 739 C1 und
DE 197 19 381 C1 bekannt. Bei einem Sprachsynthese-System ist die
Schrift-zu-Sprache- bzw. Graphem-Phonem-Konvertierung der zu
sprechenden Wörter von entscheidender Bedeutung. Fehler bei
Lauten, Silbengrenzen und der Wortbetonung sind direkt hör
bar, können zur Unverständlichkeit führen und im schlimmsten
Fall sogar den Sinn einer Aussage verdrehen.
Die beste Qualität erhält man, wenn das zu sprechende Wort in
einem Aussprachelexikon enthalten ist. Die Verwendung solcher
Lexika bereitet jedoch Probleme. Auf der einen Seite erhöht
die Anzahl der Einträge den Suchaufwand. Auf der anderen Sei
te ist es gerade bei Sprachen wie dem Deutschen nicht
möglich, alle Wörter in einem Lexikon zu erfassen, da die
Möglichkeiten der Kompositabildung nahezu unbeschränkt sind.
Abhilfe kann in diesem Fall eine morphologische Zerlegung
schaffen. Ein Wort, das nicht im Lexikon gefunden wird, wird
in seine morphologischen Bestandteile wie Präfixe, Stämme und
Suffixe zerlegt, und diese Bestandteile werden im Lexikon ge
sucht. Eine morphologische Zerlegung ist jedoch gerade bei
langen Wörtern problematisch, weil die Anzahl der möglichen
Zerlegungen mit der Wortlänge steigt. Sie erfordert außerdem
ein ausgezeichnetes Wissen über die Wortbildungsgrammatik ei
ner Sprache. Daher werden Wörtern, die nicht in einem Aus
sprachelexikon gefunden werden, mit Out-Of-Vocabulary-Verfahren
(OOV-Verfahren), z. B. mit Neuronalen Netzen,
transkribiert. Solche OOV-Behandlungen sind allerdings rela
tiv rechenintensiv und führen in aller Regel zu schlechteren
Ergebnissen als die phonetische Konvertierung ganzer Wörter
mit Hilfe eines Aussprachelexikons. Zur Bestimmung der Aus
sprache eines Worts, das nicht in einem Aussprachelexikon
enthalten ist, kann das Wort auch in Teilwörter zerlegt wer
den. Die Teilwörter können mit Hilfe eines Aussprachelexikons
oder eines OOV-Verfahrens transkribiert werden. Die gefunde
nen Teiltranskriptionen können aneinander gehängt werden.
Dies führt jedoch zu Fehlern an den Trennstellen zwischen den
Teiltranskriptionen.
Aufgabe der Erfindung ist es, das Aneinanderfügen von
Teiltranskriptionen zu verbessern. Diese Aufgabe wird durch
ein Verfahren, ein Computerprogrammprodukt, einen Datenträger
und ein Computersystem gemäß den unabhängigen Ansprüchen ge
löst.
Dabei wird unter einem Computerprogrammprodukt das Computer
programm als handelbares Produkt verstanden, in welcher Form
auch immer, z. B. auf Papier, auf einem computerlesbaren Da
tenträger, über ein Netz verteilt, etc.
Erfindungsgemäß wird bei der Graphem-Phonem-Konvertierung ei
nes Worts, das als Ganzes nicht in einem Aussprachelexikon
enthalten ist, zunächst das Wort in Teilwörter zerlegt. An
schließend wird eine Graphem-Phonem-Konvertierung der Teil
wörter durchgeführt.
Die Transkriptionen der Teilwörter werden hintereinander auf
gereiht, wobei sich mindestens eine Schnittstelle zwischen
den Transkriptionen der Teilwörter ergibt. Die an die mindes
tens eine Schnittstelle grenzenden Phoneme der Teilwörter
werden bestimmt.
Dabei besteht die Möglichkeit, nur das letzte Phonem des in
der zeitlichen Reihenfolge der Aussprache vor der Schnitt
stelle liegenden Teilworts zu berücksichtigen. Besser ist es
jedoch, wenn sowohl das genannte als auch das erste Phonem
der folgenden Silbe für die erfindungsgemäße Sonderbehandlung
ausgewählt werden. Noch bessere Ergebnisse werden erzielt,
wenn weitere angrenzende Phoneme einbezogen werden, z. B. ein
oder zwei Phoneme vor der Schnittstelle und zwei nach der
Schnittstelle.
Anschließend werden diejenigen Grapheme der Teilwörter be
stimmt, die die an die mindestens eine Schnittstelle grenzen
den Phoneme erzeugen. Dies kann mittels eines Lexikons erfol
gen, das angibt, durch welche Grapheme diese Phoneme erzeugt
wurden. Wie das Lexikon zu erstellen ist, ist in Horst-Udo
Hain: "Automation of the Training Procedures for Neural Net
works Performing Multi-Lingual Grapheme to Phoneme Conversi
on", Eurospeech 1999, S. 2087-2090, ausgeführt.
Danach wird die Graphem-Phonem-Konvertierung der bestimmten
Grapheme im Kontext, das heißt in Abhängigkeit des Kontexts,
der jeweiligen Schnittstelle neu berechnet. Dies ist nur mög
lich, weil klar ist, welches Phonem durch welches Graphem
bzw. welche Grapheme erzeugt wurde.
Die Schnittstellen zwischen den Teiltranskriptionen werden
somit gesondert behandelt. Gegebenenfalls werden Änderungen
an den vorher ermittelten Teiltranskriptionen vorgenommen.
Ein für ein Sprachsynthese-System nicht unerheblicher Vorteil
der Erfindung ist die Beschleunigung der Berechnung. Während
Neuronale Netze für die Konvertierung der 310 000 Wörter eines
typischen Lexikons für die deutsche Sprache ca. 80 Minuten
benötigen, geschieht dies mit dem erfindungsgemäßen Ansatz in
nur 25 Minuten.
In einer vorteilhaften Weiterbildung der Erfindung kann die
Graphem-Phonem-Konvertierung der Grapheme im Kontext der je
weiligen Schnittstelle mittels eines Neuronalen Netzes neu
berechnet werden. Ein Aussprachelexikon hat den Vorteil, die
"richtige" Transkription zu liefern. Es versagt jedoch, wenn
unbekannte Wörter auftreten. Neuronale Netze können hingegen
für jede beliebige Zeichenkette eine Transkription liefern,
machen dabei aber unter Umständen erhebliche Fehler. Die Wei
terbildung der Erfindung kombiniert die Sicherheit des Lexi
kons mit der Flexibilität der Neuronalen Netze.
Die Transkription der Teilwörter kann auf verschiedene Weise
erfolgen, z. B. mittels einer Out-of-Vocabulary-Behandlung
(OOV-Behandlung). Ein recht zuverlässiger Weg besteht darin,
für das Wort in einer Datenbank, die phonetische Transkripti
onen von Wörtern enthält, nach Teilwörtern zu suchen. Als
Transkription wird dann für ein in der Datenbank gefundenes
Teilwort die in der Datenbank verzeichnete phonetische
Transkription gewählt. Dies führt für die meisten Wörter bzw.
Teilwörter zu brauchbaren Ergebnissen.
Falls das Wort neben dem gefundenen Teilwort mindestens einen
weiteren Bestandteil aufweist, der nicht in der Datenbank
verzeichnet ist, kann dieser mittels einer OOV-Behandlung
phonetisch transkribiert werden. Die OOV-Behandlung kann mit
tels eines statistischen Verfahrens, z. B. mittels eines Neu
ronalen Netzes, oder regelbasiert erfolgen.
Vorteilhafterweise wird das Wort in Teilwörter einer gewissen
Mindestlänge zerlegt, damit möglichst große Teilwörter gefun
den werden und entsprechend wenig Nachbesserungen anfallen.
Weitere vorteilhafte Weiterbildungen der Erfindung sind in
den Unteransprüchen gekennzeichnet.
Im folgenden wird die Erfindung anhand von Ausführungsbei
spielen näher erläutert, die in den Figuren schematisch dar
gestellt sind. Im einzelnen zeigt:
Fig. 1 ein zur Graphem-Phonem-Konvertierung geeignetes
Computersystem; und
Fig. 2 eine schematische Darstellung des erfindungsgemä
ßen Verfahrens.
Fig. 1 zeigt ein zur Graphem-Phonem-Konvertierung eines Worts
geeignetes Computersystem. Dies weist einen Prozessor
(processor, CPU) 20, einen Arbeitsspeicher (RAM) 21, einen Pro
grammspeicher (programm memory, ROM) 22, einen Festplatten-
Controller (hard disc controller, HDC) 23, der eine Festplat
te (hard disc) 30 steuert, und einen Schnittstellen-Controller
(I/O controller) 24 auf. Prozessor 20, Arbeits
speicher 21, Programmspeicher 22, Festplatten-Controller 23
und Schnittstellen-Controller 24 sind über einen Bus, den
CPU-Bus 25, zum Austausch von Daten und Befehlen miteinander
gekoppelt. Ferner weist der Computer einen Ein-/Ausgabe-Bus
(I/O Bus) 26 auf, der verschiedene Ein- und Ausgabeeinrich
tungen mit dem Schnittstellen-Controller 24 koppelt. Zu den
Ein- und Ausgabeeinrichtungen zählen z. B. eine allgemeine
Ein- und Ausgabe-Schnittstelle (I/O interface) 27, eine An
zeigeeinrichtung (display) 28, eine Tastatur (keyboard) 29
und eine Maus 31).
Betrachten wir als Beispiel für die Graphem-Phonem-Konvertierung
das deutsche Wort "überflüssigerweise".
Zunächst wird versucht, das Wort in Teilwörter zu zerlegen,
die Bestandteile eines Aussprache-Lexikons sind. Um die An
zahl der möglichen Zerlegungen auf ein sinnvolles Maß zu be
schränken, wird für die gesuchten Bestandteile eine Mindest
länge vorgegeben. Für die deutsche Sprache haben sich 6 Buch
staben als Mindestlänge in der Praxis bewährt.
Alle gefundenen Bestandteile werden in einer verketteten Lis
te abgespeichert. Bei mehreren Möglichkeiten wird immer der
längste Bestandteil bzw. der Pfad mit den längsten Bestand
teilen verwendet.
Werden nicht alle Teile des Worts als Teilwörter im Ausspra
chelexikon gefunden, so werden die verbleibenden Lücken im
bevorzugten Ausführungsbeispiel durch ein Neuronales Netz ge
schlossen. Im Gegensatz zur Standardanwendung des Neuronalen
Netzes, bei der die Transkription für das ganze Wort erstellt
werden muss, ist die Aufgabe beim Auffüllen der Lücken einfa
cher, weil zumindest der linke Phonemkontext als sicher ange
nommen werden kann, da er ja aus dem Aussprachelexikon
stammt. Die Eingabe der vorhergehenden Phoneme stabilisiert
somit die Ausgabe des Neuronalen Netzes für die zu füllende
Lücke, da das zu generierende Phonem nicht nur von den Buch
staben, sondern auch vom vorhergehenden Phonem abhängt.
Ein Problem beim Aneinanderhängen der Transkriptionen aus dem
Lexikon sowie bei der Bestimmung der Transkription für die
Lücken mittels eines Neuronalen Netzes besteht darin, daß in
einigen Fällen der letzte Laut der vorhergehenden, linken
Transkription verändert werden muss. Dies ist bei dem be
trachteten Wort "überflüssigerweise" der Fall. Es wird im Le
xikon als Ganzes nicht gefunden, dafür aber das Teilwort
"überflüssig" und das Teilwort "erweise".
Im Folgenden werden Grapheme zur besseren Unterscheidung in
spitzen Klammern << eingeschlossen und Phoneme in eckigen
Klammern [].
Die Endung <-ig< am Silbenende wird gesprochen wie [IC], dar
gestellt in der Lautschrift SAMPA, also wie [I] (ungespannter
kurzer ungerundeter vorderer Vokal) gefolgt vom Ich-Laut [C]
(stimmloser palataler Frikativ). Die Vorsilbe <er-< wird ge
sprochen wie [Er], mit einem [E] (ungespannter kurzer unge
rundeter halboffener vorderer Vokal, offenes "e") und einem
[r] (zentraler Sonorant).
Beim einfachen Verketten der Transkriptionen wird sinnvoller
weise automatisch eine Silbengrenze zwischen den beiden Wör
tern eingefügt, dargestellt durch einen Bindestrich "-". Es
ergibt sich somit als Gesamttranskription des Worts <über
flüssigerweise<
[y: - b6 - flY - sIC - Er - vaI - z@]
statt richtigerweise
[y: - b6 - flY - sI - g6 - vaI - z@]
mit einem [g] (stimmhafter velarer Plosiv) und einem [6]
(nichtbetonter zentraler halboffener Vokal mit velarer Fär
bung) sowie einer verschobenen Silbengrenze. Somit wären an
der Wortgrenze Laut und Silbengrenze falsch.
Abhilfe kann hier geschaffen werden, indem ein Neuronales
Netz den letzten Laut der linken Transkription berechnet. Da
bei stellt sich aber die Frage, welche Buchstaben am Ende der
linken Transkription zur Bestimmung des letzten Lautes heran
gezogen werden sollen.
Für diese Entscheidung wird ein spezielles Aussprachelexikon
benutzt. Die Besonderheit an diesem Lexikon besteht darin,
daß es die Information enthält, welche Graphemgruppe zu wel
chem Laut gehört. Wie das Lexikon zu erstellen ist, ist in
Horst-Udo Hain: "Automation of the Training Procedures for
Neural Networks Performing Multi-Lingual Grapheme to Phoneme
Conversion". Eurospeech 1999, S. 2087-2090, ausgeführt.
Der Eintrag für "überflüssig" hat in diesem Lexikon die Form
Damit kann eindeutig bestimmt werden, aus welcher Graphem
gruppe der letzte Laut entstanden ist, nämlich aus dem <g<.
Das Neuronale Netz kann nun mit Hilfe des jetzt vorhandenen
rechten Kontextes <erweise< neu über Phonem und Silbengrenze
am Wortende entscheiden. Das Ergebnis ist in diesem Falle das
Phonem [g], vor dem eine Silbengrenze gesetzt wird.
Jetzt ist die Silbengrenze an der richtigen Stelle und das
<g< wird auch als [g] transkribiert und nicht als [C].
Der erste Laut der rechten Transkription wird nach dem
gleichen Schema neu bestimmt. Die richtige Transkription für
<er-< von <erweise< ist an dieser Stelle [6] und nicht [Er].
Hier sind gleich zwei Laute zu revidieren, weshalb im
bevorzugten Ausführungsbeispiel stets zwei Laute revidiert
werden.
Im Ergebnis erhält man die korrekte phonetische Transkription
an dieser Schnittstelle.
Weitere Verbesserungen sind zu erzielen, wenn für das Ausfül
len der Transkriptionslücken nicht das Standardnetz verwendet
wird, das zur Konvertierung ganzer Wörter trainiert wurde,
sondern ein speziell zum Ausfüllen der Lücken trainiertes
Netz. Zumindest in den Fällen, bei denen der rechte Phonem
kontext auch vorhanden ist, bietet sich ein Spezialnetz an,
das unter Verwendung des rechten Phonemkontextes über den zu
generierenden Laut entscheidet.
Claims (11)
1. Verfahren zur Graphem-Phonem-Konvertierung eines Wortes,
das als Ganzes nicht in einem Aussprachelexikon enthalten
ist, mit folgenden Schritten:
- a) das Wort wird in Teilwörter zerlegt,
- b) eine Graphem-Phonem-Konvertierung der Teilwörter wird durchgeführt,
- c) die durch die Konvertierung erhaltenen Transkriptionen der Teilwörter werden hintereinander aufgereiht, wobei sich mindestens eine Schnittstelle zwischen den Transkriptionen der Teilwörter ergibt,
- d) die an die mindestens eine Schnittstelle grenzenden Phone me der Teilwörter werden bestimmt,
- e) es werden diejenigen Grapheme der Teilwörter bestimmt, die die an die mindestens eine Schnittstelle grenzenden Phone me erzeugen,
- f) die Graphem-Phonem-Konvertierung der bestimmten Grapheme wird im Kontext der jeweiligen Schnittstelle neu berech net.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
dass die Graphem-Phonem-Konvertierung der bestimmten Grapheme
im Kontext der jeweiligen Schnittstelle mittels eines Neuro
nalen Netzes neu berechnet werden.
3. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
dass die Graphem-Phonem-Konvertierung der bestimmten Grapheme
im Kontext der jeweiligen Schnittstelle mittels eines Lexi
kons neu berechnet werden.
4. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet,
dass für das Wort in einer Datenbank, die phonetische
Transkriptionen von Wörtern enthält, nach Teilwörtern des
Worts gesucht wird; und dass für ein in der Datenbank gefun
denes Teilwort die in der Datenbank verzeichnete phonetische
Transkription gewählt wird.
5. Verfahren nach Anspruch 4,
dadurch gekennzeichnet,
dass das Wort neben dem gefundenen Teilwort mindestens einen
weiteren Bestandteil aufweist, der nicht in der Datenbank
verzeichnet ist; und dass dieser weitere Bestandteil mittels
einer OOV-Behandlung phonetisch transkribiert wird.
6. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass das Wort in
Teilwörter einer gewissen Mindestlänge zerlegt wird.
7. Computerprogrammprodukt, das durch einen Computer ausführ
bar ist und dabei die Schritte nach einem der Ansprüche 1 bis
6 ausführt.
8. Computerprogrammprodukt, das auf einem computergeeigneten
Medium gespeichert ist und computerlesbare Programmittel um
faßt, die es einem Computer ermöglichen, das Verfahren nach
einem der Ansprüche 1 bis 6 auszuführen.
9. Datenträger, auf dem ein Computerprogramm gespeichert ist,
das es einem Computer ermöglicht, durch einen Ladeprozess das
Verfahren nach einem der Ansprüche 1 bis 6 auszuführen.
10. Computersystem mit Mitteln zum Ausführen des Verfahrens
nach einem der Ansprüche 1 bis 6.
11. Computersystem zur Graphem-Phonem-Konvertierung eines
Worts, das als Ganzes nicht in einem Aussprachelexikon ent
halten ist,
einer Speichereinrichtung (22, 30) zum Speichern eines Com puterprogramms auf einem Speichermedium;
einer Verarbeitungseinheit (20) zum Laden des Computerpro gramms aus der Speichereinrichtung und zum Ausführen des Computerprogramms;
mit Mitteln zum Zerlegen des Worts in Teilwörter;
mit Mitteln zum hintereinander Aufreihen der Transkriptio nen der Teilwörter, wobei sich mindestens eine Schnittstel le zwischen den Transkriptionen der Teilwörter ergibt;
mit Mitteln zum Bestimmen der an die mindestens eine Schnittstelle grenzenden Phoneme der Teilwörter;
mit Mitteln zum Bestimmen derjenigen Grapheme der Teilwör ter, die die an die mindestens eine Schnittstelle grenzen den Phoneme erzeugen;
mit Mitteln zum erneuten Berechnen der Graphem-Phonem-Konvertierung der bestimmten Grapheme im Kontext der jewei ligen Schnittstelle; und
mit Mitteln zum anschließenden Schreiben der an der Schnittstelle neu berechneten Phoneme in eine zweite Spei chereinrichtung.
einer Speichereinrichtung (22, 30) zum Speichern eines Com puterprogramms auf einem Speichermedium;
einer Verarbeitungseinheit (20) zum Laden des Computerpro gramms aus der Speichereinrichtung und zum Ausführen des Computerprogramms;
mit Mitteln zum Zerlegen des Worts in Teilwörter;
mit Mitteln zum hintereinander Aufreihen der Transkriptio nen der Teilwörter, wobei sich mindestens eine Schnittstel le zwischen den Transkriptionen der Teilwörter ergibt;
mit Mitteln zum Bestimmen der an die mindestens eine Schnittstelle grenzenden Phoneme der Teilwörter;
mit Mitteln zum Bestimmen derjenigen Grapheme der Teilwör ter, die die an die mindestens eine Schnittstelle grenzen den Phoneme erzeugen;
mit Mitteln zum erneuten Berechnen der Graphem-Phonem-Konvertierung der bestimmten Grapheme im Kontext der jewei ligen Schnittstelle; und
mit Mitteln zum anschließenden Schreiben der an der Schnittstelle neu berechneten Phoneme in eine zweite Spei chereinrichtung.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10042944A DE10042944C2 (de) | 2000-08-31 | 2000-08-31 | Graphem-Phonem-Konvertierung |
EP01117869A EP1184839B1 (de) | 2000-08-31 | 2001-07-23 | Graphem-Phonem-Konvertierung |
DE50107556T DE50107556D1 (de) | 2000-08-31 | 2001-07-23 | Graphem-Phonem-Konvertierung |
US09/942,735 US7107216B2 (en) | 2000-08-31 | 2001-08-31 | Grapheme-phoneme conversion of a word which is not contained as a whole in a pronunciation lexicon |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10042944A DE10042944C2 (de) | 2000-08-31 | 2000-08-31 | Graphem-Phonem-Konvertierung |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10042944A1 true DE10042944A1 (de) | 2002-03-21 |
DE10042944C2 DE10042944C2 (de) | 2003-03-13 |
Family
ID=7654523
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10042944A Expired - Fee Related DE10042944C2 (de) | 2000-08-31 | 2000-08-31 | Graphem-Phonem-Konvertierung |
DE50107556T Expired - Lifetime DE50107556D1 (de) | 2000-08-31 | 2001-07-23 | Graphem-Phonem-Konvertierung |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE50107556T Expired - Lifetime DE50107556D1 (de) | 2000-08-31 | 2001-07-23 | Graphem-Phonem-Konvertierung |
Country Status (3)
Country | Link |
---|---|
US (1) | US7107216B2 (de) |
EP (1) | EP1184839B1 (de) |
DE (2) | DE10042944C2 (de) |
Families Citing this family (180)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
DE10042942C2 (de) * | 2000-08-31 | 2003-05-08 | Siemens Ag | Verfahren zur Sprachsynthese |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7353164B1 (en) * | 2002-09-13 | 2008-04-01 | Apple Inc. | Representation of orthography in a continuous vector space |
US7047193B1 (en) | 2002-09-13 | 2006-05-16 | Apple Computer, Inc. | Unsupervised data-driven pronunciation modeling |
US8285537B2 (en) * | 2003-01-31 | 2012-10-09 | Comverse, Inc. | Recognition of proper nouns using native-language pronunciation |
JP4001283B2 (ja) * | 2003-02-12 | 2007-10-31 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 形態素解析装置および自然言語処理装置 |
WO2004097793A1 (en) * | 2003-04-30 | 2004-11-11 | Loquendo S.P.A. | Grapheme to phoneme alignment method and relative rule-set generating system |
US7280963B1 (en) * | 2003-09-12 | 2007-10-09 | Nuance Communications, Inc. | Method for learning linguistically valid word pronunciations from acoustic data |
US20050108013A1 (en) * | 2003-11-13 | 2005-05-19 | International Business Machines Corporation | Phonetic coverage interactive tool |
TWI233589B (en) * | 2004-03-05 | 2005-06-01 | Ind Tech Res Inst | Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously |
CN1315108C (zh) * | 2004-03-17 | 2007-05-09 | 财团法人工业技术研究院 | 对易标错形素重新评分以提高准确率的文字转音标的方法 |
JP4328698B2 (ja) * | 2004-09-15 | 2009-09-09 | キヤノン株式会社 | 素片セット作成方法および装置 |
TWI250509B (en) * | 2004-10-05 | 2006-03-01 | Inventec Corp | Speech-synthesizing system and method thereof |
US20060259301A1 (en) * | 2005-05-12 | 2006-11-16 | Nokia Corporation | High quality thai text-to-phoneme converter |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
TWI340330B (en) * | 2005-11-14 | 2011-04-11 | Ind Tech Res Inst | Method for text-to-pronunciation conversion |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8135590B2 (en) * | 2007-01-11 | 2012-03-13 | Microsoft Corporation | Position-dependent phonetic models for reliable pronunciation identification |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US7991615B2 (en) | 2007-12-07 | 2011-08-02 | Microsoft Corporation | Grapheme-to-phoneme conversion using acoustic data |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN110096712B (zh) | 2013-03-15 | 2023-06-20 | 苹果公司 | 通过智能数字助理的用户培训 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR102057795B1 (ko) | 2013-03-15 | 2019-12-19 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
EP3480811A1 (de) | 2014-05-30 | 2019-05-08 | Apple Inc. | Verfahren zur eingabe von mehreren befehlen mit einer einzigen äusserung |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US9910836B2 (en) * | 2015-12-21 | 2018-03-06 | Verisign, Inc. | Construction of phonetic representation of a string of characters |
US10102189B2 (en) * | 2015-12-21 | 2018-10-16 | Verisign, Inc. | Construction of a phonetic representation of a generated string of characters |
US10102203B2 (en) * | 2015-12-21 | 2018-10-16 | Verisign, Inc. | Method for writing a foreign language in a pseudo language phonetically resembling native language of the speaker |
US9947311B2 (en) | 2015-12-21 | 2018-04-17 | Verisign, Inc. | Systems and methods for automatic phonetization of domain names |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
CN105590623B (zh) * | 2016-02-24 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 基于人工智能的字母音素转换模型生成方法及装置 |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US11195513B2 (en) * | 2017-09-27 | 2021-12-07 | International Business Machines Corporation | Generating phonemes of loan words using two converters |
CN112487797B (zh) * | 2020-11-26 | 2024-04-05 | 北京有竹居网络技术有限公司 | 数据生成方法、装置、可读介质及电子设备 |
CN113707131B (zh) * | 2021-08-30 | 2024-04-16 | 中国科学技术大学 | 语音识别方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19636739C1 (de) * | 1996-09-10 | 1997-07-03 | Siemens Ag | Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem |
DE19719381C1 (de) * | 1997-05-07 | 1998-01-22 | Siemens Ag | Verfahren zur Spracherkennung durch einen Rechner |
US5732388A (en) * | 1995-01-10 | 1998-03-24 | Siemens Aktiengesellschaft | Feature extraction method for a speech signal |
US6029135A (en) * | 1994-11-14 | 2000-02-22 | Siemens Aktiengesellschaft | Hypertext navigation system controlled by spoken words |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3836502B2 (ja) * | 1993-03-26 | 2006-10-25 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | テキスト・波形変換 |
US5651095A (en) * | 1993-10-04 | 1997-07-22 | British Telecommunications Public Limited Company | Speech synthesis using word parser with knowledge base having dictionary of morphemes with binding properties and combining rules to identify input word class |
WO1996010795A1 (en) * | 1994-10-03 | 1996-04-11 | Helfgott & Karas, P.C. | A database accessing system |
US5913194A (en) * | 1997-07-14 | 1999-06-15 | Motorola, Inc. | Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system |
US6108627A (en) * | 1997-10-31 | 2000-08-22 | Nortel Networks Corporation | Automatic transcription tool |
US6076060A (en) * | 1998-05-01 | 2000-06-13 | Compaq Computer Corporation | Computer method and apparatus for translating text to sound |
US6411932B1 (en) * | 1998-06-12 | 2002-06-25 | Texas Instruments Incorporated | Rule-based learning of word pronunciations from training corpora |
US6188984B1 (en) * | 1998-11-17 | 2001-02-13 | Fonix Corporation | Method and system for syllable parsing |
US6208968B1 (en) * | 1998-12-16 | 2001-03-27 | Compaq Computer Corporation | Computer method and apparatus for text-to-speech synthesizer dictionary reduction |
-
2000
- 2000-08-31 DE DE10042944A patent/DE10042944C2/de not_active Expired - Fee Related
-
2001
- 2001-07-23 DE DE50107556T patent/DE50107556D1/de not_active Expired - Lifetime
- 2001-07-23 EP EP01117869A patent/EP1184839B1/de not_active Expired - Lifetime
- 2001-08-31 US US09/942,735 patent/US7107216B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6029135A (en) * | 1994-11-14 | 2000-02-22 | Siemens Aktiengesellschaft | Hypertext navigation system controlled by spoken words |
US5732388A (en) * | 1995-01-10 | 1998-03-24 | Siemens Aktiengesellschaft | Feature extraction method for a speech signal |
DE19636739C1 (de) * | 1996-09-10 | 1997-07-03 | Siemens Ag | Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem |
DE19719381C1 (de) * | 1997-05-07 | 1998-01-22 | Siemens Ag | Verfahren zur Spracherkennung durch einen Rechner |
Non-Patent Citations (1)
Title |
---|
HAIN, Horst-Udo, "Automation of the Training Procedures for Neural Networks Performing Multi-Signal Grapheme to Phoneme Conversion, in: Eurospeech 1999, S. 2087-2090 * |
Also Published As
Publication number | Publication date |
---|---|
EP1184839B1 (de) | 2005-09-28 |
EP1184839A3 (de) | 2003-02-05 |
DE50107556D1 (de) | 2005-11-03 |
US20020046025A1 (en) | 2002-04-18 |
DE10042944C2 (de) | 2003-03-13 |
US7107216B2 (en) | 2006-09-12 |
EP1184839A2 (de) | 2002-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1184839B1 (de) | Graphem-Phonem-Konvertierung | |
DE60216069T2 (de) | Sprache-zu-sprache erzeugungssystem und verfahren | |
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
DE60020434T2 (de) | Erzeugung und Synthese von Prosodie-Mustern | |
DE60201262T2 (de) | Hierarchische sprachmodelle | |
DE69917415T2 (de) | Sprachsynthese mit Prosodie-Mustern | |
DE3242866C2 (de) | ||
DE69821673T2 (de) | Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
EP0886853B1 (de) | Auf mikrosegmenten basierendes sprachsyntheseverfahren | |
DE60035001T2 (de) | Sprachsynthese mit Prosodie-Mustern | |
DE102017124264B4 (de) | Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen | |
DE69834553T2 (de) | Erweiterbares spracherkennungssystem mit einer audio-rückkopplung | |
EP1466317B1 (de) | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner | |
DE60118874T2 (de) | Prosodiemustervergleich für Text-zu-Sprache Systeme | |
DE19825205C2 (de) | Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz | |
DE2212472A1 (de) | Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte | |
DE2551632C2 (de) | Verfahren zum Zusammensetzen von Sprachnachrichten | |
EP1892700A1 (de) | Verfahren zur Spracherkennung und Sprachwiedergabe | |
DE69917960T2 (de) | Phonembasierte Sprachsynthese | |
DE69727046T2 (de) | Verfahren, vorrichtung und system zur erzeugung von segmentzeitspannen in einem text-zu-sprache system | |
EP3010014B1 (de) | Verfahren zur interpretation von automatischer spracherkennung | |
DE69631037T2 (de) | Sprachsynthese | |
WO2001018792A1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8304 | Grant after examination procedure | ||
8364 | No opposition during term of opposition | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |
Effective date: 20150303 |