DE102009023924A1

DE102009023924A1 - Method for speech recognition in patients with neurological disorder or laryngectomy for e.g. vocal rehabilitation, involves acoustically reproducing output signal and/or converting signal into written text reference number list

Info

Publication number: DE102009023924A1
Application number: DE102009023924A
Authority: DE
Inventors: Tobias Schuldt; Steffen Dr. Dommerich; Burkhard Prof. Dr. Kramp
Original assignee: Universitaet Rostock
Current assignee: Universitaet Rostock
Priority date: 2009-06-04
Filing date: 2009-06-04
Publication date: 2010-12-09
Anticipated expiration: 2029-06-05
Also published as: DE102009023924B4

Abstract

The method involves receiving noise, which is generated in an oral cavity (6) of patients, during articulation of speech of the patients. An input signal is subjected in a digital form in a signal processing device for detecting linguistic patterns. The detected patterns are converted to an output signal by speech synthesis, where the output signal corresponds to natural or simulated articulated speaking voice. The output signal is acoustically reproduced and/or converted into a written text reference number list. Independent claims are also included for the following: (1) a system for speech recognition in patients (2) a method for operating a system for speech recognition in patients.

Description

Die Erfindung betrifft ein Verfahren und ein System zur Spracherkennung bei Patienten, die aufgrund einer Kehlkopfentfernung oder bei zu Stimmlosigkeit führenden neurologischen Störungen über keine oder nur eine eingeschränkte natürliche Sprechstimme verfügen, insbesondere zur stimmlichen Rehabilitation und/oder zum Ersatz einer natürlichen Sprechstimme eines Patienten und/oder zur Erzeugung schriftlicher Texte. Die Erfindung betrifft weiter ein Verfahren zum Betreiben eines entsprechenden Systems.The The invention relates to a method and a system for speech recognition in patients who are due to a laryngectomy or too Leading to voicelessness neurological disorders about none or only a limited one natural speaking voice feature, in particular for vocal rehabilitation and / or replacement a natural one Speech voice of a patient and / or to generate written Texts. The invention further relates to a method of operation a corresponding system.

Die menschliche Sprache mit natürlicher Sprechstimme entsteht, wenn Luft aus der Lunge durch den Kehlkopf und die Mundhöhle nach außen tritt, wobei der Luftstrom zunächst durch die Stimmlippen im Kehlkopf in Schwingung versetzt wird, während er in der Mundhöhle durch Zusammenwirken von Zunge, Ober- und Unterkiefer moduliert wird. Durch die variable Formung der Zunge und die Variation des Abstandes der Zähne von Ober- und Unterkiefer sind sämtliche in der menschlichen Sprache vorkommenden Laute artiku lierbar. Die Tonhöhe der menschlichen Sprache wird vorwiegend durch Spannen und Entspannen der Stimmlippen im Kehlkopf variiert. Durch Vergrößerung und Verkleinerung des schwingenden Luftvolumens in der Mundhöhle mittels Verschiebung der Zunge in Richtung auf den Gaumen oder vom Gaumen weg lässt sich das Obertonspektrum der Stimme beeinflussen, so dass auch durch die Zungenbewegung und die Bewegung des Unterkiefers Einfluss auf die wahrgenommene Tonhöhe genommen wird.The human speech with natural speaking voice arises when air from the lungs through the larynx and the oral cavity after outside occurs, the airflow first is vibrated through the vocal folds in the larynx while he is in the oral cavity modulated by interaction of tongue, upper and lower jaw becomes. Due to the variable shaping of the tongue and the variation of the Distance of the teeth of upper and lower jaw are all in the human language occurring sounds artiku lierbar. The pitch Human language becomes predominantly through tension and relaxation the vocal folds in the larynx varies. By enlargement and Reduction of the oscillating air volume in the oral cavity by means of Displacement of the tongue towards the palate or the palate leaves off to influence the overtone spectrum of the voice, so also by the tongue movement and the movement of the lower jaw influence the perceived pitch is taken.

Im Unterschied zur natürlichen Sprechstimme entsteht eine Flüsterstimme, wenn die Stimmlippen im Kehlkopf nicht angespannt werden. In der Folge wird der Luftstrom, der aus der Lunge durch die Mundhöhle und den Mund nach außen strömt, nicht in eine deutlich wahrnehmbare Schwingung versetzt. Dennoch ist es möglich, in der Flüsterstimme den Luftstrom wie beim normalen Sprechen zu modulieren. Auf kurze Distanz ist daher auch eine mit Flüsterstimme gesprochene Sprache verständlich. Aufgrund des Fehlens eines Träger-Tons trägt jedoch die Flüsterstimme nur über eine kurze Entfernung von wenigen Dezimetern bis wenigen Metern.in the Difference to the natural Speaking voice creates a whispering voice, if the vocal folds in the larynx are not tense. In the The result is the flow of air that flows from the lungs through the oral cavity and the mouth to the outside flows, not put into a clearly perceptible vibration. Yet Is it possible, in the whispering voice to modulate the airflow as in normal speech. On short Distance is therefore also a spoken with whisper voice understandable. Due to the lack of a carrier tone carries however the whispering voice only over a short distance of a few decimeters to a few meters.

Gründe zur zeitweisen oder dauerhaften Benutzung einer Flüsterstimme anstelle einer natürlichen Sprechstimme sind neben vorübergehenden Halserkrankungen wie beispielsweise Erkältungen vor allem neurologische Störungen. Hierzu gehören Lähmungen der Stimmbänder. Diese neurologischen Störungen machen eine Benutzung der Stimmbänder bei ansonsten intaktem Kehlkopf dauerhaft unmöglich.Reasons to temporary or permanent use of a whispering voice instead of a natural one Speaking voice are in addition to temporary throat diseases such as colds all neurological disorders. These include paralysis the vocal cords. These neurological disorders make use of the vocal cords in otherwise intact larynx permanently impossible.

Ein weiterer Grund für den Verlust der natürlichen Sprechstimme sind medizinisch notwendige Kehlkopfentfernungen (Laryngektomie). Gründe für eine Kehlkopfentfernung sind häufig Krebserkrankungen des Kehlkopfes (Larynxkarzinom) oder des tiefen Rachens (Hypopharynxkarzinom). Der Kehlkopf trennt Speiseröhre und Luftröhre, so dass die durch den Mund eingeatmete Luft in die Luftröhre und die ebenfalls über den Mund aufgenommenen Speisen in die Speiseröhre gelangen. Diese Funktion wird durch Entfernung des Kehlkopfes zusammen mit der Funktion der Stimmenerzeugung mit den Stimmlippen unterbunden. Bei der Kehlkopfentfernung werden in einer Operation Speise- und Luftwege getrennt. Der Mund führt nur noch in die Speiseröhre. Die Luftröhre ihrerseits endet in einer Atemöffnung im Hals (Tracheostoma). Nach einer Kehlkopfoperation führt die Luftröhre somit nicht mehr über die Mundhöhle, so dass eine Modulation des ausgeatmeten Luftstromes in der Mundhöhle unmöglich wird. Dem Patienten, dem der Kehlkopf entfernt worden ist, ist damit die oben beschriebene Flüsterstimme unmöglich.One another reason for the loss of the natural Voice are medically necessary laryngectomy (laryngectomy). reasons for one Laryngeal removal is common Cancer of the larynx (laryngeal carcinoma) or the deep Throat (hypopharyngeal carcinoma). The larynx separates the esophagus and Windpipe, so that the air inhaled through the mouth into the trachea and which also over enter the mouth of the food in the esophagus. This feature will work by removing the larynx together with the voice generation function with the vocal cords prevented. When laryngeal removal will be separated in a surgery food and air. The mouth only leads still in the esophagus. The trachea in turn ends in a breathing hole in the neck (tracheostoma). After a larynx operation leads the windpipe thus not over the Oral cavity, so that a modulation of the exhaled air flow in the oral cavity is impossible. The patient who has had the larynx removed is thus the whispered voice described above impossible.

Zur sprachlichen Rehabilitation bzw. zum Sprachersatz für Patienten, deren Kehlkopf entfernt worden ist, sind mehrere Methoden bekannt. Elektronische Sprechhilfen sind Vibrationserzeuger, die einen monotonen Ton erzeugen und an den Mund oder Hals gehalten werden. Über das Gewebe des Halses oder des Mundes werden die Schwingungen in die Mundhöhle des Patienten übertragen, so dass die Luft in der Mundhöhle zum Schwingen gebracht wird. Die schwingende Luft kann in der Mundhöhle wieder auf bekannte Weise moduliert werden, so dass eine verständliche Sprache resultiert, die aufgrund der schwingenden Luft auch mehrere Meter trägt. Der Klang wird aufgrund der monotonen Vibration als roboterhaft oder unangenehm empfunden, jedoch erfordert die elektrische Sprechhilfe vom Patienten keine besondere Übung.to linguistic rehabilitation and / or language replacement for patients, whose larynx has been removed, several methods are known. Electronic speech aids are vibration generators that are monotonous Produce clay and hold it to the mouth or throat. About the Tissues of the neck or mouth will be the vibrations in the oral cavity of the Transfer patients, so that the air in the oral cavity is made to vibrate. The vibrating air can resume in the oral cavity well-known way, so that understandable Language results, due to the oscillating air also several Meter carries. The sound becomes robotic due to the monotone vibration or uncomfortable, but requires the electrical speech assistance No special exercise from the patient.

Eine Methode, die vom Patienten erlernt und trainiert werden muss, ist die so genannte „Ruktusstimme”, auch bekannt als „Ösophagus-Ersatzstimme” Dabei lernt der Patient, Luft bewusst in die Speiseröhre zu drücken und diese für die Bildung von Lauten zu nutzen.A Method that needs to be learned and trained by the patient is the so-called "Ruktusstimme", too known as the "esophageal replacement voice" the patient learns to consciously push air into the esophagus and use it for education to use of sounds.

Der Vorteil bei dieser Methode ist, dass der Patient beide Hände frei hat und keine weiteren Hilfsmittel notwendig sind. Allerdings dauert das Erlernen der Ruktusstimme relativ lange, die Stimmqualität ist vermindert und aufgrund des begrenzten Luftvolumens, das in die Speiseröhre eingeführt werden kann, ist die Zeitdauer, die für eine Stimmbildung jeweils zur Verfügung steht, kurz, insbesondere nur wenige Sekunden. Auch ist die Stimme tief und klingt nicht natürlich.Of the Advantage of this method is that the patient both hands free and no further aids are necessary. However, it takes learning the Ruktusstimme relatively long, the voice quality is reduced and due to the limited volume of air that can be introduced into the esophagus, is the time period for a voice is available in each case, in short, in particular only a few seconds. Also, the voice is deep and does not sound natural.

Eine dritte bekannte Methode besteht darin, zwischen der Luftröhre und der Speiseröhre eine kleine Öffnung herzustellen, in die eine Stimmprothese bzw. Stimmfistel eingeführt wird. Dabei handelt es sich meist um Kunststoffventile, die chirurgisch in die Öffnung eingebracht werden. Um mit der Stimmprothese zu sprechen, wird die Luftröhrenöffnung, das Tracheostoma, mit der Hand abgedeckt, so dass die ausgeatmete Luft durch die Stimmprothese in die Speiseröhre und von dort in die Mundhöhle gelangt. Nach dem Durchtritt durch die Stimmprothese gerät die Luft in der Speiseröhre in Schwingungen. Der Vorteil der Stimmprothese ist, dass das Erlernen der Sprache wenig Zeit in Anspruch nimmt. Als nachteilig wird empfunden, dass eine Hand benötigt wird, um die Luftröhrenöffnung abzudecken und dass die Stimmprothese häufig gewechselt werden muss, da bakterielle Infektionen möglich sind. Dies führt zu erhöhten Kosten und Belastungen für den Patienten. Auch bei Gebrauch einer Stimmprothese ist die Qualität des erzeugten Klangs als künstlich anzusehen.A third known method is between the trachea and the esophagus a small opening into which a voice prosthesis or vocal fistula is introduced. These are mostly plastic valves that are surgical in the opening be introduced. To speak with the voice prosthesis, the Trachea opening the tracheostoma, covered by hand, leaving the exhaled Air passes through the voice prosthesis in the esophagus and from there into the oral cavity. To As it passes through the voice prosthesis, the air in the esophagus vibrates. The advantage of the voice prosthesis is that learning the language takes little time. A disadvantage is felt that a hand needed is used to cover the tracheal opening and that the voice prosthesis is common must be changed because bacterial infections are possible. this leads to to increased Costs and burdens for the patient. Even when using a voice prosthesis is the quality of the generated Sound as artificial to watch.

Eine weitere Artikulationsmethode, die kehlkopfoperierten Patienten zur Verfügung steht, ist die so genannte „Pseudo-Flüsterstimme”. Diese bildet eine Möglichkeit für den Laryngektomierten, d. h. den Patienten, dessen Kehlkopf entfernt worden ist, sich leise, unterhalb einer Flüsterstimme zu verständigen. Die Pseudo-Flüsterstimme basiert auf der Erzeugung von Geräuschen in der Mundhöhle, die bei der Artikulation von Sprache in einer normalen Sprechstimme oder in einer Flüsterstimme entstehen, ohne dass dabei jedoch ein Luftstrom in der Mundhöhle herrscht. Eine Bildung von Vokalen ist dabei so gut wie nicht möglich, da Vokale als so genannte Selbstlaute wesentlich auf einer Schwingungserzeugung des Luftstromes in der Mundhöhle beruhen. Mit der Pseudo-Flüsterstimme sind somit deutlich hörbar vor allem Plosivlaute erzeugbar, also Konsonanten, bei deren Artikulation der Atemluftstrom beim normalen Sprechen schon vollkommen blockiert wird. Dies sind beispielsweise die Konsonanten „P”, „B”, „T” „D”, „G” und deren Abwandlungen. Nasale sind hingegen nicht oder nur schwer in einer Pseudo-Flüsterstimme erzeugbar. So genannte Vibranten, insbesondere verschiedene „R”-Laute, sind mit einiger Übung zu simulieren. Frikative, auch Reibelaute, beispielsweise „F”, „S”, „V”, „Z” und deren Abwandlungen sowie Zischlaute („SCH”, „CH”) können erzeugt werden, indem die Zunge einen Teil der Luft aus dem Luftvolumen der Mundhöhle herauspresst. Laterale, insbesondere der Konsonant „L”, lassen sich u. U. ebenfalls simulieren. Die Patienten lernen, in der Pseudo-Flüsterstimme auch einige Laute durch andere Laute zu ersetzen, die ähnlich klingen, aber auf andere Weise als bei einer natürlichen Sprechstimme oder bei einer Flüsterstimme erzeugt werden. Dabei entwickelt jeder Patient sein individuelles Repertoire von Lauten und Lautersatzbewegungen.A Another articulation method, the laryngeal operated patients to disposal is the so-called "pseudo-whispering voice". These forms a possibility for the Laryngectomized, d. H. the patient whose larynx is removed has been quietly communicating under a whispering voice. The Pseudo whispering voice based on the generation of noise in the oral cavity, in the articulation of speech in a normal speaking voice or in a whisper arise without, however, there is a flow of air in the oral cavity. A The formation of vowels is as good as not possible, since vowels are so-called Auto sounds essential to a vibration generation of the air flow in the oral cavity based. With the pseudo-whispering voice are thus clearly audible especially plosives can be generated, ie consonants, in their articulation the breathing air flow during normal speech already completely blocked becomes. These are, for example, the consonants "P", "B", "T" "D", "G" and their modifications. nasal On the other hand, they are difficult or impossible to generate in a pseudo-whispering voice. So-called vibrants, especially different "R" sounds, are too close to practice simulate. Fricative, even fricative, for example, "F", "S", "V", "Z" and their Variations as well as sibilants ("SCH", "CH") can be generated by the tongue squeezes out part of the air from the air volume of the oral cavity. Lateral, especially the consonant "L", can u. U. also simulate. The patients learn, in the pseudo-whispering voice to replace some sounds with other sounds that sound similar but in a different way than with a natural speaking voice or with a whisper be generated. Each patient develops his own individual Repertoire of sounds and movements of sounds.

Zusätzlich sind bei einer Pseudo-Flüsterstimme Vokale zumindest ansatzweise nach einigen Konsonanten erzeugbar. So kann bei verschiedenen Plosivlauten, Frikativen oder Zischlauten die Größe bzw. die Form der Mundhöhle entsprechend der nach den Konsonanten zu erzeugenden Vokale vergrößert oder verkleinert werden. Dadurch verändert sich das Frequenzspektrum der erzeugten Laute. Ausgehend von einem großen Volumen der Mundhöhle bei zurück gezogener Zunge und fortschreitend zu einem kleinen freischwingenden Mundhöhlenvolumen bei dem Gaumen angenäherter Zunge verschiebt sich das Frequenzspektrum von tiefen Frequenzen zu hohen Frequenzen hin, entsprechend einem Übergang von den Vokalen in „U”, „O” über „A” und „E” hin zu „I”. Auf diese Weise ist es rudimentär möglich, zumindest grob zwischen den intendierten Vokalen zu unterscheiden. Die Dauer des Vokals ist jedoch nicht länger als die Dauer des erzeugten Konsonanten.In addition are in a pseudo-whispering voice Vowels can be generated at least to some consonants. So can with different Plosivlauten, Frikativen or Zischlauten the size or the shape of the oral cavity magnified according to the vowels to be generated after the consonants or be downsized. This changed the frequency spectrum of the generated sounds. Starting from one huge Volume of the oral cavity when pulled back Tongue and progressing to a small free-swinging oral cavity volume closer to the palate Tongue shifts the frequency spectrum of low frequencies to high frequencies, corresponding to a transition from the vowels in "U", "O" over "A" and "E" towards "I". To this Way it is rudimentary possible, at least roughly distinguishing between the intended vowels. However, the duration of the vowel is no longer than the duration of the vowel generated Consonants.

Da die Pseudo-Flüsterstimme auf der Artikulation der Sprache entsprechend einer natürlichen Sprechstimme beruht, ist die Pseudo-Flüsterstimme jedem Laryngektomierten grundsätzlich zugänglich. Eine Verfeinerung der Pseudo-Flüsterstimme nach der Kehlkopfentfernung erfordert deutlich weniger Übung als beispielsweise das Erlernen der Ruktusstimme. Der Nachteil der Pseudo-Flüsterstimme ist jedoch, dass sie aufgrund des gänzlichen Fehlens eines Luftstroms nur sehr kurz trägt. Insbesondere die hochfrequenten Anteile des Frequenzspektrums tragen nur wenige Dezimeter, so dass nur in unmittelbarer Nähe des Sprechenden es möglich ist, die Sprache zu verstehen. In jedem Fall muss der Zuhörer sein Verständnis der Pseudo-Flüstersprache durch Übung erlernen. In weiterem Abstand werden nun noch die lautesten Plosivlaute klar vernommen, so dass wesentliche Informationen aus der Sprache zur Rekonstruktion des Gesprochenen fehlen und ein Verstehen der Pseudo-Flüstersprache deutlich erschwert wird.There the pseudo whispering voice on the articulation of the language according to a natural speaking voice based, the pseudo-whispering voice is everyone Laryngectomized in principle accessible. A Refinement of the pseudo-whispering voice After laryngeal removal requires significantly less exercise than For example, learning the Ruktusstimme. The disadvantage of the pseudo-whispering voice However, they are due to the total absence of airflow only very briefly. In particular, carry the high-frequency components of the frequency spectrum just a few decimeters, leaving only in the immediate vicinity of the speaker it possible is to understand the language. In any case, the listener must be understanding the pseudo-whispering language through exercise learn. Further away are now the loudest plosive sounds clearly heard, giving essential information from the language to the reconstruction of the spoken are missing and an understanding of the Pseudo-whisper is made much more difficult.

Gemeinsam ist es Personen und Patienten, die auf eine Flüsterstimme oder auf eine Pseudo-Flüsterstimme sowie auf die weiteren zuvor beschriebenen Stimmersatzmethoden angewiesen sind, dass sie im Vergleich zu einer natürlichen Sprechstimme deutlich eingeschränkte Möglichkeiten haben, sich verständlich zu machen. Dies führt zu einer gesellschaftlichen Isolation und in einigen Fällen auf grund der Schwere der Verständlichkeit oder des unangenehmen Klangs der jeweils erzeugten Ersatzstimme zu einer gesellschaftlichen Stigmatisierung. Das Fehlen einer natürlichen Sprechstimme bringt auch beruflich Nachteile mit sich, da die Ausübung von Berufen, in denen eine verbale Kommunikation oder das Diktieren von Schriftsätzen notwendig ist, nicht mehr ausgeübt werden können.Together it is people and patients who in a whisper or in a pseudo-whispering voice as well as relying on the other previously described methods of voice replacement, that they are clear compared to a natural speaking voice limited options have, understandable close. this leads to to a social isolation and in some cases on the basis of the severity of intelligibility or the unpleasant sound of each substitute voice produced to a social stigma. The absence of a natural Speaking voice also brings professional disadvantages, since the exercise of Occupations in which a verbal communication or dictation of pleadings is necessary, no longer exercised can be.

Aufgabe der Erfindung ist es daher, ein Verfahren und ein System sowie ein Verfahren zum Betreiben des entsprechenden Systems zur Verfügung zu stellen, die es ermöglichen, dass Personen und Patienten, die über keine natürliche Sprechstimme mehr verfügen, mittels eines natürlich klingenden Stimmersatzes stimmlich rehabilitieren und am gesellschaftlichen Leben teilhaben können und insbesondere wieder auf sprachlichem Wege mit Textverarbeitungssystemen arbeiten können.The object of the invention is therefore an Ver To provide a system and a method for operating the corresponding system, which enable people and patients who have no natural voice, using a natural-sounding voice replacement rehabilitate and participate in the social life and especially again be able to work with word processing systems in a linguistic way.

Diese Aufgabe wird gelöst durch ein Verfahren zur Spracherkennung bei Patienten, die aufgrund einer Kehlkopfentfernung oder bei zu Stimmlosigkeit führenden neurologischen Störungen über keine oder nur eine eingeschränkte natürliche Sprechstimme verfügen, insbesondere zur stimmlichen Rehabilitation und/oder zum Ersatz einer natürlichen Sprechstimme eines Patienten und/oder zur Erzeugung schriftlicher Texte, mit den folgenden Verfahrensschritten:

a) in der Mundhöhle des Patienten werden Geräusche aufgenommen, die beim Artikulieren von Sprache mit einer Flüsterstimme oder einer Pseudo-Flüsterstimme entstehen,
b) die aufgenommenen Geräusche werden als Eingangssignal an eine Signalverarbeitungsvorrichtung übermittelt,
c) in der Signalverarbeitungsvorrichtung wird das Eingangssig nal in digitalisierter Form einer Erkennung sprachlicher Muster unterworfen,
d) die erkannten sprachlichen Muster werden, insbesondere mittels einer Sprachsynthese, zu einem Ausgangssignal umgewandelt, das einer natürlichen oder simulierten artikulierten Sprechstimme entspricht und das akustisch wiedergegeben wird und/oder in einen schriftlichen Text umgewandelt.

This object is achieved by a method for speech recognition in patients who have due to a laryngectomy or leading to vocalization neurological disorders no or only a limited natural speaking voice, especially for vocal rehabilitation and / or replacement of a natural speaking voice of a patient and / or for the production of written texts, with the following procedural steps:

a) in the oral cavity of the patient, noises are recorded which arise when articulating speech with a whispering voice or a pseudo-whispering voice,
b) the recorded noises are transmitted as an input signal to a signal processing device,
c) in the signal processing device, the input signal is subjected in digitized form to recognition of linguistic patterns,
d) the recognized linguistic patterns are converted, in particular by means of a speech synthesis, to an output signal which corresponds to a natural or simulated articulated speaking voice and which is reproduced acoustically and / or converted into a written text.

Im Rahmen der Erfindung wird unter dem Begriff „Patient” jeder Patient, d. h. männlich, weiblich, Kind, Erwachsener, verstanden, der oder die auf die eine oder andere Weise darauf angewiesen ist, sich mit einer Flüsterstimme oder einer Pseudo-Flüsterstimme zu verständigen, da ihm eine Verständigung mit natürlicher Sprechstimme nicht möglich ist.in the Under the term "patient", any patient, i. H. male, female, child, adult, understood, the one on one or otherwise rely on it, with a whispering voice or a pseudo-whispering voice to agree, there an understanding with natural Speaking voice not possible is.

Die Erfindung beruht auf dem Grundgedanken, dass eine Aufnahme von Geräuschen direkt in der Mundhöhle mit einer Spracherkennung gekoppelt wird. Dabei hat die Aufnahme der Geräusche in der Mundhöhle, d. h. die Platzierung eines Mikrofons in der Mundhöhle, den Vorteil, dass sämtliche Geräusche, die bei der Artikulation von Worten mit einer Flüsterstimme oder einer Pseudo-Flüsterstimme erzeugt werden, detektiert werden. Da diese Geräusche und Klänge außerhalb der Mundhöhle des Patienten nur wenig tragen, wird auf diese Weise eine möglichst vollständige Aufnahme aller erzeugten Geräusche und Frequenzspektren bewirkt. So wird ein Informationsverlust, der aufgrund der Entfernung eines Mikrofons vom Mund des Patienten eintreten würde, minimiert. Außerdem werden die leisen Geräusche, die in der Flüsterstimme oder der Pseudo-Flüsterstimme erzeugt werden, außerhalb der Mundhöhle von Umgebungsgeräuschen leicht übertönt. Solche Umgebungsgeräusche, die außerhalb der Mundhöhle ebenfalls aufgenommen werden, er schweren eine Spracherkennung deutlich.The Invention is based on the idea that a recording of noise directly in the oral cavity is coupled with a speech recognition. It has the recording the sounds in the oral cavity, d. H. the placement of a microphone in the oral cavity, the Advantage that all Sounds, the articulation of words with a whispering voice or a pseudo-whispering voice be generated detected. Because these sounds and sounds outside the oral cavity The patient will wear only a little in this way as possible full Recording of all generated noises and frequency spectra causes. So is a loss of information that due to the removal of a microphone from the patient's mouth would be minimized. Furthermore become the quiet noises, those in the whispering voice or the pseudo-whispering voice be generated outside the oral cavity from ambient noise slightly drowned. Such Ambient noise, the outside of the oral cavity also recorded, he severely a speech recognition clearly.

Die Anwendung einer computergestützten Spracherkennung auf eine Flüsterstimme oder eine Pseudo-Flüsterstimme ist deutlich anderen Anforderungen ausgesetzt als eine bekannte akustische Spracherkennung bei natürlichen Sprechstimmen. So ist die automatische Spracherkennung bei natürlicher Sprechstimme vor das Problem gestellt, im zusammenhängenden Redefluss einer kontinuierlichen Sprache die einzelnen Worte im Redefluss zu erkennen. Darum war es bei älteren automatischen Spracherkennungssystemen notwendig, die Worte durch Sprechpausen voneinander zu trennen. Solche Spracherkennungssysteme verfügen über Beispielsignalverläufe für einzelne Wort oder Wortsequenzen in einem mehr oder weniger großen Wortschatz. Die Signalverläufe für die bekannten Worte werden mit den Signalverläufen der aufgenommenen Worte verglichen und das Wort oder die Worte mit der größten Übereinstimmung ausgewählt.The Use of computer-aided speech recognition in a whispering voice or a pseudo-whispering voice is clearly subject to different requirements than a known one acoustic speech recognition in natural speech voices. So is the automatic speech recognition in natural speaking voice before the Problem posed, in the coherent Fluency of a continuous language the individual words in the Recognizing flow of speech. That's why older automatic speech recognition systems were necessary to separate the words by speaking pauses. Such speech recognition systems have sample waveforms for individual ones Word or word sequences in a more or less large vocabulary. The waveforms for the familiar words are used with the waveforms of the recorded words compared and the word or words with the greatest agreement selected.

Neuere Systeme erlauben auch die Erkennung in einem ohne Sprechpausen gesprochenen Text, wobei zunächst nicht ganze Worte oder Wortsequenzen, sondern zunächst die einzelnen Laute im Redefluss erkannt werden und mittels akustischer Modelle, Wörterbücher, Sprachmodellen und statistischen Modellen zu Worten und zu Wortsequenzen zusammengestellt werden. Die Erkennung beruht beispielsweise auf so genannten Hidden-Markov-Modellen oder neuronalen Netzen oder einer Kombination von beiden. Sprachmodelle sind dazu da, die Wahrscheinlichkeit bestimmter Wortkombinationen zu bestimmen, wobei Grammatikmodelle unter Verwendung formaler Grammatiken oder statistische Modelle mit Hilfe von N-Grammen eingesetzt werden. So speichern Bi- oder Trigrammstatistiken die Auftrittswahrscheinlichkeit von Wortkombinationen aus zwei oder drei Wörtern. Diese Statistiken werden aus großen Textsammlungen gewonnen.newer Systems also allow recognition in a text spoken without pauses, being first not whole words or word sequences, but first the individual sounds are recognized in the flow of speech and by means of acoustic models, Dictionaries, language models and statistical models of words and word sequences become. The recognition is based, for example, on so-called hidden Markov models or neural networks or a combination of both. language models are there, the probability of certain word combinations to determine which grammatical models using formal grammars or statistical models using N-grams. For example, bi- or trigram statistics store the probability of occurrence word combinations of two or three words. These statistics will be from big ones Text collections won.

Die Signale, die bei der Aufnahme einer Flüsterstimme oder einer Pseudo-Flüsterstimme entstehen, unterscheiden sich deutlich von den Signalen, die auf eine natürliche Sprechstimme zurückgehen. So enthalten weder eine Flüsterstimme noch eine Pseudo-Flüsterstimme eine Grundfrequenz, auf der sich eine Obertonreihe von Oberfrequenzen aufbaut, sondern es ergeben sich deutlich breitere und flachere Frequenzspektren.The Signals that sound when you record a whispering voice or a pseudo-whispering voice arise, differ significantly from the signals that appear on a natural one Speaking voice go back. So do not contain a whispering voice another pseudo-whispering voice a fundamental frequency on which a harmonic series of harmonic frequencies but it results in much broader and flatter Frequency spectra.

Deutliche Unterschiede ergeben sich auch in den Signalen, die bei einer Flüsterstimme bzw. Pseudo-Flüsterstimme generiert werden. Während bei der Flüsterstimme Vokale artikuliert werden können, die sich in einem Rauschen mit einem bestimmten Frequenzspektrum niederschlagen, sind solche Vokale in der Pseudo-Flüsterstimme nicht vorhanden. Dies wirkt sich darin aus, dass im aufgenommenen Signal Pausen oder Lücken entstehen, in denen die Signalstärke sich deutlich verringert. Diese Pausen sind für die Spracherkennung nützlich, da sie eine deutliche zeitliche Eingrenzung der einzelnen gesprochenen Konsonanten erlauben. So erweist sich der Nachteil fehlender Informationen für den Schritt der Lauterkennung in der Spracherkennung als Vorteil.Significant differences also arise in the signals that are generated in a whispering or pseudo-whispering voice. While in the whispering voice vowels can be articulated, which are reflected in a noise with a certain frequency spectrum, such vowels are not present in the pseudo-whispering voice. This has the effect that pauses or gaps occur in the recorded signal in which the signal strength is significantly reduced. These pauses are useful for speech recognition, as they allow a clear temporal limitation of the individual spoken consonants. Thus, the disadvantage of missing information for the step of sound recognition in the speech recognition proves to be an advantage.

Bei einer Pseudo-Flüsterstimme muss die Spracherkennung mit einem deutlich reduzierten Satz an verfügbaren Lauten auskommen. Dies erleichtert die Lauterkennung und erschwert die Rekonstruktion von gesprochenen Worten, da weniger Informationen zur Hypothesenbildung über die gesprochenen Worte und Sätze zur Verfügung stehen. Bei der Flüsterstimme fehlt vor allem ein genau lokalisierbares Trägersignal, das der Grundfrequenz der natürlichen Sprechstimme entsprechen würde. Dadurch verändern sich die Charakteristiken der gesprochenen Laute deutlich. Beispielsweise ist das in Flüsterstimme gesprochene „I” kein reiner Vokal mehr, sondern nimmt Anteile des Lautes „CH”, wie in dem deutschen Wort „ich” auf. Dies führt dazu, dass für die Flüsterstimme die Lauterkennung anzupassen ist. Nach erfolgter Lauterkennung liegt ein beinahe vollständiger Satz von Informationen über den gesprochenen Text vor, so dass die Worterkennung weniger aufwändig ist als bei der Pseudo-Flüsterstimme, bei der die Sammlung verfügbarer Laute lückenbehaftet ist.at a pseudo-whispering voice requires speech recognition at a significantly reduced rate available Get along. This facilitates the sound recognition and makes it difficult the reconstruction of spoken words, because less information for hypothesis about the spoken words and sentences to disposal stand. In the whispering voice Above all, a precisely localizable carrier signal is missing, that of the fundamental frequency the natural one Speaking voice would correspond. Change as a result the characteristics of the spoken sounds are clear. For example is that in a whisper spoken "I" no pure Vocal more, but takes up portions of the sound "CH", as in the German word "I" on. This leads to, that for the whispering voice to adjust the sound recognition. After the sound recognition is almost complete Set of information about the spoken text, so that the word recognition is less expensive as the pseudo-whispering voice, at the time the collection becomes available Loud gaps is.

Das in der Mundhöhle des Patienten aufgenommene Signal ist vorzugsweise ein analoges Signal, das in der Signalverarbeitungsvorrichtung digitalisiert wird, wobei insbesondere das analoge Eingangssignal vor dem Digitalisieren verstärkt wird und/oder einem Filter, insbesondere einem Tiefpass-Filter, unterworfen wird. Mikrofone, die ausschließlich analoge Signale übermitteln, sind aufgrund der einfacheren Technik stärker zu miniaturisieren als solche Mikrofone, die bereits digitale Daten versenden. Die Verstärkung des analogen Signals bewirkt eine vergrößerte Detailfülle des Signals nach der Digitalisierung. Mit der Filterung des analogen Signals sind einige unwillkürliche Geräusche, die nicht zur Flüsterstimme oder zur Pseudo-Flüsterstimme gehören, herausfilterbar. Insbesondere Schmatzgeräusche erzeugen kurzfristige, sehr hochfrequente Frequenzanteile im Signal, die mittels eines Filters, insbesondere eines Tiefpass-Filters, sehr gut herausfilterbar sind.The in the oral cavity The signal received by the patient is preferably an analogue Signal digitized in the signal processing device in particular, the analog input signal prior to digitizing reinforced is and / or a filter, in particular a low-pass filter, is subjected. Microphones that transmit only analogue signals, are due to the simpler technique to miniaturize more than such microphones that already send digital data. The reinforcement of the analog signal causes an enlarged detail of the Signal after digitization. With the filtering of the analog Signals are some involuntary Sounds, not to the whisper or belong to the pseudo-whispering voice, herausfilterbar. Especially Schmatzgeräusche generate short-term, very high-frequency frequency components in the signal, by means of a filter, in particular a low-pass filter, are very easy to filter out.

Im Rahmen der Erfindung werden Geräusche, die nicht Teil der gewollten Artikulation in der Flüsterstimme bzw. Pseudo-Flüsterstimme sind, als Nebengeräusche bezeichnet. Dies sind beispielsweise Schmatzgeräusche und Schluckgeräusche. Solche Nebengeräusche werden vorzugsweise in Verfahrensschritt c) von der Mustererkennung ausgeschlossen. Dazu werden sie entweder aktiv erkannt, indem typische Nebengeräusche bereits gespeichert sind und ein aktiver Vergleich mit den gespeicherten Nebengeräuschen stattfindet, oder indem sie in der Liste der bekannten Geräusche der Flüsterstimme oder der Pseudo-Flüsterstimme nicht enthalten sind und daher nicht erkannt werden.in the Within the scope of the invention, noises, not part of the intended articulation in the whispering voice or pseudo-whispering voice are, as background noises designated. These are, for example, Schmatzgeräusche and sip sounds. Such noise are preferably in process step c) of the pattern recognition locked out. For this purpose, they are either actively recognized by typical noise already stored and an active comparison with the stored background noise takes place, or by being in the list of familiar sounds of the whispering voice or the pseudo whispering voice are not included and therefore not recognized.

Vorteilhafterweise werden in Verfahrensschritt c) als sprachliche Muster Phone oder Phoneme einer Sprache erkannt. Die Phone bzw. Phoneme einer Sprache bilden die Grundbausteine der Artikulation einer Sprache. Dabei werden als „Phone” die reinen Laute und Geräusche bezeichnet, die an sich keine Bedeutung tragen. „Phoneme” werden aus Phonen gebildet, wobei Phoneme die geringsten Einheiten bilden, die noch keine Bedeutung tragen, jedoch Bedeutungsunterschiede kennzeichnen. Beispiele von „Minimalpaaren” von Worten, die sich bei unterschiedlicher Bedeutung nur in einem einzelnen Phonem unterscheiden, ist „Katze” und „Tatze” oder „Lamm” und „lahm”, die sich nur in der Länge des Vokals „a” unterscheiden. Die geringste bedeutungstragende Einheit wird als „Morphem” bezeichnet. In den vorangegangenen Beispielen ist das gesamte Wort „Lamm” bzw. „lahm” ein Morphem.advantageously, be in method step c) as a linguistic pattern Phone or Phonemes of a language recognized. The phone or phonemes of a language form the basic building blocks of the articulation of a language. there become as "Phone" the pure Sounds and noises referred to, which in themselves have no meaning. "Phonemes" are made up of phonons, where phonemes form the least units that are not yet significant carry, but mark differences in meaning. Examples of "minimal pairs" of words, differ in meaning only in a single phoneme distinguish is "cat" and "paw" or "lamb" and "lame" who are themselves only in length of the vowel "a". The least meaningful unit is called a "morpheme". In the preceding examples, the entire word "lamb" or "lame" is a morpheme.

Es wird somit zunächst die kleinste lautliche Einheit der gesprochenen Sprache erkannt. Wenn die Phone bzw. Phoneme der Sprache erkannt sind, sind verschiedene Vorgehensweisen möglich. Insbesondere, wenn ein Patient über eine Flüsterstimme verfügt und somit einen fast vollständigen Satz von Phonemen der Sprache zur Verfügung hat, der Patient also auch über eine Artikulation vokalischer Phone oder Phoneme verfügt, ist vorteilhafterweise vorgesehen, dass das Ausgangssignal in Verfahrensschritt d) durch Ersetzung der erkannten Phone oder Phoneme mit den entsprechenden Phonen oder Phonemen in natürlicher oder simulierter Sprechstimme gebildet wird. Dieses Ausgangssignal kann akustisch wiedergegeben werden. Die Vorgehensweise ist besonders schnell und ein fach, da eine Worterkennung entfällt. Die wiedergegebene natürliche oder simulierte Sprechstimme kann entweder auf vorhergegangenen Aufnahmen der, eventuell zuvor noch restlich vorhandenen, natürlichen Sprechstimme des Patienten selbst beruhen oder auf der aufgenommenen natürlichen Sprechstimme anderer Personen oder auf simulierten Sprechstimmen, die ebenfalls in guter Qualität verfügbar sind.It thus becomes first recognized the smallest sound unit of the spoken language. If the phone or phonemes of the language are recognized, are different Procedures possible. In particular, if a patient over has a whisper and thus an almost complete one Set of phonemes of language available to the patient so also over is an articulation of vocal phone or phonemes is advantageously provided that the output signal in process step d) by replacing the recognized phone or phonemes with the corresponding ones Phones or phonemes in natural or simulated speaking voice is formed. This output signal can be played acoustically. The procedure is special fast and easy, as a word recognition is eliminated. The reproduced natural or simulated speaking voice can either on previous recordings the, possibly previously remaining, natural Speaking voice of the patient himself or based on the recorded natural Speaking voice of other persons or on simulated speaking voices, which also in good quality available are.

Alternativ dazu, oder wenn der Patient nicht über eine Flüsterstimme und insbesondere nicht über die Artikulation von vokalischen Phonen oder Phonemen verfügt, ist vorzugsweise vorgesehen, dass aus den erkannten Phonen oder Phonemen der Sprache in einer Sprachanalyse Phoneme, Morpheme, Worte oder Sätze der Sprache oder Kombinationen daraus ermittelt werden. Dies ist die eigentliche sprachliche Texterkennung. In diesem Schritt werden mittels vektorieller, statistischer oder neuronaler Verfahren Hypothesen über den gesprochenen Text aufgestellt, wobei insbesondere Hidden-Markov-Modelle, neuronale Netze und Bi- und Trigrammstatistiken zur Anwendung kommen.Alternatively, or if the patient does not have a whisper and, in particular, not over has the articulation of vocal phonemes or phonemes, it is preferably provided that phonemes, morphemes, words or sentences of the speech or combinations thereof are determined from the recognized phonons or phonemes of speech in a speech analysis. This is the actual linguistic text recognition. In this step, hypotheses about the spoken text are set up by means of vectorial, statistical or neural methods, Hidden Markov models, neural networks and bi- and trigram statistics in particular being used.

Hidden-Markov-Modelle ermöglichen es zunächst, die Phoneme zu finden, die am besten zu den Eingangssignalen passen. Dazu wird das akustische Modell eines Phonems oder Wortes in verschiedene Teile zerlegt, den Anfang, je nach Länge unterschiedlich viele Mittelstücke und das Ende. Die Eingangssignale werden mit den gespeicherten Teilstücken verglichen und mit Hilfe eines Algorithmus, beispielsweise eines Viterbi-Algorithmus, mögliche Kombinationen gesucht. Aufgrund der Rechenkapazität moderner PCs ist es mittlerweile möglich, auch kontinuierliche Sprache so zu analysieren. Bei dieser Analyse kann es vorkommen, dass mehrere mögliche Kandidaten von Worten oder Wortfolgen erkannt werden. In einem solchen Fall wird anhand von Sprachmodellen, beispielsweise den genannten Bi- oder Trigrammstatistiken, die Auftrittswahrscheinlichkeit von Wortkombinationen aus zwei oder drei Wörtern zur Auswahl verwendet, dadurch können auch Homophone, also unterschiedliche Wörter mit identischer Aussprache, unterschieden werden. Weiterhin können Grammatiken verwendet werden, insbesondere kontextfreie Grammatiken. Dabei wird jedem Wort seine Funktion innerhalb der Grammatik zugewiesen.Hidden Markov Models enable it first, find the phonemes that best match the input signals. For this purpose, the acoustic model of a phoneme or word becomes different parts disassembled, the beginning, depending on the length different numbers of centerpieces and the end. The input signals are compared with the stored sections and with the aid of an algorithm, for example a Viterbi algorithm, possible Wanted combinations. Due to the computing capacity of modern PCs, it is now possible also to analyze continuous language like this. In this analysis can it happens that several possible Candidates of words or phrases are recognized. In such a Case is based on language models, such as the one mentioned Bi- or trigram statistics, the probability of occurrence of word combinations from two or three words used for selection, thereby can also homophones, ie different words with identical pronunciation, be differentiated. Furthermore, grammars can be used especially context-free grammars. Everybody gets involved Word assigned its function within the grammar.

In einer vorteilhaften Weiterbildung ist vorgesehen, dass dem Patienten vor einer akustischen Wiedergabe und/oder vor dem Einfügen in einen schriftlichen Text eine Auswahl aus mehreren möglichen erkannten Worten oder Sätzen angezeigt wird und das korrekte Wort oder der korrekte Satz durch den Patienten ausgewählt wird.In An advantageous development is provided that the patient before an acoustic playback and / or before insertion in a written Text a selection of several possible recognized words or sentences is displayed and the correct word or sentence by the Patients selected becomes.

Dies führt zu einer Zeitverzögerung, ist aber im Interesse einer missverständnisfreien Kommunikation oder einer fehlerfreien Einfügung eines gesprochenen Textes in einen schriftlichen Text bevorzugt. Alternativ ist es für den Patienten im Sinne einer reibungslosen Kommunikation mit anderen Gesprächspartnern von Vorteil, wenn die Bildung des Ausgangssignals in Echtzeit geschieht, während der Patient spricht. In diesem Fall ist es vorteilhafterweise möglich, im Fall fehlerhaft wiedergegebener Sprache eine Korrektur zu veranlassen. Eine solche Korrektur wird vorzugsweise auch zur Verbesserung der Spracherkennung verwendet. Insbesondere die statistischen Modelle und neuronalen Netze basieren auf einer Vielzahl von Parametern, die an jeden einzelnen Patienten angepasst werden müssen, so dass eine Korrektur in eine Anpassung der Parameter des statistischen Modells, des neuronalen Netzes oder des Sprachmodells einfließt.This leads to a time delay, but is in the interest of a misunderstanding free communication or an error-free insertion of a spoken text into a written text. Alternatively, it is for the patient in the sense of a smooth communication with others interlocutors advantageous if the formation of the output signal happens in real time, while the patient speaks. In this case, it is advantageously possible in the Case of incorrectly reproduced speech to cause a correction. Such a correction is preferably also for improving speech recognition used. In particular, the statistical models and neural Networks are based on a multitude of parameters that are specific to each individual Patients need to be adjusted so that a correction in an adjustment of the parameters of the statistical Model, the neural network or the language model.

Die der Erfindung zugrunde liegende Aufgabe wird auch gelöst durch ein System zur Spracherkennung bei Patienten, die aufgrund einer Kehlkopfentfernung oder bei zu Stimmlosigkeit führenden neurologischen Störungen über keine oder nur eine eingeschränkte natürliche Sprechstimme verfügen, insbesondere zur stimmlichen Rehabilitation und/oder zum Ersatz einer natürlichen Sprechstimme eines Patienten und/oder zur Erzeugung schriftlicher Texte, umfassend ein in der Mundhöhle des Patienten angeordnetes Mikrophon zur Aufnahme von Geräuschen, die beim Artikulieren von Sprache mit einer Flüsterstimme oder einer Pseudo-Flüsterstimme entstehen, eine Signalverarbeitungsvorrichtung, die mit dem Mikrophon mittels einer drahtlosen Signalübertragung verbunden ist, wobei die Signalverarbeitungsvorrichtung zur Erkennung sprachlicher Muster im vom Mikrophon übertragenen Signal und zur Umwandlung der erkannten sprachlichen Muster, insbesondere mittels einer Sprachsynthese, zu einem Ausgangssignal, das einer natürlichen oder simulierten artikulierten Sprechstimme entspricht, und/oder in einen schriftlichen Text ausgebildet ist, und, falls ein akustisches Ausgangssignal vorgesehen ist, eine akustische Wiedergabeeinrichtung zur Wiedergabe des Ausgangssignals.The The object underlying the invention is also achieved by a system for speech recognition in patients due to a Removal of the larynx or, in the case of neurodegenerative disorders, none or only a limited one natural Speech voice, in particular for vocal rehabilitation and / or replacement of a natural one Speaking voice of a patient and / or for writing texts, comprising one in the oral cavity the patient's microphone for recording noises, when articulating speech with a whispering voice or a pseudo-whispering voice arise, a signal processing device with the microphone by means of a wireless signal transmission is connected, wherein the signal processing device for detection Linguistic pattern in the signal transmitted by the microphone and Conversion of recognized linguistic patterns, in particular by means of a speech synthesis, to an output that is natural or simulated articulated voice, and / or in a written text is formed, and if an acoustic Output signal is provided, an acoustic reproduction device for reproducing the output signal.

Dieses erfindungsgemäße System weist die erforderlichen Komponenten auf, mit denen das erfindungsgemäße Verfahren, das oben beschrieben wurde, ausgeführt wird. Das in der Mundhöhle angeordnete Mikrofon, das mit einer Signalverarbeitungsvorrichtung drahtlos verbunden ist, empfängt die größtmögliche Fülle an Informationen aus der begrenzten artikulierten Sprache des Patienten ohne Informationsverluste. Die Lauterkennung bzw. Spracherkennung ist im Zusammenhang mit dem erfindungsgemäßen Verfahren bereits erläutert worden. Das Mikrofon ist vorzugsweise als lösbar fixierbare Prothese oder als Implantat in der Mundhöhle angeordnet, insbesondere in einem Zahn oder einer Zahnprothese, anstelle eines Zahnes oder im Oberkiefer oder Unterkiefer. Zur Energiever sorgung weist das Mikrophon vorzugsweise eine auswechselbare Energiequelle auf, sie ist mittels elektromagnetischer Induktion berührungslos mit Energie versorgbar, wobei insbesondere die Signalverarbeitungseinrichtung eine Energiequelle zur Erzeugung eines Energie per Induktion übertragenden elektromagnetischen Wechselfeldes aufweist, oder sie weist eine miniaturisierte Energiequelle auf, die auf dem Prinzip der Stromerzeugung aus Bewegung oder Temperaturunterschieden beruht. Da das Mikrofon in der Mundhöhle sehr wenig Energie verbraucht und die drahtlose Übertragung zur üblicherweise am Körper des Patienten getragenen Signalverarbeitungsvorrichtung nur über eine sehr kurze Strecke erfolgt, ist der Energieverbrauch des Mikrofons sehr niedrig, so dass miniaturisierte Energieerzeuger oder eine Energieübertragung mittels eines Induktionsfeldes möglich sind.This system according to the invention has the necessary components with which the method according to the invention described above is carried out. The orbital microphone, which is wirelessly connected to a signal processing device, receives the greatest possible amount of information from the patient's limited articulated speech without loss of information. The sound recognition or speech recognition has already been explained in connection with the method according to the invention. The microphone is preferably arranged as a releasably fixable prosthesis or as an implant in the oral cavity, in particular in a tooth or a denture, instead of a tooth or in the upper jaw or lower jaw. For energy supply, the microphone preferably has a replaceable energy source, it is by means of electromagnetic induction contactlessly supplied with energy, in particular, the signal processing means comprises a power source for generating an energy by induction transmitting electromagnetic alternating field, or it has a miniaturized energy source, which on the Principle of power generation is based on movement or temperature differences. Because the microphone in the mouth If the energy consumption of the microphone is very low and the wireless transmission to the signal processing device usually carried on the body of the patient takes place only over a very short distance, the power consumption of the microphone is very low, so that miniaturized energy generators or energy transmission by means of an induction field are possible.

Vorteilhafterweise weist die Signalverarbeitungsvorrichtung einen Verstärker zur Verstärkung des analogen Eingangssignals und/oder einen Filter, insbesondere einen Tiefpassfilter, zur Filterung des analogen Eingangssignals auf. Weiter vorzugsweise weist die Signalverarbeitungsvorrichtung einen Analog/Digital-Wandler auf.advantageously, the signal processing device employs an amplifier Reinforcement of the analog input signal and / or a filter, in particular a Low-pass filter, for filtering the analog input signal. Further preferably, the signal processing device has a Analog / digital converter on.

Zur Erkennung von Phonen oder Phonemen in der Flüsterstimme oder Pseudo-Flüsterstimme des Patienten weist die Signalverarbeitungsvorrichtung vorzugsweise einen digitalen Signalprozessor oder einen Prozessor auf, der zur Erkennung sprachlicher Muster im digitalen Eingangssignal ausgebildet ist, wobei der digitale Signalprozessor oder Prozessor zur Erkennung der sprachlichen Muster im Eingangssignal Zugriff auf eine Eingangsdatenbank mit Signaldaten hat, die in der Flüsterstimme oder Pseudo-Flüsterstimme des Patienten vorkommende Phone oder Phoneme repräsentieren. Vorzugsweise ist die Eingangsdatenbank im digitalen Signalprozessor oder Prozessor gespeichert. Die Eingangsdatenbank weist somit einen, vorzugsweise kompletten, Katalog der Signaldaten aller vom Patienten typisch artikulierbarer Phone bzw. Phoneme auf. Es ist somit innerhalb des digitalen Signalprozessors bzw. Prozessors möglich, die Eingangssignale mit den Signaldaten der in der Eingangsdatenbank gespeicherten Phone bzw. Phoneme zu vergleichen und die entsprechenden Phone bzw. Phoneme zu erkennen.to Detecting Phones or Phonemes in the Whispering Voice or Pseudo Whispering Voice the patient preferably has the signal processing device a digital signal processor or a processor, the Detection of linguistic patterns formed in the digital input signal is, wherein the digital signal processor or processor for detection the linguistic pattern in the input signal accessing an input database with signal data, in the whispering voice or pseudo-whispering voice representing the patient's phone or phoneme. Preferably, the input database is in the digital signal processor or Processor saved. The input database thus has one, preferably complete, catalog of the signal data all from the patient typically articulate Phone or phonemes on. It is thus within the digital signal processor or processor possible, the input signals with the signal data of the phone stored in the input database or Compare phonemes and the corresponding phone or phonemes to recognize.

Vorteilhafterweise sind zusätzlich hierzu in einer Störsignaldatenbank oder in der Eingangsdatenbank Störsignaldaten von Nebengeräuschen, insbesondere Schmatz- und/oder Schluckgeräuschen, hinterlegt. Diese Störsignaldaten werden dazu verwendet, im Eingangssignal aktiv Nebengeräusche zu identifizieren und von der weiteren Verarbeitung auszuschließen.advantageously, are additional this in a noise signal database or interfering signal data in the input database of background noise, in particular smacking and / or swallowing sounds, deposited. This noise signal data are used to actively identify background noises in the input signal and exclude from further processing.

Zur Lauterkennung ist der digitale Signalprozessor oder Prozessor, insbesondere mittels eines darin ausführbaren Programms, vorzugsweise ausgebildet, das Eingangssignal mit den in der Eingangsdatenbank enthaltenen Signaldaten der in der Flüsterstimme oder Pseudo-Flüsterstimme des Patienten vorkommenden Phone oder Phoneme zu vergleichen und diese im Eingangssignal zu erkennen, und ferner vorzugsweise das Eingangssignal mit den in der Störsignaldatenbank oder der Eingangsdatenbank enthaltenen Störsignaldaten der in der Flüsterstimme oder Pseudo-Flüsterstimme des Patienten vorkommenden Nebengeräusche zu vergleichen und diese im Eingangssignal zu erkennen und von der weiteren Verarbeitung auszuschließen.to Sound recognition is the digital signal processor or processor, in particular by means of an executable therein Program, preferably designed, the input signal with the in the input database contained signal data in the whispering voice or pseudo-whispering voice Compare the patient's existing phone or phonemes and to recognize these in the input signal, and further preferably the Input signal with the in the noise signal database or the input database contained Störsignaldaten the in the whispering voice or pseudo-whispering voice to compare the patient's incidental noises and these in the input signal and from further processing excluded.

Bezüglich der Nebengeräusche sind mehrere Fälle in der gesprochenen Flüsterstimme bzw. Pseudo-Flüsterstimme immer vorhanden. Der erste und einfachste Fall ist der, dass ein Nebengeräusch in eine Sprechpause fällt, also kein beim Sprechen erzeugtes Geräusch überlagert. Eine Fehlerquelle bildet ein solches Nebenge räusch, wenn die Lauterkennung das Nebengeräusch mit einem Phon oder Phonem aus der Eingangsdatenbank verwechselt und es somit für einen Bestandteil der gesprochenen Sprache hält. Diese Fehlerquelle ist in einem Teil der Fälle alleinstehender Nebengeräusche gegeben. Weiter unterdrückt werden kann diese Fehlerquelle durch den Einsatz eines aktiven Filters, in dem das Nebengeräusch mit den gespeicherten Störsignalen verglichen wird und bei einer Übereinstimmung als Störgeräusch identifiziert wird. In diesem Fall wird es bei der Spracherkennung nicht berücksichtigt, so dass der Einfluss von Nebengeräuschen auf die Spracherkennung deutlich reduziert wird.Regarding the noise are several cases in the spoken whispering voice or pseudo-whispering voice always available. The first and simplest case is that one Background noise in a speech break, so no noise generated when speaking superimposed. A source of error such a background noise, if the sound recognition the background noise with a phon or phoneme from the input database and confused it for a Part of the spoken language. This source of error is in a part of the cases isolated noises given. Further suppressed can be this source of error by using an active filter, in which the background noise compared with the stored interference signals will and at a match identified as noise becomes. In this case, it is not taken into account in speech recognition, so the influence of background noise on the speech recognition is significantly reduced.

Im zweiten Fall überlagert ein Nebengeräusch die beim Sprechen mit Flüsterstimme oder Pseudo-Flüsterstimme erzeugten Geräusche. Dies führt zunächst dazu, dass die überlagerten Geräusche, die einem Phon oder Phonem der Sprache entsprechen, mit einer geringeren Wahrscheinlichkeit als solche identifiziert werden. Durch einen Abgleich der überlagerten Geräusche mit den Störsignaldaten aus der Störsignaldatenbank oder der Eingangsdatenbank ist es möglich, solche überlagernden Störgeräusche ebenfalls zu identifizieren. Die identifizierten Signalbereiche werden im Weiteren entweder von der weiteren Bearbeitung ausgeschlossen, so dass das Signal eine Lücke aufweist. In einer alternativen Methode wird das Störgeräusch selektiv aus dem Eingangssignal entfernt, so dass, wenn auch in eingeschränkter Form, das Signal übrig bleibt, das dem gesprochenen Phon oder Phonem entspricht. Das rekonstruierte Phon bzw. Phonem wird in diesem Fall zwar mit einer etwas geringeren Sicherheit erkannt, jedoch steht dies einem vollständigen Fehlen des entsprechenden Signalabschnitts gegenüber. Insbesondere bei nachfolgender Anwendung von Worterkennung und Sprachmodellen ist eine aktive Herausfilterung nur des Störsignals bevorzugt vor einer vollständigen Maskierung bzw. Entfernung des betroffenen Abschnitts des Eingangssignals.in the second case superimposed a background noise when speaking in a whispering voice or pseudo-whispering voice generated noises. this leads to first to that the superimposed Sounds, which correspond to a phoneme or phoneme of speech, with a lesser one Probability to be identified as such. Through a Comparison of the superimposed Sounds with the interfering signal data the noise signal database or the input database, it is possible to overlay such Noise too to identify. The identified signal areas are in Further excluded either from further processing, so that the signal is a gap having. In an alternative method, the noise becomes selective removed from the input signal, so that, albeit in limited form, the signal is left over remains that corresponds to the spoken phoneme or phoneme. The reconstructed Phon or phoneme is in this case, although with a little lower Security detected, but this is a complete absence the corresponding signal section opposite. Especially in the following Use of word recognition and language models is an active filtering only the interfering signal preferably before a complete Masking or removal of the affected portion of the input signal.

Für eine Sprachausgabe hat der digitale Signalprozessor oder Prozessor zur Bildung eines Ausgangssignals vorzugsweise Zugriff auf eine Ausgangsdatenbank mit Signaldaten, die in einer natürlichen oder simulierten Sprechstimme vorkommende Phone oder Phoneme einer Sprache repräsentieren, wobei die Ausgangsdatenbank insbesondere im digitalen Signalprozessor oder Prozessor gespeichert ist. Der Inhalt der Ausgangsdatenbank ist ein vollständiger Satz von Signaldaten der Phone bzw. Phoneme einer natürlichen bzw. simulierten natürlichen Sprechstimme. Dies kann die natürliche Sprechstimme des Patienten sein, beispielsweise bevor er sich einer Kehlkopfoperation unterzogen hat, oder einer anderen Person, beispielsweise professioneller Sprecher, oder eine simulierte, einer natürlichen Sprechstimme ähnliche Sprechstimme.For a speech output, the digital signal processor or processor preferably has access to an output database of signal data representing voice or phonemes of a language occurring in a natural or simulated speaking voice, the output database being in particular in digi taler signal processor or processor is stored. The content of the source database is a complete set of phone data or phonemes of a natural simulated natural voice. This may be the natural speaking voice of the patient, for example, before he has undergone a laryngeal surgery, or another person, such as a professional speaker, or a simulated, natural voice-like speaking voice.

Vorzugsweise für den Fall, dass der Patient über eine Flüsterstimme inklusive vokalischer Phoneme und Phone verfügt, ist der digitale Signalprozessor oder Prozessor ausgebildet, insbesondere mittels eines darin ausführbaren Programms, die erkannten Phone oder Phoneme durch die entsprechenden Signaldaten der Phone oder Phoneme aus der Ausgangsdatenbank zu ersetzen und zu einem Ausgangssignal zusammenzusetzen, wobei insbesondere Regeln der Lautbildung für die Bildung des Ausgangssignals verfügbar sind. Im Rahmen der vorliegenden Erfindung werden unter Regeln der Lautbildung Regeln verstanden, in denen festgelegt ist, wie sich die Phoneme bzw. Phone verändern, wenn bestimmte Abfolgen von Phonen bzw. Phonemen in der Sprache gebildet werden. So ist in der deutschen Sprache beispielsweise das Phonem „CH” als Reibelaut unterschiedlich auszusprechen, wenn es nach dem Vokal „I” wie in „ich” oder nach dem Vokal „A” wie in „ach” gesprochen wird. Auch das Endphonem-„G”, beispielsweise im Wort „König” wird an ders ausgesprochen, wenn „König” im Singular oder „Könige” im Plural gesprochen wird. Das gleiche Phonem „G” wird im ersten Fall weich und im zweiten Fall hart ausgesprochen.Preferably for the Case that the patient over a whisper including vocal phonemes and phone features, is the digital signal processor or processor formed, in particular by means of an executable therein Program, the recognized phone or phoneme through the appropriate Signal data of the phone or phoneme from the source database too replace and assemble into an output signal, in particular Rules of phonetic education for the formation of the output signal are available. In the context of the present Invention are understood by rules of phonetic education rules, which determines how the phoneme or phone changes if certain Sequences of phonemes or phonemes are formed in the language. For example, in the German language, the phoneme "CH" is a fricative pronounce it differently if it is after the vowel "I" as in "me" or after the vowel "A" as in "ah" spoken becomes. Also the end phoneme "G", for example in the word "king" is on ders pronounced when "king" in the singular or "kings" in the plural is spoken. The same phoneme "G" softens in the first case and pronounced harsh in the second case.

Alternativ ist der digitale Signalprozessor oder Prozessor, insbesondere mittels eines darin ausführbaren Programms, ausgebildet, mittels wenigstens eines statistischen und/oder vektoriellen Verfahrens und/oder eines simulierten neuronalen Netzwerks aus den erkannten Phonen oder Phonemen Morpheme, Worte, Wortkombinationen und/oder Sätze abzuleiten und anhand der abgeleiteten Morpheme, Worte, Wortkombinationen und/oder Sätze einen schriftlichen Text und/oder ein Ausgangssignal zu erstellen, wobei das Ausgangssignal insbesondere auf der Grundlage der darin enthaltenen Phoneme und/oder vorhandener Lautbildungsregeln erstellt wird. Damit ist eine vollständige Spracherkennung bzw. Texterkennung verwirklicht. Statistische Verfahren sind beispielsweise das Hidden-Markov-Modell-Verfahren, Sprachmodelle, wie Bi- oder Trigrammstatistiken, während vektorielle Verfahren vor allem den ersten Schritt der Lauterkennung betreffen. Ein Beispiel für ein vektorielles Verfahren ist das Dynamic-Time-Warp-Verfahren, bei dem ein gespeicherter Vektor, der ein Signal eines bekannten Wortes beispielsweise repräsentiert, angepasst wird, um größtmögliche Übereinstimmung mit einem aufgenommenen Signalvektor zu erreichen. Diejenigen Referenzsignalmuster, beispielsweise aus der Eingangsdatenbank, die am wenigstens angepasst werden mussten, um mit dem aufgenommenen Signal übereinzustimmen, werden als mögliche Kandidaten für eine Übereinstimmung angenommen. Mit der Anpassung werden Unterschiede in der Tonhöhe, dem zeitlichen Verlauf und dem Verlauf des Frequenzspektrums in der gesprochenen Sprache berücksichtigt.alternative is the digital signal processor or processor, in particular by means of one executable therein Program, trained, by means of at least one statistical and / or Vectorial method and / or a simulated neural network from the recognized phones or phonemes morphemes, words, word combinations and / or Derive sentences and from the derived morphemes, words, word combinations, and / or sentences written text and / or an output signal, where the output signal in particular based on the therein Phonemes and / or existing phonation rules is created. In order to is a complete one Speech recognition or text recognition realized. Statistical procedures For example, the hidden Markov model method, language models, like bi- or trigram statistics, while vectorial procedures especially the first step of sound recognition. An example for a vectorial method is the dynamic-time-warp method, in which a stored vector which is a signal of a known word for example, is adjusted to the greatest possible agreement with to reach a recorded signal vector. Those reference signal patterns, for example, from the input database, the least adapted have to be in order to comply with the recorded signal are considered as possible candidates for a match accepted. With the adaptation, differences in pitch, the time course and the course of the frequency spectrum in the spoken language.

Zur Ausgabe einer Sprache weist die Signalverarbeitungsvorrich tung oder die Wiedergabeeinrichtung einen Digital/Analog-Wandler für das wiederzugebende Ausgangssignal auf.to Output of a language indicates the signal processing device or the playback device a digital / analog converter for the reproduced Output signal on.

In einer vorteilhaften Weiterbildung ist eine Eingabevorrichtung mit einer Anzeigevorrichtung und Eingabemitteln zur Eingabe oder Auswahl von Text vorgesehen. Eine Anzeigevorrichtung ist ein beliebiges Display, das von einem Ein- oder Mehrzeilen-Display bis zu einem Computerbildschirm reichen kann, aber nicht darauf begrenzt ist. Eingabemittel sind beispielsweise eine Tastatur, Computermaus, typische Ersatzmittel für Computermäuse wie Trackball, Touchpad, Touchscreens und ähnliches. Eine solche Kontroll- und Auswahlmöglichkeit hat den Vorteil, dass sowohl für eine sprachliche Ausgabe als auch für die Erstellung eines schriftlichen Textes Mehrdeutigkeiten aufgelöst werden können und Fehler korrigiert werden können. Es ist auch vorgesehen, eine Auswahl sprachlich wiederzugeben, wobei der Patient mittels sprachlicher Signale auswählen kann, welcher der sprachlich wiedergegebenen Varianten die Variante ist, die er ursprünglich meinte.In An advantageous development is an input device with a display device and input means for input or selection provided by text. A display device is any Display that can range from a single or multi-line display to one Computer screen can, but not limited to. Input means are for example a keyboard, computer mouse, typical Substitute for computer mice like trackball, touchpad, touchscreens and the like. Such a control and choice has the advantage that both for a linguistic edition as well as for writing a written Text's ambiguities resolved can be and mistakes can be corrected. It is also intended to reproduce a selection linguistically, wherein the patient can select by means of linguistic signals, which of the linguistically reproduced variants is the variant he originally meant.

Zusätzlich ist die Signalverarbeitungsvorrichtung vorteilhafterweise ausgebildet, das akustische Ausgangssignal und/oder einen auszugebenden schriftlichen Text auf der Grundlage eines in der Eingabevorrichtung eingegebenen Textes zu bilden. Damit wird das erfindungsgemäße System weiter flexibler einsetzbar.In addition is the signal processing device is advantageously designed the acoustic output signal and / or a written output Text based on a typed input in the input device To form text. Thus, the system according to the invention is further flexible used.

Die der Erfindung zugrunde liegende Aufgabe wird schließlich gelöst durch ein Verfahren zum Betreiben eines Systems wie vorstehend beschrieben, das sich dadurch auszeichnet, dass in einer Anlernphase anhand von Sprachbeispielen, in denen vom Patienten wenigstens ein vorgegebener Text vorgelesen wird, die Phone oder Phoneme, die in der Flüsterstimme oder der Pseudo-Flüsterstimme des Patienten enthalten sind, identifiziert werden und als Signalda ten in die Eingangsdatenbank eingefügt werden. In dieser Phase wird somit das „Vokabular” der Eingangsdatenbank angelegt, mit dem die später gesprochene Sprache verglichen wird. Der vorgegebene Text wird vorzugsweise mehrmals gelesen, damit Nebengeräusche, die sich statistisch über den Text verteilen, nicht zweimal an derselben Stelle vorkommen und somit als fälschlicherweise zu einem Phon oder Phonem gehörend interpretiert werden. Auf diese Weise wird eine Datenbank von Signaldaten der Phone und Phoneme erstellt, die nicht von Nebengeräuschen beeinträchtigt ist. Der Text kann auch eine Auswahl oder Liste einzelner zu erzeugender Laute sein, die in einer Flüsterstimme oder einer Pseudo-Flüsterstimme vorkommenThe object underlying the invention is finally achieved by a method for operating a system as described above, which is characterized in that in a learning phase based on language examples in which the patient at least a predetermined text is read, the phone or phonemes, the are contained in the whispering voice or the pseudo-whispering voice of the patient, are identified and inserted as signal data in the input database. In this phase, the "vocabulary" of the input database is thus created, with which the later spoken language is compared. The default text is preferably read several times, so that noise that is statistically above the Distribute text, do not occur twice in the same place and thus be interpreted as mistakenly belonging to a phoneme or phoneme. In this way, a database of signal data of the phone and phoneme is created, which is not affected by background noise. The text may also be a selection or list of individual sounds to be produced that occur in a whispering voice or a pseudo-whispering voice

Vorzugsweise werden in einer vorausgehenden Anlernphase, in der der Patient noch eine natürliche Sprechstimme hat, anhand von Sprachbeispielen, in denen vom Patienten wenigstens ein vorgegebener Text vorgelesen wird, die Phone oder Phoneme, die in der natürlichen Sprechstimme des Patienten enthalten sind, identifiziert werden und als Signaldaten in die Ausgangsdatenbank eingefügt. Mit diesen Signaldaten in der Ausgangsdatenbank, die in der oben beschriebenen Weise in Reinform identifiziert werden, kann später das akustische Ausgangssignal erzeugt werden und die ursprüngliche natürliche Sprechstimme des Patienten verwendet werden und rekonstruiert werden.Preferably be in a pre-learning phase in which the patient is still a natural one Speaking voice has, based on language examples, in which of the patient at least one given text is read, the phone or Phonemes that are in the natural Speaking voice of the patient are identified and inserted as signal data in the original database. With This signal data in the output database, in the above described Can be identified in pure form, later the acoustic output signal be generated and the original natural Voice of the patient can be used and reconstructed.

Vorzugsweise werden ferner in einer Anlernphase Signaldaten von Nebengeräuschen, insbesondere von Schmatz- und/oder Schluckgeräuschen, aufgenommen und als Störsignaldaten in eine Datenbank, insbesondere in eine Störsignaldatenbank oder in die Eingangsdatenbank, eingefügt. Hierzu vollführt der Patient verschiedene Mund- und Zungenbewegungen aus, die zu Nebengeräuschen führen und die auf diese Weise später eindeutig als Nebengeräu sche identifiziert werden können.Preferably are also in a Anlernphase signal data from background noise, in particular from smacking and / or swallowing sounds, recorded and as Störsignaldaten in a database, in particular in a Störsignaldatenbank or in the Input database, inserted. To do this the patient made various mouth and tongue movements that too background noise to lead and that way later clearly as Nebengeräu cal can be identified.

Im Regulärbetrieb des Systems, also nach der Anlernphase, ist vorteilhafterweise vorgesehen, dass mittels der Eingabevorrichtung ein fehlerhaftes Ausgangssignal korrigiert wird. Die Korrektur bzw. die Auswahl aus verschiedenen angebotenen Kandidaten wird vorzugsweise zur Verbesserung der Eingangsdatenbank und/oder der Musterkennung verwendet. Dies führt dazu, dass die Signaldaten in der Eingangsdatenbank, und insbesondere die Parameter der statistischen Modelle angepasst werden, so dass im Wiederholungsfall mit einer größeren Wahrscheinlichkeit die korrekten Laute und Worte erkannt werden.in the regular operation of the system, so after the learning phase, is advantageously provided that corrected by the input device, a faulty output signal becomes. The correction or the selection of various offered Candidates will preferably improve the input database and / or the pattern identifier used. This causes the signal data in the input database, and in particular the parameters of the statistical Models are adjusted so that in case of recurrence with a greater probability the correct sounds and words are recognized.

Das erfindungsgemäße Verfahren, System und Verfahren zum Betreiben des Systems setzen voraus, dass der Patient neurologisch gesehen in der Lage ist, überhaupt Sprache zu bilden.The inventive method, System and method for operating the system assume that The patient is neurologically capable, at all To form language.

Die Erfindung wird nachstehend ohne Beschränkung des allgemeinen Erfindungsgedankens anhand von Ausführungsbeispielen unter Bezugnahme auf die Zeichnungen beschrieben, wobei bezüglich aller im Text nicht näher erläuterten erfindungsgemäßen Einzelheiten ausdrücklich auf die Zeichnungen verwiesen wird. Es zeigen:The Invention will be described below without limiting the general inventive concept of exemplary embodiments with reference to the drawings, with respect to all not closer in the text explained Details of the invention expressly is referred to the drawings. Show it:

1 in schematischer Darstellung einen Querschnitt durch die Mund-/Hals-Partie eines Menschen bei intaktem Kehlkopf, 1 a schematic cross section through the mouth / neck portion of a human with intact larynx,

2 einen Querschnitt in schematischer Darstellung durch die Mund-/Hals-Partie eines Laryngektomierten, 2 a cross section in a schematic representation through the mouth / neck portion of a Laryngektomierten,

3 eine schematische Darstellung des erfindungsgemäßen Systems, 3 a schematic representation of the system according to the invention,

4 eine schematische Darstellung eines ersten erfindungsgemäßen Verfahrens und 4 a schematic representation of a first method according to the invention and

5 eine schematische Darstellung eines zweiten erfindungsgemäßen Verfahrens. 5 a schematic representation of a second method according to the invention.

In den folgenden Figuren sind jeweils gleiche oder gleichartige Elemente bzw. entsprechende Teile mit denselben Bezugsziffern versehen, so dass von einer entsprechenden erneuten Vorstellung abgesehen wird.In The following figures are each the same or similar elements or corresponding parts provided with the same reference numerals, so that a corresponding renewed idea is ignored.

In 1 ist ein Querschnitt durch den Mundhöhle-Hals-Trakt eines gesunden Menschen schematisch dargestellt. Im Hals liegen parallel zueinander vorwärtig die Luftröhre 1 und rückwärtig die Speiseröhre 2. Im Kehlkopf 3, der mit gestrichelten Linien in seinem Ausmaß angedeutet ist, treffen Luftröhre 1 und Speiseröhre 2 zusammen, wobei die Stimmlippen 4 in der Luftröhre 1 kurz vor der Vereinigung mit der Speiseröhre 2 angeordnet sind. Ein Luftstrom 5, mit Pfeilen angedeutet, strömt aus der Lunge durch die Luftröhre 1 durch den Kehlkopf 3 in den rückwärtigen Teil der Mundhöhle 6 und aus dem geöffneten Mund in die Umgebung hinaus.In 1 is a cross-section through the oral cavity-neck tract of a healthy person shown schematically. The trachea is parallel in front of the neck 1 and backward the esophagus 2 , In the larynx 3 , indicated with dashed lines in its extent, meet the trachea 1 and esophagus 2 together, with the vocal folds 4 in the trachea 1 just before union with the esophagus 2 are arranged. An airflow 5 , indicated by arrows, flows from the lungs through the trachea 1 through the larynx 3 in the back part of the oral cavity 6 and out of the open mouth into the environment.

Die Mundhöhle 6 ist begrenzt durch die Zunge 8, den Oberkiefer 9 und den Unterkiefer 10 sowie die Gaumenplatte 11. Ebenfalls dargestellt sind die Zähne im Oberkiefer 9 und im Unterkiefer 10.The oral cavity 6 is limited by the tongue 8th , the upper jaw 9 and the lower jaw 10 as well as the palate plate 11 , Also shown are the teeth in the upper jaw 9 and in the lower jaw 10 ,

Die Luftströmung 5 wird beim Sprechen durch Anspannen der Stimmlippen 4 in Schwingung versetzt, so dass eine Trägerschwingung entsteht, die weithin hörbar ist Diese Trägerschwingung und deren Oberfrequenzspektrum wird durch Verändern der Position der Zunge 8 und des Abstandes von Oberkiefer 9 und Unterkiefer 10 beim Sprechen verändert.The air flow 5 becomes when speaking by tightening the vocal folds 4 vibrating so as to produce a carrier vibration that is widely audible. This carrier vibration and its upper frequency spectrum is changed by changing the position of the tongue 8th and the distance from maxilla 9 and lower jaw 10 changed while speaking.

In 2 ist schematisch dargestellt, wie der Halsbereich bei einer Kehlkopfentfernung verändert ist. Der Kehlkopf ist vollständig entfernt und Luftröhre 1 und Speiseröhre 2 vollständig getrennt. Während die Speiseröhre 2 weiterhin im Mund endet, endet die Luftröhre 1 in einer frontalen Öffnung am Hals, oberhalb des Brustbeins, im so genannten Tracheostoma 12. Durch das Tracheostoma 12 kann der Patient atmen, was durch die auswärts und einwärts gerichteten Pfeile angedeutet ist.In 2 is shown schematically how the neck area is changed at a laryngectomy. The larynx is completely removed and trachea 1 and esophagus 2 completely separated. While the esophagus 2 continues in the mouth ends, the trachea ends 1 in a frontal opening at the neck, upper half of the sternum, in the so-called tracheostoma 12 , Through the tracheostoma 12 the patient may breathe, as indicated by the outward and inward arrows.

In der Mundhöhle 6 ist ein Mikrofon 13 dargestellt, das als Zahnprothese im vorliegenden Beispiel ausgeführt ist. Das Mikrofon 13 befindet sich somit im Fall der Pseudo-Flüsterstimme, zu der der Patient in 2 noch fähig ist, direkt am Ort der Lauterzeugung.In the oral cavity 6 is a microphone 13 shown, which is designed as a dental prosthesis in the present example. The microphone 13 is thus in the case of the pseudo-whispering voice to which the patient in 2 is still capable, right at the place of the sound production.

In 3 ist das erfindungsgemäße System schematisch dargestellt. Das Mikrofon 13, das in der Mundhöhle 6 des Patienten angeordnet ist, ist über eine drahtlose Verbindung 14 mit einer Empfangseinheit 16 der Signalverarbeitungsvorrichtung 15 verbunden. Die nachführend aufgeführten Komponenten der Signalverarbeitungsvorrichtung 15 können als eigenständige Komponente oder als Funktionseinheiten einer oder mehrerer Komponenten ausgeführt sein. Das von der Empfangseinheit 16 empfangene analoge Signal wird gegebenenfalls einem Verstärker 17 und gegebenenfalls einem Tiefpass-Filter 18 oder einem entsprechend anderen Filter zugeleitet, wonach das analoge Signal einem Analog/Digital-Wandler 19 zugeleitet wird. Im Analog/Digital-Wandler 19 wird das ggf. zuvor verstärkte und/oder gefilterte analoge Signal digitalisiert und einem digitalen Signalprozessor 20 übermittelt. Der Analog/Digital-Wandler 19 kann auch im digitalen Signalprozessor 20 umfasst sein. Der digitale Signalprozessor 20 ist für die Lauterkennung und ggf. für die Spracherken nung zuständig. Die Funktionalitäten der Lauterkennung und der Spracherkennung können auch auf verschiedene Prozessoren, beispielsweise einen digitalen Signalprozessor 20, für die Lauterkennung und einen nicht dargestellten Prozessor für die Spracherkennung, d. h. die Erkennung von Worten und Sätzen, aufgeteilt sein.In 3 the system according to the invention is shown schematically. The microphone 13 that in the oral cavity 6 The patient is placed over a wireless connection 14 with a receiving unit 16 the signal processing device 15 connected. The following listed components of the signal processing device 15 can be implemented as a separate component or as functional units of one or more components. That of the receiving unit 16 received analog signal is optionally an amplifier 17 and optionally a low pass filter 18 or a correspondingly different filter, after which the analogue signal is fed to an analogue / digital converter 19 is forwarded. In the analog / digital converter 19 If necessary, the previously amplified and / or filtered analog signal is digitized and a digital signal processor 20 transmitted. The analog / digital converter 19 can also be used in the digital signal processor 20 includes his. The digital signal processor 20 is responsible for the sound recognition and possibly the voice recognition. The functions of sound recognition and speech recognition can also be applied to different processors, for example a digital signal processor 20 , for the sound recognition and an unillustrated processor for speech recognition, ie the recognition of words and sentences, be divided.

Der digitale Signalprozessor 20 hat Zugriff auf eine Eingangsdatenbank 21 und eine Ausgangsdatenbank 22 und ggf. auf eine nicht dargestellte Störsignaldatenbank. Zur Erkennung von Lauten im digitalisierten Signal greift der digitale Signalprozessor auf die in der Eingangsdatenbank 21 gespeicherten Signaldaten der bekannten Phone und Phoneme in der Sprache des Patienten zurück, die zuvor in einer Anlernphase dort gespeichert worden sind. Die Eingangsdatenbank 21 und/oder die Ausgangsdatenbank 22 können auf eigenen Speicherchips gespeichert sein oder im digitalen Signalprozessor 20 vorliegen.The digital signal processor 20 has access to an input database 21 and an initial database 22 and possibly on an unillustrated Störsignaldatenbank. To detect sounds in the digitized signal, the digital signal processor accesses those in the input database 21 stored signal data of the known phone and phonemes in the language of the patient back, which were previously stored in a learning phase there. The input database 21 and / or the source database 22 can be stored on separate memory chips or in the digital signal processor 20 available.

Der digitale Signalprozessor 20 ist optional mit einer Eingabevorrichtung 24 bidirektional verbunden, wobei in der Eingabevorrichtung 24 verschiedene gefundene Auswahlmöglichkeiten oder Kandidaten angezeigt und ausgewählt werden können oder ein auszugebender Text direkt eingegeben werden kann. Der ausgewählte Text wird von der Eingabevorrichtung 24 an den digitalen Signalprozessor 20 zurückgegeben. Der zu erzeugende Text wird vom digitalen Signalprozessor 20 und/oder von der Eingabevorrichtung 24 direkt an eine Sprachsyntheseeinheit 25 übermittelt, die ebenfalls im digitalen Signalprozessor enthalten sein kann. Das Ausgangssignal wird schließlich an eine Wiedergabeeinrichtung 25 übermittelt, die im einfachsten Fall aus einem Lautsprecher besteht, und die, durch die gestrichelte Linie angedeutet, in die Signalverarbeitungsvorrichtung 15 integriert sein kann.The digital signal processor 20 is optional with an input device 24 Bidirectionally connected, wherein in the input device 24 various found choices or candidates can be displayed and selected or a text to be output can be entered directly. The selected text is from the input device 24 to the digital signal processor 20 returned. The text to be generated is from the digital signal processor 20 and / or from the input device 24 directly to a speech synthesis unit 25 transmitted, which may also be included in the digital signal processor. The output signal is finally sent to a display device 25 transmitted, which consists in the simplest case of a loudspeaker, and, indicated by the dashed line, in the signal processing device 15 can be integrated.

Zur Energieversorgung ist in 3 ein Beispiel dargestellt, in dem die Signalverarbeitungsvorrichtung 15 über eine induktive Energiequelle 27 verfügt, die über eine induktive Energieübertragung 28 das Mikrofon 13 mit Energie versorgt. Dafür ist das Mikrofon 13 mit einer nicht dargestellten Empfangsantenne bzw. Empfangsvorrichtung für die induktive Energieübertragung ausgestattet.For power supply is in 3 an example in which the signal processing device 15 via an inductive energy source 27 which has an inductive energy transfer 28 the microphone 13 energized. That's what the microphone is for 13 equipped with a receiving antenna or receiving device for inductive energy transfer, not shown.

In 4 ist ein erstes Verfahren zur Spracherkennung und Sprachausgabe schematisch dargestellt Die einzelnen Verfahrensschritte sind symbolisch dargestellt, während sie mit Pfeilen verbunden sind, die die Abfolge der Verfahrensschritte darstellen.In 4 a first method for speech recognition and speech output is shown schematically. The individual method steps are shown symbolically while they are connected with arrows representing the sequence of the method steps.

In einem ersten Verfahrensschritt 30 wird in der Mundhöhle des Patienten Sprache akustisch aufgenommen und ein analoges Eingangssignal erzeugt, dass Verfahrensschritt 31 an die Signalverarbeitungsvorrichtung übertragen wird. Durch die drei von dem Kasten 31 ausgehenden Pfeile angedeutet, kann nach dem Empfang des Sprachsignals eine Verstärkung 32 des Sprachsignals, eine Filterung 33 des Sprachsignals oder direkt eine Analog/Digital-Wandlung 34 des Sprachsignals erfolgen. Bei einer Verstärkung 32 kann nachfolgend eine Filterung 33 des Sprachsignals erfolgen, bevor die Analog/Digitalwandlung 34 stattfindet. Der Schritt der Filterung 33 kann auch übersprungen werden. Alternativ ist es möglich, nach der Übertragung des Sprachsignals 31 zunächst das Sprachsignal zu filtern 33 und anschließend zu verstärken 32, bevor eine Analog/Digital-Wandlung 34 erfolgt. Die Reihenfolge der Verfahrensschritte Verstärkung 32 und Filterung 33 des Sprachsignals sind somit umkehrbar.In a first process step 30 speech is acoustically recorded in the oral cavity of the patient and an analog input signal is generated that procedural step 31 is transmitted to the signal processing device. Through the three of the box 31 outgoing arrows indicated, after receiving the speech signal, a gain 32 the voice signal, a filtering 33 the voice signal or directly an analog / digital conversion 34 of the speech signal. With a reinforcement 32 can subsequently be filtered 33 of the speech signal before the analog / digital conversion 34 takes place. The step of filtering 33 can also be skipped. Alternatively, it is possible after the transmission of the voice signal 31 first to filter the speech signal 33 and then reinforce 32 before an analog / digital conversion 34 he follows. The order of process steps gain 32 and filtering 33 of the speech signal are thus reversible.

Das digitalisierte Eingangssignal oder Sprachsignal wird im Verfahrensschritt 35 einer Analyse der Struktur des digitalen Signals unterworfen. Dabei werden Sprechpausen erkannt, zeitliche Einheiten des Sprachsignals ermittelt und zeitlich aufgelöste Frequenzspektren erzeugt. In einem folgenden Verfahrensschritt 36, der auch übersprungen werden kann, werden Nebengeräusche erkannt und von der weiteren Verarbeitung ausgeschlossen, indem entweder die von den Nebengeräuschen betroffenen zeitlichen Abschnitte des Eingangssignals komplette von der Weiterverarbeitung ausgeschlossen werden oder indem bekannte Reinformen des Nebengeräusches von dem Signal abgezogen werden, so dass nur die darunter liegenden Geräusche, die zur gesprochenen Sprache gehören, übrig bleiben. Dieses Signal wird dann insbesondere einer erneuten zeitlich aufgeschlüsselten Frequenzzerlegung unterworfen.The digitized input signal or speech signal is in the process step 35 subjected to an analysis of the structure of the digital signal. Speech pauses are recognized, time units of the speech signal are determined and time-resolved frequency spectra are generated. In a subsequent process step 36 which can also be skipped, noise is detected and excluded from further processing by ent neither the temporal portions of the input signal complete affected by the background noises are excluded from the further processing or by subtracting known pure forms of the background noise from the signal, so that only the underlying noises belonging to the spoken language remain. This signal is then subjected in particular to a renewed time-disaggregated frequency separation.

Es folgt in Schritt 37 das Erkennen von Phonen oder Phonemen durch Vergleich der erkannten Signale mit den Signaldaten der bekannten Phone oder Phoneme aus der Eingangsdatenbank.It follows in step 37 the recognition of phones or phonemes by comparing the detected signals with the signal data of the known phone or phonemes from the input database.

Im in 4 gezeigten Ausführungsbeispiel ist der Patient in der Lage, vokalische Phone und Phoneme zu erzeugen, vorzugsweise in einer Flüsterstimme, so dass in einer sehr einfachen Ersetzungsoperation in Verfahrensschritt 38 ein Ausgangssignal erzeugt wird, indem die erkannten Phone oder Phoneme aus dem Eingangssignal durch die Phone und Phoneme der natürlichen bzw. simulierten Sprechstimme ersetzt werden und so ein kontinuierlicher Redefluss im Ausgangssignal erzeugt wird. Dieses Ausgangssignal wird in Schritt 39 in ein analoges Signal gewandelt und in Schritt 40 akustisch wiedergegeben. In diesem Fall entfällt die Notwendigkeit einer weiteren Spracherkennung.Im in 4 In the embodiment shown, the patient is able to produce vocalic phones and phonemes, preferably in a whispering voice, so that in a very simple replacement operation in procedural step 38 an output signal is generated by replacing the detected phones or phonemes from the input signal with the phones and phonemes of the natural or simulated voice, thus producing a continuous flow of speech in the output signal. This output signal is in step 39 converted into an analog signal and in step 40 acoustically reproduced. In this case eliminates the need for further speech recognition.

In 5 ist schematisch ein weiteres erfindungsgemäßes Verfahren dargestellt, in dem eine Spracherkennung erfolgt. Das Verfahren, das in 5 schematisch dargestellt ist, ist bis zu Verfahrensschritt 37, d. h. bis zum Erkennen von Phonen oder Phonemen im Ein gangssignal, identisch mit dem in 4 dargestellten und beschriebenen Verfahren. Im Unterschied zu Verfahren gemäß 4 werden die erkannten Phone bzw. Phoneme jedoch nicht direkt durch Phone und Phoneme einer natürlichen Sprechstimme ersetzt, sondern einer Erkennung von Morphemen, Wörtern oder Sätzen 41 zugeleitet. Dies ist die zentrale Aufgabe der Spracherkennung. In diesem Verfahrensschritt werden statistische Analyseverfahren, neuronale Netze oder Kombinationen daraus verwendet, um zunächst aus den erkannten Phonen bzw. Phonemen einzelne Wörter oder Wortkombinationen zu rekonstruieren. Die Anwendung statistischer Modelle und/oder neuronaler Netze ist notwendig, da die Ausgangsdaten, die erkannten Phoneme, unvollständig und fehlerbehaftet sind. Es muss eine Hypothese darüber erstellt werden, welche Worte tatsächlich gesprochen worden sind. Ein bekanntes statistisches Modell ist das Hidden-Markov-Modell, das sich durch zwei Zufallsprozesse beschreiben lässt. Der erste Zufallsprozess entspricht einer Markov-Kette, die durch Zustände und Übergangswahrscheinlichkeiten gezeichnet ist, die jedoch von außen nicht direkt sichtbar sind. Diese Zustände sind in der gesprochenen Sprache die Phoneme eines vollständig und deutlich gesprochenen Textes. Ein zweiter Zufallsprozess erzeugt zu jedem Zeitpunkt beobachtbare Ausgangssymbole gemäß einer zustandsabhängigen Wahrscheinlichkeitsverteilung. Der zweite Zufallsprozess beschreibt, dass die idealerweise vorhandenen Phoneme in der tatsächlichen Aussprache fehlen können, in veränderter Form im tatsächlichen Sprachsignal vorhanden sein können oder fehlerhaft erkannt werden. Dies ist insbesondere bei Flüsterstimmen und Pseudo-Flüsterstimmen erheblicher Variabilität unterworfen, zumal insbesondere in der Pseudo-Flüsterstimme einige Phone und Phoneme nicht darstellbar sind. Da aufgrund des großen Wortschatzes der menschlichen Sprache eine Vielzahl von Varianten überprüft werden müsste, sind Algorithmen entwickelt worden, um diese Suche abzukürzen, beispielsweise ein Forward- Algorithmus oder ein Backward-Algorithmus. So wird mit Hilfe der Algorithmen und des Hidden-Markov-Modells festgestellt, welche Worte am wahrscheinlichsten einer erkannten Folge von Phonemen zugrunde liegen.In 5 schematically another method according to the invention is shown, in which a speech recognition takes place. The procedure, which in 5 is shown schematically, is up to process step 37 , ie until the recognition of phonons or phonemes in the input signal, identical to the in 4 illustrated and described methods. In contrast to the method according to 4 However, the recognized Phone or phonemes are not replaced directly by the phone and phonemes of a natural speaking voice, but a recognition of morphemes, words or sentences 41 fed. This is the central task of speech recognition. In this method step, statistical analysis methods, neural networks or combinations thereof are used to first reconstruct individual words or word combinations from the recognized phonons or phonemes. The application of statistical models and / or neural networks is necessary because the output data, the detected phonemes, are incomplete and error-prone. A hypothesis has to be made about which words have actually been spoken. A well-known statistical model is the hidden Markov model, which can be described by two random processes. The first random process corresponds to a Markov chain drawn by states and transition probabilities, but not directly visible from the outside. These states are in spoken language the phonemes of a fully and clearly spoken text. A second random process generates observable output symbols according to a state-dependent probability distribution at all times. The second random process describes that the ideally existing phonemes may be missing in the actual pronunciation, may be present in altered form in the actual speech signal, or may be erroneously recognized. This is especially in whispering voices and pseudo-whispering voices subject to considerable variability, especially since some phones and phonemes are not displayed, especially in the pseudo-whispering voice. Since a large number of variants would have to be checked due to the large vocabulary of human speech, algorithms have been developed to shorten this search, for example a forward algorithm or a backward algorithm. Thus, with the help of the algorithms and the hidden Markov model, it is determined which words are most likely to underlie a recognized sequence of phonemes.

Um einzelne Worte in ihren textuellen Kontext zu setzen und somit die Treffsicherheit zu erhöhen und insbesondere Homophone, d. h. gleichklingende Worte mit verschiedenen Bedeutungsinhalten, voneinander zu unterscheiden, werden insbesondere neuronale Netze eingesetzt, die eine begrenzte Verknüpfung einzelner Worte bzw. Phoneme mit den vorhergehenden und nachfolgenden Phonemen bzw. Worten erlauben. Die neuronalen Netze werden insbesondere auch auf der Ebene der Hidden-Markov-Modelle vorgeschaltet. Bigrammstatistiken und Trigrammstatistiken werden verwendet, um die wahrscheinlichsten Wortkombinationen aus mehreren Möglichkeiten auszuwählen. So ist eine Bigrammstatistik beispielsweise in der Lage, eine Lösung für das Problem zu bieten, ob eine Lautfolge sich mit „viel Glück” oder „fiel Glück” wiedergeben lässt. Da die erste Variante in der Bigrammstatistik mit einer höheren Wahrscheinlichkeit verzeichnet ist, wird diese Variante ausgewählt.Around to put single words into their textual context and thus the Increase marksmanship and especially homophones, d. H. same-sounding words with different ones Meaning contents, to distinguish from each other, become in particular neural Networks that have a limited association of individual words or Phonemes with the preceding and following phonemes or words allow. The neural networks are also used on the Level of Hidden Markov Models. Bigrammstatistiken and trigram statistics are used to the most likely Word combinations of several possibilities select. For example, a bigram statistic is capable of solving the problem to offer, whether a sound sequence with "good luck" or "fell lucky" can be played. There the first variant in the bigram statistics with a higher probability is recorded, this variant is selected.

In Verfahrensschritt 41 ist somit eine Hypothese erstellt worden, welchen sprachlichen Bedeutungsinhalt das Eingangssignal hatte. Dieses kann entweder direkt über einen Verfahrensschritt 42 zum Bilden eines Ausgangssignals mit nachfolgender Digital/Analog-Wandlung 39 und akustischer Wiedergabe 40 verwendet werden.In process step 41 Thus, a hypothesis has been created, which language meaning content had the input signal. This can either be done directly via a process step 42 for forming an output signal with subsequent digital / analog conversion 39 and acoustic playback 40 be used.

Eine zweite Vorgehensweise ist die direkte Speicherung 43 des erkannten Textes in Textform. In einer dritten Alternative kann die Hypothese über den Text auch an eine Eingabevorrichtung 24, die gestrichelt angedeutet ist, mit einer Anzeige 44 von Alternativen übermittelt werden. Die Hypothesen mit den größten Wahrschein lichkeiten werden dann dem Patienten angezeigt und dieser kann die tatsächlich gemeinte Bedeutung auswählen. Die Auswahl wird an den Schritt 41 zurückübermittelt, womit entsprechend Wörter oder Sätze endgültig erkannt sind. Diese können dann wie beschrieben zu einer sprachlichen Ausgabe oder zu einer Textausgabe weiterverarbeitet werden. Alternativ kann auch in einem Verfahrensschritt 45 ein Text direkt eingegeben werden in der Eingabevorrichtung 24 und in Textform 43 oder akustisch (Verfahrensschritte 42, 39, 30) ausgegeben werden.A second approach is direct storage 43 the recognized text in text form. In a third alternative, the hypothesis about the text may also be sent to an input device 24 , which is indicated by dashed lines, with a display 44 of alternatives. The hypotheses with the highest probabilities will then be the Pa displayed and this can select the meaning actually meant. The selection is sent to the step 41 returned, thus corresponding words or sentences are finally recognized. These can then be processed as described to a linguistic output or to a text output. Alternatively, in one process step 45 a text can be entered directly in the input device 24 and in text form 43 or acoustically (method steps 42 . 39 . 30 ).

Falls in Schritt 44 der Anzeige von Alternativen die korrekte Alternative nicht angegeben wird, ist es auch möglich, dass die tatsächlich gewünschte Alternative direkt eingegeben wird (45) und an die Erkennung von Morphemen, Wörtern oder Sätzen 41 zurückgemeldet wird.If in step 44 If the alternative is not given the correct alternative, it is also possible that the actually desired alternative is entered directly ( 45 ) and the recognition of morphemes, words or sentences 41 is reported back.

Je nach Art der Auswahl oder Korrektur in Verfahrensschritt 44 werden die Auswahl-Korrekturdaten dazu verwendet, die Eingangsdatenbank anzupassen, weil beispielsweise der Patient eine verbesserte Artikulation bestimmter Phone oder Phoneme geübt hat. Weiter können die Parameter eines verwendeten neuronalen Netzes oder eines Hidden-Markov-Modells oder einer Bigrammstatistik oder einer Trigrammstatistik verbessert werden, um in vergleichbaren Fällen mit größerer Sicherheit zum gewünschten Ergebnis zu kommen, das in dem ersten Fall durch eine Auswahl oder eine Korrektur eindeutig definiert worden ist.Depending on the type of selection or correction in process step 44 For example, the selection correction data is used to adjust the input database because, for example, the patient has practiced improved articulation of certain phones or phonemes. Furthermore, the parameters of a used neural network or a hidden Markov model or a bigram statistics or a trigram statistics can be improved in order to achieve the desired result in comparable cases with greater certainty, which in the first case is clearly defined by a selection or a correction has been.

Alle genannten Merkmale, auch die den Zeichnungen allein zu entnehmenden sowie auch einzelne Merkmale, die in Kombination mit anderen Merkmalen offenbart sind, werden allein und in Kombination als erfindungswesentlich angesehen. Erfindungsgemäße Ausführungsformen können durch einzelne Merkmale oder eine Kombinati on mehrerer Merkmale erfüllt sein.All mentioned features, including the drawings alone to be taken as well as individual characteristics, in combination with other characteristics are disclosed, alone and in combination as essential to the invention considered. Embodiments of the invention can by individual features or a combination of several features Fulfills be.

11: Luftröhrewindpipe
22: Speiseröhreesophagus
33: Kehlkopflarynx
44: Stimmlippenvocal cords
55: Luftstromairflow
66: Mundhöhleoral cavity
77: Stimmevoice
88th: Zungetongue
99: Oberkieferupper jaw
1010: Unterkieferlower jaw
1111: Gaumenplattepalate
1212: Tracheostomatracheostomy
1313: Mikrophonmicrophone
1414: drahtlose Verbindungwireless connection
1515: SignalverarbeitungsvorrichtungSignal processing device
1616: Empfangseinheitreceiver unit
1717: Verstärkeramplifier
1818: TiefpassfilterLow Pass Filter
1919: Analog-Digital-WandlerAnalog to digital converter
2020: Digitaler Signalprozessordigital signal processor
2121: EingangsdatenbankInput database
2222: AusgangsdatenbankInitial database
2424: Eingabevorrichtunginput device
2525: SprachsyntheseeinheitSpeech synthesis unit
2626: WiedergabeeinrichtungReproduction device
2727: Induktive Energiequelleinductive energy
2828: Induktive Energieübertragunginductive power transmission
3030: Sprachaufnahmevoice recording
3131: Übertragung des Sprachsignalstransmission of the speech signal
3232: Verstärkung des SprachsignalsReinforcement of the speech signal
3333: Filterung des Sprachsignalsfiltering of the speech signal
3434: Analog-Digital-WandlungAnalog to digital conversion
3535: Analyse der Struktur des digitalen Signalsanalysis the structure of the digital signal
3636: Erkennung und Ausschluss von Nebengeräuschenrecognition and exclusion of background noise
3737: Erkennung von Phonen oder Phonemenrecognition of phones or phonemes
3838: Ersetzen der Phone oder Phoneme für AusgangssignalReplace the phone or phonemes for output
3939: Digital-Analog-Wandlung des AusgangssignalsDigital to analog conversion the output signal
4040: Akustische Wiedergabe des Ausgangssignalsacoustic Playback of the output signal
4141: Erkennung von Morphemen, Wörtern oder Sätzenrecognition of morphemes, words or sentences
4242: Bilden eines AusgangssignalsForm an output signal
4343: Speichern in Textformto save in text form
4444: Anzeige von Alternativen und Auswahldisplay of alternatives and selection
4545: Direkteingabedirect entry

Claims

Method for speech recognition in patients who have no or only a limited natural voice due to a laryngectomy or leading to vocal impairment, especially for vocal rehabilitation and / or to replace a natural voice of a patient and / or written texts, with the following steps: a) in the oral cavity ( 6 ) of the patient, noises are recorded ( 30 b) the recorded sounds are input to a signal processing device (b) the sound produced when articulating speech with a whispering voice or a pseudo-whispering voice; 15 ) transmitted ( 31 ), c) in the signal processing device ( 15 ) the input signal is subjected to a recognition of linguistic patterns in digitized form ( 35 . 36 . 37 ), d) the recognized linguistic patterns are converted into an output signal, in particular by means of a speech synthesis ( 38 . 42 ), which corresponds to a natural or simulated articulated speaking voice and which is reproduced acoustically ( 40 ) and / or transposed into a written text delt ( 43 ).

Method according to Claim 1, characterized in that the input signal is an analogue signal which is used in the signal processing device ( 15 ) is digitized ( 34 ), in particular the analog input signal before digitizing ( 34 ) is strengthened ( 32 ) and / or a filter, in particular a low-pass filter, is subjected ( 33 ).

Method according to Claim 1 or 2, characterized in that, in method step c), background noises, in particular smacking noises, are excluded from pattern recognition ( 36 ).

Method according to one of claims 1 to 3, characterized in that in step c) are recognized as a linguistic pattern Phone or phonemes of a language ( 37 ).

Method according to Claim 4, characterized in that the output signal in method step d) is formed by replacing the recognized phones or phonemes with the corresponding phonons or phonemes in natural or simulated speaking voice ( 38 ) if the patient has an articulation of a cal phone or phoneme.

Method according to Claim 4, characterized in that phonemes, morphemes, words or sentences of the speech or combinations thereof are determined from the recognized phonons or phonemes of speech in a speech analysis ( 41 ).

Method according to Claim 6, characterized that the output signal in step d) by stringing together the recognized phonemes, morphemes, words or sentences in natural or simulated speaking voice is formed.

Method according to one of claims 1 to 7, characterized in that the patient before an acoustic reproduction and / or prior to insertion in a written text a selection of several possible recognized words or sentences is displayed and the correct word or the correct sentence by the Patient is selected ( 44 ).

Method according to one of claims 1 to 7, characterized that the formation of the output signal happens in real time while the Patient speaks.

System for speech recognition in patients who have no or only a limited natural speaking voice due to a laryngectomy or leading to vocal impairment, especially for vocal rehabilitation and / or replacement of a patient's natural speaking voice and / or written texts one in the oral cavity ( 6 ) of the patient's microphone ( 13 ) for picking up sounds that arise when articulating speech with a whispering voice or a pseudo-whispering voice, a signal processing device ( 15 ) connected to the microphone ( 13 ) by means of a wireless signal transmission ( 14 ), the signal processing device ( 15 ) for recognizing linguistic patterns in the microphone ( 13 ) and for converting the recognized linguistic patterns, in particular by means of a speech synthesis, to an output signal corresponding to a natural or simulated articulated voice, and / or formed in a written text, and, if an acoustic output signal is provided, an acoustic Playback device ( 26 ) for reproducing the output signal.

System according to claim 10, characterized in that the microphone ( 13 ) as a releasably fixable prosthesis or as an implant in the oral cavity ( 6 ), in particular in a tooth or a dental prosthesis, instead of a tooth or in the upper jaw ( 9 ) or lower jaw ( 10 ).

System according to claim 10 or 11, characterized in that the microphone ( 13 ) has a replaceable energy source, by means of electromagnetic induction contactless with energy can be supplied, wherein in particular the signal processing means ( 15 ) an energy source ( 27 ) for generating an energy by induction transmitting electromagnetic alternating field, or has a miniaturized energy source based on the principle of power generation from movement or temperature differences.

System according to one of claims 10 to 12, characterized in that the signal processing device ( 15 ) an amplifier ( 17 ) for amplifying the analog input signal and / or a filter, in particular a low-pass filter ( 18 ), for filtering the analog input signal.

System according to one of claims 10 to 13, characterized in that the signal processing device ( 15 ) an analog / digital converter ( 19 ) having.

System according to one of claims 10 to 14, characterized in that the signal processing device ( 15 ) a digital signal processor ( 20 ) or a processor adapted to recognize linguistic patterns in the digital input signal, the digital signal processor ( 29 ) or processor for recognizing the linguistic patterns in the input signal accessing an input database ( 21 ) with signal data, represent the phones or phonemes occurring in the patient's whisper or pseudo-whispered voice, with the input database ( 21 ) is stored in particular in the digital signal processor or processor.

System according to claim 15, characterized in that in a noise signal database ( 23 ) or in the input database ( 21 ) Störsignaldaten of background noise, especially Schmatz- and / or Schluckgeräuschen stored.

System according to claim 15 or 16, characterized in that the digital signal processor ( 20 ) or processor, in particular by means of a program executable therein, the input signal with that in the input database ( 21 ) to compare the occurring in the whispering or pseudo-whispering voice of the patient's phone or phonemes and recognize them in the input signal.

System according to claim 16, characterized in that the digital signal processor ( 29 ) or processor, in particular by means of a program executable therein, the input signal with the in the Störsignaldatenbank ( 23 ) or the input database ( 23 ) to compare the noise occurring in the whispering or pseudo whispering voice of the patient noise and recognize them in the input signal and exclude from further processing.

System according to one of claims 15 to 18, characterized in that the digital signal processor ( 20 ) or processor for forming an output signal access to an output database ( 22 ) having signal data representative of a voice or phonemes of a language occurring in a natural or simulated voice, the output database being stored in particular in the digital signal processor or processor.

System according to claim 19, characterized in that the digital signal processor ( 20 ) or processor, in particular by means of a program executable therein, the recognized Phone or phonemes by the corresponding signal data of the phone or phonemes from the original database ( 22 ) and to assemble into an output signal, wherein in particular rules of phonation are available for the formation of the output signal.

System according to claim 15 to 19, characterized in that the digital signal processor ( 29 ) or processor, in particular by means of a program executable therein is out, by means of at least one statistical and / or vectorial method and / or a simulated neural network from the recognized phones or phonemes morphemes, words, word combinations and / or sentences derived and based on derived morphemes, words, word combinations and / or sentences to produce a written text and / or an output signal, the output signal is created in particular on the basis of the phonemes contained therein and / or existing phonation rules.

System according to one of claims 10 to 21, characterized in that the signal processing device ( 15 ) or the playback device ( 26 ) has a digital / analog converter for the output signal to be reproduced.

System according to one of claims 10 to 22, characterized in that an input device ( 24 ) is provided with a display device and input means for input or selection of text.

System according to claim 23, characterized that possible Alternate recognized words or phrases on the display device can be displayed and are selectable by means of the input means.

System according to claim 23 or 24, characterized in that the signal processing device ( 15 ), the acoustic output signal based on a signal in the input device ( 24 ) text.

A method of operating a system according to any one of claims 10 to 25, characterized in that in an on learning phase based on language examples in which the patient at least a predetermined text is read, the phone or phonemes in the whisper or the pseudo whispering voice are included in the input database (as 21 ).

A method according to claim 26, characterized in that in a previous learning phase in which the patient still has a natural speaking voice, based on language examples in which the patient at least a predetermined text is read, the phone or phonemes in the natural speaking voice of Patients are identified and stored as signal data in the original database ( 22 ).

Method according to claim 26 or 27, characterized in that signal data of background noises, in particular of smacking and / or siping noises, are recorded in a learning phase and stored as jamming signal data in a database, in particular in an interference signal database ( 23 ) or in the input database ( 21 ).

Method according to one of claims 26 to 28, characterized in that by means of the input device ( 24 ) a faulty output signal is corrected.

Method according to Claim 29, characterized in that the correction for improving the input database ( 21 ) and / or pattern recognition is used.