-
Technisches
Gebiet
-
Die
vorliegende Erfindung bezieht sich auf eine Videoszenen-Wiederauffindungsvorrichtung und
ein Verfahren, mit dem eine gewünschte
Videoszene (Video und/oder Sprache) unter Verwendung eines Schlüsselwortes
wiederaufgefunden werden kann.
-
Hintergrund der Erfindung
-
In
jüngster
Zeit stellen sich schnell vergrößernde Computernetzwerke
in Gestalt von Mehrkanal-Rundfunkanstalten und Internet der Gesellschaft und
den Haushalten eine übergroße Menge
an Videomaterial bereit. Daneben ermöglicht eine erhöhte Kapazität des Aufzeichnungsmediums
die Speicherung einer großen
Menge von Videosignalen in den Haushalten. Dieser Umstand verlangt
nach Techniken, mit denen ein Benutzer aus der großen Zahl
von Videosignalen eine gewünschte
Videoszene einfach und mit hoher Genauigkeit auffinden kann.
-
Herkömmlich in
Betracht gezogene Verfahren sind ein Verfahren, das einen Wechselpunkt
von Videosignalen von einer Änderung
des Videosignals erfaßt,
um eine Videoszene gemäß dem Punkt
anzuzeigen, und ein Wiederauffindungssystem, wie etwa ein Verfahren,
das eine spezielle Szene, die aus speziellen anzuzeigenden Objekten
besteht, unter Verwendung einer Bilderkennungstechnik erfaßt. Es besteht
jedoch das Problem, daß bei
diesen Wiederauffindungssystemen einer Suche des Benutzers für die Wiederauffindung
mit einer wiederaufgefundenen Szene nicht präzise entsprochen wird.
-
Weiterhin
gibt es ein Wiederauffindungssystem, das Untertitelinformationen
und Hörbehinderteninformationen,
die der Amerikanische Rundfunk bereitstellt, aus Videos durch Zeichenerkennung liest,
um eine spezielle Szene wiederzufinden.
-
Dieses
System versetzt einen Benutzer in die Lage, die Szene, die der Suche
des Benutzers zur Wiederauffindung präzise entspricht, aus Szenen zu
erhalten, die in geeigneter Weise die Untertitelinformationen und
die Hörbehinderteninformationen verwenden.
Da jedoch derartige Informationen auf einen Teil der Rundfunkprogramme
beschränkt
ist, weil die Informationen manuell eingefügt werden müssen, ist es schwierig, die
Informationen bei allgemeinen Videos weit verbreitet einzusetzen.
-
Andererseits
wird erwartet, daß die
Verwendung eines Sprachschlüsselwortes
als Informationen, die Videos begleiten, zu einem Wiederauffindungssystem
führt,
daß der
Wiederauffindungssuche präzise
entspricht. Die ungeprüfte
japanische Patentveröffentlichung
JP-A-6068168 beschreibt ein Videoszenen-Wiederauffindungssystem,
das ein gewünschte
Szene unter Verwendung eines Sprachschlüsselwortes wiederfindet.
-
1 zeigt
ein Funktionsblockschaltbild des Wiederauffindungssystems, das in
der oben erwähnten
ungeprüften
japanischen Patentveröffentlichung JP-A-6068168
beschrieben ist. Ein Sprach/Video-Eingabeabschnitt 201 empfängt ein
Sprachsignal und ein Videosignal, ein Sprachsignal-Speicherabschnitt 202 speichert
das empfangene Sprachsignal und ein Videosignal-Speicherabschnitt 203 speichert
des empfangene Videosignal. Ein Sprachanalyseabschnitt 204 analysiert
das Sprachsignal, um eine Sequenz von Eigenschaftsparametern zu
erzeugen, die für
die Eigenschaften der Sprache repräsentativ sind. Ein Spracheigenschafts-Speicherabschnitt 205 speichert
die erzeugte Sequenz der Eigenschaftsparameter.
-
In
der Zwischenzeit wird ein Schlüsselwort, das
ein Benutzer später
beim Widerfinden einer Szene verwenden soll, in Gestalt einer Sprache
einem Schlüsselworteigenschafts-Analyseabschnitt 206 zugeführt. Der
Schlüsselworteigenschafts-Analyseabschnitt 206 analysiert
die Sprache als das Schlüsselwort,
um eine Sequenz von Eigenschaftsparametern zu erzeugen, die für die Eigenschaften
des Schlüsselwortes
charakteristisch sind. Ein Schlüsselwort-Eigenschaftsparameter-Speicherabschnitt 207 speichert
die erzeugte Sequenz der Eigenschaftsparameter.
-
Ein
Schlüsselwortintervall-Extraktionsabschnitt 208 vergleicht
die Sequenz der Eigenschaftsparameter des Sprachsignals, das im
Speicherabschnitt 202 gespeichert ist, mit der Sequenz von
Eigenschaftsparametern der Schlüsselwortsprache
und extrahiert ein Schlüsselwortintervall
im Sprachsignal. Ein Indexaddi tionsabschnitt 209 erzeugt
Indexpositionsdaten 210, die das extrahierte Schlüsselwortintervall
auf eine Vollbildnummer des Videosignals entsprechend dem Sprachsignal
beziehen.
-
Wenn
die Wiederauffindung unter Verwendung der Indexpositionsdaten 210 ausgeführt wird, ist
es möglich,
die Vollbildnummer des Videosignals, in dem das Schlüsselwort
erscheint, unter Verwendung des Sprachsignals zu kennzeichnen, wodurch ein
Video/Sprach-Ausgabeabschnitt 211 eine entsprechende Video-
und Sprachszene ausgeben und demzufolge die vom Benutzer gewünschte Video- und
Sprachszene anzeigen kann.
-
Es
besteht jedoch das Problem, daß es
erforderlich ist, im voraus ein Sprachschlüsselwort zu speichern, das
bei einer Wiederauffindung verwendet werden soll, und daß es nicht
möglich
ist, eine Wiederauffindung unter Verwendung anderer Schlüsselwörter auszuführen. Insbesondere
führt ein
unbestimmtes vom Benutzer eingegebenes Schlüsselwort zu einem Wiederauffindungsfehler,
wodurch es nicht möglich
ist, eine Szene wiederzufinden, die einer Wiederauffindungsstelle
präzise
entspricht.
-
Young
et al. beschreiben in "Acoustic
Indexing for Multimedia Retrieval and Browsing", ICASSP 1997, Seite 199-202 ein Videonachrichten-Wiederauffindungssystem
zur Wiederauffindung von Videodokumenten durch das Absuchen der
Tonspur nach Schlüsselwörtern. Spracherkennung
wird mit Informations-Wiederauffindungsverfahren
kombiniert, um Multimedia-Dokumente nach ihrem Inhalt ausfindig zu
machen. Das System benutzt vorausberechnete Phon-Gitter für das Erkennen
von Wörtern
und für Audio-Indizierung.
Statistische Informations-Wiederauffindungsverfahren
mildem die Auswirkungen von Erkennungsfehlern.
-
Offenbarung
der Erfindung
-
Die
vorliegende Erfindung wird in Anbetracht des oben Beschriebenen
ausgeführt.
Ein Ziel der vorliegenden Erfindung besteht darin, eine Vorrichtung und
ein Verfahren anzugeben, die es gestatten, eine vom Benutzer gewünschte Szene
beim Wiederauffinden einer Video- und/oder Sprachsequenz wiederzufinden,
wobei ein nicht im Vokabular vorhandenes Wort, das sich von Wörtern und
Schlüsselwörtern unterscheidet,
die im voraus beispielsweise in einem Wörterbuch gespeichert wurden,
und ein unbestimmtes Schlüsselwort
verwendet werden, das der Benutzer eingibt.
-
Diese
Aufgabe wird durch eine Vorrichtung gemäß unabhängigem Anspruch 1, 12, 25 und
28 und durch ein Verfahren gemäß unabhängigem Anspruch
8, 21 und 29 gelöst.
Vorteilhafte Ausführungsformen
der Erfindung sind Gegenstand der abhängigen Ansprüche.
-
Die
vorliegende Erfindung stellt ein Szenen-Wiederauffindungssystem
zur Verfügung,
das eine Abfolge von Spracherkennungs-Verarbeitungsabläufen separat
von der Erzeugung von Wiederauffindungsdaten und der Wiederauffindungsverarbeitung
anwendet und dadurch in der Lage ist, eine Video-/Sprachszene, die ein Benutzer wünscht, mit hoher
Geschwindigkeit wiederzufinden und die Szene mit hoher Geschwindigkeit
wiederzugeben.
-
Weiterhin
ist sie derart aufgebaut, daß sie eine
Trefferfolge von Teilwörtern,
was ein Zwischenergebnis der Spracherkennungs-Verarbeitung ist,
als einen Wiederauffindungsindex beim Erzeugen der Wiederauffindungsdaten
erzeugt, und derart, daß sie ein
eingegebenes Schlüsselwort
in eine Zeitabfolge eines Teilwortes konvertiert, um es dem Wiederauffindungsindex
bei der Wiederauffindungsverarbeitung zuzuordnen.
-
Daher
ist eine Zuordnung mit einem Wörterbuch
oder einem Wiederauffindungs-Schlüsselwort, das
zuvor gespeichert wurde, nicht erforderlich, wodurch das Problem,
das sogenannte Nicht-im-Vokabular-Wort-Problem, gelöst wird,
bei dem es nicht möglich
ist, einem nicht registrierten Schlüsselwort gerecht zu werden.
Weiterhin ist es möglich,
eine Video-/Sprachszene mit der höchsten Zuverlässigkeit selbst
dann wiederaufzufinden, wenn ein Benutzer ein unbestimmtes Schlüsselwort
eingibt.
-
Darüber hinaus
wird die Trefferfolge des Teilwortes, das der Wiederauffindungsindex
ist, in einem Datenstrom zusammen mit dem Videosignal und dem Sprachsignal
multiplexiert, wodurch es möglich ist,
den Wiederauffindungsindex durch Rundfunknetzwerke und Kommunikationsnetzwerke,
wie etwa das Internet, zu senden.
-
Das
Teilwort ist die Grundeinheit eines akustischen Modells, die kleiner
ist als ein einzelnes Wort. Beispiele des Teilwortes sind ein Phonem,
eine Silbe, wie etwa Konsonant-Vokal und Vokal-Konsonant-Vokal,
und eine Halbsilbe. Jedes Wort wird als Abfolge von Teilwörtern dargestellt.
-
Kurze Beschreibung
der Zeichnungen
-
1 ist
ein Funktions-Blockschaltbild eines derzeitigen Videoszenen-Wiederauffindungssystems;
-
2 ist
ein Funktions-Blockschaltbild eines Szenen-Wiederauffindungssystems
gemäß einer ersten
Ausführungsform
der vorliegenden Erfindung;
-
3 ist
ein Datenstrukturdiagramm eines herkömmlichen Sprachmusters;
-
4 ist
ein Diagramm, das eine Phonem-Ähnlichkeitstabelle
zeigt;
-
5 ist
ein Diagramm, das eine Situation darstellt, in der Teilwörter, die
einer Phonemabfolge eines Schlüsselwortes
entsprechen, aus der Phonem-Ähnlichkeitstabelle
aufgenommen werden;
-
6 ist
eine Diagramm, das eine Situation darstellt, in der aufgenommene
Teilwörter
in der Reihenfolge der Phonemabfolge des Schlüsselwortes angeordnet werden;
-
7 ist
ein Funktions-Blockschaltbild eines Szenen-Wiederauffindungssystems
gemäß einer zweiten
Ausführungsform
der vorliegenden Erfindung;
-
8(1) ist ein Strukturdiagramm eines MPEG-Stroms,
in dem Videosignale, Sprachsignale und Video-Wiederauffindungsindizes
multiplexiert sind;
-
8(2) ist ein Strukturdiagramm eines Videostromes;
-
8(3) ist ein Strukturdiagramm einer GOP;
-
8(4) ist ein Strukturdiagramm eines Wiederauffindungs-Datenstroms;
-
9 ist
ein Funktions-Blockdiagramm eines Szenen-Wiederauffindungssystems
gemäß einer
dritten Ausführungsform
der vorliegenden Erfindung;
-
10 ist
ein Funktions-Blockschaltbild eines Video-Aufzeichnungsgerätes gemäß einer
vierten Ausführungsform
der vorliegenden Erfindung;
-
11 ist
ein Funktions-Blockschaltbild eines Video-Aufzeichnungsgerätes gemäß einer
fünften
Ausführungsform
der vorliegenden Erfindung; und
-
12 ist
ein Funktions-Blockschaltbild eines Video-Aufzeichnungsgerätes gemäß einer sechsten
Ausführungsform
der vorliegenden Erfindung.
-
Beste Weise der Ausführung der
Erfindung
-
Ausführungsformen
der vorliegenden Erfindung werden im folgenden unter Bezugnahme
auf die beiliegenden Zeichnungen beschrieben.
-
(Erste Ausführungsform)
-
2 ist
ein Funktions-Blockschaltbild eines Szenen-Wiederauffindungssystems
gemäß einer ersten
Ausführungsform
der vorliegenden Erfindung. Das Szenen-Wiederauffindungssystem dieser Ausführungsform
hat einen Wiederauffindungsdaten-Erzeugungsabschnitt 100,
der einen Videowiederauffindungsindex erzeugt, der beim Wiederfinden
einer gewünschten
Szene aus gespeicherten Bildern verwendet wird, und einen Wiederauffindungs-Verarbeitungsabschnitt 200,
der ein Eingabe-Wiederauffindungs-Schlüsselwort dem Videowiederauffindungsindex
zuordnet, um eine Szene wiederzufinden, die einer Suchstelle präzise entspricht.
-
Der
Wiederauffindungsdaten-Erzeugungsabschnitt 100 hat einen
Videosignal-Eingabeabschnitt 101,
der ein Videosignal empfängt,
und einen Sprachsignal-Eingabeabschnitt 102,
der ein Sprachsignal empfängt,
das das Videosignal begleitet (mit diesem synchron ist). Ein Speicherabschnitt 201,
der im Wiederauffindungs-Verarbeitungsabschnitt 200 untergebracht
ist, speichert das Videosignal und das Sprachsignal, die jeweils
vom Videosignal-Eingabeabschnitt 101 und vom Sprachsignal-Eingabeabschnitt 102 eingegeben
werden. Das Sprachsignal, das vom Sprachsignal-Eingabeabschnitt 102 eingegeben
wird, wird weiter in einen Spracheigenschaftsmuster-Extraktionsabschnitt 103 eingegeben.
Der Spracheigenschaftsmuster-Extraktionsabschnitt 103 analysiert
das Sprachsignal, um ein Spracheigenschaftsmuster zu extrahieren.
Das extrahierte Spracheigenschaftsmuster wird einem Videowiederauffindungsindex-Erzeugungsabschnitt 104 zugeführt. Der Videowiederauffindungsindex-Erzeugungsabschnitt 104 vergleicht
das extrahierte Spracheigenschaftsmuster mit einem Standardsprachmuster,
das in einem Standardsprachmuster-Speicherabschnitt 105 gespeichert
ist, und gibt eine Gruppe eines Beginns, eines Endzeitpunktes und
eines Treffers, der für
eine Ähnlichkeit
eines am besten übereinstimmenden Teilwortes
kennzeichnend ist, als Videowiederauffindungsindex aus. Der Videowiederauffindungsindex wird
im Speicherabschnitt 201 im Wiederauffindungs-Verarbeitungsabschnitt 200 gespeichert.
-
Der
Wiederauffindungs-Verarbeitungsabschnitt 200 hat einen
Speicherabschnitt 201, der Videosignale, Sprachsignale
und Videowiederauffindungsindizes speichert. Der Speicherabschnitt 201 hat
eine Phonemähnlichkeitstabelle,
die aus Videowiederauffindungsindizes ausgebildet ist. Die Phonemähnlichkeitstabelle
wird später
beschrieben. Der Steuerabschnitt 202 speichert Lesepositionen
der Videosignale und der Sprachsignale, die im Speicherabschnitt 201 gespeichert
sind. Der Schlüsselwort-Eingabeabschnitt 203 gibt
ein Wiederauffindungs-Schlüsselwort
für die
Verwendung beim Wiederfinden einer gewünschten Videoszene aus Videos ein,
die im Speicherabschnitt 201 gespeichert sind. Der Schlüsselwort-Umwandlungsabschnitt 204 wandelt
das eingegebene Schlüsselwort
in eine Zeitabfolge des Teilwortes um, das das eingegebene Schlüsselwort
bildet. Ein Schlüsselwortmuster-Zuordnungsabschnitt 205 ruft
den Videowiederauffindungsindex, der mit dem Teilwort des eingegebenen Schlüsselwortes übereinstimmt,
aus dem Speicherabschnitt 201 ab. Der Abschnitt 205 rekonstruiert
das Wiederauffindungs-Schlüsselwort
unter Verwendung des Videowiederauffindungsindex', der aus dem Speicherabschnitt 210 abgerufen
wurde, und berechnet einen Treffer für jedes der rekonstruierten
Schlüsselwörter. Auf
der Basis eines Anfangszeitpunktes eines Kopfteilwortes des rekonstruierten
Schlüsselwortes
mit einem hohen Treffer findet der Steuerabschnitt 202 eine
entsprechende Videoszene aus dem Speicherabschnitt 201 wieder.
Videosignale, die die wiedergefundene Videoszene bilden, die aus
dem Speicherabschnitt 201 ausgegeben wird, werden aus dem
Videosignal-Ausgabeabschnitt 206 ausgegeben, und die Sprachsignale,
die die Videosignale begleiten, werden aus dem Sprachsignal-Ausgabeabschnitt 207 ausgegeben.
-
Im
folgenden wird im Detail die Verarbeitung zum Erzeugen des Videowiederauffindungsindex' im Wiederauffindungsdaten-Erzeugungsabschnitt 100 beschrieben.
Der Spracheigenschaftsmuster-Extraktionsabschnitt 103 teilt
ein eingegebenes Sprachsignal aufeinanderfolgend in Analysevollbilder
von 10 msek und führt
eine Fast-Fourier-Transformation an jedem Analysevollbild aus, um
ihn in akustische Eigenschaftsdaten umzuwandeln, die für akustische Eigenschaften
in einem Frequenzband der menschlichen Stimme repräsentativ
sind.
-
Weiterhin
konvertiert der Abschnitt 103 die akustischen Eigenschaftsdaten
des Stimmfrequenzbandes in Vektordaten mit N (N ist eine willkürliche natürliche Zahl)
Komponenten, die aus akustischen Eigenschaftsgrößen bestehen. Diese Vektordaten werden
als Spracheigenschaftsmuster verwendet. Als akustische Eigenschaftsgröße, ist
es vorzuziehen, Kurzzeitspektren oder Logarithmuswerte der Spektren
im Sprachfrequenzband einer eingegebenen Sprache oder eine Logarithmusenergie
der eingegebenen Sprache in einem vorbestimmten Intervall zu verwenden.
-
Somit
wird die eingegebene Sprache alle 10 msek in das Spracheigenschaftsmuster
(Vektordaten) umgewandelt und das umgewandelte Spracheigenschaftsmuster
sequentiell an den Videowiederauffindungsindex-Erzeugungsabschnitt 104 ausgegeben.
Darüber
hinaus ist eine Vollbildlänge
des Analyserahmens nicht auf 10 msek beschränkt.
-
Der
Standardspracheigenschaftsmuster-Speicherabschnitt 105 speichert
Teilwörter
(#V, #CV, #CjV, CV, CjV, VC, QC, VQ, W und V#, wobei C ein Konsonant,
V ein Vokal, j ein den Palatallaut bildender Konsonant, Q ein Doppelkonsonant
und # stumm ist) im voraus als Standardsprachmuster. Sprachen, die
aus mehreren Lautsprechern gesammelt werden, werden im voraus analysiert,
um Spracheigenschaftsmuster auf Teilwortbasis zu extrahieren. Die
extrahierten Spracheigenschaftsmuster werden einer statistischen
Verarbeitung unterzogen und anschließend als Standardsprachmuster
registriert. Insbesondere speichert der Standardspracheigenschaftsmuster-Speicherabschnitt 105 eine
Tabelle, die jedes Teilwort auf ein Standardsprachmuster desselben
(extrahiertes Sprachstandardmuster) bezieht. 3 zeigt
spezielle Beispiele der Standardsprachmuster. Etwa 500 Standardsprachmuster
sind in dieser Zeichnung vorbereitet. Jedoch ist die Zahl der Standardsprachmuster,
die im Standardspracheigenschaftsmuster-Speicherabschnitt 105 gespeichert werden
sollen, nicht auf 500 beschränkt,
und sie kann in geeigneter Weise in einer Beziehung zwischen einer
Berechnungsgröße und einer
Wiederauffindungsgenauigkeit festgelegt werden.
-
Der
Videowiederauffindungsindex-Erzeugungsabschnitt 104 ruft
ein erstes Standardsprachmuster aus dem Standardspracheigenschaftsmuster-Speicherabschnitt 105 ab
und ermittelt eine Ähnlichkeit
zwischen dem ersten Standardsprachmuster und einem Spracheigenschaftsmuster
einer eingegebenen Sprache unter Verwendung einer Spracherkennungsverarbeitung.
Als Spracherkennungsverarbeitung ist es vorzuziehen, Spracherkennungsverfahren,
wie etwa das DP-Zuordnungsverfahren und HMM zu verwenden. Der Abschnitt 104 erfaßt als Teilwortintervall
ein Intervall, das für
die größte Ähnlichkeit
im Bezug auf das erste Standardsprachmuster kennzeichnend ist, und
ermittelt einen Anfangszeitpunkt, einen Endzeitpunkt sowie einen
Treffer als Ähnlichkeit
des erfaßten
Teilwortinter valls. Im Bezug auf das auf diese Weise erfaßte Teilwortintervall,
das dem ersten Standardsprachmuster entspricht, wird die Gruppe
der Anfangszeit, der Endzeit und des Treffers als ein einzelner
Videowiederauffindungsindex ausgegeben. Mit anderen Worten besteht
der einzelne Videowiederauffindungsindex aus einem Phonemkennzeichen,
einem Anfangszeitpunkt, einem Endzeitpunkt und einem Treffer.
-
Nach
dem Erhalt des Videowiederauffindungsindex entsprechend dem ersten
Standardsprachmuster, wird ein zweites Standardsprachmuster vom
Standardspracheigenschaftsmuster-Speicherabschnitt 105 abgerufen.
Anschließend
vergleicht der Abschnitt 104 das Spracheigenschaftsmuster
desselben Sprachintervalls, wie es oben beschrieben wurde, mit dem
zweiten Standardsprachmuster, erfaßt ein Teilwortintervall im
Bezug auf das zweite Standardsprachmuster in derselben Weise, wie
es oben beschrieben wurde, und gibt die Gruppe des Anfangszeitpunkts,
des Endzeitpunkts und des Treffers des erfaßten Teilwortintervalls als
Videowiederauffindungsindex aus. Anschließend erfaßt in derselben Art und Weise,
wie es oben beschrieben wurde, der Abschnitt 104 entsprechende Ähnlichkeiten zwischen
dem Spracheigenschaftsmuster desselben Sprachintervalls und jedem
der anderen übrigen Standardsprachmuster,
während
er zwischen den Standardsprachmustern umschaltet, und erzeugt Videowiederauffindungsindizes,
die jeweils aus der Gruppe des Anfangszeitpunktes, des Endzeitpunktes und
des Treffers bestehen, für
sämtliche
Standardsprachmuster.
-
Nach
dem Erzeugen der Videowiederauffindungsindizes für sämtliche Standardsprachmuster
in einem Sprachintervall der eingegebenen Stimme verschiebt der
Videowiederauffindungsindex-Erzeugungsabschnitt 104 ein
zu verarbeitendes Sprachintervall zu einem nächsten Sprachintervall, das
an das verarbeitete Sprachintervall grenzt, um dieselbe Verarbeitung
auszuführen.
Anschließend
erzeugt in derselben Weise, wie es oben beschrieben wurde, der Abschnitt 104 Wiederauffindungsindizes
für sämtliche
Intervalle der eingegebenen Sprache, um die Verarbeitung abzuschließen, während er
das zu verarbeitende Sprachintervall verschiebt.
-
Im
folgenden wird im Detail die Verarbeitung zum Wiederauffinden einer
Videoszene unter Verwendung eines Schlüsselwortes im Wiederauffindungsabschnitt 200 beschrieben.
-
4 zeigt
einen Teil eines Gitteraufbaus von Videowiederauffindungsindizes.
Ein Ende jedes Sprachintervalls von 10 msek, geteilt aus der eingegebenen
Sprache, wird als Ende jedes der Videowiederauffindungsindizes eingestellt,
die im Sprachintervall erzeugt werden, und die Videowiederauffindungsindizes
im selben Sprachintervall werden in der Reihenfolge der Erzeugung
angeordnet, wodurch die Videowiederauffindungsindizes in Gestalt
von Verbänden über eine
gesamte Eingabestimme angeordnet werden. Der auf diese Weise erzeugte
Verbandaufbau der Sprachwiederauffindungsindizes wird als Phonemähnlichkeitstabelle
bezeichnet. In der Phonemähnlichkeitstabelle
repräsentiert
jeder Videowiederauffindungsindex eine Treffergruppe und eine Länge entsprechend
dem Startzeitpunkt derselben. 4 zeigt
ein paar Arten von Teilwörtern "A", "KA", "SA", "TA" und "NA" als repräsentative
Beispiele aus der Phonemähnlichkeitstabelle
der Videowiederauffindungsindizes.
-
Es
wird davon ausgegangen, daß der Schlüsselwort-Eingabeabschnitt 203 "SORA" als Wiederauffindungs-Schlüsselwort
empfängt.
Der Schlüsselwort-Umwandlungsabschnitt 204 wandelt "SORA" des Wiederauffindungs-Schlüsselwortes
in eine Abfolge von Teilwörtern
um. "SORA" wird zu "SO, OR und RA" umgewandelt.
-
Der
Schlüsselwortmuster-Zuordnungsabschnitt 205 nimmt
Teilwörter,
die das Wiederauffindungs-Schlüsselwort
bilden, aus der Phonemähnlichkeitstabelle
auf. Mit anderen Worten nimmt der Abschnitt 205 jedesmal
lediglich Teilwörter "SO", "OR" und "RA", die das Wiederauffindungs-Schlüsselwort
bilden, aus den Verbänden
auf. 5 stellt aufgenommene Verbände dar, die jeweils aus einem der
Teilwörter "SO", "OR" und "RA" des Wiederauffindungs-Schlüsselwort
bestehen.
-
Der
Schlüsselwort-Zuordnungsabschnitt 205 verbindet
die Teilwörter "SO", "OR" und "RA" auf einer Vielzahl
aufgenommener Verbände
in der Reihenfolge der Abfolge von Teilwörtern, die vom Wiederauffindungs-Schlüsselwort
umgewandelt wurden, wobei kein Zwischenraum zwischen den Teilwörtern eingefügt ist.
Der Abschnitt 205 ruft jeweils ein abschließendes Teilwort "RA" eines Verbandes
ab, das zu einem Zeitpunkt endet, ruft ein Teilwort "OR" vor dem abschließenden Teilwort
auf einem weiteren Verband ab, der zum Anfangszeitpunkt von "RA" endet, ruft weiterhin
ein Teilwort "SO" vor "OR" auf dem anderen
Verband ab, der zum Anfangszeitpunkt von "OR" endet,
und verbindet "SO", "OR" und "RA" unter Verwendung
des Endes des abschließenden
Teilwortes "RA" als Referenz.
-
Unter
Bezugnahme auf ein Schlüsselwort, das
auf diese Weise durch Verbinden von "SO", "OR" und "RA" wiederhergestellt
wurde, berechnet der Schlüsselwortmuster-Zuordnungsabschnitt 205 einen
Treffer des wiederhergestellten Schlüsselwortes. Insbesondere addiert
der Abschnitt 205 Treffer, die den Teilwörtern "SO", "OR" und "RA" zugewiesen sind,
die das wiederhergestellte Schlüsselwort
bilden. Dieser Additionswert ist der Treffer des wiederhergestellten
Schlüsselwortes.
In derselben Weise, wie es oben beschrieben wurde, erzeugt der Abschnitt 205 nacheinander
wiederhergestellte Schlüsselwörter zu
allen Zeitpunkten, wobei der Endzeitpunkt des Teilwortes "RA" verschoben wird,
und berechnet den Treffer jedes wiederhergestellten Schlüsselwortes. 6 zeigt
die wiederhergestellten Schlüsselwörter, die
man durch Verschieben des Endzeitpunktes des Teilwortes "RA" erhält.
-
Der
Schlüsselwortmuster-Zuordnungsabschnitt 205 führt einen
Kompressions-/Dekompressionsvorgang
an jedem gebildeten Schlüsselwort
(Abfolge des Teilwortes) beispielsweise unter Verwendung des DP-Zuordnungsverfahrens
unter Berücksichtigung
der Expansions- und Kontraktionseigenschaften einer Stimme aus.
Anschließend
berechnet der Abschnitt 205 Treffer sämtlicher wiederhergestellter
Schlüsselwörter und
gibt diese Treffer der wiederhergestellten Schlüsselwörter an den Steuerabschnitt 202 aus.
-
Der
Steuerabschnitt 202 berechnet einen Zeitcode eines Videosignals
entsprechend dem Anfangszeitpunkt eines Kopfteilwortes des wiederhergestellten
Schlüsselwortes
mit einem hohen Treffer und führt
eine Steuerung aus, um die entsprechenden Teile der Video- und Sprachsignale
wiederzugeben, die im Speicherabschnitt 201 gespeichert
sind. Infolge dessen werden die wiedergegebenen Video- und Sprachsignale
jeweils vom Videosignal-Ausgabeabschnitt 206 und vom Sprachsignal-Ausgabeabschnitt 207 ausgegeben.
-
Somit
wird eine Sequenz eines Teilwortes, das einem Treffer zugewiesen
ist, aus einem Sprachsignal, das ein wiederzufindendes Videosignal
begleitet, erzeugt, und die Daten als Videowiederauffindungsindex
im Speicherabschnitt 201 gespeichert, während beim Wiederauffinden
ein Schlüsselwort
in Teilwörter
umgewandelt wird, um den Videowiederauffindungsindizes zugeordnet
zu werden. Somit ist es möglich,
einen Speicherabschnitt mit einem Wörterbuch und/oder gespeicherten
Wiederauffindungs-Schlüsselwörtern im
voraus zu löschen,
wobei es einen weiteren Vorteil gibt, daß kein Nicht-im-Vokabular-Wort-Problem
entsteht.
-
Da
weiterhin die Zuordnung mit Schlüsselwörtern, die
im voraus gespeichert wurden, nicht durchgeführt wird, ist es möglich, die
zuverlässigste Videoszene
selbst in dem Fall wiederzufinden, bei dem ein Benutzer ein unbestimmtes
Schlüsselwort eingibt,
und somit eine ausgezeichnete Wirkung zu erzielen.
-
(Zweite Ausführungsform)
-
Ein
Szenenwiederauffindungssystem gemäß der zweiten Ausführungsform
der vorliegenden Erfindung sendet einen Videowiederauffindungsindex,
der in einer Wiederauffindungsdaten-Erzeugungsvorrichtung erzeugt
wird, zu einer Wiederauffindungsvorrichtung über ein Sendemedium.
-
7 zeigt
eine Konfiguration des Szenenwiederauffindungssystems gemäß der zweiten
Ausführungsform.
In der Zeichnung werden dieselben Bezugszeichen für Abschnitte
mit denselben Funktionen wie bei der ersten Ausführungsform verwendet, wie sie
oben beschrieben sind. Das Szenenwiederauffindungssystem besteht
aus einer Wiederauffindungsdaten-Erzeugungsvorrichtung 120,
die Videowiederauffindungsindizes, die von einem Sprachsignal erzeugt
werden, das ein Videosignal begleitet, in einem Datenstrom multiplexiert,
eine Wiederauffindungsvorrichtung 220, die ein Teilwort
eines Wiederauffindungs-Schlüsselwortes
den Videowiederauffindungsindizes zuordnet, um eine gewünschte Videoszene
wiederaufzufinden, und ein Sendemedium 230 zum Senden des
Datenstromes mit den Videowiederauffindungsindizes, die in der Wiederauffindungsdaten-Erzeugungsvorrichtung 120 erzeugt
werden, zu Wiederauffindungsvorrichtung 220. Das Sendemedium 230 kann
beispielsweise Rundfunknetzwerke, Kommunikationsnetzwerke und Aufzeichnungsmedien
beinhalten. Die Rundfunknetzwerke beinhalten terrestrische Rundfunknetzwerke
und Kabelrundfunknetzwerke, und die Kommunikationsnetzwerke beinhalten
das Internet. Die Rundfunknetzwerke enthalten zudem Hochfrequenz-Rundfunknetzwerke beim
Wiederauffinden einer Sprachszene.
-
Die
Wiederauffindungsdaten-Erzeugungsvorrichtung 120 ist mit
einem Videosignal-Eingangsabschnitt 101,
einem Sprachsignal-Eingangsabschnitt 102, einem Spracheigenschaftsmuster-Extraktionsabschnitt 103,
einem Videowiederauffin dungsindex-Erzeugungsabschnitt 104 und
einem Standardsprachmuster-Speicherabschnitt 105 ausgestattet.
Die Wiederauffindungsdaten-Erzeugungsvorrichtung 120 hat
weiterhin einen Multiplexabschnitt 121, der Videowiederauffindungsindizes,
die im Videowiederauffindungsindex-Erzeugungsabschnitt 104 erzeugt
werden, Videosignale und Sprachsignale multiplexiert. Wenngleich
es vorzuziehen ist, daß der
Multiplexabschnitt 121 Videowiederauffindungsindizes, Videosignale
und Sprachsignale in einem MPEG-Strom multiplexiert, kann es möglich sein,
in anderen Datenströmen
zu multiplexieren.
-
Die
Wiederauffindungsvorrichtung 220 ist mit einem Speicherabschnitt 201,
einem Steuerabschnitt 202, einem Schlüsselwort-Eingabeabschnitt 203,
einem Schlüsselwort-Umwandlungsabschnitt 204,
einem Schlüsselwortmuster-Zuordnungsabschnitt 205, einem
Videosignal-Ausgabeabschnitt 206 und einem Sprachsignal-Ausgabeabschnitt 207 ausgestattet. Die
Wiederauffindungsvorrichtung 200 verfügt weiterhin über einen
Demultiplexierabschnitt 221, der die Videowiederauffindungsindizes,
die Videosignale und die Sprachsignale aus dem Datenstrom demultiplexiert,
in dem die Videowiederauffindungsindizes, die Videosignale und die
Sprachsignale multiplexiert sind.
-
Der
Videowiederauffindungsindex-Erzeugungsabschnitt 104, der
im Wiederauffindungsdaten-Erzeugungsabschnitt 120 enthalten
ist, erzeugt die Videowiederauffindungsindizes aus einem Eingangssignal
in derselben Weise wie bei der ersten Ausführungsform, die oben beschrieben
wurde. Die erzeugten Videowiederauffindungsindizes werden an den
Multiplexabschnitt 121 ausgegeben. Darüber hinaus wird das Videosignal,
das im Videosignal-Eingangsabschnitt 101 empfangen wird,
und das Sprachsignal, das im Sprachsignal-Eingangsabschnitt 102 empfangen
wird, an den Multiplexabschnitt 121 ausgegeben.
-
Der
Multiplexabschnitt 121 konvertiert die Videosignale, die
Sprachsignale und die Videowiederauffindungsindizes jeweils in mehrere
Videoströme (Videostrom
(1) zu Videostrom (n)), Sprachströme (Sprachstrom (1)
zum Sprachstrom (n)) und private Ströme, um Benutzerdaten zu speichern
(diese Ströme
werden beim Senden der Videowiederauffindungsindizes verwendet und
werden als Wiederauffindungs-Datenströme bezeichnet:
Wiederauffindungs-Datenstrom (1) bis Wiederauffindungs-Datenstrom
(n)).
-
8(1) zeigt einen Vollbildaufbau des MPEG-Stroms,
in dem die Videowiede rauffindungsindizes, die Videosignale und die
Sprachsignale multiplexiert sind. Der Datenstromheader 101 muß zum Header
des MPEG-Stroms hinzugefügt
werden, um den Strom zu identifizieren. 8(2) stellt
einen Aufbau des Videostroms dar. Der Videostrom besteht aus mehreren
GOP (Group of Videos: GOP(1) bis GOP(n)). 8(3) zeigt
den Aufbau der GOP. Die GOP besteht aus einer Abfolge von Gruppen
eines zwischenvollbild-codierten I-Videos (I(1)), P-Videos (P(2)
bis P(m)), codiert durch Bewegungskompensations-Vorhersage im Bezug
auf das I-Video oder das P-Video, wobei ein I-Video zeitlich davor
und danach angeordnet ist, sowie B-Videos (B(-1) bis B(m-1)), die durch
die Bewegungskompensations-Vorhersage aus beiden Videos unter Bezugnahme
auf P-Videos codiert werden. 8(4) zeigt
einen Aufbau des Datenwiederauffindungsstromes. Die Videowiederauffindungsindizes
(Videowiederauffindungsindex (1) bis Videowiederauffindungsindex
(n)) sind als Einheiten entsprechend einer Abfolge der Videovollbilder angeordnet.
-
Der
MPEG-Strom, der im Multiplexabschnitt 121 multiplexiert
wird, wird zur Wiederauffindungsvorrichtung 220 durch das
Sendemedium 230 gesendet, um im Speicherabschnitt 201 gespeichert
zu werden. In der Wiederauffindungsvorrichtung 220 demultiplexiert
der Demultiplexierabschnitt 221 die Wiederauffindungsindizes
aus dem multiplexierten MPEG-Strom, um sie dem Schlüsselwortmuster-Zuordnungsabschnitt 205 zuzuführen. Ein
Schlüsselwort
wird dem Videowiederauffindungsindizes zugeordnet und wiederhergestellte
Schlüsselwörter in derselben
Weise erzeugt wie bei der ersten Ausführungsform. Der Steuerabschnitt 202 greift
auf die GOP entsprechend dem Startzeitpunkt des wiederhergestellten
Schlüsselwortes
mit einem hohen Treffer zu, um eine Videoszene wiederaufzufinden.
Darüber
hinaus kann es möglich
sein, die Videosignale und die Sprachsignale zusammen mit den Videowiederauffindungsindizes
zu demultiplexieren, wenn die Indizes aus dem MPEG-Strom demultiplexiert
werden, um sie im Speicherabschnitt 201 zu speichern.
-
Da
die Videowiederauffindungsindizes auf Teilwortbasis der Eingabesprache
im Datenstrom zusammen mit den Videosignalen und den Sprachsignalen
multiplexiert werden, ist es somit möglich, die Videowiederauffindungsindizes
einem Benutzer zusammen mit den Videos unter Verwendung der Rundfunknetzwerke
und der Kommunikationsnetzwerke zur Verfügung zu stellen.
-
Darüber hinaus
ist die GOP eine Einheiten-Videowiedergabe in MPEG. Wenn der Einheiten-Wiederauffindungsindex
in Übereinstimmung
mit der GOP gebracht wird, ist es somit möglich, die Wiedergabe einer
gewünschten
Videoszene auf einfache Weise zu beginnen, indem auf die GOP entsprechend
dem Wiederauffindungsindex zugegriffen wird, der einem eingegebenen
Schlüsselwort
zum Zeitpunkt der Wiederauffindungsverarbeitung entspricht.
-
(Dritte Ausführungsform)
-
Die
dritte Ausführungsform
beschreibt ein Szenenwiederauffindungssystem, bei dem, wenn ein Wiederauffindungs-Schlüsselwort
von einem Benutzerendgerät
eingegeben wird, ein Serversystem, das mit dem Benutzerendgerät durch
Kommunikationsnetzwerke verbunden ist, eine entsprechende Szene bereitstellt.
-
9 zeigt
einen Systemaufbau des Szenenwiederauffindungssystems gemäß der dritten Ausführungsform.
In 9 werden dieselben Bezugszeichen für Abschnitte
mit denselben Funktionen wie bei der ersten und zweiten Ausführungsform verwendet,
wie sie oben beschrieben wurden. Das Serversystem besteht aus einem
Wiederauffindungsdaten-Erzeugungsabschnitt 100 und einem
Wiederauffindungs-Verarbeitungsabschnitt 240 und
findet eine Videoszene wieder, die ein Benutzer zum Benutzerendgerät senden
möchte.
-
Der
Wiederauffindungsdaten-Erzeugungsabschnitt 100 besteht
aus einem Videosignal-Eingabeabschnitt 101, einem Sprachsignal-Eingabeabschnitt 102,
einem Spracheigenschaftsmuster-Extraktionsabschnitt 103 und
einem Videowiederauffindungsindex-Erzeugungsabschnitt 104.
-
Der
Wiederauffindungs-Verarbeitungsabschnitt 240 ist mit einem
Speicherabschnitt 201, einem Steuerabschnitt 202 und
einem Schlüsselwortmuster-Zuordnungsabschnitt 205 ausgestattet.
Weiterhin hat der Wiederauffindungs-Verarbeitungsabschnitt 240 einen
Schlüsselwort-Empfangsabschnitt 231,
der Daten eines Wiederauffindungs-Schlüsselwortes empfängt, das
vom Benutzerendgerät 300 über das
Sendemedium 230 gesendet wird, und einen Multiplexabschnitt 232,
der ein Videosignal und ein Sprachsignal einer wiedergefundenen
Szene in einem Datenstrom multiplexiert, um ihn zu einem Benutzerendgerät 300 über das
Sendemedium 230 zu senden.
-
Das
Benutzerendgerät 300 ist
mit einem Schlüsselwort-Eingabeabschnitt 203,
einem Schlüsselwort-Umwandlungsabschnitt 204,
einem Videosignal-Ausgabe abschnitt 207, der das Videosignal
der wiedergefundenen Szene ausgibt, und einem Sprachsignal-Ausgabeabschnitt 206 ausgestattet, der
das Sprachsignal der wiedergefundenen Szene ausgibt. Das Benutzerendgerät 300 hat
weiterhin einen Schlüsselwort-Sendeabschnitt 301,
der Teilwörter
des Wiederauffindungs-Schlüsselwortes,
das im Schlüsselwort-Umwandlungsabschnitt 204 umgewandelt
wurde, zum Wiederauffindungs-Verarbeitungsabschnitt 240 über das
Sendemedium 230 sendet, und einen Demultiplexierabschnitt 302,
der das Videosignal und das Sprachsignal aus den Datenströmen demultiplexiert,
die vom Wiederauffindungs-Verarbeitungsabschnitt 240 über das
Sendemedium 230 empfangen werden.
-
In
das Szenenwiederauffindungssystem, das in der oben beschriebenen
Weise aufgebaut ist, gibt das Benutzerendgerät 300 das Wiederauffindungs-Schlüsselwort
ein. Im Benutzerendgerät 300 wandelt
der Schlüsselwort-Umwandlungsabschnitt 204 das
Eingabe-Schlüsselwort
in Teilwörter
des eingegebenen Schlüsselwortes
um. Anschließend
sendet der Schlüsselwort-Sendeabschnitt 301 die
Teilwörter
des eingegebenen Schlüsselwortes über das Sendemedium 230.
Kommunikationsnetzwerke, wie etwa das Internet, werden als Sendemedium 230 in dieser
Ausführungsform
bevorzugt.
-
Der
Speicherabschnitt 201 im Wiederauffindungs-Verarbeitungsabschnitt 240 speichert
in derselben Art und Weise wie bei der ersten Ausführungsform,
die zuvor beschrieben wurde, Videosignale, Sprachsignale und Videowiederauffindungsindizes
in einer Verbandstruktur. Der Schlüsselwort-Empfangsabschnitt 231 führt empfangene Schlüsselwortdaten
dem Schlüsselwortmuster-Zuordnungsabschnitt 205 zu.
Der Schlüsselwortmuster-Zuordnungsabschnitt 205 nimmt,
wie es oben beschrieben wurde, Videowiederauffindungsindizes jeweils
mit einem Phonemkennzeichen, das mit einem der Teilwörter des
Schlüsselwortes
in der Verbandstruktur der Videowiederauffindungsindizes übereinstimmt,
auf und erzeugt jedesmal ein wiederhergestelltes Schlüsselwort.
Anschließend
findet der Steuerabschnitt 202 entsprechende Videosignale
und Sprachsignale auf der Basis eines Anfangszeitpunktes des wiederhergestellten
Schlüsselwortes
mit einem hohen Treffer. Die Videosignale und die Sprachsignale
der auf diese Weise empfangenen Szene werden im Datenstrom im Multiplexabschnitt 232 multiplexiert
und zum Benutzerendgerät 300 über das
Sendemedium 230 gesendet.
-
Im
Benutzerendgerät 300 demultiplexiert
der Demultiplexierabschnitt 302 die Videosignale und die Sprachsignale
aus dem gesendeten Datenstrom entspre chend dem Wiederauffindungs-Schlüsselwort. Die
demultiplexierten Videosignale und Sprachsignale werden vom Videosignal-Ausgabeabschnitt 206 bzw.
vom Sprachsignal-Ausgabeabschnitt 207 ausgegeben.
-
Somit
ermöglicht
die Verbindung des Benutzerendgerätes 300 mit dem Serversystem
(Wiederauffindungsdaten-Erzeugungsabschnitt 100 und Wiederauffindungs-Verarbeitungsabschnitt 240) über das
Kommunikationsnetzwerk 230, daß ein Benutzerendgerät 300,
das über
keine Funktionen zum Erzeugen und Empfangen der Videowiederauffindungsindizes
verfügt,
eine gewünschte
Szene wiederfindet.
-
Wenngleich
bei der zuvor erwähnten
dritten Ausführungsform
das Benutzerendgerät 300 mit
einem Schlüsselwort-Umwandlungsabschnitt 204 ausgestattet
ist, besteht darüber
hinaus die Möglichkeit, den
Wiederauffindungs-Verarbeitungsabschnitt 240 mit einem
Schlüsselwort-Umwandlungsabschnitt 204 auszustatten.
Gemäß diesem
Aufbau ist es möglich, die
oben erwähnte
Wiederauffindung auszuführen, ohne
neue Software im vorhandenen Benutzerendgerät zu installieren.
-
(Vierte Ausführungsform)
-
Die
vierte Ausführungsform
beschreibt ein Beispiel, bei dem das Szenenwiederauffindungssystem
der vorliegenden Erfindung in einem Videoaufzeichnungsgerät eingesetzt
wird. Das Videoaufzeichnungsgerät
gemäß dieser
Ausführungsform
erfaßt eine
menschliche Stimme aus Sprachsignalen, die man bei einer Videoaufzeichnung
erhält,
und extrahiert Akustikeigenschaftsdaten, die man aus der Stimme
erhält,
als Spracheigenschaftsmusterdaten. Weiterhin formt das Gerät die Spracheigenschaftsmusterdaten
zu einer Indexstruktur mit hinzugefügter Zeitinformation um, um
sie auf einem Aufzeichnungsmedium zusammen mit einem Videosignal
und einem Sprachsignal aufzuzeichnen.
-
10 stellt
den Aufbau des Videoaufzeichnungsgerätes gemäß dieser Ausführungsform
dar. Ein Steuersignal-Eingangsabschnitt 1 empfängt Signale,
wie etwa ein Videoaufzeichnungs-Anweisungssteuersignal, daß von außen eingegeben
wird. Der Videoaufzeichnungs-Steuerabschnitt 2 gibt ein
Aufzeichnungsstart-Anweisungssignal
und ein Stoppanweisungssignal an jeden Block, aus dem das Gerät besteht,
entsprechend der Arten der empfangenen Steuersignale aus.
-
In
der Zwischenzeit wandelt der Sprachsignal-Eingabeabschnitt 3 analoge
Sprachsignale, die eingegeben wurden, nachdem die Videoaufzeichnung
begonnen wurde, in digitale Sprachsignale um, und der Sprachsignal-Codierabschnitt 4 führt eine Kompression,
wie etwa das MPEG-Verfahren, an den digitalen Sprachsignalen aus.
Der Videosignal-Eingabeabschnitt 5 wandelt analoge Videosignale,
die nach dem Beginn der Videoaufzeichnung eingegeben wurden, in
digitale Videosignale um, und der Videosignal-Codierabschnitt 6 führt eine
Kompression, wie etwa das MPEG-Verfahren, an den digitalen Videosignalen
aus.
-
Der
Sprachsignal-Eingabeabschnitt 3 gibt die digitalen Sprachsignale
an den Spracheigenschaftsmuster-Extraktionsabschnitt 10 aus.
Der Spracheigenschaftsmuster-Extraktionsabschnitt 10 erfaßt die Akustikeigenschaftsdaten
der menschlichen Sprache aus den eingegebenen digitalen Sprachsignalen,
um die Spracheigenschaftsmusterdaten zu erhalten. Der Videowiederauffindungsindex-Erzeugungsabschnitt 11 faßt die Spracheigenschaftsmusterdaten,
die vom Spracheigenschaftsmuster-Extraktionsabschnitt 10 zugeführt werden,
zu Paketen in Zeitintervallen zusammen, die mit den Videosignalen
synchron sind, um sie in die Videowiederauffindungsindexstruktur
umzuformen, der Zeitinformationen hinzugefügt sind.
-
Der
Komplexdatenspeicher-Verarbeitungsabschnitt 7, der vom
Videoaufzeichnungs-Steuerabschnitt 2 angewiesen
wird, multiplexiert die komprimierten Videosignale und Sprachsignale
sowie die Videowiederauffindungsindizes für eine Speicherung auf einem
Speichermedium 9, wie etwa einer DVD, in einem Aufzeichnungsformat.
Das Videospeichermedium 9 besteht beispielsweise aus einer
optischen Platte, einer HDD (Magnetplatte), einer Speicherkarte
oder einem Magnetband. Der Speichermedium-Betriebssteuerabschnitt 8 führt eine
physikalische Steuerung, wie etwa die Suche nach einer Aufzeichnungsstelle,
auf dem Videospeichermedium 9 durch eine Steueranweisung
vom Komplexdatenspeicher-Verarbeitungsabschnitt 7 aus.
Das Videoaufzeichnungsgerät,
das in der oben beschriebenen Art und Weise aufgebaut ist, kann
beispielsweise aus einer in einem Mikrocomputer enthaltenen Vorrichtung
oder dedizierten LSI-Schaltungen bestehen. Bei diesem Videoaufzeichnungsgerät besteht
ein Spracheigenschaftsmuster-Extraktionsschritt aus einem Spracheigenschaftsmuster-Extraktionsabschnitt 10, und
ein Indexinformations-Speicherschritt besteht aus einem Videowiederauffindungsindex-Erzeugungsabschnitt 11 sowie
einem Komplexdatenspeicher-Verarbeitungsschritt 7.
-
Im
folgenden wird der Betrieb dieser Vorrichtung erläutert.
-
Wenn
der Steuersignal-Eingabeabschnitt 1 ein Steuersignal, das
eine Videoaufzeichnung anweist, von einer externen Vorrichtung,
wie etwa einer Fernsteuereinrichtung oder einer Tastatur empfängt, wandelt
der Abschnitt 1 das Steuersignal in ein Signal eines Formates
um, das auf die Vorrichtung abgestimmt ist, und gibt das Videoaufzeichnungs-Anweisungssignal
an den Videoaufzeichnungs-Steuerabschnitt 2 aus. Der Videoaufzeichnungs-Steuerabschnitt 2 empfängt das
Videoaufzeichnungs-Anweisungssignal und weist jeden Abschnitt, der
Bestandteil der Vorrichtung ist, die Videoaufzeichnung zu beginnen,
um einen Vorrichtungszustand in einen Videoaufzeichnungszustand
zu verschieben.
-
Der
Sprachsignal-Eingabeabschnitt 3 empfängt die Anweisung zum Beginn
einer Videoaufzeichnung, führt
die A/D-Umwandlung an Sprachsignalen, die von einer externen Vorrichtung,
wie etwa einer Fernsehsignal-Abstimmvorrichtung, einem Mikrofon
oder einem Videokassettenrekorder eingegeben werden, für eine Quantisierung
aus, und gibt nacheinander die Sprachsignale an den Sprachsignal-Codierabschnitt 4 und
den Spracheigenschaftsmuster-Extraktionsabschnitt 10 aus.
Der Sprachsignal-Codierabschnitt 4 führt eine Sprachsignalband-Kompression,
wie etwa das MPEG-Verfahren an den zugeführten Sprachsignalen aus, um
sie nacheinander an den Komplexdatenspeicher-Verarbeitungsabschnitt 7 auszugeben.
-
Der
Spracheigenschaftsmuster-Extraktionsabschnitt 10 empfängt die
Sprachsignale, die vom Sprachsignal-Eingabeabschnitt 3 empfangen
werden, führt
eine FFT (Fast-Fourier-Transformation) an den Sprachsignalen pro
Zeiteinheit aus, extrahiert die Akustikeigenschaftsdaten im Frequenzband
der menschlichen Stimme und erzeugt die Spracheigenschaftsmusterdaten,
d.h. Vektordaten mit N (N ist eine willkürliche natürliche Zahl) Bestandteilen,
die aus akustischen Eigenschaftsgrößen bestehen, die allgemein
beim Spracherkennungsvorgang verwendet werden, wie etwa Kurzzeitspektraldaten
oder einen Logarithmuswert von Spektren im extrahierten Frequenzband,
und logarithmische Energie der Sprachsignale pro Zeiteinheit.
-
Der
Spracheigenschaftsmuster-Extraktionsabschnitt 10 gibt nacheinander
die extrahierten und erzeugten Spracheigenschaftsmusterdaten an
den Videowiederauffindungsindex-Erzeugungsabschnitt 11 aus.
Der Videowiederauffindungsindex-Erzeugungsabschnitt 11 sammelt
Gegenstände
der Spracheigenschaftsmu sterdaten, die nacheinander pro Zeiteinheit
eingegeben wurden, wodurch eine Synchronisation zwischen den Videosignalen
und den Sprachsignalen ermöglicht
wird, wobei die Zeitabfolge beibehalten wird, um Pakete zu bilden,
und fügt Zeitinformationen
sowie ein Kennzeichen, das die Spracheigenschaftsmusterdaten kennzeichnet,
zu jedem Paket hinzu. Dadurch wird eine Indexstruktur erzeugt, die
einen Zugriff auf die Videosignale oder die Sprachsignale ermöglicht,
indem auf die Zeitinformation unter Verwendung einer Position der
Spracheigenschaftsmusterdaten Bezug genommen wird. Der Abschnitt 11 gibt
die erzeugten Indexstrukturpakete nacheinander an den Komplexdatenspeicher-Verarbeitungsabschnitt 7 aus.
-
In
der Zwischenzeit empfängt
der Videosignal-Eingangsabschnitt 5 ebenfalls die Anweisungen zum
Beginn der Videoaufzeichnung, führt
die A/D-Umwandlung an Videosignalen aus, die von einer externen
Vorrichtung, wie etwa der Fernsehsignal-Abstimmvorrichtung, einer Kamera, oder
einem Videokassettenrekorder eingegeben wurden, um eine Quantisierung
durchzuführen,
und führt
die Videosignale als vorbestimmte Videosignale dem Videosignal-Codierabschnitt 6 zu.
Der Videosignal-Kodierabschnitt 6 führt eine
Videosignalbandkompression, wie etwa das MPEG-Verfahren an den zugeführten digitalen
Videosignalen aus, um sie nacheinander dem Komplexdatenspeicher-Verarbeitungsabschnitt 7 zuzuführen.
-
Der
Komplexdatenspeicher-Verarbeitungsspeicher 7 empfängt die
Anweisung zum Beginn der Videoaufzeichnung, gibt das Steuersignal
an den Speichermedium-Betriebssteuerabschnitt 8 aus,
bevor er mit dem Aufzeichnen der Daten beginnt, und hält eine
Datenaufzeichnungs-Startposition im Speichermedium 9. Der
Komplexdatenspeicher-Verarbeitungsabschnitt 7 empfängt die
Videosignale und die Sprachsignale, die jeweils der Signalbandkompression
unterzogen wurden, und die Indexstrukturpakete, die im Videowiederauffindungsindex-Erzeugungsabschnitt 11 erzeugt
wurden, multiplexiert die Videosignale, die Sprachsignale und die
Indexstrukturpakete in einem vorbestimmten Format, wie etwa MPEG, gibt
das Steuersignal an den Aufzeichnungsspeicher-Betriebssteuerabschnitt 8 aus
und zeichnet die multiplexierten Daten an einer vorbestimmten Position
auf dem Videospeichermedium 9 gemäß dem Aufzeichnungsformat,
wie etwa der DVD auf.
-
Die
Abfolge der Vorgänge,
wie sie oben beschrieben wurde, wird vom Zeitpunkt, ab dem Videoaufzeichnung
begonnen wurde, wiederholt, bis der Videoaufzeichnungs-Steuerabschnitt 2 den
Ablauf der Videoaufzeichnungszeit erfaßt, die Video signaleingabe
von außen
beendet wurde, ein Videoaufzeichnungs-Stopbefehl durch das Steuersignal
von außen
angewiesen wird, oder ein Fehler von einem Abschnitt innerhalb der
Vorrichtung erfaßt
wird. Wenn der Videoaufzeichnungs-Steuerabschnitt 2 einen der
oben erwähnten
Zustände
erfaßt,
weist der Abschnitt 2 jeden Abschnitt, der Bestandteil
der Vorrichtung ist, an, die Videoaufzeichnung anzuhalten, verschiebt
den Vorrichtungszustand in den Anfangszustand und beendet dadurch
den Vorgang.
-
Wenngleich
die oben erwähnten
Indexstrukturpakete aus der Zeitabfolge der Spracheigenschaftsmusterdaten
bestehen, könnte
es möglich sein,
daß der
Videowiederauffindungsindex-Erzeugungsabschnitt 11 eine
Phonemerkennung an der Zeitabfolge der Spracheigenschaftsmusterdaten ausführt, um
die Indexstrukturpakete in die Zeitabfolge einer Phonemähnlichkeitstabelle
umzuwandeln, die ein Ergebnis der Zeitabfolgemusterzuordnung für jedes
Teilwort ist.
-
Mit
anderen Worten berechnet der Videowiederauffindungsindex-Erzeugungsabschnitt 11 eine Ähnlichkeit
zwischen der Zeitabfolge der Spracheigenschaftsmusterdaten, die
nacheinander vom Spracheigenschaftsmuster-Extraktionsabschnitt 10 eingegeben
werden, und den Standardmustern auf Teilwortbasis, die im voraus
im Videowiederauffindungsindex-Erzeugungsabschnitt 11 gespeichert
wurden, um die Phonemähnlichkeitstabelle
zu erzeugen.
-
Hier
sind die Standardsprachmuster auf Teilwortbasis Phonemzeitfolgen,
wie etwa kurzweilige Spektraldaten in derselben Weise wie das Spracheigenschaftsmuster.
Ein Zuordnungsintervall wird auf einen vorbestimmten Zeitpunkt auch
im Bezug auf eingegebene Spracheigenschaftsmusterdaten festgelegt,
und der Abschnitt 11 führt
eine Zeitabfolgemusterzuordnung an der Phonemzeitabfolge des Standardsprachmusters
jener der Spracheigenschaftsmusterdaten beispielsweise unter Verwendung
des DP- (Dynamikprogrammierungs-) Zuordnungsverfahrens aus.
-
Bei
der Zeitabfolgemusterzuordnung erhält man das Zuordnungsintervall
in der Zeitabfolge der Spracheigenschaftsmusterdaten, die dem Standardsprachmuster
auf Teilwortbasis am ähnlichsten
sind, wobei die Zuordnungsergebnisse als Phonemähnlichkeitstabelle zusammengefaßt werden.
Darüber hinaus
besteht die Phonemähnlichkeitstabelle
aus Spalten einer Identifikation (Phonemzeichen) jedes Teilwortes,
einem Sprachintervall (Anfangszeitpunkt und Endzeitpunkt), das das Zuordnungsintervall
ist, das dem entsprechenden Teilwort am meisten gleicht, und der Ähnlichkeit,
sowie aus Zeilen entsprechend der Zahl der Teilwörter, die in den Standardsprachmustern
gespeichert sind.
-
Der
Abschnitt 11 ruft M (M ist eine willkürliche natürliche Zahl) Gegenstände in abnehmender Ähnlichkeit
aus der erzeugten Phonemtabelle ab, um die Ähnlichkeitstabelle wiederherzustellen
und sammelt die Ähnlichkeitstabellen
pro Zeiteinheit, die eine Synchronisation zwischen den Videosignalen
und den Sprachsignalen unter Beibehaltung der Zeitabfolge ermöglicht,
um daraus Pakete zu bilden. Der Abschnitt fügt weiterhin Zeitinformationen
und eine Identifikation, die für
die Phonemähnlichkeits-Tabellendaten
kennzeichnend ist, zu jedem Paket hinzu, erzeugt dadurch ein Indexstrukturpaket,
das einen Zugriff auf die Videosignale und die Sprachsignale unter
Bezugnahme auf die Zeitinformationen unter Verwendung eines Position
der Phonemähnlichkeits-Tabellendaten
ermöglicht,
und gibt das erzeugte Paket anschließend an den Komplexdatenspeicher-Verarbeitungsabschnitt 7 aus.
-
Das
auf diese Weise erzeugte Indexstrukturpaket, das aus der Zeitabfolge
der Phonemähnlichkeits-Tabellendaten
besteht, wird im Videospeichermedium 9 als Videowiederauffindungsindex
im Aufzeichnungsformat durch den Komplexdaten-Speicherverarbeitungsabschnitt 7 gespeichert.
-
Auf
diese Weise werden die Indizes, die aus der Zeitabfolge der Phonemähnlichkeitstabelle
bestehen, aus Sprachsignalen in der Videoaufzeichnung erzeugt, wobei
der Komplexdaten-Speicherbearbeitungsabschnitt 7 die Indizes,
Videosignale und Sprachsignale multiplexiert, um sie auf dem Videospeichermedium
zu speichern. Auf diese Weise ist es möglich, auf ein gewünschtes
Videosignal und Sprachsignal einfach unter späterer Verwendung des Videowiederauffindungsindex' zuzugreifen. Die
Wiederauffindungsindizes, die bei dieser Ausführungsform erzeugt werden,
haben denselben Aufbau, wie die Videowiederauffindungsindizes bei
der ersten Ausführungsform.
-
(Fünfte Ausführungsform)
-
Eine
Videoaufzeichnungsvorrichtung gemäß einer fünften Ausführungsform extrahiert visuelle
Eigenschaftsmusterdaten aus Videosignalen, die für die menschliche Lautbildung
kennzeichnend sind, und speichert die visuellen Eigenschaftsmusterdaten als
den Videowiederauffindungsindex.
-
11 zeigt
eine Konfiguration der Videoaufzeichnungsvorrichtung gemäß dieser
Ausführungsform.
Der Steuersignal-Eingabeabschnitt 1 empfängt Signale,
wie etwa das Videoaufzeichnungs-Anweisungssteuersignal, das von
außen
eingegeben wird. Der Videoaufzeichnungs-Steuerabschnitt 2 gibt
ein Aufzeichnungsstart-Anweisungssignal
und -Haltanweisungssignal an jeden Block, der Bestandteil der Vorrichtung
ist, gemäß der Typen empfangener
Steuersignale aus.
-
In
der Zwischenzeit wandelt der Sprachsignal-Eingabeabschnitt 3 analoge
Sprachsignale, die nach dem Beginn der Videoaufzeichnung eingegeben
wurden, in digitale Sprachsignale um, und der Sprachsignal-Codierabschnitt 4 führt eine
Kompression, wie etwa das MPEG-Verfahren, an den digitalen Sprachsignalen
aus. Der Videosignal-Eingabeabschnitt 5 konvertiert analoge
Videosignale, die nach dem Beginn der Videoaufzeichnung eingegeben
wurden, in digitale Videosignale, und der Videosignal-Codierabschnitt 6 führt eine
Kompression, wie etwa das MPEG-Verfahren
an den digitalen Videosignalen aus.
-
Der
Sprachsignal-Eingabeabschnitt 3 gibt die digitalen Sprachsignale
in den Spracheigenschaftsmuster-Extraktionsabschnitt 10 ein.
Der Spracheigenschaftsmuster-Extraktionsabschnitt 10 erfaßt Akustikeigenschaftsdaten
einer menschlichen Sprache aus den eingegebenen digitalen Sprachsignalen, um
die Spracheigenschaftsmusterdaten zu erhalten. Weiterhin führt der
Videosignal-Eingabeabschnitt 5 die digitalen Sprachsignale
dem Bildeigenschaftsmuster-Extraktionsabschnitt 12 zu.
Der Bildeigenschaftsmuster-Extraktionsabschnitt 12 erfaßt ein Bild eines
menschlichen Lippenbereiches aus den Eingangsvideosignalen, um Bildeigenschaftsmusterdaten
zu extrahieren. Der Videowiederauffindungsindex-Erzeugungsabschnitt 11 formt
sämtliche
Spracheigenschaftsmusterdaten, die vom Spracheigenschaftsmuster-Extraktionsabschnitt 10 zugeführt werden,
und die Bildeigenschaftsmusterdaten, die vom Bildeigenschaftsmuster-Extraktionsabschnitt 12 zugeführt werden,
zu Paketen in Zeitintervallen um, die mit den Videosignalen synchronisiert
sind, um eine Videowiederauffindungsindexstruktur auszubilden, der
Zeitinformationen und eine Musterdatenidentifikation hinzugefügt sind.
-
Der
Komplexdatenspeicher-Verarbeitungsabschnitt 7, der vom
Videoaufzeichnungs-Steuerabschnitt 2 angewiesen
wird, multiplexiert die komprimierten Videosignale und Sprachsignale,
sowie die Videowiederauffindungindizes, um sie auf dem Speichermedium 9,
wie etwa einer DVD, im Aufzeichnungsformat aufzuzeichnen. Das Videospeichermedium 9 besteht
beispielsweise aus einer optischen Platte, einer HDD (Magnetplatte),
einer Speicherkarte oder einem Magnetband. Der Speichermedium-Betriebssteuerabschnitt 8 führt eine
physikalische Steuerung, wie etwa eine Suche nach einer Aufzeichnungsposition
auf in einem Videospeichermedium 9 durch eine Steueranweisung
vom Komplexdaten-Speicherverarbeitungsabschnitt 7 durch.
Die Videoaufzeichnungsvorrichtung, die in der oben beschriebenen
Art und Weise aufgebaut ist, kann beispielsweise aus einer in einem
Mikrocomputer enthaltenen Vorrichtung oder dedizierten LST-Schaltungen
bestehen.
-
Im
folgenden wird der Betrieb dieser Vorrichtung erläutert.
-
Wenn
der Steuersignal-Eingabeabschnitt 1 ein Steuersignal, das
eine Videoaufzeichnung anweist, von einer externen Eingabevorrichtung,
wie etwa einer Fernsteuervorrichtung oder eine Tastatur empfängt, konvertiert
der Abschnitt 1 das Steuersignal in ein Signal eines Formates,
das auf die Vorrichtung abgestimmt ist, und gibt das Videoaufzeichnungs-Anweisungssignal
an den Videoaufzeichnungs-Steuerabschnitt 2 aus.
Der Videoaufzeichnungs-Steuerabschnitt 2 empfängt das
Videoaufzeichnungs-Anweisungssignal und weist jeden Abschnitt, der
Bestandteil der Vorrichtung ist, die Videoaufzeichnung zu beginnen,
um einen Vorrichtungszustand in einen Videoaufzeichnungszustand
zu verschieben.
-
Der
Sprachsignal-Eingabeabschnitt 3 empfängt die Anweisung zum Starten
der Videoaufzeichnung, führt
eine A/D-Umwandlung an den Sprachsignalen, die von einer externen
Vorrichtung, wie etwa einer Fernsehsignal-Abstimmvorrichtung, einem
Mikrofon oder einem Videokassettenrekorder eingegeben wurden, zum
Quantisieren aus und gibt die Sprachsignale nacheinander zum Sprachsignal-Codierabschnitt 4 und
Spracheigenschaftsmuster-Extraktionsabschnitt 10 aus. Der
Sprachsignal-Kodierabschnitt 4 führt die Sprachsignalbandkompression, wie
etwa das MPEG-Verfahren an den zugeführten Sprachsignalen aus, um
sie anschließend
an den Komplexdatenspeicher-Verarbeitungsabschnitt 7 auszugeben.
-
Der
Spracheigenschaftsmuster-Extraktionsabschnitt 10 empfängt die
Sprachsignale, die vom Sprachsignal-Eingabeabschnitt 3 zugeführt werden, führt eine
FFT (Fast-Fourier-Transformation) an den Sprachsignalen per Zeiteinheit
aus, extrahiert die Akustikeigenschaftsdaten im menschlichen Sprachfrequenzband
und erzeugt Vektordaten mit N (N ist eine willkürliche ganze Zahl) Komponenten,
die aus akustischen Eigenschaftsgrößen bestehen, die im allgemeinen
bei der Spracherkennung verwendet werden, wie etwa Kurzzeitspektraldaten
oder Logarithmuswerte von Spektren im extrahierten Frequenzband
und logarithmische Energie der Sprachsignale pro Zeiteinheit, die
als Spracheigenschaftsmusterdaten bei der vorliegenden Erfindung
verwendet werden.
-
Der
Spracheigenschaftsmuster-Extraktionsabschnitt 10 gibt nacheinander
die extrahierten und erzeugten Spracheigenschaftsmusterdaten an
den Videowiederauffindungsindex-Erzeugungsabschnitt 11 aus.
Der Videowiederauffindungsindex-Erzeugungsabschnitt 11 sammelt
Gegenstände
der Spracheigenschaftsmusterdaten, die nacheinander eingegeben wurden,
pro Zeiteinheit, wodurch eine Synchronisation zwischen den Videosignalen
und den Sprachsignalen ermöglicht
wird, wobei die Zeitabfolge beibehalten wird, um Pakete zu bilden,
und fügt Zeitinformationen
zu jedem Paket hinzu. Dadurch erzeugt der Abschnitt 11 eine
Indexstruktur, die einen Zugriff auf die Videosignale oder Sprachsignale
unter Bezugnahme auf die Zeitinformationen unter Verwendung einer
Position der Spracheigenschaftsmusterdaten ermöglicht, und gibt die erzeugten
Indexstrukturpakete anschließend
an den Komplexdaten-Speicherverarbeitungsabschnitt 7 aus.
-
In
der Zwischenzeit empfängt
der Videosignal-Eingangsabschnitt 5 ebenfalls die Anweisungen zum
Beginn der Videoaufzeichnung, führt
die A/D-Umwandlung an Videosignalen aus, die von einer externen
Vorrichtung, wie etwa der Fernsehsignal-Abstimmvorrichtung, einer Kamera, oder
einem Videokassettenrekorder eingegeben wurden, um eine Quantisierung
durchzuführen,
und führt
die Videosignale als vorbestimmte Videosignale dem Videosignal-Codierabschnitt 6 und
dem Bildeigenschaftsmuster-Extraktionsabschnitt 12 zu.
Der Videosignal-Kodierabschnitt 6 führt eine Videosignalbandkompression,
wie etwa das MPEG-Verfahren an den zugeführten digitalen Videosignalen
aus, um sie anschließend
dem Komplexdatenspeicher-Verarbeitungsabschnitt 7 zuzuführen.
-
Der
Bildeigenschaftsmuster-Extraktionsabschnitt 12 empfängt die
Videosignale vom Videosignal-Eingabeabschnitt 5, erfaßt einen
Teil des Bereiches der menschlichen Lippen und extrahiert das Lippenbereichsbild
für jedes
Vollbild der eingegebenen Videosignale unter Verwendung der Lippeneigenschafts-Standardmuster,
das aus den Lippenbereichsbildern einer Person abgerufen wird, die
zuvor im Bildeigenschaftsmuster-Extraktionsabschnitt 12 gespeichert
wurden. Um den Lippenbereich zu erfassen und das Lippenbereichsbild
zu extrahieren, wird als Bildeigenschaftsmuster ein Farbverteilungshistogramm
im Farbraum im Lippenbereich verwendet, und als Farbverteilung im
Bildraum wird eine Farbinformation, wie etwa Farbdurchschnittsdaten
und Luminanzdurchschnittsdaten in jedem Block verwendet, den man
erhält,
indem man das Lippenbereichsbild in n × m Bildblöcke teilt (n und m sind willkürliche natürliche Zahlen,
n ist die Teilungszahl auf der x-Achse und m ist die Teilungszahl
auf der y-Achse). Unter Berücksichtigung,
daß weiterhin
eine Größe eines
Lippenbereiches in einem eingegebenen Bildrahmen variiert, wird
eine Größe des Lippenbereichsbildes
variabel gestaltet, um den Lippenbereich zu erfassen und das Lippenbereichsbild
zu extrahieren.
-
Wenn
der Bildeigenschaftsmuster-Extraktionsabschnitt 12 den
Lippenbereich aus dem eingegebenen Bildrahmen erfaßt und extrahiert,
extrahiert der Abschnitt 12 weiterhin die Bildeigenschaftsmusterdaten
zum Zeitpunkt der menschlichen Lautbildung aus dem extrahierten
Lippenbereichsbild.
-
Als
Bildeigenschaftsmuster werden Informationen verwendet, die für die Form
einer Lippe repräsentativ
sind. Ein Beispiel sind Vektordaten mit Komponenten, die der Zahl
der dividierten Bildblöcke
entsprechen, wobei jede Komponente aus Farbdurchschnittsdaten oder
Luminanzdurchschnittsdaten jedes Bildblocks besteht, den man beim
Extrahieren des Lippenbereichsbildes verwendet, den man erhält, indem
ein Lippenbereichsbildraum in eine willkürliche Zahl von Blöcken geteilt
wird. Ein weiteres Beispiel sind Vektordaten mit vier numerischen
Komponenten, die man erhält,
indem weiterhin lediglich ein Lippenbereich aus Lippenbereichsbilddaten
extrahiert wird, die als Bildeigenschaft extrahiert wurden, indem
beispielsweise ein Farbfilter verwendet wird, und ein entsprechender
relativer Abstand zweier Punkte, die jeweils eine Lippenaußengrenze
in vertikaler Richtung (oben und unten) umschreiben, und zweier
Punkte, die jeweils die Lippenaußengrenze in horizontaler Richtung
umschreiben, jeweils aus einem Schwerpunktsbereich des Lippenabschnittes berechnet
wird.
-
Der
Spracheigenschaftsmuster-Extraktionsabschnitt 10 gibt anschließend die
extrahierten Spracheigenschaftsmusterdaten an den Videowiederauffindungsindex-Erzeugungsabschnitt 11 aus,
und der Bildeigenschaftsmuster-Extraktionsabschnitt 12 gibt die
extrahierten Bildeigenschaftsmusterdaten an den Videowiederauffindungsindex-Erzeugungsabschnitt 11 aus.
Der Videowiederauffindungsindex- Erzeugungsabschnitt 11 sammelt
jeweils Gegenstände
der Spracheigenschaftsmusterdaten und der Bildeigenschaftsmusterdaten,
die jeweils anschließend
eingegeben werden, per Zeiteinheit, wodurch eine Synchronisation
zwischen den Videosignalen und den Sprachsignalen unter Beibehalten
der Zeitabfolge ermöglicht
wird, um sie zu Paketen für
jeden Typ von Eigenschaftsmusterdaten zu formen, und fügt Zeitinformationen
und eine Identifikation, die den Typ der Eigenschaftsmusterdaten
kennzeichnet, zu jedem Paket hinzu. Dadurch erzeugt der Abschnitt 11 ein
Indexstrukturpaket, das einen Zugriff auf die Videosignale und die
Sprachsignale unter Bezugnahme auf die Zeitinformationen unter Verwendung
der Positionen der Spracheigenschaftsmusterdaten und der Bildeigenschaftsdaten
ermöglicht,
und gibt das erzeugte Indexstrukturpaket anschließend an
den Komplexdaten-Speicherverarbeitungsabschnitt 7 aus.
-
Der
Komplexdaten-Speicherverarbeitungsabschnitt 7 empfängt die
Anweisung zum Beginn der Videoaufzeichnung, gibt das Steuersignal
zum Speichermedium-Betriebssteuerabschnitt 8 vor
dem Aufzeichnungsbeginn der Daten aus und hält eine Datenaufzeichnungsposition
im Speichermedium 9. Der Komplexdaten-Speicherverarbeitungsabschnitt 7 empfängt die
Videosignale und Sprachsignale, die jeweils der Signalbandkompression
unterzogen wurden, und die Indexstrukturpakete, die im Videowiederauffindungsindex-Erzeugungsabschnitt 11 erzeugt
wurden, multiplexiert die Videosignale, die Sprachsignale und die
Indexstrukturpaketdaten in einem vorbestimmten Format, wie etwa
MPEG, gibt das Steuersignal an den Speichermediums-Betriebssteuerabschnitt 8 aus
und zeichnet die multiplexierten Daten an einer vorbestimmten Position
auf dem Videospeichermedium 9, wie etwa der DVD, gemäß einem
Aufzeichnungsformat auf.
-
Die
Abfolge der Vorgänge,
wie sie oben beschrieben wurde, wird vom Zeitpunkt, ab dem Videoaufzeichnung
begonnen wurde, wiederholt, bis der Videoaufzeichnungs-Steuerabschnitt 2 den
Ablauf der Videoaufzeichnungszeit erfaßt, die Videosignaleingabe
von außen
beendet wurde, ein Videoaufzeichnungs-Stopbefehl durch das Steuersignal
von außen
angewiesen wird, oder ein Fehler von einem Abschnitt innerhalb der
Vorrichtung erfaßt
wird. Wenn der Videoaufzeichnungs-Steuerabschnitt 2 einen der
oben erwähnten
Zustände
erfaßt,
weist der Abschnitt 2 jeden Abschnitt, der Bestandteil
der Vorrichtung ist, an, die Videoaufzeichnung anzuhalten, verschiebt
den Vorrichtungszustand in den Anfangszustand und beendet dadurch
den Vorgang.
-
Somit
werden die Bildeigenschaftsmusterdaten zum Zeitpunkt der menschlichen
Lautbildung aus den Videosignalen extrahiert und zusammen mit den Spracheigenschaftsmusterdaten
verwendet, um die Videowiederauffindungsindizes zu erzeugen. Daher ist
es möglich,
die Spracherkennungsgenauigkeit zu verbessern, wenn sich die Erkennungsgenauigkeit infolge
von BGM (Hintergrundmusik) und Umgebungsgeräuschen verschlechtert.
-
(Sechste Ausführungsform)
-
Eine
Videowiedergabevorrichtung gemäß einer
sechsten Ausführungsform
führt eine
Videoszenenwiederauffindung mit einem Schlüsselwort und eine Schnellwiedergabe
unter Verwendung der Videowiederauffindungsindizes durch, die mit
dem Verfahren gespeichert werden, wie es bei der vierten Ausführungsform
oder der fünften
Ausführungsform beschrieben
ist.
-
12 zeigt
einen Aufbau der Videowiedergabevorrichtung gemäß der sechsten Ausführungsform.
Der Steuersignal-Eingabeabschnitt 1 empfängt Signale,
wie etwa das Videowiedergabe-Anweisungssteuersignal, das von außen eingegeben
wird. Der Videowiedergabe-Steuerabschnitt 13 gibt ein Aufzeichnungsstart-
und Haltanweisungssignal an jeden Block, der Bestandteil der Vorrichtung
ist, entsprechend der Arten der empfangenen Steuersignale aus. Das
Videospeichermedium 9 speichert Videosignale und Sprachsignale,
einschließlich
der Videowiederauffindungsindizes, die mit dem Verfahren erzeugt
werden, wie es bei der vierten oder fünften Ausführungsform beschrieben ist,
in einem vorbestimmten Aufzeichnungsformat, wie etwa dem einer DVD.
Es kann möglich
sein, als Videospeichermedium 9 beispielsweise eine optische
Platte, eine HDD (magnetische Diskette), eine Speicherkarte oder
ein Magnetband zu verwenden. Der Komplexdaten-Leseverarbeitungsabschnitt 14 liest
das Videosignal und das Sprachsignal von einer Zeitposition, die
eine Videowiedergabestelle gemäß dem Aufzeichnungsformat
auf dem Videospeichermedium 9 markiert, durch eine Anweisung
vom Videowiedergabe-Steuerabschnitt 13, und liest weiterhin
den Videowiederauffindungsindex. Zu diesem Zeitpunkt führt der Speichermedium-Steuerabschnitt 8 eine
physikalische Steuerung, wie etwa eine Suche nach einer Position,
an der zu lesende Daten aufgezeichnet sind, durch eine Steueranweisung
vom Komplexdaten-Leseverarbeitungsabschnitt 7 durch.
-
Der
Sprachsignal-Dekodierabschnitt 15 dekomprimiert ein Signalband
der Sprachsignale, die einer Signalbandkompression, wie etwa dem MPEG-Verfahren
unterzogen und vom Komplexdaten-Leseverarbeitungsabschnitt 14 zugeführt wurden.
Der Sprachsignal-Ausgabeabschnitt 16 führt eine D/A-Umwandlung der
Sprachsignale aus, die der Signalbanddekompression unterzogen wurden, um
sie an eine externe Stelle auszugeben. Ein weiterer Videosignal-Decodierabschnitt 17 dekomprimiert ein
Signalband der Videosignale, die einer Signalbandkompression, wie
etwa dem MPEG-Verfahren unterzogen und vom Komplexdaten-Leseverarbeitungsabschnitt 14 zugeführt wurden.
Der Videosignal-Ausgabeabschnitt 18 führt eine D/A-Umwandlung an
den Sprachsignalen durch, die der Signalbanddekompression unterzogen
wurden, um sie an eine externe Stelle auszugeben.
-
Der
Videowiederauffindungsindex-Ausbildungsabschnitt 21 bildet
eine Videowiederauffindungsindextabelle unter Verwendung der Videowiederauffindungsindexdaten
aus, die vom Komplexdaten-Leseverarbeitungsabschnitt 14 zugeführt werden.
Die Speicherschaltung 23 speichert vorübergehend die ausgebildete
Indextabelle.
-
In
der Zwischenzeit empfängt
der Schlüsselwort-Eingabeabschnitt 19 ein
Schlüsselwort,
das von außen
eingegeben wurde. Der Schlüsselwortmuster-Umwandlungsabschnitt 20 wandelt
das eingegebene Schlüsselwort
in eine Phonemcodesequenz um und konvertiert weiterhin die Sequenz
zu Musterdaten, die bei der Musterzuweisung verwendet werden. Der
Schlüsselwortmuster-Zuordnungsabschnitt 22 führt die
Musterzuweisung der Zeitabfolge der Eigenschaftsmusterdaten des
Schlüsselwortes
mit der Zeitabfolge der Eigenschaftsmusterdaten in der Videowiederauffindungsindextabelle
durch, die aus der Speischerschaltung 23 gelesen wird.
Die Videowiedergabevorrichtung, wie sie oben beschrieben wurde,
besteht beispielsweise aus einer in einem Mikrocomputer enthaltenen
Vorrichtung oder dedizierten LSI-Schaltungen.
-
Im
folgenden wird der Betrieb dieser Vorrichtung erläutert.
-
Wenn
der Steuersignal-Eingabeabschnitt 1 ein Steuersignal, das
eine Videowiedergabe anweist, von einer externen Eingabevorrichtung,
wie etwa einer Fernsteuervorrichtung oder einer Tastatur empfängt, konvertiert
der Abschnitt 1 das Steuersignal in ein Format, das für die Vorrichtung
angepaßt
ist, und gibt ein Videowiedergabe-Anweisungssignal an den Videowiedergabe-Steuerabschnitt 13 aus.
Der Videowiedergabe-Steuerabschnitt 13 empfängt das
Videowiedergabe-Anweisungssignal
und weist den Komplexdaten-Leseverarbeitungsabschnitt 14 beispielsweise
mit den Zeitinformationen, die für
einen Kopf der Videosignale kennzeichnend sind, an, eine Videowiedergabe
zu beginnen.
-
Der
Komplexdaten-Leseverarbeitungsabschnitt 14 empfängt die
Anweisung für
einen Beginn der Videowiedergabe und bestimmt unter Verwendung der
angewiesenen Zeitinformationen entsprechende Lesepositionen der
Videosignale und der Sprachsignale, die jeweils zuvor der Signalbanddekompression,
wie etwa dem MPEG-Verfahren unterzogen wurden, die im Videospeichermedium 9,
wie etwa der DVD in einem vorbestimmten Aufzeichnungsformat gespeichert
sind. Der Abschnitt 14 gibt ein Steuersignal, das beispielsweise
eine Suche nach entsprechenden Lesepositionen der Videosignale und
der Sprachsignale anweist, an den Speichermedium-Betriebssteuerabschnitt 8 aus
und liest die Videosignale sowie die Sprachsignale vom Videospeichermedium 9 unter
Beibehaltung der Zeitsynchronisation.
-
Die
Videosignale, die durch den Komplexdaten-Leseverarbeitungsabschnitt 14 gelesen
werden, werden dem Videosignal-Dekodierabschnitt 17 zugeführt. Der
Abschnitt 17 führt
die Signalbandkompression, wie etwa das MPEG-Verfahren, an den zugeführten Signalen
aus, um sie dem Videosignal-Ausgabeabschnitt 18 zuzuführen. Der
Abschnitt 18 führt eine
D/A-Umwandlung an den zugeführten
Signalen aus, um sie beispielsweise in analoge NTSC-Signale umzuwandeln,
und gibt die Signale an eine externe Vorrichtung, wie etwa einen
Fernsehmonitor aus.
-
In ähnlicher
Weise werden die Sprachsignale, die durch den Komplexdaten-Leseverarbeitungsabschnitt 14 gelesen
werden, dem Sprachsignal-Decodierabschnitt 15 zugeführt. Der
Abschnitt 15 führt die
Signalbanddekompression, wie etwa das MPEG-Verfahren an den zugeführten Signalen
aus, um sie dem Sprachsignal-Ausgabeabschnitt 16 zuzuführen. Der
Abschnitt 16 führt
eine D/A-Umwandlung an den zugeführten
Signalen aus, um sie in analoge Sprachsignale umzuwandeln, und gibt
die Signale an eine externe Vorrichtung, wie etwa einen Lautsprecher
aus.
-
Wenn
der Steuersignal-Eingabeabschnitt 1 das Steuersignal, das
eine Videowiedergabe anweist, von eine externen Eingabevorrichtung,
wie etwa einer Fernsteuervorrichtung oder einer Tastatur empfängt, konvertiert
der Abschnitt 1 das Steuer signal in das Signal eines Formates,
das auf die Vorrichtung angepaßt
ist, und gibt ein Videowiederauffindungs-Anweisungssignal an den
Videowiedergabe-Steuerabschnitt 13 aus.
-
Der
Videowiedergabe-Steuerabschnitt 13 empfängt die Videowiederauffindungs-Anweisung und gibt
ein Steuersignal, das die Eingabe eines Schlüsselwortes anweist, an den
Schlüsselwort-Eingabeabschnitt 19 aus.
-
Wenn
der Schlüsselwort-Eingabeabschnitt 19 das
Schlüsselwort
empfängt,
das von der externen Eingabevorrichtung, wie etwa einer Tastatur
eingegeben wurde, unterrichtet der Abschnitt 19 den Videowiedergabe-Steuerabschnitt 13,
daß die
Eingabe des Schlüsselwortes
abgeschlossen ist, und gibt die eingegebene Schlüsselwortinformation an den Schlüsselwortmuster-Umwandlungsabschnitt 20 aus.
-
Der
Videowiedergabe-Steuerabschnitt 13 empfängt die Nachricht, daß die Schlüsselworteingabe
erfolgt ist, und initialisiert eine Schlüsselwort-Erfassungspositions-Verwaltungstabelle,
die sich innerhalb des Videowiedergabe-Steuerabschnittes 13 befindet,
um Zeitinformationen zu verwalten, die eine erfaßte Schlüsselwortposition in Videosignalen
kennzeichnen. Anschließend
gibt der Abschnitt 13 eine Anweisung zum Lesen der Videowiederauffindungsindexdaten
an den Komplexdaten-Leseverarbeitungsabschnitt 14 aus,
und gibt zudem eine weitere Anweisung für den Beginn der Musterzuweisung
an den Schlüsselwortmuster-Zuordnungsabschnitt 22 aus.
Wenn als Videospeichermedium 9 ein Speichermedium mit schneller
Zugriffszeit verwendet wird, wie etwa eine Speicherkarte, eine HDD
oder eine optische Platte, wird zu diesem Zeitpunkt die Wiedergabe
fortgesetzt, während
die normale Videowiedergabe sofort angehalten wird, wenn als Speichermedium 9 ein
Speichermedium ohne schnelle Zugriffszeit verwendet wird, wie etwa
ein Magnetband.
-
Der
Schlüsselwortmuster-Umwandlungsabschnitt 20 empfängt die
Schlüsselwortinformationen, wandelt
das Schlüsselwort
in eine Phonemcodesequenz um und konvertiert zudem die Phonemcodesequenz
des Schlüsselwortes
in die Zeitabfolge der Spracheigenschaftsmusterdaten entsprechend
der Teilwörter,
die das Schlüsselwort
bilden, unter Bezugnahme auf das Standardsprachmuster, das aus der
Zeitabfolge der Eigenschaftsmusterdaten jedes Teilwortes besteht,
das zuvor im Abschnitt 20 gespeichert wurde, um sie an
den Schlüsselwortmuster- Zuordnungsabschnitt 22 auszugeben.
-
Hier
sind die Daten, die als Standardsprachmuster verwendet werden, und
die Zeitabfolge der Spracheigenschaftsmusterdaten wie auch die Spracheigenschaftsmusterdaten,
die bei der oben erwähnten
vierten Ausführungsform
verwendet werden, die Zeitabfolge der Vektordaten mit N (N ist eine willkürliche natürliche Zahl)
Bestandteilen, die aus Akustikeigenschaftsgrößen bestehen, die im allgemeinen
bei der Spracherkennungsverarbeitung verwendet werden, wie etwa
Kurzzeitspektraldaten oder der Logarithmuswert von Spektren in einem
Frequenzband der menschlichen Stimme und die logarithmische Energie
der Sprachsignale pro Zeiteinheit.
-
In
der Zwischenzeit empfängt
der Komplexdaten-Leseverarbeitungsabschnitt 14 die Anweisung zum
Lesen der Videowiederauffindungsindexdaten vom Videowiedergabe-Steuerabschnitt 13,
gibt ein Steuersignal, das beispielsweise die Suche nach einer Leseposition
der Videowiederauffindungsindexdaten und ein Lesen mit hoher Rate
anweist, an den Speichermedium-Betriebssteuerabschnitt 8 aus,
liest die Videowiederauffindungsindexdaten, die im Videospeichermedium 9 im
vorbestimmten Aufzeichnungsformat gespeichert sind, mit der hohen
Rate und gibt die gelesenen Videowiederauffindungsindexdaten anschließend an
den Videowiederauffindungsindex-Erzeugungsabschnitt 21 aus.
-
Die
Videowiederauffindungsindexdaten werden aus Paketen pro vorbestimmte
Zeiteinheit mit dem Verfahren hergestellt, wie es bei der vierten
Ausführungsform
beschrieben ist, und sind die Zeitabfolgedaten, die aus Spracheigenschaftsmusterdaten, Bildeigenschaftsmusterdaten
oder der Phonemähnlichkeitstabelle
bestehen, die man durch Zuordnen der Zeitabfolgedaten für jedes
Teilwort erhält,
wobei ein Typ der Indexdaten und die Zeitinformation, die synchron
mit dem Videosignal und dem Sprachsignal ist, zu jedem Paket hinzugefügt wird.
-
Der
Videowiederauffindungsindex-Erzeugungsabschnitt 21 stellt
die Videowiederauffindungsindexdaten, die vom Komplexdaten-Leseverarbeitungsabschnitt 14 ausgegeben
werden, als das oben erwähnte
Einheitspaket wieder her und schreibt das wiederhergestellte Indexstrukturpaket
in die Speicherschaltung 23, die einen FIFO- (fast-in/fast-out) Speicheraufbau
oder einen Zirkulationsspeicher hat, entsprechend einer Zeitlänge, die
ausreichend ist, um ein Schlüsselwort
zuzuordnen, für
jeden Typ der Indexdaten unter Beibehaltung der Zeitabfolge.
-
Immer
wenn der Schlüsselwort-Zuordnungsabschnitt 22 das
Indexstrukturpaket aus der Temporärspeicherschaltung 23 liest
und verwirft, schreibt der Videowiederauffindungsindex-Erzeugungsabschnitt 21 anschließend ein
neu ausgegebenes und ausgebildetes Indexstrukturpaket in einen verfügbaren Bereich
in der Speicherschaltung 23. Wenn darüber hinaus der Videowiederauffindungsindex-Erzeugungsabschnitt 21 einen
abschließenden
Teil der Indexdaten erfaßt,
benachrichtigt der Abschnitt 21 den Schlüsselwortmuster-Zuordnungsabschnitt 22, daß das Lesen
des Index' abgeschlossen
ist.
-
In
der Zwischenzeit empfängt
der Schlüsselwortmuster-Zuordnungsabschnitt 22 die
Anweisung zum Beginn der Musterzuordnung vom Videowiederherstellungs-Steuerabschnitt 13 und
initialisiert die interne Verarbeitungs- und Speicherschaltung 23. Anschließend empfängt der
Abschnitt 22 die Zeitabfolge der Spracheigenschaftsmusterdaten
des Schlüsselwortes,
das aus dem Schlüsselwortmuster-Umwandlungsabschnitt 20 ausgegeben
wurde, und ordnet die Zeitabfolge der Spracheigenschaftsmusterdaten
im Indexstrukturpaket, die in zeitlicher Reihenfolge im Speicherabschnitt 23 durch
den Videowiederauffindungsindex-Erzeugungsabschnitt 21 unter
Beibehaltung eines ausreichenden Zeitintervalls für die Musterzuordnung
angeordnet wurden, der Zeitabfolge der Spracheigenschaftsmusterdaten des
empfangenen Schlüsselwortes
zu.
-
Bei
der Musterzuordnung erweitert oder verringert der Schlüsselwortmuster-Zuordnungsabschnitt 22 ein
Zuordnungsintervall beispielsweise unter Verwendung des DP-Zuordnungsverfahrens
innerhalb eines vorbestimmten Zeitintervalls in der Zeitabfolge
der Spracheigenschaftsmusterdaten im Indexstrukturpaket, das in
zeitlicher Folge im Speicherabschnitt 23 gespeichert ist,
und erhält
ein Zuordnungsintervall als erfaßtes Intervall des Schlüsselwortes,
das einen vorbestimmten Ähnlichkeitsgrad
erzielt, der eine Summe der Ähnlichkeiten
der jeweiligen Spracheigenschaftsmusterdaten ist, wenn die Zeitabfolge
der Spracheigenschaftsmusterdaten als Schlüsselwort ausgebildet wird.
-
Beim
Zuordnen der Muster verwendet der Schlüsselwortmuster-Zuordnungsabschnitt 22 die Zeitabfolge-Musterzuordnung,
wie etwa das DP-Zuordnungsverfahren, und wiederholt die Zuordnung, während er
das zugeordnete Indexstrukturpaket in der Speicherschaltung 23 nacheinander
liest und für eine
Aktualisierung verwirft. Immer wenn der Abschnitt 22 den
vorbestimmten Ähnlichkeitsgrad
bei einem wiederholten Zuordnungsschritt erhält, informiert der Abschnitt 22 den Videowiedergabe-Steuerabschnitt 13 von
der Zeitinformation als Schlüsselwortdaten-Erfassungsposition,
die im Indexstrukturpaket mit ersten Spracheigenschaftsmusterdaten
in zeitlicher Abfolge der Sprecheigenschaftsmusterdaten enthalten
ist. Für
den Fall, bei dem der Schlüsselwortmuster-Zuordnungsabschnitt 22 die
Nachricht, daß das
Lesen des Index' beendet
ist, vom Videowiederauffindungsindex-Ausbildungsabschnitt 21 empfängt, beendet
der Abschnitt 22 zudem die Zuordnung der Spracheigenschaftsmusterdaten
im Indexstrukturpaket, das in der Speicherschaltung 23 übrig ist,
und informiert den Videowiedergabe-Steuerabschnitt 13,
daß die
Schlüsselwortzuordnung
abgeschlossen ist.
-
Wenn
der Videowiedergabe-Steuerabschnitt 13 die ersten Informationen,
die die Schlüsselwort-Erfassungsposition
kennzeichnen, vom Schlüsselwortmuster-Zuordnungsabschnitt 22 empfängt, speichert
der Abschnitt 13 einmal die empfangenen Zeitinformationen
an einem Kopf der Schlüsselwort-Erfassungspositions-Verwaltungstabelle,
die intern gespeichert ist, und gibt eine Anweisung zur Videowiedergabe
auf der Basis der empfangenen Zeitinformationen an den Komplexdaten-Leseverarbeitungsabschnitt 14 aus.
Anschließend
führt die
Vorrichtung dieselbe Verarbeitung wie bei der herkömmlichen
Videowiedergabe aus, und gibt die Videosignale sowie die Sprachsignale
von einer Position der Zeitinformationen, die die Schlüsselwort-Erfassungsposition
kennzeichnen, an eine externe Vorrichtung aus.
-
Wenn
der Videowiedergabe-Steuerabschnitt 13 zweite und weitere
Zeitinformationen empfängt, die
die Schlüsselwort-Erfassungsposition
markieren, speichert der Abschnitt 13 nacheinander die
empfangenen Zeitinformationen von einer zweiten Position von der
Kopfposition in der Schlüsselwort-Erfassungspositions-Verwaltungstabelle.
Nur in dem Fall, bei dem eine Anweisung für die Wiedergabe eines nächsten Kandidaten
von außen
in den Abschnitt 13 durch den Signaleingabeabschnitt 1 eingegeben wird,
ruft der Abschnitt 13 anschließend die Zeitinformationen
nacheinander aus der Schlüsselwort-Erfassungspositions-Verwaltungstabelle
ab, und gibt die Anweisung für
die Videowiedergabe ab einem bestimmten Zeitpunkt an den Komplexdaten-Leseverarbeitungsabschnitt 14 aus.
Anschließend
führt die Vorrichtung
denselben Vorgang wie bei der normalen Videowiedergabe aus und gibt
die Videosignale sowie die Sprachsignale ab einer Position der Zeitinformationen,
die eine Schlüsselwort-Erfassungsposition markieren,
aus der Vorrichtung aus.
-
Der
Videowiedergabe-Steuerabschnitt 13 behält die Inhalte der Schlüsselwort-Erfassungspositions-Verwaltungstabelle
selbst nach dem Erhalt der Nachricht vom Schlüsselwortmuster-Zuordnungsabschnitt 22 bei,
daß die
Schlüsselwortzuordnung
beendet ist. Wannimmer er eine nächste
Anweisung für die
Wiedergabe eines Kandidaten von außen nach Beendigung des Schlüsselwort-Zuordnungsvorgangs
empfängt,
ist der Abschnitt 13 in der Lage, die Zeitinformationen
nacheinander aus der Schlüsselwort-Erfassungszeit-Verwaltungstabelle
abzurufen und die Anweisung für
die Videowiedergabe ab der angewiesenen Zeitposition an den Komplexdaten-Leseverarbeitungsabschnitt 14 auszugeben.
Die Schlüsselwort-Erfassungspositions-Verwaltungstabelle
wird initialisiert, wenn ein neues Schlüsselwort von außen für eine nächste Videowiederauffindungs-Anweisung
von außen
eingegeben wird.
-
Diese
Vorrichtung wiederholt die oben beschriebene Sequenz von Vorgängen immer
dann, wenn sie eine Videowiederauffindungs-Anweisung mit einem Schlüsselwort
von außen
empfängt,
und ist dadurch in der Lage, eine Videoszene festzulegen, indem
Sprachinformationen eines Videoprogramms einem Schlüsselwort
zugeordnet werden, und eine Videoszene ab einer bestimmten Stelle
schnell wiederzugeben.
-
Bei
der obigen Erläuterung
sind die Indexstruktur-Paketdaten die Zeitabfolge der Spracheigenschaftsmusterdaten.
Weiterhin kann es möglich
sein, einen Aufbau einzurichten, bei dem der Schlüsselwort-Zuordnungsabschnitt 22 eine
Musterzuordnung unter Verwendung einer Teilwortsequenz eines eingegebenen
Schlüsselwortes
und der Ähnlichkeit
auf Teilwortbasis in der oben erwähnten Phonemähnlichkeitstabelle
ausführt.
In diesem Fall konvertiert der Schlüsselwortmuster-Umwandlungsabschnitt 20 ein Schlüsselwort,
das vom Schlüsselwort-Eingabeabschnitt 19 eingegeben
wird, in eine Phonemcodesequenz des Schlüsselwortes, um es an den Schlüsselwortmuster-Zuordnungsabschnitt 22 auszugeben.
-
Wenn
der Schlüsselwortmuster-Zuordnungsabschnitt 22 eine
Anweisung zum Beginn der Musterzuordnung vom Videowiedergabe-Steuerabschnitt 13 empfängt, initialisiert
der Abschnitt 22 den internen Verarbeitungs- und Speicherabschnitt 23. Anschließend empfängt der
Abschnitt 22 die Phonemcodesequenz des Schlüsselwortes,
das vom Schlüsselwortmuster-Umwandlungsabschnitt 20 ausgegeben
wurde, und ordnet die Zeitabfolge der Phonemähnlichkeits-Tabellendaten im
Indexstrukturpaket, das in zeitlicher Reihenfolge im Speichermedium 23 gespeichert ist,
durch den Videowiederauffindungsindex-Ausbildungsabschnitt 21 unter
Beibehaltung eines ausreichenden Zeitintervalls für die Musterzuordnung
der Zeitabfolge der Phonemcodesequenz des empfangenen Schlüsselwortes
zu.
-
Bei
der Musterzuordnung erweitert oder verringert der Schlüsselwortmuster-Zuordnungsabschnitt 22 ein
Zuordnungsintervall beispielsweise mit Hilfe einer Zeitstreckung
und -verkürzung,
die beim DP-Zuordnungsverfahren angewendet wird, innerhalb eines
vorbestimmten Zeitintervalls in der Zeitabfolge der Phonemähnlichkeits-Tabellendaten
im Indexstrukturpaket, das in zeitlicher Reihenfolge im Speicherabschnitt 23 gespeichert
ist, und erhält
ein Zuordnungsintervall als erfaßtes Intervall des Schlüsselwortes,
das zu einem vorbestimmten Ähnlichkeitsgrad
führt,
der die Summe der entsprechenden Teilwörter ist, wenn die Zeitabfolge
der Phonemsequenz als Schlüsselwort
ausgebildet wird.
-
Das
heißt
der Schlüsselwortmuster-Zuordnungsabschnitt 22 ruft
Indexstrukturpakete, die jeweils eine ausreichende Intervallänge für die Musterzuordnung
haben, aus der Phonemähnlichkeitstabelle
mit derselben Zeitlänge
wie die aufgezeichnete Videosequenz ab, und ordnet Spracheigenschaftsmuster-Dateneinheiten
(mit Anfangszeit, Endzeit und Ähnlichkeit)
der abgerufenen Indexstrukturpakete in zeitlicher Reihenfolge an.
Spracheigenschaftsmusterdaten, die der Zahl sämtlicher Standardsprachmuster
(Teilwörter)
entsprechen, werden auf derselben Zeitachse in einem Intervall in
der Phonemähnlichkeitstabelle
angeordnet. Die Spalten der Spracheigenschaftsmusterdaten werden
nacheinander entsprechend der Zahl der Intervalle mit einer ausreichenden
Intervallänge
für die
Musterzuordnung angeordnet. Der Schlüsselwortmuster-Zuordnungsabschnitt 22 ordnet
die Zeitfolge der Spracheigenschaftsmusterdaten des auf diese Weise
erhaltenen Videowiederauffindungsindex' der Zeitabfolge der Spracheigenschaftsmusterdaten
zu, die das Schlüsselwort
bilden, während
er ein Zuordnungsintervall unter Verwendung des DP-Zuordnungsverfahrens verlängert oder
verkürzt,
und stellt ein Zuordnungsintervall mit einer Ähnlichkeit zwischen beiden
Zeitabfolgen, die größer ist
als ein bestimmter Pegel, als zu erfassendes Intervall des Schlüsselwortes
ein. Die Ähnlichkeit
zwischen beiden Zeitfolgen erhält
man, indem Spracheigenschaftsmusterdaten des Indexstrukturpaketes
in der Reihenfolge der Teilwortsequenz abgerufen werden, die das
Schlüsselwort
bilden, und durch Addieren von Ähnlichkeiten
der abgerufenen Spracheigenschaftsmusterdaten.
-
Die
Anfangszeit des Kopfteilwortes im Schlüsselwort-Erfassungsintervall
wird dem Videowiedergabe-Steuerabschnitt 13 jedesmal als
Schlüsselwort-Erfassungsposition
bekanntgegeben.
-
Da
es gemäß dem Musterzuordnungsverfahren,
wie es oben beschrieben wurde, nicht erforderlich ist, eine Zuordnung
zwischen den Vektordaten, die aus Akustikeigenschaftsbestandteilen,
wie etwa der Zeitabfolge der Spracheigenschaftsmusterdaten bestehen,
bei der Musterzuordnung auszuführen,
ist es möglich,
die Zuordnungszeit in großem
Maße zu verringern.
-
Da
weiterhin der Videowiederauffindungsindex nicht in einer unveränderlichen
Form entsprechend dem registrierten Schlüsselwort gehalten wird, sondern
in einer vorübergehenden
Form einer Phonemähnlichkeitstabelle
einer eingegebenen Sprache gespeichert wird, ist es nicht notwendig,
Wiederauffindungsschlüsselwörter im
voraus zu speichern und eine Videosequenz, die genau der Suchanfrage
entspricht, selbst dann wiederzufinden, wenn der Benutzer ein unbestimmtes
Schlüsselwort
eingibt.
-
Weiterhin
besteht die Möglichkeit,
einen Aufbau einzurichten, bei dem der Schlüsselwortmuster-Umwandlungsabschnitt
ein eingegebenes Schlüsselwort
in Bildeigenschaftsmusterdaten umwandelt und der oben erwähnte Schlüsselwortmuster-Zuordnungsabschnitt
die Bildeigenschaftsmusterdaten zum Zeitpunkt der menschlichen Lautbildung,
wie es bei der fünften
Ausführungsform
beschrieben wurde, als Videowiederauffindungsindex verwendet, der
zuvor auf einem Speichermedium gespeichert wurde, und die oben erwähnten Bilddaten Bildeigenschaftsmusterdaten
eines eingegebenen Schlüsselwortes
in folgender Art zuordnet.
-
In
diesem Fall wandelt der Schlüsselwort-Umwandlungsabschnitt 20 die
Schlüsselwortinformationen,
die vom Schlüsselwort-Eingabeabschnitt 19 eingegeben
wurden, in eine Phonemsequenz um und konvertiert weiterhin die Phonemcodesequenz
des Schlüsselwortes
in eine Zeitabfolge von Spracheigenschaftsmusterdaten und eine Zeitabfolge
von Bildeigenschaftsmusterdaten, die jeweils Teilwörtern entsprechen,
die das Schlüsselwort bilden,
unter Bezugnahme auf die Phonemstandardmuster, die aus der Zeitabfolge
der Spracheigenschaftsmusterdaten der entsprechenden Teilwörter bestehen,
und Bildeigenschaftsmusterdaten, die aus Bildeigenschaftsmusterdaten
der entsprechenden ausgesprochenen Teilwörter bestehen, die jeweils
im voraus im Abschnitt 20 gespeichert wurden, um sie an
den Schlüsselwortmuster-Zuordnungsabschnitt 22 auszugeben.
-
Der
Schlüsselwortmuster-Zuordnungsabschnitt 22 empfängt die
Anweisung zum Beginn der Musterzuordnung vom Videowiedergabe-Steuerabschnitt 13 und
initialisiert die internen Verarbeitungs- und Speicherschaltung 23.
Anschließend
empfängt der
Abschnitt 22 die Zeitabfolge der Spracheigenschaftsmusterdaten
und die Zeitabfolge der Bildeigenschaftsmusterdaten des Schlüsselwortes,
das aus dem Schlüsselwortmuster-Umwandlungsabschnitt 20 ausgegeben
wurde, und führt
die Musterzuordnung unter Verwendung der Zeitabfolgedaten in Abhängigkeit
der Indexstrukturpakete in der Speicherschaltung 23 für jeden
Datentyp aus. Die Speicherschaltung 23 speichert die Indexstrukturpakete, die
aus den Spracheigenschaftsmusterdaten bestehen, und die Indexstrukturpakete,
die aus den Bildeigenschaftsmusterdaten bestehen, die jeweils in
zeitlicher Reihenfolge durch den Videowiederauffindungsindex-Ausbildungsabschnitt 21 angeordnet wurden.
-
Bei
jeder Musterzuordnung erweitert oder verringert der Schlüsselwortmuster-Ausbildungsabschnitt 22 ein
Zuordnungsintervall beispielsweise unter Verwendung das DP-Zuordnungsverfahrens
innerhalb eines vorbestimmten Zeitintervalls in der Zeitabfolge
der entsprechenden Eigenschaftsmustermusterdaten in den Indexstrukturpaketen,
die in zeitlicher Reihenfolge im Speicherabschnitt 23 gespeichert
sind, um die Musterzuordnung der Zeitabfolge der entsprechenden
Eigenschaftsmusterdaten des Schlüsselworts
auszuführen,
und erhält
eine Summe von Ähnlichkeiten
zwischen den Eigenschaftsmusterdaten der entsprechenden Teilwörter für jeden
Datentyp für
die Einstellung auf eine entsprechende Schlüsselwortähnlichkeit.
-
Der
Schlüsselwortmuster-Zuordnungsabschnitt 22 stellt
als erfaßtes
Intervall des Schlüsselwortes
ein Zuordnungsintervall ein, das einen vorbestimmten Ähnlichkeitsgrad
erzeugt, der eine Summe der auf diese Weise erhaltenen Schlüsselwortähnlichkeit
beim Zuordnen der Zeitabfolge der Spracheigenschaftsmusterdaten
und der Schlüsselwortähnlichkeit
beim Zuordnen der Zeitabfolge der Bildeigenschaftsmusterdaten ist.
Anschließend
informiert der Abschnitt 22 jedesmal den Videowiedergabe-Steuerabschnitt 13 über die
Zeitinformation als Schlüsselwortdaten-Erfassungsposition,
die im Indexstrukturpaket mit den ersten Spracheigenschaftsmusterdaten
in der Zeitabfolge der Spracheigenschaftsmusterdaten im erfaßten Intervall
enthalten ist.
-
Auf
diese Weise wird die Musterzuordnung unter Verwendung sowohl der
Spracheigenschaftsmusterdaten von einer Sprache als auch der Bildeigenschaftsmusterdaten
von einer Videosequenz durchgeführt.
Selbst im Fall einer verringerten Genauigkeit der Akustikeigenschaftsdaten,
die die Sprecheigenschaftsmusterdaten im Indexstrukturpaket bilden,
infolge von BGM (Hintergrundmusik) oder Rauschen in einem aufgezeichneten
Videoprogramm, ist es somit möglich,
eine starke Verringerung der Genauigkeit bei der Schlüsselworterfassung zu
verhindern, indem die Bildeigenschaftsmusterdaten verwendet werden.
-
Es
besteht weiterhin die Möglichkeit
einen Aufbau einzurichten, bei dem der Schlüsselwort-Eingabeabschnitt mit
einem Mikrofon zur Spracheingabe ausgestattet ist, und der Schlüsselwort-Umwandlungsabschnitt
ein Sprachsignal eines eingegebenen Schlüsselwortes in die Spracheigenschaftsmusterdaten
des Schlüsselwortes
in folgender Art und Weise umwandelt:
Wenn der Schlüsselwort-Eingabeabschnitt 19 ein Schlüsselwort
empfängt,
das von einer externen Spracheingabevorrichtung, wie etwa einem
Mikrofon eingegeben wurde, unterrichtet der Abschnitt 19,
den Videowiedergabe-Steuerabschnitt 13, daß die Eingabe
des Schlüsselwortes
abgeschlossen ist, und führt eine
A/D-Umwandlung am
eingegebenen Schlüsselwortsignal
aus, um es dem Schlüsselwortmuster-Umwandlungsabschnitt 20 zuzuführen.
-
Der
Schlüsselwortmuster-Umwandlungsabschnitt 20 führt eine
FFT (Fast-Fourier-Transformation)
am eingegebenen Schlüsselwort-Sprachsignal pro
Zeiteinheit aus, extrahiert die Akustikeigenschaftsdaten im menschlichen
Stimmfrequenzband und erzeugt die Zeitabfolge der Spracheigenschaftsmusterdaten,
die aus Vektordaten mit N (N ist eine willkürliche natürliche Zahl) Komponenten bestehen, die
Akustikeigenschaftsgrößen enthalten,
die im allgemeinen bei der Spracherkennung verwendet werden, wie
etwa Kurzzeitspektraldaten oder ein Logarithmuswert der Spektren
im extrahierten Frequenzband, und die logarithmische Energie der
Sprachsignale pro Zeiteinheit.
-
Auf
diese Weise ist es möglich,
ein Schlüsselwort
mit einer Stimme beispielsweise unter Verwendung eine Mikrofons
einzugeben und die Zeitabfolge der Spracheigenschaftsmusterdaten,
die für
die Schlüsselwortzuordnung
erforderlich sind, aus dem eingegebenen Sprachsignal zu erzeugen.
-
Es
besteht weiterhin die Möglichkeit,
einen Aufbau einzurichten, bei dem der Schlüsselwort-Eingabeabschnitt mit
einem Mikrofon und einer Kameravorrichtung zum Eingeben eines sich
bewegenden Videos ausgestattet ist, wobei der oben erwähnte Schlüsselwortmuster-Umwandlungsabschnitt
ein Videosignal, das eingegeben wird, wenn ein Benutzer ein Schlüsselwort
ausspricht, den Lippenbildeigenschaftsmustern zuordnet, die zuvor
für jeden
ausgesprochenen Ton gespeichert wurden, und das Videosignal in die
Bildeigenschaftsmusterdaten des Schlüsselwortes wie folgt umwandelt,
wenn der Benutzer das Schlüsselwort
ausspricht.
-
Wenn
in diesem Fall der Schlüsselwort-Eingabeabschnitt 19 die
Schlüsselwortinformationen empfängt, die
von einer externen Spracheingabevorrichtung, wie etwa einem Mikrofon
und einer Kameravorrichtung eingegeben werden, informiert der Abschnitt 19 den
Videowiedergabe-Steuerabschnitt 13, daß die Eingabe des Schlüsselwortes
abgeschlossen ist, und führt
die A/D-Umwandlung des eingegebenen Schlüsselwort-Sprachsignals und
des Videosignals des Gesichtes eines Benutzers aus, wenn der Benutzer
das Schlüsselwort
ausspricht, um sie dem Schlüsselwortmuster-Umwandlungsabschnitt 20 zuzuführen.
-
Der
Schlüsselwort-Umwandlungsabschnitt 20 erzeugt
aus dem eingegebenen Schlüsselwort-Sprachsignal
die Zeitabfolge der Spracheigenschafts-Musterdaten, die aus Vektordaten
mit N (N ist eine willkürliche
natürliche
Zahl) Bestandteilen bestehen, die Akustikeigenschaftsgrößen enthalten,
die im allgemeinen bei der Spracherkennung verwendet werden. Weiterhin
erfaßt
der Abschnitt 20 einen Teil des menschlichen Lippenbereiches
und extrahiert ein Lippenbereichsbild für jedes Vollbild des eingegebenen
Schlüsselwort-Videosignals
unter Verwendung der Lippeneigenschafts-Standardmustern, die aus
den Lippenbereichsbildern einer registrierten Person im voraus abgerufen
wurden, extrahiert weiter die Bildeigenschaftsmusterdaten zum Zeitpunkt der
menschlichen Aussprache, die aus Informationen bestehen, die für eine Form
einer Lippe kennzeichnend sind, aus dem extrahierten Lippenbereichsbild und
erzeugt die Zeitabfolge der Bildeigenschaftsmusterdaten entsprechend
einer Schlüsselwort-Aussprachezeit.
Der Abschnitt 20 gibt beide Zeitabfolgedaten an den Schlüsselwortmuster-Zuordnungsabschnitt 22 aus.
-
Ein
Beispiel der Bildeigenschaftsmusterdaten sind Vektordaten mit Komponenten,
die der Zahl der geteilten Bildblöcke entsprechen, wobei jede Komponente
aus Farbdurchschnittsdaten oder Luminanzdurchschnittsdaten jedes
Bildblocks besteht, den man beim Extrahieren des Lippenbereichsbildes verwendet,
den man erhält,
indem ein Lippenbereichsbildraum in eine willkürliche Zahl von Blöcken geteilt
wird. Ein weiteres Beispiel sind Vektordaten mit vier numerischen
Komponenten, die man erhält, indem
weiterhin lediglich ein Lippenbereich aus Lippenbereichsbilddaten
extrahiert wird, die als Bildeigenschaft extrahiert wurden, indem
beispielsweise ein Farbfilter verwendet wird, und ein entsprechender relativer
Abstand zweier Punkte, die jeweils eine Lippenaußengrenze in vertikaler Richtung
(oben und unten) umschreiben, und zweier Punkte, die jeweils die
Lippenaußengrenze
in horizontaler Richtung umschreiben, jeweils aus einem Schwerpunktsbereich des
Lippenabschnittes berechnet wird.
-
Auf
diese Weise ist es möglich,
ein Schlüsselwort
mit Video und Sprache unter Verwendung eines Mikrofons und einer
Videokameravorrichtung einzugeben und sowohl die Zeitabfolge der
Spracheigenschaftsmusterdaten des Schlüsselwortes aus dem eingegebenen
Sprachsignal als auch die Zeitabfolge der Videoeigenschaftsmusterdaten
des Schlüsselwortes
aus dem eingegebenen Videosignal zu erzeugen.
-
Weiterhin
ist das Szenenwiederauffindungssystem der vorliegenden Erfindung
auf das Wiederauffinden einer Szene lediglich für Sprache anwendbar. Gemäß dem oben
beschriebenen Verfahren werden Videosignale, Sprachsignale und Videowiederauffindungsindizes
oder Sprachsignale und Sprach-/Video-Wiederauffindungsindizes in
einem Speichermedium gespeichert. Es ist möglich, den Sprach-/Video-Wiederauffindungsindex
mit derselben Struktur wie jener des oben erwähnten Videowiederauffindungsindex
zu verwenden. Es ist möglich, das
Wiederfinden eines Sprachsignals von einer Stelle zu beginnen, die
einem Anfangszeitpunkt eines Kopfteilwortes in einem Schlüsselwort-Erfassungsintervall
entspricht.
-
Diese
Patentanmeldung beruht auf den Japanischen Patentanmeldungen No.
HEI10-359414, angemeldet am 17. Dezember 1998, und JP-A-2000236494,
angemeldet am 13. Dezember 1999.
-
Industrielle Anwendung
-
Unter
separater Verwendung von Spracherkennungstechniken zum Zeitpunkt
der Videoaufzeichnung und zum Zeitpunkt der Videowiedergabe ist
es möglich,
eine Videoszene schnell wiederzufinden, indem ein willkürliches
Kennwort zum Zeitpunkt der Videowiedergabe verwendet wird, und eine schnelle
Wiedergabe einer Szene gemäß der Suchvorgabe
eines Benutzers zu erreichen.
-
Da
weiterhin die Videowiederauffindungsindizes automatisch zeitgleich
mit der Videoaufzeichnung erzeugt werden, wird davon ausgegangen,
das Arbeiten deutlich verringert werden, die normalerweise manuell
ausgeführt
werden, um eine Indizierung mit dem Zweck durchzuführen, Videoszenen
anzuordnen und wiederzuverwenden. Daher bietet die vorliegende Erfindung
Vorteile auf Gebieten wie etwa von der besonderen Wiedergabefunktion
bei Verwendung einer digitalen Videokamera oder eines digitalen
Videobandrekorders in Haushalten bis hin zum Videosignal-Basisaufbau
und der Wiederauffindung und Betrachtung von Videomaterial in großen digitalen
Video-Bibliothekssystemen.