DE69924765T2

DE69924765T2 - Vorrichtung zur Erzeugung von Daten zur Wiederfindung von Videodaten und Vorrichtung zur Wiederfindung von Videodaten

Info

Publication number: DE69924765T2
Application number: DE69924765T
Authority: DE
Inventors: Hiroshi Furuyama; Hitoshi Yashio; Ikuo Inoue; Mitsuru Kawasaki-shi Endo; Masakatsu Zama-shi Hoshimi
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp
Priority date: 1998-12-17
Filing date: 1999-12-14
Publication date: 2005-09-22
Anticipated expiration: 2019-12-15
Also published as: US6728673B2; EP1058453A4; EP1357542A3; EP1058453B1; EP1058453A1; JP3252282B2; WO2000036833A1; EP1357542A2; JP2000236494A; DE69915455T2; US20030200091A1; US6611803B1; DE69924765D1; DE69915455D1; EP1357542B1

Description

Technisches Gebiet
Die vorliegende Erfindung bezieht sich auf eine Videoszenen-Wiederauffindungsvorrichtung und ein Verfahren, mit dem eine gewünschte Videoszene (Video und/oder Sprache) unter Verwendung eines Schlüsselwortes wiederaufgefunden werden kann.
Hintergrund der Erfindung
In jüngster Zeit stellen sich schnell vergrößernde Computernetzwerke in Gestalt von Mehrkanal-Rundfunkanstalten und Internet der Gesellschaft und den Haushalten eine übergroße Menge an Videomaterial bereit. Daneben ermöglicht eine erhöhte Kapazität des Aufzeichnungsmediums die Speicherung einer großen Menge von Videosignalen in den Haushalten. Dieser Umstand verlangt nach Techniken, mit denen ein Benutzer aus der großen Zahl von Videosignalen eine gewünschte Videoszene einfach und mit hoher Genauigkeit auffinden kann.
Herkömmlich in Betracht gezogene Verfahren sind ein Verfahren, das einen Wechselpunkt von Videosignalen von einer Änderung des Videosignals erfaßt, um eine Videoszene gemäß dem Punkt anzuzeigen, und ein Wiederauffindungssystem, wie etwa ein Verfahren, das eine spezielle Szene, die aus speziellen anzuzeigenden Objekten besteht, unter Verwendung einer Bilderkennungstechnik erfaßt. Es besteht jedoch das Problem, daß bei diesen Wiederauffindungssystemen einer Suche des Benutzers für die Wiederauffindung mit einer wiederaufgefundenen Szene nicht präzise entsprochen wird.
Weiterhin gibt es ein Wiederauffindungssystem, das Untertitelinformationen und Hörbehinderteninformationen, die der Amerikanische Rundfunk bereitstellt, aus Videos durch Zeichenerkennung liest, um eine spezielle Szene wiederzufinden.
Dieses System versetzt einen Benutzer in die Lage, die Szene, die der Suche des Benutzers zur Wiederauffindung präzise entspricht, aus Szenen zu erhalten, die in geeigneter Weise die Untertitelinformationen und die Hörbehinderteninformationen verwenden. Da jedoch derartige Informationen auf einen Teil der Rundfunkprogramme beschränkt ist, weil die Informationen manuell eingefügt werden müssen, ist es schwierig, die Informationen bei allgemeinen Videos weit verbreitet einzusetzen.
Andererseits wird erwartet, daß die Verwendung eines Sprachschlüsselwortes als Informationen, die Videos begleiten, zu einem Wiederauffindungssystem führt, daß der Wiederauffindungssuche präzise entspricht. Die ungeprüfte japanische Patentveröffentlichung JP-A-6068168 beschreibt ein Videoszenen-Wiederauffindungssystem, das ein gewünschte Szene unter Verwendung eines Sprachschlüsselwortes wiederfindet.
1 zeigt ein Funktionsblockschaltbild des Wiederauffindungssystems, das in der oben erwähnten ungeprüften japanischen Patentveröffentlichung JP-A-6068168 beschrieben ist. Ein Sprach/Video-Eingabeabschnitt 201 empfängt ein Sprachsignal und ein Videosignal, ein Sprachsignal-Speicherabschnitt 202 speichert das empfangene Sprachsignal und ein Videosignal-Speicherabschnitt 203 speichert des empfangene Videosignal. Ein Sprachanalyseabschnitt 204 analysiert das Sprachsignal, um eine Sequenz von Eigenschaftsparametern zu erzeugen, die für die Eigenschaften der Sprache repräsentativ sind. Ein Spracheigenschafts-Speicherabschnitt 205 speichert die erzeugte Sequenz der Eigenschaftsparameter.
In der Zwischenzeit wird ein Schlüsselwort, das ein Benutzer später beim Widerfinden einer Szene verwenden soll, in Gestalt einer Sprache einem Schlüsselworteigenschafts-Analyseabschnitt 206 zugeführt. Der Schlüsselworteigenschafts-Analyseabschnitt 206 analysiert die Sprache als das Schlüsselwort, um eine Sequenz von Eigenschaftsparametern zu erzeugen, die für die Eigenschaften des Schlüsselwortes charakteristisch sind. Ein Schlüsselwort-Eigenschaftsparameter-Speicherabschnitt 207 speichert die erzeugte Sequenz der Eigenschaftsparameter.
Ein Schlüsselwortintervall-Extraktionsabschnitt 208 vergleicht die Sequenz der Eigenschaftsparameter des Sprachsignals, das im Speicherabschnitt 202 gespeichert ist, mit der Sequenz von Eigenschaftsparametern der Schlüsselwortsprache und extrahiert ein Schlüsselwortintervall im Sprachsignal. Ein Indexaddi tionsabschnitt 209 erzeugt Indexpositionsdaten 210, die das extrahierte Schlüsselwortintervall auf eine Vollbildnummer des Videosignals entsprechend dem Sprachsignal beziehen.
Wenn die Wiederauffindung unter Verwendung der Indexpositionsdaten 210 ausgeführt wird, ist es möglich, die Vollbildnummer des Videosignals, in dem das Schlüsselwort erscheint, unter Verwendung des Sprachsignals zu kennzeichnen, wodurch ein Video/Sprach-Ausgabeabschnitt 211 eine entsprechende Video- und Sprachszene ausgeben und demzufolge die vom Benutzer gewünschte Video- und Sprachszene anzeigen kann.
Es besteht jedoch das Problem, daß es erforderlich ist, im voraus ein Sprachschlüsselwort zu speichern, das bei einer Wiederauffindung verwendet werden soll, und daß es nicht möglich ist, eine Wiederauffindung unter Verwendung anderer Schlüsselwörter auszuführen. Insbesondere führt ein unbestimmtes vom Benutzer eingegebenes Schlüsselwort zu einem Wiederauffindungsfehler, wodurch es nicht möglich ist, eine Szene wiederzufinden, die einer Wiederauffindungsstelle präzise entspricht.
Young et al. beschreiben in "Acoustic Indexing for Multimedia Retrieval and Browsing", ICASSP 1997, Seite 199-202 ein Videonachrichten-Wiederauffindungssystem zur Wiederauffindung von Videodokumenten durch das Absuchen der Tonspur nach Schlüsselwörtern. Spracherkennung wird mit Informations-Wiederauffindungsverfahren kombiniert, um Multimedia-Dokumente nach ihrem Inhalt ausfindig zu machen. Das System benutzt vorausberechnete Phon-Gitter für das Erkennen von Wörtern und für Audio-Indizierung. Statistische Informations-Wiederauffindungsverfahren mildem die Auswirkungen von Erkennungsfehlern.
Offenbarung der Erfindung
Die vorliegende Erfindung wird in Anbetracht des oben Beschriebenen ausgeführt. Ein Ziel der vorliegenden Erfindung besteht darin, eine Vorrichtung und ein Verfahren anzugeben, die es gestatten, eine vom Benutzer gewünschte Szene beim Wiederauffinden einer Video- und/oder Sprachsequenz wiederzufinden, wobei ein nicht im Vokabular vorhandenes Wort, das sich von Wörtern und Schlüsselwörtern unterscheidet, die im voraus beispielsweise in einem Wörterbuch gespeichert wurden, und ein unbestimmtes Schlüsselwort verwendet werden, das der Benutzer eingibt.
Diese Aufgabe wird durch eine Vorrichtung gemäß unabhängigem Anspruch 1, 12, 25 und 28 und durch ein Verfahren gemäß unabhängigem Anspruch 8, 21 und 29 gelöst. Vorteilhafte Ausführungsformen der Erfindung sind Gegenstand der abhängigen Ansprüche.
Die vorliegende Erfindung stellt ein Szenen-Wiederauffindungssystem zur Verfügung, das eine Abfolge von Spracherkennungs-Verarbeitungsabläufen separat von der Erzeugung von Wiederauffindungsdaten und der Wiederauffindungsverarbeitung anwendet und dadurch in der Lage ist, eine Video-/Sprachszene, die ein Benutzer wünscht, mit hoher Geschwindigkeit wiederzufinden und die Szene mit hoher Geschwindigkeit wiederzugeben.
Weiterhin ist sie derart aufgebaut, daß sie eine Trefferfolge von Teilwörtern, was ein Zwischenergebnis der Spracherkennungs-Verarbeitung ist, als einen Wiederauffindungsindex beim Erzeugen der Wiederauffindungsdaten erzeugt, und derart, daß sie ein eingegebenes Schlüsselwort in eine Zeitabfolge eines Teilwortes konvertiert, um es dem Wiederauffindungsindex bei der Wiederauffindungsverarbeitung zuzuordnen.
Daher ist eine Zuordnung mit einem Wörterbuch oder einem Wiederauffindungs-Schlüsselwort, das zuvor gespeichert wurde, nicht erforderlich, wodurch das Problem, das sogenannte Nicht-im-Vokabular-Wort-Problem, gelöst wird, bei dem es nicht möglich ist, einem nicht registrierten Schlüsselwort gerecht zu werden. Weiterhin ist es möglich, eine Video-/Sprachszene mit der höchsten Zuverlässigkeit selbst dann wiederaufzufinden, wenn ein Benutzer ein unbestimmtes Schlüsselwort eingibt.
Darüber hinaus wird die Trefferfolge des Teilwortes, das der Wiederauffindungsindex ist, in einem Datenstrom zusammen mit dem Videosignal und dem Sprachsignal multiplexiert, wodurch es möglich ist, den Wiederauffindungsindex durch Rundfunknetzwerke und Kommunikationsnetzwerke, wie etwa das Internet, zu senden.
Das Teilwort ist die Grundeinheit eines akustischen Modells, die kleiner ist als ein einzelnes Wort. Beispiele des Teilwortes sind ein Phonem, eine Silbe, wie etwa Konsonant-Vokal und Vokal-Konsonant-Vokal, und eine Halbsilbe. Jedes Wort wird als Abfolge von Teilwörtern dargestellt.
Kurze Beschreibung der Zeichnungen
1 ist ein Funktions-Blockschaltbild eines derzeitigen Videoszenen-Wiederauffindungssystems;
2 ist ein Funktions-Blockschaltbild eines Szenen-Wiederauffindungssystems gemäß einer ersten Ausführungsform der vorliegenden Erfindung;
3 ist ein Datenstrukturdiagramm eines herkömmlichen Sprachmusters;
4 ist ein Diagramm, das eine Phonem-Ähnlichkeitstabelle zeigt;
5 ist ein Diagramm, das eine Situation darstellt, in der Teilwörter, die einer Phonemabfolge eines Schlüsselwortes entsprechen, aus der Phonem-Ähnlichkeitstabelle aufgenommen werden;
6 ist eine Diagramm, das eine Situation darstellt, in der aufgenommene Teilwörter in der Reihenfolge der Phonemabfolge des Schlüsselwortes angeordnet werden;
7 ist ein Funktions-Blockschaltbild eines Szenen-Wiederauffindungssystems gemäß einer zweiten Ausführungsform der vorliegenden Erfindung;
8(1) ist ein Strukturdiagramm eines MPEG-Stroms, in dem Videosignale, Sprachsignale und Video-Wiederauffindungsindizes multiplexiert sind;
8(2) ist ein Strukturdiagramm eines Videostromes;
8(3) ist ein Strukturdiagramm einer GOP;
8(4) ist ein Strukturdiagramm eines Wiederauffindungs-Datenstroms;
9 ist ein Funktions-Blockdiagramm eines Szenen-Wiederauffindungssystems gemäß einer dritten Ausführungsform der vorliegenden Erfindung;
10 ist ein Funktions-Blockschaltbild eines Video-Aufzeichnungsgerätes gemäß einer vierten Ausführungsform der vorliegenden Erfindung;
11 ist ein Funktions-Blockschaltbild eines Video-Aufzeichnungsgerätes gemäß einer fünften Ausführungsform der vorliegenden Erfindung; und
12 ist ein Funktions-Blockschaltbild eines Video-Aufzeichnungsgerätes gemäß einer sechsten Ausführungsform der vorliegenden Erfindung.
Beste Weise der Ausführung der Erfindung
Ausführungsformen der vorliegenden Erfindung werden im folgenden unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben.
(Erste Ausführungsform)
2 ist ein Funktions-Blockschaltbild eines Szenen-Wiederauffindungssystems gemäß einer ersten Ausführungsform der vorliegenden Erfindung. Das Szenen-Wiederauffindungssystem dieser Ausführungsform hat einen Wiederauffindungsdaten-Erzeugungsabschnitt 100, der einen Videowiederauffindungsindex erzeugt, der beim Wiederfinden einer gewünschten Szene aus gespeicherten Bildern verwendet wird, und einen Wiederauffindungs-Verarbeitungsabschnitt 200, der ein Eingabe-Wiederauffindungs-Schlüsselwort dem Videowiederauffindungsindex zuordnet, um eine Szene wiederzufinden, die einer Suchstelle präzise entspricht.
Der Wiederauffindungsdaten-Erzeugungsabschnitt 100 hat einen Videosignal-Eingabeabschnitt 101, der ein Videosignal empfängt, und einen Sprachsignal-Eingabeabschnitt 102, der ein Sprachsignal empfängt, das das Videosignal begleitet (mit diesem synchron ist). Ein Speicherabschnitt 201, der im Wiederauffindungs-Verarbeitungsabschnitt 200 untergebracht ist, speichert das Videosignal und das Sprachsignal, die jeweils vom Videosignal-Eingabeabschnitt 101 und vom Sprachsignal-Eingabeabschnitt 102 eingegeben werden. Das Sprachsignal, das vom Sprachsignal-Eingabeabschnitt 102 eingegeben wird, wird weiter in einen Spracheigenschaftsmuster-Extraktionsabschnitt 103 eingegeben. Der Spracheigenschaftsmuster-Extraktionsabschnitt 103 analysiert das Sprachsignal, um ein Spracheigenschaftsmuster zu extrahieren. Das extrahierte Spracheigenschaftsmuster wird einem Videowiederauffindungsindex-Erzeugungsabschnitt 104 zugeführt. Der Videowiederauffindungsindex-Erzeugungsabschnitt 104 vergleicht das extrahierte Spracheigenschaftsmuster mit einem Standardsprachmuster, das in einem Standardsprachmuster-Speicherabschnitt 105 gespeichert ist, und gibt eine Gruppe eines Beginns, eines Endzeitpunktes und eines Treffers, der für eine Ähnlichkeit eines am besten übereinstimmenden Teilwortes kennzeichnend ist, als Videowiederauffindungsindex aus. Der Videowiederauffindungsindex wird im Speicherabschnitt 201 im Wiederauffindungs-Verarbeitungsabschnitt 200 gespeichert.
Der Wiederauffindungs-Verarbeitungsabschnitt 200 hat einen Speicherabschnitt 201, der Videosignale, Sprachsignale und Videowiederauffindungsindizes speichert. Der Speicherabschnitt 201 hat eine Phonemähnlichkeitstabelle, die aus Videowiederauffindungsindizes ausgebildet ist. Die Phonemähnlichkeitstabelle wird später beschrieben. Der Steuerabschnitt 202 speichert Lesepositionen der Videosignale und der Sprachsignale, die im Speicherabschnitt 201 gespeichert sind. Der Schlüsselwort-Eingabeabschnitt 203 gibt ein Wiederauffindungs-Schlüsselwort für die Verwendung beim Wiederfinden einer gewünschten Videoszene aus Videos ein, die im Speicherabschnitt 201 gespeichert sind. Der Schlüsselwort-Umwandlungsabschnitt 204 wandelt das eingegebene Schlüsselwort in eine Zeitabfolge des Teilwortes um, das das eingegebene Schlüsselwort bildet. Ein Schlüsselwortmuster-Zuordnungsabschnitt 205 ruft den Videowiederauffindungsindex, der mit dem Teilwort des eingegebenen Schlüsselwortes übereinstimmt, aus dem Speicherabschnitt 201 ab. Der Abschnitt 205 rekonstruiert das Wiederauffindungs-Schlüsselwort unter Verwendung des Videowiederauffindungsindex', der aus dem Speicherabschnitt 210 abgerufen wurde, und berechnet einen Treffer für jedes der rekonstruierten Schlüsselwörter. Auf der Basis eines Anfangszeitpunktes eines Kopfteilwortes des rekonstruierten Schlüsselwortes mit einem hohen Treffer findet der Steuerabschnitt 202 eine entsprechende Videoszene aus dem Speicherabschnitt 201 wieder. Videosignale, die die wiedergefundene Videoszene bilden, die aus dem Speicherabschnitt 201 ausgegeben wird, werden aus dem Videosignal-Ausgabeabschnitt 206 ausgegeben, und die Sprachsignale, die die Videosignale begleiten, werden aus dem Sprachsignal-Ausgabeabschnitt 207 ausgegeben.
Im folgenden wird im Detail die Verarbeitung zum Erzeugen des Videowiederauffindungsindex' im Wiederauffindungsdaten-Erzeugungsabschnitt 100 beschrieben. Der Spracheigenschaftsmuster-Extraktionsabschnitt 103 teilt ein eingegebenes Sprachsignal aufeinanderfolgend in Analysevollbilder von 10 msek und führt eine Fast-Fourier-Transformation an jedem Analysevollbild aus, um ihn in akustische Eigenschaftsdaten umzuwandeln, die für akustische Eigenschaften in einem Frequenzband der menschlichen Stimme repräsentativ sind.
Weiterhin konvertiert der Abschnitt 103 die akustischen Eigenschaftsdaten des Stimmfrequenzbandes in Vektordaten mit N (N ist eine willkürliche natürliche Zahl) Komponenten, die aus akustischen Eigenschaftsgrößen bestehen. Diese Vektordaten werden als Spracheigenschaftsmuster verwendet. Als akustische Eigenschaftsgröße, ist es vorzuziehen, Kurzzeitspektren oder Logarithmuswerte der Spektren im Sprachfrequenzband einer eingegebenen Sprache oder eine Logarithmusenergie der eingegebenen Sprache in einem vorbestimmten Intervall zu verwenden.
Somit wird die eingegebene Sprache alle 10 msek in das Spracheigenschaftsmuster (Vektordaten) umgewandelt und das umgewandelte Spracheigenschaftsmuster sequentiell an den Videowiederauffindungsindex-Erzeugungsabschnitt 104 ausgegeben. Darüber hinaus ist eine Vollbildlänge des Analyserahmens nicht auf 10 msek beschränkt.
Der Standardspracheigenschaftsmuster-Speicherabschnitt 105 speichert Teilwörter (#V, #CV, #CjV, CV, CjV, VC, QC, VQ, W und V#, wobei C ein Konsonant, V ein Vokal, j ein den Palatallaut bildender Konsonant, Q ein Doppelkonsonant und # stumm ist) im voraus als Standardsprachmuster. Sprachen, die aus mehreren Lautsprechern gesammelt werden, werden im voraus analysiert, um Spracheigenschaftsmuster auf Teilwortbasis zu extrahieren. Die extrahierten Spracheigenschaftsmuster werden einer statistischen Verarbeitung unterzogen und anschließend als Standardsprachmuster registriert. Insbesondere speichert der Standardspracheigenschaftsmuster-Speicherabschnitt 105 eine Tabelle, die jedes Teilwort auf ein Standardsprachmuster desselben (extrahiertes Sprachstandardmuster) bezieht. 3 zeigt spezielle Beispiele der Standardsprachmuster. Etwa 500 Standardsprachmuster sind in dieser Zeichnung vorbereitet. Jedoch ist die Zahl der Standardsprachmuster, die im Standardspracheigenschaftsmuster-Speicherabschnitt 105 gespeichert werden sollen, nicht auf 500 beschränkt, und sie kann in geeigneter Weise in einer Beziehung zwischen einer Berechnungsgröße und einer Wiederauffindungsgenauigkeit festgelegt werden.
Der Videowiederauffindungsindex-Erzeugungsabschnitt 104 ruft ein erstes Standardsprachmuster aus dem Standardspracheigenschaftsmuster-Speicherabschnitt 105 ab und ermittelt eine Ähnlichkeit zwischen dem ersten Standardsprachmuster und einem Spracheigenschaftsmuster einer eingegebenen Sprache unter Verwendung einer Spracherkennungsverarbeitung. Als Spracherkennungsverarbeitung ist es vorzuziehen, Spracherkennungsverfahren, wie etwa das DP-Zuordnungsverfahren und HMM zu verwenden. Der Abschnitt 104 erfaßt als Teilwortintervall ein Intervall, das für die größte Ähnlichkeit im Bezug auf das erste Standardsprachmuster kennzeichnend ist, und ermittelt einen Anfangszeitpunkt, einen Endzeitpunkt sowie einen Treffer als Ähnlichkeit des erfaßten Teilwortinter valls. Im Bezug auf das auf diese Weise erfaßte Teilwortintervall, das dem ersten Standardsprachmuster entspricht, wird die Gruppe der Anfangszeit, der Endzeit und des Treffers als ein einzelner Videowiederauffindungsindex ausgegeben. Mit anderen Worten besteht der einzelne Videowiederauffindungsindex aus einem Phonemkennzeichen, einem Anfangszeitpunkt, einem Endzeitpunkt und einem Treffer.
Nach dem Erhalt des Videowiederauffindungsindex entsprechend dem ersten Standardsprachmuster, wird ein zweites Standardsprachmuster vom Standardspracheigenschaftsmuster-Speicherabschnitt 105 abgerufen. Anschließend vergleicht der Abschnitt 104 das Spracheigenschaftsmuster desselben Sprachintervalls, wie es oben beschrieben wurde, mit dem zweiten Standardsprachmuster, erfaßt ein Teilwortintervall im Bezug auf das zweite Standardsprachmuster in derselben Weise, wie es oben beschrieben wurde, und gibt die Gruppe des Anfangszeitpunkts, des Endzeitpunkts und des Treffers des erfaßten Teilwortintervalls als Videowiederauffindungsindex aus. Anschließend erfaßt in derselben Art und Weise, wie es oben beschrieben wurde, der Abschnitt 104 entsprechende Ähnlichkeiten zwischen dem Spracheigenschaftsmuster desselben Sprachintervalls und jedem der anderen übrigen Standardsprachmuster, während er zwischen den Standardsprachmustern umschaltet, und erzeugt Videowiederauffindungsindizes, die jeweils aus der Gruppe des Anfangszeitpunktes, des Endzeitpunktes und des Treffers bestehen, für sämtliche Standardsprachmuster.
Nach dem Erzeugen der Videowiederauffindungsindizes für sämtliche Standardsprachmuster in einem Sprachintervall der eingegebenen Stimme verschiebt der Videowiederauffindungsindex-Erzeugungsabschnitt 104 ein zu verarbeitendes Sprachintervall zu einem nächsten Sprachintervall, das an das verarbeitete Sprachintervall grenzt, um dieselbe Verarbeitung auszuführen. Anschließend erzeugt in derselben Weise, wie es oben beschrieben wurde, der Abschnitt 104 Wiederauffindungsindizes für sämtliche Intervalle der eingegebenen Sprache, um die Verarbeitung abzuschließen, während er das zu verarbeitende Sprachintervall verschiebt.
Im folgenden wird im Detail die Verarbeitung zum Wiederauffinden einer Videoszene unter Verwendung eines Schlüsselwortes im Wiederauffindungsabschnitt 200 beschrieben.
4 zeigt einen Teil eines Gitteraufbaus von Videowiederauffindungsindizes. Ein Ende jedes Sprachintervalls von 10 msek, geteilt aus der eingegebenen Sprache, wird als Ende jedes der Videowiederauffindungsindizes eingestellt, die im Sprachintervall erzeugt werden, und die Videowiederauffindungsindizes im selben Sprachintervall werden in der Reihenfolge der Erzeugung angeordnet, wodurch die Videowiederauffindungsindizes in Gestalt von Verbänden über eine gesamte Eingabestimme angeordnet werden. Der auf diese Weise erzeugte Verbandaufbau der Sprachwiederauffindungsindizes wird als Phonemähnlichkeitstabelle bezeichnet. In der Phonemähnlichkeitstabelle repräsentiert jeder Videowiederauffindungsindex eine Treffergruppe und eine Länge entsprechend dem Startzeitpunkt derselben. 4 zeigt ein paar Arten von Teilwörtern "A", "KA", "SA", "TA" und "NA" als repräsentative Beispiele aus der Phonemähnlichkeitstabelle der Videowiederauffindungsindizes.
Es wird davon ausgegangen, daß der Schlüsselwort-Eingabeabschnitt 203 "SORA" als Wiederauffindungs-Schlüsselwort empfängt. Der Schlüsselwort-Umwandlungsabschnitt 204 wandelt "SORA" des Wiederauffindungs-Schlüsselwortes in eine Abfolge von Teilwörtern um. "SORA" wird zu "SO, OR und RA" umgewandelt.
Der Schlüsselwortmuster-Zuordnungsabschnitt 205 nimmt Teilwörter, die das Wiederauffindungs-Schlüsselwort bilden, aus der Phonemähnlichkeitstabelle auf. Mit anderen Worten nimmt der Abschnitt 205 jedesmal lediglich Teilwörter "SO", "OR" und "RA", die das Wiederauffindungs-Schlüsselwort bilden, aus den Verbänden auf. 5 stellt aufgenommene Verbände dar, die jeweils aus einem der Teilwörter "SO", "OR" und "RA" des Wiederauffindungs-Schlüsselwort bestehen.
Der Schlüsselwort-Zuordnungsabschnitt 205 verbindet die Teilwörter "SO", "OR" und "RA" auf einer Vielzahl aufgenommener Verbände in der Reihenfolge der Abfolge von Teilwörtern, die vom Wiederauffindungs-Schlüsselwort umgewandelt wurden, wobei kein Zwischenraum zwischen den Teilwörtern eingefügt ist. Der Abschnitt 205 ruft jeweils ein abschließendes Teilwort "RA" eines Verbandes ab, das zu einem Zeitpunkt endet, ruft ein Teilwort "OR" vor dem abschließenden Teilwort auf einem weiteren Verband ab, der zum Anfangszeitpunkt von "RA" endet, ruft weiterhin ein Teilwort "SO" vor "OR" auf dem anderen Verband ab, der zum Anfangszeitpunkt von "OR" endet, und verbindet "SO", "OR" und "RA" unter Verwendung des Endes des abschließenden Teilwortes "RA" als Referenz.
Unter Bezugnahme auf ein Schlüsselwort, das auf diese Weise durch Verbinden von "SO", "OR" und "RA" wiederhergestellt wurde, berechnet der Schlüsselwortmuster-Zuordnungsabschnitt 205 einen Treffer des wiederhergestellten Schlüsselwortes. Insbesondere addiert der Abschnitt 205 Treffer, die den Teilwörtern "SO", "OR" und "RA" zugewiesen sind, die das wiederhergestellte Schlüsselwort bilden. Dieser Additionswert ist der Treffer des wiederhergestellten Schlüsselwortes. In derselben Weise, wie es oben beschrieben wurde, erzeugt der Abschnitt 205 nacheinander wiederhergestellte Schlüsselwörter zu allen Zeitpunkten, wobei der Endzeitpunkt des Teilwortes "RA" verschoben wird, und berechnet den Treffer jedes wiederhergestellten Schlüsselwortes. 6 zeigt die wiederhergestellten Schlüsselwörter, die man durch Verschieben des Endzeitpunktes des Teilwortes "RA" erhält.
Der Schlüsselwortmuster-Zuordnungsabschnitt 205 führt einen Kompressions-/Dekompressionsvorgang an jedem gebildeten Schlüsselwort (Abfolge des Teilwortes) beispielsweise unter Verwendung des DP-Zuordnungsverfahrens unter Berücksichtigung der Expansions- und Kontraktionseigenschaften einer Stimme aus. Anschließend berechnet der Abschnitt 205 Treffer sämtlicher wiederhergestellter Schlüsselwörter und gibt diese Treffer der wiederhergestellten Schlüsselwörter an den Steuerabschnitt 202 aus.
Der Steuerabschnitt 202 berechnet einen Zeitcode eines Videosignals entsprechend dem Anfangszeitpunkt eines Kopfteilwortes des wiederhergestellten Schlüsselwortes mit einem hohen Treffer und führt eine Steuerung aus, um die entsprechenden Teile der Video- und Sprachsignale wiederzugeben, die im Speicherabschnitt 201 gespeichert sind. Infolge dessen werden die wiedergegebenen Video- und Sprachsignale jeweils vom Videosignal-Ausgabeabschnitt 206 und vom Sprachsignal-Ausgabeabschnitt 207 ausgegeben.
Somit wird eine Sequenz eines Teilwortes, das einem Treffer zugewiesen ist, aus einem Sprachsignal, das ein wiederzufindendes Videosignal begleitet, erzeugt, und die Daten als Videowiederauffindungsindex im Speicherabschnitt 201 gespeichert, während beim Wiederauffinden ein Schlüsselwort in Teilwörter umgewandelt wird, um den Videowiederauffindungsindizes zugeordnet zu werden. Somit ist es möglich, einen Speicherabschnitt mit einem Wörterbuch und/oder gespeicherten Wiederauffindungs-Schlüsselwörtern im voraus zu löschen, wobei es einen weiteren Vorteil gibt, daß kein Nicht-im-Vokabular-Wort-Problem entsteht.
Da weiterhin die Zuordnung mit Schlüsselwörtern, die im voraus gespeichert wurden, nicht durchgeführt wird, ist es möglich, die zuverlässigste Videoszene selbst in dem Fall wiederzufinden, bei dem ein Benutzer ein unbestimmtes Schlüsselwort eingibt, und somit eine ausgezeichnete Wirkung zu erzielen.
(Zweite Ausführungsform)
Ein Szenenwiederauffindungssystem gemäß der zweiten Ausführungsform der vorliegenden Erfindung sendet einen Videowiederauffindungsindex, der in einer Wiederauffindungsdaten-Erzeugungsvorrichtung erzeugt wird, zu einer Wiederauffindungsvorrichtung über ein Sendemedium.
7 zeigt eine Konfiguration des Szenenwiederauffindungssystems gemäß der zweiten Ausführungsform. In der Zeichnung werden dieselben Bezugszeichen für Abschnitte mit denselben Funktionen wie bei der ersten Ausführungsform verwendet, wie sie oben beschrieben sind. Das Szenenwiederauffindungssystem besteht aus einer Wiederauffindungsdaten-Erzeugungsvorrichtung 120, die Videowiederauffindungsindizes, die von einem Sprachsignal erzeugt werden, das ein Videosignal begleitet, in einem Datenstrom multiplexiert, eine Wiederauffindungsvorrichtung 220, die ein Teilwort eines Wiederauffindungs-Schlüsselwortes den Videowiederauffindungsindizes zuordnet, um eine gewünschte Videoszene wiederaufzufinden, und ein Sendemedium 230 zum Senden des Datenstromes mit den Videowiederauffindungsindizes, die in der Wiederauffindungsdaten-Erzeugungsvorrichtung 120 erzeugt werden, zu Wiederauffindungsvorrichtung 220. Das Sendemedium 230 kann beispielsweise Rundfunknetzwerke, Kommunikationsnetzwerke und Aufzeichnungsmedien beinhalten. Die Rundfunknetzwerke beinhalten terrestrische Rundfunknetzwerke und Kabelrundfunknetzwerke, und die Kommunikationsnetzwerke beinhalten das Internet. Die Rundfunknetzwerke enthalten zudem Hochfrequenz-Rundfunknetzwerke beim Wiederauffinden einer Sprachszene.
Die Wiederauffindungsdaten-Erzeugungsvorrichtung 120 ist mit einem Videosignal-Eingangsabschnitt 101, einem Sprachsignal-Eingangsabschnitt 102, einem Spracheigenschaftsmuster-Extraktionsabschnitt 103, einem Videowiederauffin dungsindex-Erzeugungsabschnitt 104 und einem Standardsprachmuster-Speicherabschnitt 105 ausgestattet. Die Wiederauffindungsdaten-Erzeugungsvorrichtung 120 hat weiterhin einen Multiplexabschnitt 121, der Videowiederauffindungsindizes, die im Videowiederauffindungsindex-Erzeugungsabschnitt 104 erzeugt werden, Videosignale und Sprachsignale multiplexiert. Wenngleich es vorzuziehen ist, daß der Multiplexabschnitt 121 Videowiederauffindungsindizes, Videosignale und Sprachsignale in einem MPEG-Strom multiplexiert, kann es möglich sein, in anderen Datenströmen zu multiplexieren.
Die Wiederauffindungsvorrichtung 220 ist mit einem Speicherabschnitt 201, einem Steuerabschnitt 202, einem Schlüsselwort-Eingabeabschnitt 203, einem Schlüsselwort-Umwandlungsabschnitt 204, einem Schlüsselwortmuster-Zuordnungsabschnitt 205, einem Videosignal-Ausgabeabschnitt 206 und einem Sprachsignal-Ausgabeabschnitt 207 ausgestattet. Die Wiederauffindungsvorrichtung 200 verfügt weiterhin über einen Demultiplexierabschnitt 221, der die Videowiederauffindungsindizes, die Videosignale und die Sprachsignale aus dem Datenstrom demultiplexiert, in dem die Videowiederauffindungsindizes, die Videosignale und die Sprachsignale multiplexiert sind.
Der Videowiederauffindungsindex-Erzeugungsabschnitt 104, der im Wiederauffindungsdaten-Erzeugungsabschnitt 120 enthalten ist, erzeugt die Videowiederauffindungsindizes aus einem Eingangssignal in derselben Weise wie bei der ersten Ausführungsform, die oben beschrieben wurde. Die erzeugten Videowiederauffindungsindizes werden an den Multiplexabschnitt 121 ausgegeben. Darüber hinaus wird das Videosignal, das im Videosignal-Eingangsabschnitt 101 empfangen wird, und das Sprachsignal, das im Sprachsignal-Eingangsabschnitt 102 empfangen wird, an den Multiplexabschnitt 121 ausgegeben.
Der Multiplexabschnitt 121 konvertiert die Videosignale, die Sprachsignale und die Videowiederauffindungsindizes jeweils in mehrere Videoströme (Videostrom (1) zu Videostrom (n)), Sprachströme (Sprachstrom (1) zum Sprachstrom (n)) und private Ströme, um Benutzerdaten zu speichern (diese Ströme werden beim Senden der Videowiederauffindungsindizes verwendet und werden als Wiederauffindungs-Datenströme bezeichnet: Wiederauffindungs-Datenstrom (1) bis Wiederauffindungs-Datenstrom (n)).
8(1) zeigt einen Vollbildaufbau des MPEG-Stroms, in dem die Videowiede rauffindungsindizes, die Videosignale und die Sprachsignale multiplexiert sind. Der Datenstromheader 101 muß zum Header des MPEG-Stroms hinzugefügt werden, um den Strom zu identifizieren. 8(2) stellt einen Aufbau des Videostroms dar. Der Videostrom besteht aus mehreren GOP (Group of Videos: GOP(1) bis GOP(n)). 8(3) zeigt den Aufbau der GOP. Die GOP besteht aus einer Abfolge von Gruppen eines zwischenvollbild-codierten I-Videos (I(1)), P-Videos (P(2) bis P(m)), codiert durch Bewegungskompensations-Vorhersage im Bezug auf das I-Video oder das P-Video, wobei ein I-Video zeitlich davor und danach angeordnet ist, sowie B-Videos (B(-1) bis B(m-1)), die durch die Bewegungskompensations-Vorhersage aus beiden Videos unter Bezugnahme auf P-Videos codiert werden. 8(4) zeigt einen Aufbau des Datenwiederauffindungsstromes. Die Videowiederauffindungsindizes (Videowiederauffindungsindex (1) bis Videowiederauffindungsindex (n)) sind als Einheiten entsprechend einer Abfolge der Videovollbilder angeordnet.
Der MPEG-Strom, der im Multiplexabschnitt 121 multiplexiert wird, wird zur Wiederauffindungsvorrichtung 220 durch das Sendemedium 230 gesendet, um im Speicherabschnitt 201 gespeichert zu werden. In der Wiederauffindungsvorrichtung 220 demultiplexiert der Demultiplexierabschnitt 221 die Wiederauffindungsindizes aus dem multiplexierten MPEG-Strom, um sie dem Schlüsselwortmuster-Zuordnungsabschnitt 205 zuzuführen. Ein Schlüsselwort wird dem Videowiederauffindungsindizes zugeordnet und wiederhergestellte Schlüsselwörter in derselben Weise erzeugt wie bei der ersten Ausführungsform. Der Steuerabschnitt 202 greift auf die GOP entsprechend dem Startzeitpunkt des wiederhergestellten Schlüsselwortes mit einem hohen Treffer zu, um eine Videoszene wiederaufzufinden. Darüber hinaus kann es möglich sein, die Videosignale und die Sprachsignale zusammen mit den Videowiederauffindungsindizes zu demultiplexieren, wenn die Indizes aus dem MPEG-Strom demultiplexiert werden, um sie im Speicherabschnitt 201 zu speichern.
Da die Videowiederauffindungsindizes auf Teilwortbasis der Eingabesprache im Datenstrom zusammen mit den Videosignalen und den Sprachsignalen multiplexiert werden, ist es somit möglich, die Videowiederauffindungsindizes einem Benutzer zusammen mit den Videos unter Verwendung der Rundfunknetzwerke und der Kommunikationsnetzwerke zur Verfügung zu stellen.
Darüber hinaus ist die GOP eine Einheiten-Videowiedergabe in MPEG. Wenn der Einheiten-Wiederauffindungsindex in Übereinstimmung mit der GOP gebracht wird, ist es somit möglich, die Wiedergabe einer gewünschten Videoszene auf einfache Weise zu beginnen, indem auf die GOP entsprechend dem Wiederauffindungsindex zugegriffen wird, der einem eingegebenen Schlüsselwort zum Zeitpunkt der Wiederauffindungsverarbeitung entspricht.
(Dritte Ausführungsform)
Die dritte Ausführungsform beschreibt ein Szenenwiederauffindungssystem, bei dem, wenn ein Wiederauffindungs-Schlüsselwort von einem Benutzerendgerät eingegeben wird, ein Serversystem, das mit dem Benutzerendgerät durch Kommunikationsnetzwerke verbunden ist, eine entsprechende Szene bereitstellt.
9 zeigt einen Systemaufbau des Szenenwiederauffindungssystems gemäß der dritten Ausführungsform. In 9 werden dieselben Bezugszeichen für Abschnitte mit denselben Funktionen wie bei der ersten und zweiten Ausführungsform verwendet, wie sie oben beschrieben wurden. Das Serversystem besteht aus einem Wiederauffindungsdaten-Erzeugungsabschnitt 100 und einem Wiederauffindungs-Verarbeitungsabschnitt 240 und findet eine Videoszene wieder, die ein Benutzer zum Benutzerendgerät senden möchte.
Der Wiederauffindungsdaten-Erzeugungsabschnitt 100 besteht aus einem Videosignal-Eingabeabschnitt 101, einem Sprachsignal-Eingabeabschnitt 102, einem Spracheigenschaftsmuster-Extraktionsabschnitt 103 und einem Videowiederauffindungsindex-Erzeugungsabschnitt 104.
Der Wiederauffindungs-Verarbeitungsabschnitt 240 ist mit einem Speicherabschnitt 201, einem Steuerabschnitt 202 und einem Schlüsselwortmuster-Zuordnungsabschnitt 205 ausgestattet. Weiterhin hat der Wiederauffindungs-Verarbeitungsabschnitt 240 einen Schlüsselwort-Empfangsabschnitt 231, der Daten eines Wiederauffindungs-Schlüsselwortes empfängt, das vom Benutzerendgerät 300 über das Sendemedium 230 gesendet wird, und einen Multiplexabschnitt 232, der ein Videosignal und ein Sprachsignal einer wiedergefundenen Szene in einem Datenstrom multiplexiert, um ihn zu einem Benutzerendgerät 300 über das Sendemedium 230 zu senden.
Das Benutzerendgerät 300 ist mit einem Schlüsselwort-Eingabeabschnitt 203, einem Schlüsselwort-Umwandlungsabschnitt 204, einem Videosignal-Ausgabe abschnitt 207, der das Videosignal der wiedergefundenen Szene ausgibt, und einem Sprachsignal-Ausgabeabschnitt 206 ausgestattet, der das Sprachsignal der wiedergefundenen Szene ausgibt. Das Benutzerendgerät 300 hat weiterhin einen Schlüsselwort-Sendeabschnitt 301, der Teilwörter des Wiederauffindungs-Schlüsselwortes, das im Schlüsselwort-Umwandlungsabschnitt 204 umgewandelt wurde, zum Wiederauffindungs-Verarbeitungsabschnitt 240 über das Sendemedium 230 sendet, und einen Demultiplexierabschnitt 302, der das Videosignal und das Sprachsignal aus den Datenströmen demultiplexiert, die vom Wiederauffindungs-Verarbeitungsabschnitt 240 über das Sendemedium 230 empfangen werden.
In das Szenenwiederauffindungssystem, das in der oben beschriebenen Weise aufgebaut ist, gibt das Benutzerendgerät 300 das Wiederauffindungs-Schlüsselwort ein. Im Benutzerendgerät 300 wandelt der Schlüsselwort-Umwandlungsabschnitt 204 das Eingabe-Schlüsselwort in Teilwörter des eingegebenen Schlüsselwortes um. Anschließend sendet der Schlüsselwort-Sendeabschnitt 301 die Teilwörter des eingegebenen Schlüsselwortes über das Sendemedium 230. Kommunikationsnetzwerke, wie etwa das Internet, werden als Sendemedium 230 in dieser Ausführungsform bevorzugt.
Der Speicherabschnitt 201 im Wiederauffindungs-Verarbeitungsabschnitt 240 speichert in derselben Art und Weise wie bei der ersten Ausführungsform, die zuvor beschrieben wurde, Videosignale, Sprachsignale und Videowiederauffindungsindizes in einer Verbandstruktur. Der Schlüsselwort-Empfangsabschnitt 231 führt empfangene Schlüsselwortdaten dem Schlüsselwortmuster-Zuordnungsabschnitt 205 zu. Der Schlüsselwortmuster-Zuordnungsabschnitt 205 nimmt, wie es oben beschrieben wurde, Videowiederauffindungsindizes jeweils mit einem Phonemkennzeichen, das mit einem der Teilwörter des Schlüsselwortes in der Verbandstruktur der Videowiederauffindungsindizes übereinstimmt, auf und erzeugt jedesmal ein wiederhergestelltes Schlüsselwort. Anschließend findet der Steuerabschnitt 202 entsprechende Videosignale und Sprachsignale auf der Basis eines Anfangszeitpunktes des wiederhergestellten Schlüsselwortes mit einem hohen Treffer. Die Videosignale und die Sprachsignale der auf diese Weise empfangenen Szene werden im Datenstrom im Multiplexabschnitt 232 multiplexiert und zum Benutzerendgerät 300 über das Sendemedium 230 gesendet.
Im Benutzerendgerät 300 demultiplexiert der Demultiplexierabschnitt 302 die Videosignale und die Sprachsignale aus dem gesendeten Datenstrom entspre chend dem Wiederauffindungs-Schlüsselwort. Die demultiplexierten Videosignale und Sprachsignale werden vom Videosignal-Ausgabeabschnitt 206 bzw. vom Sprachsignal-Ausgabeabschnitt 207 ausgegeben.
Somit ermöglicht die Verbindung des Benutzerendgerätes 300 mit dem Serversystem (Wiederauffindungsdaten-Erzeugungsabschnitt 100 und Wiederauffindungs-Verarbeitungsabschnitt 240) über das Kommunikationsnetzwerk 230, daß ein Benutzerendgerät 300, das über keine Funktionen zum Erzeugen und Empfangen der Videowiederauffindungsindizes verfügt, eine gewünschte Szene wiederfindet.
Wenngleich bei der zuvor erwähnten dritten Ausführungsform das Benutzerendgerät 300 mit einem Schlüsselwort-Umwandlungsabschnitt 204 ausgestattet ist, besteht darüber hinaus die Möglichkeit, den Wiederauffindungs-Verarbeitungsabschnitt 240 mit einem Schlüsselwort-Umwandlungsabschnitt 204 auszustatten. Gemäß diesem Aufbau ist es möglich, die oben erwähnte Wiederauffindung auszuführen, ohne neue Software im vorhandenen Benutzerendgerät zu installieren.
(Vierte Ausführungsform)
Die vierte Ausführungsform beschreibt ein Beispiel, bei dem das Szenenwiederauffindungssystem der vorliegenden Erfindung in einem Videoaufzeichnungsgerät eingesetzt wird. Das Videoaufzeichnungsgerät gemäß dieser Ausführungsform erfaßt eine menschliche Stimme aus Sprachsignalen, die man bei einer Videoaufzeichnung erhält, und extrahiert Akustikeigenschaftsdaten, die man aus der Stimme erhält, als Spracheigenschaftsmusterdaten. Weiterhin formt das Gerät die Spracheigenschaftsmusterdaten zu einer Indexstruktur mit hinzugefügter Zeitinformation um, um sie auf einem Aufzeichnungsmedium zusammen mit einem Videosignal und einem Sprachsignal aufzuzeichnen.
10 stellt den Aufbau des Videoaufzeichnungsgerätes gemäß dieser Ausführungsform dar. Ein Steuersignal-Eingangsabschnitt 1 empfängt Signale, wie etwa ein Videoaufzeichnungs-Anweisungssteuersignal, daß von außen eingegeben wird. Der Videoaufzeichnungs-Steuerabschnitt 2 gibt ein Aufzeichnungsstart-Anweisungssignal und ein Stoppanweisungssignal an jeden Block, aus dem das Gerät besteht, entsprechend der Arten der empfangenen Steuersignale aus.
In der Zwischenzeit wandelt der Sprachsignal-Eingabeabschnitt 3 analoge Sprachsignale, die eingegeben wurden, nachdem die Videoaufzeichnung begonnen wurde, in digitale Sprachsignale um, und der Sprachsignal-Codierabschnitt 4 führt eine Kompression, wie etwa das MPEG-Verfahren, an den digitalen Sprachsignalen aus. Der Videosignal-Eingabeabschnitt 5 wandelt analoge Videosignale, die nach dem Beginn der Videoaufzeichnung eingegeben wurden, in digitale Videosignale um, und der Videosignal-Codierabschnitt 6 führt eine Kompression, wie etwa das MPEG-Verfahren, an den digitalen Videosignalen aus.
Der Sprachsignal-Eingabeabschnitt 3 gibt die digitalen Sprachsignale an den Spracheigenschaftsmuster-Extraktionsabschnitt 10 aus. Der Spracheigenschaftsmuster-Extraktionsabschnitt 10 erfaßt die Akustikeigenschaftsdaten der menschlichen Sprache aus den eingegebenen digitalen Sprachsignalen, um die Spracheigenschaftsmusterdaten zu erhalten. Der Videowiederauffindungsindex-Erzeugungsabschnitt 11 faßt die Spracheigenschaftsmusterdaten, die vom Spracheigenschaftsmuster-Extraktionsabschnitt 10 zugeführt werden, zu Paketen in Zeitintervallen zusammen, die mit den Videosignalen synchron sind, um sie in die Videowiederauffindungsindexstruktur umzuformen, der Zeitinformationen hinzugefügt sind.
Der Komplexdatenspeicher-Verarbeitungsabschnitt 7, der vom Videoaufzeichnungs-Steuerabschnitt 2 angewiesen wird, multiplexiert die komprimierten Videosignale und Sprachsignale sowie die Videowiederauffindungsindizes für eine Speicherung auf einem Speichermedium 9, wie etwa einer DVD, in einem Aufzeichnungsformat. Das Videospeichermedium 9 besteht beispielsweise aus einer optischen Platte, einer HDD (Magnetplatte), einer Speicherkarte oder einem Magnetband. Der Speichermedium-Betriebssteuerabschnitt 8 führt eine physikalische Steuerung, wie etwa die Suche nach einer Aufzeichnungsstelle, auf dem Videospeichermedium 9 durch eine Steueranweisung vom Komplexdatenspeicher-Verarbeitungsabschnitt 7 aus. Das Videoaufzeichnungsgerät, das in der oben beschriebenen Art und Weise aufgebaut ist, kann beispielsweise aus einer in einem Mikrocomputer enthaltenen Vorrichtung oder dedizierten LSI-Schaltungen bestehen. Bei diesem Videoaufzeichnungsgerät besteht ein Spracheigenschaftsmuster-Extraktionsschritt aus einem Spracheigenschaftsmuster-Extraktionsabschnitt 10, und ein Indexinformations-Speicherschritt besteht aus einem Videowiederauffindungsindex-Erzeugungsabschnitt 11 sowie einem Komplexdatenspeicher-Verarbeitungsschritt 7.
Im folgenden wird der Betrieb dieser Vorrichtung erläutert.
Wenn der Steuersignal-Eingabeabschnitt 1 ein Steuersignal, das eine Videoaufzeichnung anweist, von einer externen Vorrichtung, wie etwa einer Fernsteuereinrichtung oder einer Tastatur empfängt, wandelt der Abschnitt 1 das Steuersignal in ein Signal eines Formates um, das auf die Vorrichtung abgestimmt ist, und gibt das Videoaufzeichnungs-Anweisungssignal an den Videoaufzeichnungs-Steuerabschnitt 2 aus. Der Videoaufzeichnungs-Steuerabschnitt 2 empfängt das Videoaufzeichnungs-Anweisungssignal und weist jeden Abschnitt, der Bestandteil der Vorrichtung ist, die Videoaufzeichnung zu beginnen, um einen Vorrichtungszustand in einen Videoaufzeichnungszustand zu verschieben.
Der Sprachsignal-Eingabeabschnitt 3 empfängt die Anweisung zum Beginn einer Videoaufzeichnung, führt die A/D-Umwandlung an Sprachsignalen, die von einer externen Vorrichtung, wie etwa einer Fernsehsignal-Abstimmvorrichtung, einem Mikrofon oder einem Videokassettenrekorder eingegeben werden, für eine Quantisierung aus, und gibt nacheinander die Sprachsignale an den Sprachsignal-Codierabschnitt 4 und den Spracheigenschaftsmuster-Extraktionsabschnitt 10 aus. Der Sprachsignal-Codierabschnitt 4 führt eine Sprachsignalband-Kompression, wie etwa das MPEG-Verfahren an den zugeführten Sprachsignalen aus, um sie nacheinander an den Komplexdatenspeicher-Verarbeitungsabschnitt 7 auszugeben.
Der Spracheigenschaftsmuster-Extraktionsabschnitt 10 empfängt die Sprachsignale, die vom Sprachsignal-Eingabeabschnitt 3 empfangen werden, führt eine FFT (Fast-Fourier-Transformation) an den Sprachsignalen pro Zeiteinheit aus, extrahiert die Akustikeigenschaftsdaten im Frequenzband der menschlichen Stimme und erzeugt die Spracheigenschaftsmusterdaten, d.h. Vektordaten mit N (N ist eine willkürliche natürliche Zahl) Bestandteilen, die aus akustischen Eigenschaftsgrößen bestehen, die allgemein beim Spracherkennungsvorgang verwendet werden, wie etwa Kurzzeitspektraldaten oder einen Logarithmuswert von Spektren im extrahierten Frequenzband, und logarithmische Energie der Sprachsignale pro Zeiteinheit.
Der Spracheigenschaftsmuster-Extraktionsabschnitt 10 gibt nacheinander die extrahierten und erzeugten Spracheigenschaftsmusterdaten an den Videowiederauffindungsindex-Erzeugungsabschnitt 11 aus. Der Videowiederauffindungsindex-Erzeugungsabschnitt 11 sammelt Gegenstände der Spracheigenschaftsmu sterdaten, die nacheinander pro Zeiteinheit eingegeben wurden, wodurch eine Synchronisation zwischen den Videosignalen und den Sprachsignalen ermöglicht wird, wobei die Zeitabfolge beibehalten wird, um Pakete zu bilden, und fügt Zeitinformationen sowie ein Kennzeichen, das die Spracheigenschaftsmusterdaten kennzeichnet, zu jedem Paket hinzu. Dadurch wird eine Indexstruktur erzeugt, die einen Zugriff auf die Videosignale oder die Sprachsignale ermöglicht, indem auf die Zeitinformation unter Verwendung einer Position der Spracheigenschaftsmusterdaten Bezug genommen wird. Der Abschnitt 11 gibt die erzeugten Indexstrukturpakete nacheinander an den Komplexdatenspeicher-Verarbeitungsabschnitt 7 aus.
In der Zwischenzeit empfängt der Videosignal-Eingangsabschnitt 5 ebenfalls die Anweisungen zum Beginn der Videoaufzeichnung, führt die A/D-Umwandlung an Videosignalen aus, die von einer externen Vorrichtung, wie etwa der Fernsehsignal-Abstimmvorrichtung, einer Kamera, oder einem Videokassettenrekorder eingegeben wurden, um eine Quantisierung durchzuführen, und führt die Videosignale als vorbestimmte Videosignale dem Videosignal-Codierabschnitt 6 zu. Der Videosignal-Kodierabschnitt 6 führt eine Videosignalbandkompression, wie etwa das MPEG-Verfahren an den zugeführten digitalen Videosignalen aus, um sie nacheinander dem Komplexdatenspeicher-Verarbeitungsabschnitt 7 zuzuführen.
Der Komplexdatenspeicher-Verarbeitungsspeicher 7 empfängt die Anweisung zum Beginn der Videoaufzeichnung, gibt das Steuersignal an den Speichermedium-Betriebssteuerabschnitt 8 aus, bevor er mit dem Aufzeichnen der Daten beginnt, und hält eine Datenaufzeichnungs-Startposition im Speichermedium 9. Der Komplexdatenspeicher-Verarbeitungsabschnitt 7 empfängt die Videosignale und die Sprachsignale, die jeweils der Signalbandkompression unterzogen wurden, und die Indexstrukturpakete, die im Videowiederauffindungsindex-Erzeugungsabschnitt 11 erzeugt wurden, multiplexiert die Videosignale, die Sprachsignale und die Indexstrukturpakete in einem vorbestimmten Format, wie etwa MPEG, gibt das Steuersignal an den Aufzeichnungsspeicher-Betriebssteuerabschnitt 8 aus und zeichnet die multiplexierten Daten an einer vorbestimmten Position auf dem Videospeichermedium 9 gemäß dem Aufzeichnungsformat, wie etwa der DVD auf.
Die Abfolge der Vorgänge, wie sie oben beschrieben wurde, wird vom Zeitpunkt, ab dem Videoaufzeichnung begonnen wurde, wiederholt, bis der Videoaufzeichnungs-Steuerabschnitt 2 den Ablauf der Videoaufzeichnungszeit erfaßt, die Video signaleingabe von außen beendet wurde, ein Videoaufzeichnungs-Stopbefehl durch das Steuersignal von außen angewiesen wird, oder ein Fehler von einem Abschnitt innerhalb der Vorrichtung erfaßt wird. Wenn der Videoaufzeichnungs-Steuerabschnitt 2 einen der oben erwähnten Zustände erfaßt, weist der Abschnitt 2 jeden Abschnitt, der Bestandteil der Vorrichtung ist, an, die Videoaufzeichnung anzuhalten, verschiebt den Vorrichtungszustand in den Anfangszustand und beendet dadurch den Vorgang.
Wenngleich die oben erwähnten Indexstrukturpakete aus der Zeitabfolge der Spracheigenschaftsmusterdaten bestehen, könnte es möglich sein, daß der Videowiederauffindungsindex-Erzeugungsabschnitt 11 eine Phonemerkennung an der Zeitabfolge der Spracheigenschaftsmusterdaten ausführt, um die Indexstrukturpakete in die Zeitabfolge einer Phonemähnlichkeitstabelle umzuwandeln, die ein Ergebnis der Zeitabfolgemusterzuordnung für jedes Teilwort ist.
Mit anderen Worten berechnet der Videowiederauffindungsindex-Erzeugungsabschnitt 11 eine Ähnlichkeit zwischen der Zeitabfolge der Spracheigenschaftsmusterdaten, die nacheinander vom Spracheigenschaftsmuster-Extraktionsabschnitt 10 eingegeben werden, und den Standardmustern auf Teilwortbasis, die im voraus im Videowiederauffindungsindex-Erzeugungsabschnitt 11 gespeichert wurden, um die Phonemähnlichkeitstabelle zu erzeugen.
Hier sind die Standardsprachmuster auf Teilwortbasis Phonemzeitfolgen, wie etwa kurzweilige Spektraldaten in derselben Weise wie das Spracheigenschaftsmuster. Ein Zuordnungsintervall wird auf einen vorbestimmten Zeitpunkt auch im Bezug auf eingegebene Spracheigenschaftsmusterdaten festgelegt, und der Abschnitt 11 führt eine Zeitabfolgemusterzuordnung an der Phonemzeitabfolge des Standardsprachmusters jener der Spracheigenschaftsmusterdaten beispielsweise unter Verwendung des DP- (Dynamikprogrammierungs-) Zuordnungsverfahrens aus.
Bei der Zeitabfolgemusterzuordnung erhält man das Zuordnungsintervall in der Zeitabfolge der Spracheigenschaftsmusterdaten, die dem Standardsprachmuster auf Teilwortbasis am ähnlichsten sind, wobei die Zuordnungsergebnisse als Phonemähnlichkeitstabelle zusammengefaßt werden. Darüber hinaus besteht die Phonemähnlichkeitstabelle aus Spalten einer Identifikation (Phonemzeichen) jedes Teilwortes, einem Sprachintervall (Anfangszeitpunkt und Endzeitpunkt), das das Zuordnungsintervall ist, das dem entsprechenden Teilwort am meisten gleicht, und der Ähnlichkeit, sowie aus Zeilen entsprechend der Zahl der Teilwörter, die in den Standardsprachmustern gespeichert sind.
Der Abschnitt 11 ruft M (M ist eine willkürliche natürliche Zahl) Gegenstände in abnehmender Ähnlichkeit aus der erzeugten Phonemtabelle ab, um die Ähnlichkeitstabelle wiederherzustellen und sammelt die Ähnlichkeitstabellen pro Zeiteinheit, die eine Synchronisation zwischen den Videosignalen und den Sprachsignalen unter Beibehaltung der Zeitabfolge ermöglicht, um daraus Pakete zu bilden. Der Abschnitt fügt weiterhin Zeitinformationen und eine Identifikation, die für die Phonemähnlichkeits-Tabellendaten kennzeichnend ist, zu jedem Paket hinzu, erzeugt dadurch ein Indexstrukturpaket, das einen Zugriff auf die Videosignale und die Sprachsignale unter Bezugnahme auf die Zeitinformationen unter Verwendung eines Position der Phonemähnlichkeits-Tabellendaten ermöglicht, und gibt das erzeugte Paket anschließend an den Komplexdatenspeicher-Verarbeitungsabschnitt 7 aus.
Das auf diese Weise erzeugte Indexstrukturpaket, das aus der Zeitabfolge der Phonemähnlichkeits-Tabellendaten besteht, wird im Videospeichermedium 9 als Videowiederauffindungsindex im Aufzeichnungsformat durch den Komplexdaten-Speicherverarbeitungsabschnitt 7 gespeichert.
Auf diese Weise werden die Indizes, die aus der Zeitabfolge der Phonemähnlichkeitstabelle bestehen, aus Sprachsignalen in der Videoaufzeichnung erzeugt, wobei der Komplexdaten-Speicherbearbeitungsabschnitt 7 die Indizes, Videosignale und Sprachsignale multiplexiert, um sie auf dem Videospeichermedium zu speichern. Auf diese Weise ist es möglich, auf ein gewünschtes Videosignal und Sprachsignal einfach unter späterer Verwendung des Videowiederauffindungsindex' zuzugreifen. Die Wiederauffindungsindizes, die bei dieser Ausführungsform erzeugt werden, haben denselben Aufbau, wie die Videowiederauffindungsindizes bei der ersten Ausführungsform.
(Fünfte Ausführungsform)
Eine Videoaufzeichnungsvorrichtung gemäß einer fünften Ausführungsform extrahiert visuelle Eigenschaftsmusterdaten aus Videosignalen, die für die menschliche Lautbildung kennzeichnend sind, und speichert die visuellen Eigenschaftsmusterdaten als den Videowiederauffindungsindex.
11 zeigt eine Konfiguration der Videoaufzeichnungsvorrichtung gemäß dieser Ausführungsform. Der Steuersignal-Eingabeabschnitt 1 empfängt Signale, wie etwa das Videoaufzeichnungs-Anweisungssteuersignal, das von außen eingegeben wird. Der Videoaufzeichnungs-Steuerabschnitt 2 gibt ein Aufzeichnungsstart-Anweisungssignal und -Haltanweisungssignal an jeden Block, der Bestandteil der Vorrichtung ist, gemäß der Typen empfangener Steuersignale aus.
In der Zwischenzeit wandelt der Sprachsignal-Eingabeabschnitt 3 analoge Sprachsignale, die nach dem Beginn der Videoaufzeichnung eingegeben wurden, in digitale Sprachsignale um, und der Sprachsignal-Codierabschnitt 4 führt eine Kompression, wie etwa das MPEG-Verfahren, an den digitalen Sprachsignalen aus. Der Videosignal-Eingabeabschnitt 5 konvertiert analoge Videosignale, die nach dem Beginn der Videoaufzeichnung eingegeben wurden, in digitale Videosignale, und der Videosignal-Codierabschnitt 6 führt eine Kompression, wie etwa das MPEG-Verfahren an den digitalen Videosignalen aus.
Der Sprachsignal-Eingabeabschnitt 3 gibt die digitalen Sprachsignale in den Spracheigenschaftsmuster-Extraktionsabschnitt 10 ein. Der Spracheigenschaftsmuster-Extraktionsabschnitt 10 erfaßt Akustikeigenschaftsdaten einer menschlichen Sprache aus den eingegebenen digitalen Sprachsignalen, um die Spracheigenschaftsmusterdaten zu erhalten. Weiterhin führt der Videosignal-Eingabeabschnitt 5 die digitalen Sprachsignale dem Bildeigenschaftsmuster-Extraktionsabschnitt 12 zu. Der Bildeigenschaftsmuster-Extraktionsabschnitt 12 erfaßt ein Bild eines menschlichen Lippenbereiches aus den Eingangsvideosignalen, um Bildeigenschaftsmusterdaten zu extrahieren. Der Videowiederauffindungsindex-Erzeugungsabschnitt 11 formt sämtliche Spracheigenschaftsmusterdaten, die vom Spracheigenschaftsmuster-Extraktionsabschnitt 10 zugeführt werden, und die Bildeigenschaftsmusterdaten, die vom Bildeigenschaftsmuster-Extraktionsabschnitt 12 zugeführt werden, zu Paketen in Zeitintervallen um, die mit den Videosignalen synchronisiert sind, um eine Videowiederauffindungsindexstruktur auszubilden, der Zeitinformationen und eine Musterdatenidentifikation hinzugefügt sind.
Der Komplexdatenspeicher-Verarbeitungsabschnitt 7, der vom Videoaufzeichnungs-Steuerabschnitt 2 angewiesen wird, multiplexiert die komprimierten Videosignale und Sprachsignale, sowie die Videowiederauffindungindizes, um sie auf dem Speichermedium 9, wie etwa einer DVD, im Aufzeichnungsformat aufzuzeichnen. Das Videospeichermedium 9 besteht beispielsweise aus einer optischen Platte, einer HDD (Magnetplatte), einer Speicherkarte oder einem Magnetband. Der Speichermedium-Betriebssteuerabschnitt 8 führt eine physikalische Steuerung, wie etwa eine Suche nach einer Aufzeichnungsposition auf in einem Videospeichermedium 9 durch eine Steueranweisung vom Komplexdaten-Speicherverarbeitungsabschnitt 7 durch. Die Videoaufzeichnungsvorrichtung, die in der oben beschriebenen Art und Weise aufgebaut ist, kann beispielsweise aus einer in einem Mikrocomputer enthaltenen Vorrichtung oder dedizierten LST-Schaltungen bestehen.
Im folgenden wird der Betrieb dieser Vorrichtung erläutert.
Wenn der Steuersignal-Eingabeabschnitt 1 ein Steuersignal, das eine Videoaufzeichnung anweist, von einer externen Eingabevorrichtung, wie etwa einer Fernsteuervorrichtung oder eine Tastatur empfängt, konvertiert der Abschnitt 1 das Steuersignal in ein Signal eines Formates, das auf die Vorrichtung abgestimmt ist, und gibt das Videoaufzeichnungs-Anweisungssignal an den Videoaufzeichnungs-Steuerabschnitt 2 aus. Der Videoaufzeichnungs-Steuerabschnitt 2 empfängt das Videoaufzeichnungs-Anweisungssignal und weist jeden Abschnitt, der Bestandteil der Vorrichtung ist, die Videoaufzeichnung zu beginnen, um einen Vorrichtungszustand in einen Videoaufzeichnungszustand zu verschieben.
Der Sprachsignal-Eingabeabschnitt 3 empfängt die Anweisung zum Starten der Videoaufzeichnung, führt eine A/D-Umwandlung an den Sprachsignalen, die von einer externen Vorrichtung, wie etwa einer Fernsehsignal-Abstimmvorrichtung, einem Mikrofon oder einem Videokassettenrekorder eingegeben wurden, zum Quantisieren aus und gibt die Sprachsignale nacheinander zum Sprachsignal-Codierabschnitt 4 und Spracheigenschaftsmuster-Extraktionsabschnitt 10 aus. Der Sprachsignal-Kodierabschnitt 4 führt die Sprachsignalbandkompression, wie etwa das MPEG-Verfahren an den zugeführten Sprachsignalen aus, um sie anschließend an den Komplexdatenspeicher-Verarbeitungsabschnitt 7 auszugeben.
Der Spracheigenschaftsmuster-Extraktionsabschnitt 10 empfängt die Sprachsignale, die vom Sprachsignal-Eingabeabschnitt 3 zugeführt werden, führt eine FFT (Fast-Fourier-Transformation) an den Sprachsignalen per Zeiteinheit aus, extrahiert die Akustikeigenschaftsdaten im menschlichen Sprachfrequenzband und erzeugt Vektordaten mit N (N ist eine willkürliche ganze Zahl) Komponenten, die aus akustischen Eigenschaftsgrößen bestehen, die im allgemeinen bei der Spracherkennung verwendet werden, wie etwa Kurzzeitspektraldaten oder Logarithmuswerte von Spektren im extrahierten Frequenzband und logarithmische Energie der Sprachsignale pro Zeiteinheit, die als Spracheigenschaftsmusterdaten bei der vorliegenden Erfindung verwendet werden.
Der Spracheigenschaftsmuster-Extraktionsabschnitt 10 gibt nacheinander die extrahierten und erzeugten Spracheigenschaftsmusterdaten an den Videowiederauffindungsindex-Erzeugungsabschnitt 11 aus. Der Videowiederauffindungsindex-Erzeugungsabschnitt 11 sammelt Gegenstände der Spracheigenschaftsmusterdaten, die nacheinander eingegeben wurden, pro Zeiteinheit, wodurch eine Synchronisation zwischen den Videosignalen und den Sprachsignalen ermöglicht wird, wobei die Zeitabfolge beibehalten wird, um Pakete zu bilden, und fügt Zeitinformationen zu jedem Paket hinzu. Dadurch erzeugt der Abschnitt 11 eine Indexstruktur, die einen Zugriff auf die Videosignale oder Sprachsignale unter Bezugnahme auf die Zeitinformationen unter Verwendung einer Position der Spracheigenschaftsmusterdaten ermöglicht, und gibt die erzeugten Indexstrukturpakete anschließend an den Komplexdaten-Speicherverarbeitungsabschnitt 7 aus.
In der Zwischenzeit empfängt der Videosignal-Eingangsabschnitt 5 ebenfalls die Anweisungen zum Beginn der Videoaufzeichnung, führt die A/D-Umwandlung an Videosignalen aus, die von einer externen Vorrichtung, wie etwa der Fernsehsignal-Abstimmvorrichtung, einer Kamera, oder einem Videokassettenrekorder eingegeben wurden, um eine Quantisierung durchzuführen, und führt die Videosignale als vorbestimmte Videosignale dem Videosignal-Codierabschnitt 6 und dem Bildeigenschaftsmuster-Extraktionsabschnitt 12 zu. Der Videosignal-Kodierabschnitt 6 führt eine Videosignalbandkompression, wie etwa das MPEG-Verfahren an den zugeführten digitalen Videosignalen aus, um sie anschließend dem Komplexdatenspeicher-Verarbeitungsabschnitt 7 zuzuführen.
Der Bildeigenschaftsmuster-Extraktionsabschnitt 12 empfängt die Videosignale vom Videosignal-Eingabeabschnitt 5, erfaßt einen Teil des Bereiches der menschlichen Lippen und extrahiert das Lippenbereichsbild für jedes Vollbild der eingegebenen Videosignale unter Verwendung der Lippeneigenschafts-Standardmuster, das aus den Lippenbereichsbildern einer Person abgerufen wird, die zuvor im Bildeigenschaftsmuster-Extraktionsabschnitt 12 gespeichert wurden. Um den Lippenbereich zu erfassen und das Lippenbereichsbild zu extrahieren, wird als Bildeigenschaftsmuster ein Farbverteilungshistogramm im Farbraum im Lippenbereich verwendet, und als Farbverteilung im Bildraum wird eine Farbinformation, wie etwa Farbdurchschnittsdaten und Luminanzdurchschnittsdaten in jedem Block verwendet, den man erhält, indem man das Lippenbereichsbild in n × m Bildblöcke teilt (n und m sind willkürliche natürliche Zahlen, n ist die Teilungszahl auf der x-Achse und m ist die Teilungszahl auf der y-Achse). Unter Berücksichtigung, daß weiterhin eine Größe eines Lippenbereiches in einem eingegebenen Bildrahmen variiert, wird eine Größe des Lippenbereichsbildes variabel gestaltet, um den Lippenbereich zu erfassen und das Lippenbereichsbild zu extrahieren.
Wenn der Bildeigenschaftsmuster-Extraktionsabschnitt 12 den Lippenbereich aus dem eingegebenen Bildrahmen erfaßt und extrahiert, extrahiert der Abschnitt 12 weiterhin die Bildeigenschaftsmusterdaten zum Zeitpunkt der menschlichen Lautbildung aus dem extrahierten Lippenbereichsbild.
Als Bildeigenschaftsmuster werden Informationen verwendet, die für die Form einer Lippe repräsentativ sind. Ein Beispiel sind Vektordaten mit Komponenten, die der Zahl der dividierten Bildblöcke entsprechen, wobei jede Komponente aus Farbdurchschnittsdaten oder Luminanzdurchschnittsdaten jedes Bildblocks besteht, den man beim Extrahieren des Lippenbereichsbildes verwendet, den man erhält, indem ein Lippenbereichsbildraum in eine willkürliche Zahl von Blöcken geteilt wird. Ein weiteres Beispiel sind Vektordaten mit vier numerischen Komponenten, die man erhält, indem weiterhin lediglich ein Lippenbereich aus Lippenbereichsbilddaten extrahiert wird, die als Bildeigenschaft extrahiert wurden, indem beispielsweise ein Farbfilter verwendet wird, und ein entsprechender relativer Abstand zweier Punkte, die jeweils eine Lippenaußengrenze in vertikaler Richtung (oben und unten) umschreiben, und zweier Punkte, die jeweils die Lippenaußengrenze in horizontaler Richtung umschreiben, jeweils aus einem Schwerpunktsbereich des Lippenabschnittes berechnet wird.
Der Spracheigenschaftsmuster-Extraktionsabschnitt 10 gibt anschließend die extrahierten Spracheigenschaftsmusterdaten an den Videowiederauffindungsindex-Erzeugungsabschnitt 11 aus, und der Bildeigenschaftsmuster-Extraktionsabschnitt 12 gibt die extrahierten Bildeigenschaftsmusterdaten an den Videowiederauffindungsindex-Erzeugungsabschnitt 11 aus. Der Videowiederauffindungsindex- Erzeugungsabschnitt 11 sammelt jeweils Gegenstände der Spracheigenschaftsmusterdaten und der Bildeigenschaftsmusterdaten, die jeweils anschließend eingegeben werden, per Zeiteinheit, wodurch eine Synchronisation zwischen den Videosignalen und den Sprachsignalen unter Beibehalten der Zeitabfolge ermöglicht wird, um sie zu Paketen für jeden Typ von Eigenschaftsmusterdaten zu formen, und fügt Zeitinformationen und eine Identifikation, die den Typ der Eigenschaftsmusterdaten kennzeichnet, zu jedem Paket hinzu. Dadurch erzeugt der Abschnitt 11 ein Indexstrukturpaket, das einen Zugriff auf die Videosignale und die Sprachsignale unter Bezugnahme auf die Zeitinformationen unter Verwendung der Positionen der Spracheigenschaftsmusterdaten und der Bildeigenschaftsdaten ermöglicht, und gibt das erzeugte Indexstrukturpaket anschließend an den Komplexdaten-Speicherverarbeitungsabschnitt 7 aus.
Der Komplexdaten-Speicherverarbeitungsabschnitt 7 empfängt die Anweisung zum Beginn der Videoaufzeichnung, gibt das Steuersignal zum Speichermedium-Betriebssteuerabschnitt 8 vor dem Aufzeichnungsbeginn der Daten aus und hält eine Datenaufzeichnungsposition im Speichermedium 9. Der Komplexdaten-Speicherverarbeitungsabschnitt 7 empfängt die Videosignale und Sprachsignale, die jeweils der Signalbandkompression unterzogen wurden, und die Indexstrukturpakete, die im Videowiederauffindungsindex-Erzeugungsabschnitt 11 erzeugt wurden, multiplexiert die Videosignale, die Sprachsignale und die Indexstrukturpaketdaten in einem vorbestimmten Format, wie etwa MPEG, gibt das Steuersignal an den Speichermediums-Betriebssteuerabschnitt 8 aus und zeichnet die multiplexierten Daten an einer vorbestimmten Position auf dem Videospeichermedium 9, wie etwa der DVD, gemäß einem Aufzeichnungsformat auf.
Die Abfolge der Vorgänge, wie sie oben beschrieben wurde, wird vom Zeitpunkt, ab dem Videoaufzeichnung begonnen wurde, wiederholt, bis der Videoaufzeichnungs-Steuerabschnitt 2 den Ablauf der Videoaufzeichnungszeit erfaßt, die Videosignaleingabe von außen beendet wurde, ein Videoaufzeichnungs-Stopbefehl durch das Steuersignal von außen angewiesen wird, oder ein Fehler von einem Abschnitt innerhalb der Vorrichtung erfaßt wird. Wenn der Videoaufzeichnungs-Steuerabschnitt 2 einen der oben erwähnten Zustände erfaßt, weist der Abschnitt 2 jeden Abschnitt, der Bestandteil der Vorrichtung ist, an, die Videoaufzeichnung anzuhalten, verschiebt den Vorrichtungszustand in den Anfangszustand und beendet dadurch den Vorgang.
Somit werden die Bildeigenschaftsmusterdaten zum Zeitpunkt der menschlichen Lautbildung aus den Videosignalen extrahiert und zusammen mit den Spracheigenschaftsmusterdaten verwendet, um die Videowiederauffindungsindizes zu erzeugen. Daher ist es möglich, die Spracherkennungsgenauigkeit zu verbessern, wenn sich die Erkennungsgenauigkeit infolge von BGM (Hintergrundmusik) und Umgebungsgeräuschen verschlechtert.
(Sechste Ausführungsform)
Eine Videowiedergabevorrichtung gemäß einer sechsten Ausführungsform führt eine Videoszenenwiederauffindung mit einem Schlüsselwort und eine Schnellwiedergabe unter Verwendung der Videowiederauffindungsindizes durch, die mit dem Verfahren gespeichert werden, wie es bei der vierten Ausführungsform oder der fünften Ausführungsform beschrieben ist.
12 zeigt einen Aufbau der Videowiedergabevorrichtung gemäß der sechsten Ausführungsform. Der Steuersignal-Eingabeabschnitt 1 empfängt Signale, wie etwa das Videowiedergabe-Anweisungssteuersignal, das von außen eingegeben wird. Der Videowiedergabe-Steuerabschnitt 13 gibt ein Aufzeichnungsstart- und Haltanweisungssignal an jeden Block, der Bestandteil der Vorrichtung ist, entsprechend der Arten der empfangenen Steuersignale aus. Das Videospeichermedium 9 speichert Videosignale und Sprachsignale, einschließlich der Videowiederauffindungsindizes, die mit dem Verfahren erzeugt werden, wie es bei der vierten oder fünften Ausführungsform beschrieben ist, in einem vorbestimmten Aufzeichnungsformat, wie etwa dem einer DVD. Es kann möglich sein, als Videospeichermedium 9 beispielsweise eine optische Platte, eine HDD (magnetische Diskette), eine Speicherkarte oder ein Magnetband zu verwenden. Der Komplexdaten-Leseverarbeitungsabschnitt 14 liest das Videosignal und das Sprachsignal von einer Zeitposition, die eine Videowiedergabestelle gemäß dem Aufzeichnungsformat auf dem Videospeichermedium 9 markiert, durch eine Anweisung vom Videowiedergabe-Steuerabschnitt 13, und liest weiterhin den Videowiederauffindungsindex. Zu diesem Zeitpunkt führt der Speichermedium-Steuerabschnitt 8 eine physikalische Steuerung, wie etwa eine Suche nach einer Position, an der zu lesende Daten aufgezeichnet sind, durch eine Steueranweisung vom Komplexdaten-Leseverarbeitungsabschnitt 7 durch.
Der Sprachsignal-Dekodierabschnitt 15 dekomprimiert ein Signalband der Sprachsignale, die einer Signalbandkompression, wie etwa dem MPEG-Verfahren unterzogen und vom Komplexdaten-Leseverarbeitungsabschnitt 14 zugeführt wurden. Der Sprachsignal-Ausgabeabschnitt 16 führt eine D/A-Umwandlung der Sprachsignale aus, die der Signalbanddekompression unterzogen wurden, um sie an eine externe Stelle auszugeben. Ein weiterer Videosignal-Decodierabschnitt 17 dekomprimiert ein Signalband der Videosignale, die einer Signalbandkompression, wie etwa dem MPEG-Verfahren unterzogen und vom Komplexdaten-Leseverarbeitungsabschnitt 14 zugeführt wurden. Der Videosignal-Ausgabeabschnitt 18 führt eine D/A-Umwandlung an den Sprachsignalen durch, die der Signalbanddekompression unterzogen wurden, um sie an eine externe Stelle auszugeben.
Der Videowiederauffindungsindex-Ausbildungsabschnitt 21 bildet eine Videowiederauffindungsindextabelle unter Verwendung der Videowiederauffindungsindexdaten aus, die vom Komplexdaten-Leseverarbeitungsabschnitt 14 zugeführt werden. Die Speicherschaltung 23 speichert vorübergehend die ausgebildete Indextabelle.
In der Zwischenzeit empfängt der Schlüsselwort-Eingabeabschnitt 19 ein Schlüsselwort, das von außen eingegeben wurde. Der Schlüsselwortmuster-Umwandlungsabschnitt 20 wandelt das eingegebene Schlüsselwort in eine Phonemcodesequenz um und konvertiert weiterhin die Sequenz zu Musterdaten, die bei der Musterzuweisung verwendet werden. Der Schlüsselwortmuster-Zuordnungsabschnitt 22 führt die Musterzuweisung der Zeitabfolge der Eigenschaftsmusterdaten des Schlüsselwortes mit der Zeitabfolge der Eigenschaftsmusterdaten in der Videowiederauffindungsindextabelle durch, die aus der Speischerschaltung 23 gelesen wird. Die Videowiedergabevorrichtung, wie sie oben beschrieben wurde, besteht beispielsweise aus einer in einem Mikrocomputer enthaltenen Vorrichtung oder dedizierten LSI-Schaltungen.
Im folgenden wird der Betrieb dieser Vorrichtung erläutert.
Wenn der Steuersignal-Eingabeabschnitt 1 ein Steuersignal, das eine Videowiedergabe anweist, von einer externen Eingabevorrichtung, wie etwa einer Fernsteuervorrichtung oder einer Tastatur empfängt, konvertiert der Abschnitt 1 das Steuersignal in ein Format, das für die Vorrichtung angepaßt ist, und gibt ein Videowiedergabe-Anweisungssignal an den Videowiedergabe-Steuerabschnitt 13 aus. Der Videowiedergabe-Steuerabschnitt 13 empfängt das Videowiedergabe-Anweisungssignal und weist den Komplexdaten-Leseverarbeitungsabschnitt 14 beispielsweise mit den Zeitinformationen, die für einen Kopf der Videosignale kennzeichnend sind, an, eine Videowiedergabe zu beginnen.
Der Komplexdaten-Leseverarbeitungsabschnitt 14 empfängt die Anweisung für einen Beginn der Videowiedergabe und bestimmt unter Verwendung der angewiesenen Zeitinformationen entsprechende Lesepositionen der Videosignale und der Sprachsignale, die jeweils zuvor der Signalbanddekompression, wie etwa dem MPEG-Verfahren unterzogen wurden, die im Videospeichermedium 9, wie etwa der DVD in einem vorbestimmten Aufzeichnungsformat gespeichert sind. Der Abschnitt 14 gibt ein Steuersignal, das beispielsweise eine Suche nach entsprechenden Lesepositionen der Videosignale und der Sprachsignale anweist, an den Speichermedium-Betriebssteuerabschnitt 8 aus und liest die Videosignale sowie die Sprachsignale vom Videospeichermedium 9 unter Beibehaltung der Zeitsynchronisation.
Die Videosignale, die durch den Komplexdaten-Leseverarbeitungsabschnitt 14 gelesen werden, werden dem Videosignal-Dekodierabschnitt 17 zugeführt. Der Abschnitt 17 führt die Signalbandkompression, wie etwa das MPEG-Verfahren, an den zugeführten Signalen aus, um sie dem Videosignal-Ausgabeabschnitt 18 zuzuführen. Der Abschnitt 18 führt eine D/A-Umwandlung an den zugeführten Signalen aus, um sie beispielsweise in analoge NTSC-Signale umzuwandeln, und gibt die Signale an eine externe Vorrichtung, wie etwa einen Fernsehmonitor aus.
In ähnlicher Weise werden die Sprachsignale, die durch den Komplexdaten-Leseverarbeitungsabschnitt 14 gelesen werden, dem Sprachsignal-Decodierabschnitt 15 zugeführt. Der Abschnitt 15 führt die Signalbanddekompression, wie etwa das MPEG-Verfahren an den zugeführten Signalen aus, um sie dem Sprachsignal-Ausgabeabschnitt 16 zuzuführen. Der Abschnitt 16 führt eine D/A-Umwandlung an den zugeführten Signalen aus, um sie in analoge Sprachsignale umzuwandeln, und gibt die Signale an eine externe Vorrichtung, wie etwa einen Lautsprecher aus.
Wenn der Steuersignal-Eingabeabschnitt 1 das Steuersignal, das eine Videowiedergabe anweist, von eine externen Eingabevorrichtung, wie etwa einer Fernsteuervorrichtung oder einer Tastatur empfängt, konvertiert der Abschnitt 1 das Steuer signal in das Signal eines Formates, das auf die Vorrichtung angepaßt ist, und gibt ein Videowiederauffindungs-Anweisungssignal an den Videowiedergabe-Steuerabschnitt 13 aus.
Der Videowiedergabe-Steuerabschnitt 13 empfängt die Videowiederauffindungs-Anweisung und gibt ein Steuersignal, das die Eingabe eines Schlüsselwortes anweist, an den Schlüsselwort-Eingabeabschnitt 19 aus.
Wenn der Schlüsselwort-Eingabeabschnitt 19 das Schlüsselwort empfängt, das von der externen Eingabevorrichtung, wie etwa einer Tastatur eingegeben wurde, unterrichtet der Abschnitt 19 den Videowiedergabe-Steuerabschnitt 13, daß die Eingabe des Schlüsselwortes abgeschlossen ist, und gibt die eingegebene Schlüsselwortinformation an den Schlüsselwortmuster-Umwandlungsabschnitt 20 aus.
Der Videowiedergabe-Steuerabschnitt 13 empfängt die Nachricht, daß die Schlüsselworteingabe erfolgt ist, und initialisiert eine Schlüsselwort-Erfassungspositions-Verwaltungstabelle, die sich innerhalb des Videowiedergabe-Steuerabschnittes 13 befindet, um Zeitinformationen zu verwalten, die eine erfaßte Schlüsselwortposition in Videosignalen kennzeichnen. Anschließend gibt der Abschnitt 13 eine Anweisung zum Lesen der Videowiederauffindungsindexdaten an den Komplexdaten-Leseverarbeitungsabschnitt 14 aus, und gibt zudem eine weitere Anweisung für den Beginn der Musterzuweisung an den Schlüsselwortmuster-Zuordnungsabschnitt 22 aus. Wenn als Videospeichermedium 9 ein Speichermedium mit schneller Zugriffszeit verwendet wird, wie etwa eine Speicherkarte, eine HDD oder eine optische Platte, wird zu diesem Zeitpunkt die Wiedergabe fortgesetzt, während die normale Videowiedergabe sofort angehalten wird, wenn als Speichermedium 9 ein Speichermedium ohne schnelle Zugriffszeit verwendet wird, wie etwa ein Magnetband.
Der Schlüsselwortmuster-Umwandlungsabschnitt 20 empfängt die Schlüsselwortinformationen, wandelt das Schlüsselwort in eine Phonemcodesequenz um und konvertiert zudem die Phonemcodesequenz des Schlüsselwortes in die Zeitabfolge der Spracheigenschaftsmusterdaten entsprechend der Teilwörter, die das Schlüsselwort bilden, unter Bezugnahme auf das Standardsprachmuster, das aus der Zeitabfolge der Eigenschaftsmusterdaten jedes Teilwortes besteht, das zuvor im Abschnitt 20 gespeichert wurde, um sie an den Schlüsselwortmuster- Zuordnungsabschnitt 22 auszugeben.
Hier sind die Daten, die als Standardsprachmuster verwendet werden, und die Zeitabfolge der Spracheigenschaftsmusterdaten wie auch die Spracheigenschaftsmusterdaten, die bei der oben erwähnten vierten Ausführungsform verwendet werden, die Zeitabfolge der Vektordaten mit N (N ist eine willkürliche natürliche Zahl) Bestandteilen, die aus Akustikeigenschaftsgrößen bestehen, die im allgemeinen bei der Spracherkennungsverarbeitung verwendet werden, wie etwa Kurzzeitspektraldaten oder der Logarithmuswert von Spektren in einem Frequenzband der menschlichen Stimme und die logarithmische Energie der Sprachsignale pro Zeiteinheit.
In der Zwischenzeit empfängt der Komplexdaten-Leseverarbeitungsabschnitt 14 die Anweisung zum Lesen der Videowiederauffindungsindexdaten vom Videowiedergabe-Steuerabschnitt 13, gibt ein Steuersignal, das beispielsweise die Suche nach einer Leseposition der Videowiederauffindungsindexdaten und ein Lesen mit hoher Rate anweist, an den Speichermedium-Betriebssteuerabschnitt 8 aus, liest die Videowiederauffindungsindexdaten, die im Videospeichermedium 9 im vorbestimmten Aufzeichnungsformat gespeichert sind, mit der hohen Rate und gibt die gelesenen Videowiederauffindungsindexdaten anschließend an den Videowiederauffindungsindex-Erzeugungsabschnitt 21 aus.
Die Videowiederauffindungsindexdaten werden aus Paketen pro vorbestimmte Zeiteinheit mit dem Verfahren hergestellt, wie es bei der vierten Ausführungsform beschrieben ist, und sind die Zeitabfolgedaten, die aus Spracheigenschaftsmusterdaten, Bildeigenschaftsmusterdaten oder der Phonemähnlichkeitstabelle bestehen, die man durch Zuordnen der Zeitabfolgedaten für jedes Teilwort erhält, wobei ein Typ der Indexdaten und die Zeitinformation, die synchron mit dem Videosignal und dem Sprachsignal ist, zu jedem Paket hinzugefügt wird.
Der Videowiederauffindungsindex-Erzeugungsabschnitt 21 stellt die Videowiederauffindungsindexdaten, die vom Komplexdaten-Leseverarbeitungsabschnitt 14 ausgegeben werden, als das oben erwähnte Einheitspaket wieder her und schreibt das wiederhergestellte Indexstrukturpaket in die Speicherschaltung 23, die einen FIFO- (fast-in/fast-out) Speicheraufbau oder einen Zirkulationsspeicher hat, entsprechend einer Zeitlänge, die ausreichend ist, um ein Schlüsselwort zuzuordnen, für jeden Typ der Indexdaten unter Beibehaltung der Zeitabfolge.
Immer wenn der Schlüsselwort-Zuordnungsabschnitt 22 das Indexstrukturpaket aus der Temporärspeicherschaltung 23 liest und verwirft, schreibt der Videowiederauffindungsindex-Erzeugungsabschnitt 21 anschließend ein neu ausgegebenes und ausgebildetes Indexstrukturpaket in einen verfügbaren Bereich in der Speicherschaltung 23. Wenn darüber hinaus der Videowiederauffindungsindex-Erzeugungsabschnitt 21 einen abschließenden Teil der Indexdaten erfaßt, benachrichtigt der Abschnitt 21 den Schlüsselwortmuster-Zuordnungsabschnitt 22, daß das Lesen des Index' abgeschlossen ist.
In der Zwischenzeit empfängt der Schlüsselwortmuster-Zuordnungsabschnitt 22 die Anweisung zum Beginn der Musterzuordnung vom Videowiederherstellungs-Steuerabschnitt 13 und initialisiert die interne Verarbeitungs- und Speicherschaltung 23. Anschließend empfängt der Abschnitt 22 die Zeitabfolge der Spracheigenschaftsmusterdaten des Schlüsselwortes, das aus dem Schlüsselwortmuster-Umwandlungsabschnitt 20 ausgegeben wurde, und ordnet die Zeitabfolge der Spracheigenschaftsmusterdaten im Indexstrukturpaket, die in zeitlicher Reihenfolge im Speicherabschnitt 23 durch den Videowiederauffindungsindex-Erzeugungsabschnitt 21 unter Beibehaltung eines ausreichenden Zeitintervalls für die Musterzuordnung angeordnet wurden, der Zeitabfolge der Spracheigenschaftsmusterdaten des empfangenen Schlüsselwortes zu.
Bei der Musterzuordnung erweitert oder verringert der Schlüsselwortmuster-Zuordnungsabschnitt 22 ein Zuordnungsintervall beispielsweise unter Verwendung des DP-Zuordnungsverfahrens innerhalb eines vorbestimmten Zeitintervalls in der Zeitabfolge der Spracheigenschaftsmusterdaten im Indexstrukturpaket, das in zeitlicher Folge im Speicherabschnitt 23 gespeichert ist, und erhält ein Zuordnungsintervall als erfaßtes Intervall des Schlüsselwortes, das einen vorbestimmten Ähnlichkeitsgrad erzielt, der eine Summe der Ähnlichkeiten der jeweiligen Spracheigenschaftsmusterdaten ist, wenn die Zeitabfolge der Spracheigenschaftsmusterdaten als Schlüsselwort ausgebildet wird.
Beim Zuordnen der Muster verwendet der Schlüsselwortmuster-Zuordnungsabschnitt 22 die Zeitabfolge-Musterzuordnung, wie etwa das DP-Zuordnungsverfahren, und wiederholt die Zuordnung, während er das zugeordnete Indexstrukturpaket in der Speicherschaltung 23 nacheinander liest und für eine Aktualisierung verwirft. Immer wenn der Abschnitt 22 den vorbestimmten Ähnlichkeitsgrad bei einem wiederholten Zuordnungsschritt erhält, informiert der Abschnitt 22 den Videowiedergabe-Steuerabschnitt 13 von der Zeitinformation als Schlüsselwortdaten-Erfassungsposition, die im Indexstrukturpaket mit ersten Spracheigenschaftsmusterdaten in zeitlicher Abfolge der Sprecheigenschaftsmusterdaten enthalten ist. Für den Fall, bei dem der Schlüsselwortmuster-Zuordnungsabschnitt 22 die Nachricht, daß das Lesen des Index' beendet ist, vom Videowiederauffindungsindex-Ausbildungsabschnitt 21 empfängt, beendet der Abschnitt 22 zudem die Zuordnung der Spracheigenschaftsmusterdaten im Indexstrukturpaket, das in der Speicherschaltung 23 übrig ist, und informiert den Videowiedergabe-Steuerabschnitt 13, daß die Schlüsselwortzuordnung abgeschlossen ist.
Wenn der Videowiedergabe-Steuerabschnitt 13 die ersten Informationen, die die Schlüsselwort-Erfassungsposition kennzeichnen, vom Schlüsselwortmuster-Zuordnungsabschnitt 22 empfängt, speichert der Abschnitt 13 einmal die empfangenen Zeitinformationen an einem Kopf der Schlüsselwort-Erfassungspositions-Verwaltungstabelle, die intern gespeichert ist, und gibt eine Anweisung zur Videowiedergabe auf der Basis der empfangenen Zeitinformationen an den Komplexdaten-Leseverarbeitungsabschnitt 14 aus. Anschließend führt die Vorrichtung dieselbe Verarbeitung wie bei der herkömmlichen Videowiedergabe aus, und gibt die Videosignale sowie die Sprachsignale von einer Position der Zeitinformationen, die die Schlüsselwort-Erfassungsposition kennzeichnen, an eine externe Vorrichtung aus.
Wenn der Videowiedergabe-Steuerabschnitt 13 zweite und weitere Zeitinformationen empfängt, die die Schlüsselwort-Erfassungsposition markieren, speichert der Abschnitt 13 nacheinander die empfangenen Zeitinformationen von einer zweiten Position von der Kopfposition in der Schlüsselwort-Erfassungspositions-Verwaltungstabelle. Nur in dem Fall, bei dem eine Anweisung für die Wiedergabe eines nächsten Kandidaten von außen in den Abschnitt 13 durch den Signaleingabeabschnitt 1 eingegeben wird, ruft der Abschnitt 13 anschließend die Zeitinformationen nacheinander aus der Schlüsselwort-Erfassungspositions-Verwaltungstabelle ab, und gibt die Anweisung für die Videowiedergabe ab einem bestimmten Zeitpunkt an den Komplexdaten-Leseverarbeitungsabschnitt 14 aus. Anschließend führt die Vorrichtung denselben Vorgang wie bei der normalen Videowiedergabe aus und gibt die Videosignale sowie die Sprachsignale ab einer Position der Zeitinformationen, die eine Schlüsselwort-Erfassungsposition markieren, aus der Vorrichtung aus.
Der Videowiedergabe-Steuerabschnitt 13 behält die Inhalte der Schlüsselwort-Erfassungspositions-Verwaltungstabelle selbst nach dem Erhalt der Nachricht vom Schlüsselwortmuster-Zuordnungsabschnitt 22 bei, daß die Schlüsselwortzuordnung beendet ist. Wannimmer er eine nächste Anweisung für die Wiedergabe eines Kandidaten von außen nach Beendigung des Schlüsselwort-Zuordnungsvorgangs empfängt, ist der Abschnitt 13 in der Lage, die Zeitinformationen nacheinander aus der Schlüsselwort-Erfassungszeit-Verwaltungstabelle abzurufen und die Anweisung für die Videowiedergabe ab der angewiesenen Zeitposition an den Komplexdaten-Leseverarbeitungsabschnitt 14 auszugeben. Die Schlüsselwort-Erfassungspositions-Verwaltungstabelle wird initialisiert, wenn ein neues Schlüsselwort von außen für eine nächste Videowiederauffindungs-Anweisung von außen eingegeben wird.
Diese Vorrichtung wiederholt die oben beschriebene Sequenz von Vorgängen immer dann, wenn sie eine Videowiederauffindungs-Anweisung mit einem Schlüsselwort von außen empfängt, und ist dadurch in der Lage, eine Videoszene festzulegen, indem Sprachinformationen eines Videoprogramms einem Schlüsselwort zugeordnet werden, und eine Videoszene ab einer bestimmten Stelle schnell wiederzugeben.
Bei der obigen Erläuterung sind die Indexstruktur-Paketdaten die Zeitabfolge der Spracheigenschaftsmusterdaten. Weiterhin kann es möglich sein, einen Aufbau einzurichten, bei dem der Schlüsselwort-Zuordnungsabschnitt 22 eine Musterzuordnung unter Verwendung einer Teilwortsequenz eines eingegebenen Schlüsselwortes und der Ähnlichkeit auf Teilwortbasis in der oben erwähnten Phonemähnlichkeitstabelle ausführt. In diesem Fall konvertiert der Schlüsselwortmuster-Umwandlungsabschnitt 20 ein Schlüsselwort, das vom Schlüsselwort-Eingabeabschnitt 19 eingegeben wird, in eine Phonemcodesequenz des Schlüsselwortes, um es an den Schlüsselwortmuster-Zuordnungsabschnitt 22 auszugeben.
Wenn der Schlüsselwortmuster-Zuordnungsabschnitt 22 eine Anweisung zum Beginn der Musterzuordnung vom Videowiedergabe-Steuerabschnitt 13 empfängt, initialisiert der Abschnitt 22 den internen Verarbeitungs- und Speicherabschnitt 23. Anschließend empfängt der Abschnitt 22 die Phonemcodesequenz des Schlüsselwortes, das vom Schlüsselwortmuster-Umwandlungsabschnitt 20 ausgegeben wurde, und ordnet die Zeitabfolge der Phonemähnlichkeits-Tabellendaten im Indexstrukturpaket, das in zeitlicher Reihenfolge im Speichermedium 23 gespeichert ist, durch den Videowiederauffindungsindex-Ausbildungsabschnitt 21 unter Beibehaltung eines ausreichenden Zeitintervalls für die Musterzuordnung der Zeitabfolge der Phonemcodesequenz des empfangenen Schlüsselwortes zu.
Bei der Musterzuordnung erweitert oder verringert der Schlüsselwortmuster-Zuordnungsabschnitt 22 ein Zuordnungsintervall beispielsweise mit Hilfe einer Zeitstreckung und -verkürzung, die beim DP-Zuordnungsverfahren angewendet wird, innerhalb eines vorbestimmten Zeitintervalls in der Zeitabfolge der Phonemähnlichkeits-Tabellendaten im Indexstrukturpaket, das in zeitlicher Reihenfolge im Speicherabschnitt 23 gespeichert ist, und erhält ein Zuordnungsintervall als erfaßtes Intervall des Schlüsselwortes, das zu einem vorbestimmten Ähnlichkeitsgrad führt, der die Summe der entsprechenden Teilwörter ist, wenn die Zeitabfolge der Phonemsequenz als Schlüsselwort ausgebildet wird.
Das heißt der Schlüsselwortmuster-Zuordnungsabschnitt 22 ruft Indexstrukturpakete, die jeweils eine ausreichende Intervallänge für die Musterzuordnung haben, aus der Phonemähnlichkeitstabelle mit derselben Zeitlänge wie die aufgezeichnete Videosequenz ab, und ordnet Spracheigenschaftsmuster-Dateneinheiten (mit Anfangszeit, Endzeit und Ähnlichkeit) der abgerufenen Indexstrukturpakete in zeitlicher Reihenfolge an. Spracheigenschaftsmusterdaten, die der Zahl sämtlicher Standardsprachmuster (Teilwörter) entsprechen, werden auf derselben Zeitachse in einem Intervall in der Phonemähnlichkeitstabelle angeordnet. Die Spalten der Spracheigenschaftsmusterdaten werden nacheinander entsprechend der Zahl der Intervalle mit einer ausreichenden Intervallänge für die Musterzuordnung angeordnet. Der Schlüsselwortmuster-Zuordnungsabschnitt 22 ordnet die Zeitfolge der Spracheigenschaftsmusterdaten des auf diese Weise erhaltenen Videowiederauffindungsindex' der Zeitabfolge der Spracheigenschaftsmusterdaten zu, die das Schlüsselwort bilden, während er ein Zuordnungsintervall unter Verwendung des DP-Zuordnungsverfahrens verlängert oder verkürzt, und stellt ein Zuordnungsintervall mit einer Ähnlichkeit zwischen beiden Zeitabfolgen, die größer ist als ein bestimmter Pegel, als zu erfassendes Intervall des Schlüsselwortes ein. Die Ähnlichkeit zwischen beiden Zeitfolgen erhält man, indem Spracheigenschaftsmusterdaten des Indexstrukturpaketes in der Reihenfolge der Teilwortsequenz abgerufen werden, die das Schlüsselwort bilden, und durch Addieren von Ähnlichkeiten der abgerufenen Spracheigenschaftsmusterdaten.
Die Anfangszeit des Kopfteilwortes im Schlüsselwort-Erfassungsintervall wird dem Videowiedergabe-Steuerabschnitt 13 jedesmal als Schlüsselwort-Erfassungsposition bekanntgegeben.
Da es gemäß dem Musterzuordnungsverfahren, wie es oben beschrieben wurde, nicht erforderlich ist, eine Zuordnung zwischen den Vektordaten, die aus Akustikeigenschaftsbestandteilen, wie etwa der Zeitabfolge der Spracheigenschaftsmusterdaten bestehen, bei der Musterzuordnung auszuführen, ist es möglich, die Zuordnungszeit in großem Maße zu verringern.
Da weiterhin der Videowiederauffindungsindex nicht in einer unveränderlichen Form entsprechend dem registrierten Schlüsselwort gehalten wird, sondern in einer vorübergehenden Form einer Phonemähnlichkeitstabelle einer eingegebenen Sprache gespeichert wird, ist es nicht notwendig, Wiederauffindungsschlüsselwörter im voraus zu speichern und eine Videosequenz, die genau der Suchanfrage entspricht, selbst dann wiederzufinden, wenn der Benutzer ein unbestimmtes Schlüsselwort eingibt.
Weiterhin besteht die Möglichkeit, einen Aufbau einzurichten, bei dem der Schlüsselwortmuster-Umwandlungsabschnitt ein eingegebenes Schlüsselwort in Bildeigenschaftsmusterdaten umwandelt und der oben erwähnte Schlüsselwortmuster-Zuordnungsabschnitt die Bildeigenschaftsmusterdaten zum Zeitpunkt der menschlichen Lautbildung, wie es bei der fünften Ausführungsform beschrieben wurde, als Videowiederauffindungsindex verwendet, der zuvor auf einem Speichermedium gespeichert wurde, und die oben erwähnten Bilddaten Bildeigenschaftsmusterdaten eines eingegebenen Schlüsselwortes in folgender Art zuordnet.
In diesem Fall wandelt der Schlüsselwort-Umwandlungsabschnitt 20 die Schlüsselwortinformationen, die vom Schlüsselwort-Eingabeabschnitt 19 eingegeben wurden, in eine Phonemsequenz um und konvertiert weiterhin die Phonemcodesequenz des Schlüsselwortes in eine Zeitabfolge von Spracheigenschaftsmusterdaten und eine Zeitabfolge von Bildeigenschaftsmusterdaten, die jeweils Teilwörtern entsprechen, die das Schlüsselwort bilden, unter Bezugnahme auf die Phonemstandardmuster, die aus der Zeitabfolge der Spracheigenschaftsmusterdaten der entsprechenden Teilwörter bestehen, und Bildeigenschaftsmusterdaten, die aus Bildeigenschaftsmusterdaten der entsprechenden ausgesprochenen Teilwörter bestehen, die jeweils im voraus im Abschnitt 20 gespeichert wurden, um sie an den Schlüsselwortmuster-Zuordnungsabschnitt 22 auszugeben.
Der Schlüsselwortmuster-Zuordnungsabschnitt 22 empfängt die Anweisung zum Beginn der Musterzuordnung vom Videowiedergabe-Steuerabschnitt 13 und initialisiert die internen Verarbeitungs- und Speicherschaltung 23. Anschließend empfängt der Abschnitt 22 die Zeitabfolge der Spracheigenschaftsmusterdaten und die Zeitabfolge der Bildeigenschaftsmusterdaten des Schlüsselwortes, das aus dem Schlüsselwortmuster-Umwandlungsabschnitt 20 ausgegeben wurde, und führt die Musterzuordnung unter Verwendung der Zeitabfolgedaten in Abhängigkeit der Indexstrukturpakete in der Speicherschaltung 23 für jeden Datentyp aus. Die Speicherschaltung 23 speichert die Indexstrukturpakete, die aus den Spracheigenschaftsmusterdaten bestehen, und die Indexstrukturpakete, die aus den Bildeigenschaftsmusterdaten bestehen, die jeweils in zeitlicher Reihenfolge durch den Videowiederauffindungsindex-Ausbildungsabschnitt 21 angeordnet wurden.
Bei jeder Musterzuordnung erweitert oder verringert der Schlüsselwortmuster-Ausbildungsabschnitt 22 ein Zuordnungsintervall beispielsweise unter Verwendung das DP-Zuordnungsverfahrens innerhalb eines vorbestimmten Zeitintervalls in der Zeitabfolge der entsprechenden Eigenschaftsmustermusterdaten in den Indexstrukturpaketen, die in zeitlicher Reihenfolge im Speicherabschnitt 23 gespeichert sind, um die Musterzuordnung der Zeitabfolge der entsprechenden Eigenschaftsmusterdaten des Schlüsselworts auszuführen, und erhält eine Summe von Ähnlichkeiten zwischen den Eigenschaftsmusterdaten der entsprechenden Teilwörter für jeden Datentyp für die Einstellung auf eine entsprechende Schlüsselwortähnlichkeit.
Der Schlüsselwortmuster-Zuordnungsabschnitt 22 stellt als erfaßtes Intervall des Schlüsselwortes ein Zuordnungsintervall ein, das einen vorbestimmten Ähnlichkeitsgrad erzeugt, der eine Summe der auf diese Weise erhaltenen Schlüsselwortähnlichkeit beim Zuordnen der Zeitabfolge der Spracheigenschaftsmusterdaten und der Schlüsselwortähnlichkeit beim Zuordnen der Zeitabfolge der Bildeigenschaftsmusterdaten ist. Anschließend informiert der Abschnitt 22 jedesmal den Videowiedergabe-Steuerabschnitt 13 über die Zeitinformation als Schlüsselwortdaten-Erfassungsposition, die im Indexstrukturpaket mit den ersten Spracheigenschaftsmusterdaten in der Zeitabfolge der Spracheigenschaftsmusterdaten im erfaßten Intervall enthalten ist.
Auf diese Weise wird die Musterzuordnung unter Verwendung sowohl der Spracheigenschaftsmusterdaten von einer Sprache als auch der Bildeigenschaftsmusterdaten von einer Videosequenz durchgeführt. Selbst im Fall einer verringerten Genauigkeit der Akustikeigenschaftsdaten, die die Sprecheigenschaftsmusterdaten im Indexstrukturpaket bilden, infolge von BGM (Hintergrundmusik) oder Rauschen in einem aufgezeichneten Videoprogramm, ist es somit möglich, eine starke Verringerung der Genauigkeit bei der Schlüsselworterfassung zu verhindern, indem die Bildeigenschaftsmusterdaten verwendet werden.
Es besteht weiterhin die Möglichkeit einen Aufbau einzurichten, bei dem der Schlüsselwort-Eingabeabschnitt mit einem Mikrofon zur Spracheingabe ausgestattet ist, und der Schlüsselwort-Umwandlungsabschnitt ein Sprachsignal eines eingegebenen Schlüsselwortes in die Spracheigenschaftsmusterdaten des Schlüsselwortes in folgender Art und Weise umwandelt:
Wenn der Schlüsselwort-Eingabeabschnitt 19 ein Schlüsselwort empfängt, das von einer externen Spracheingabevorrichtung, wie etwa einem Mikrofon eingegeben wurde, unterrichtet der Abschnitt 19, den Videowiedergabe-Steuerabschnitt 13, daß die Eingabe des Schlüsselwortes abgeschlossen ist, und führt eine A/D-Umwandlung am eingegebenen Schlüsselwortsignal aus, um es dem Schlüsselwortmuster-Umwandlungsabschnitt 20 zuzuführen.
Der Schlüsselwortmuster-Umwandlungsabschnitt 20 führt eine FFT (Fast-Fourier-Transformation) am eingegebenen Schlüsselwort-Sprachsignal pro Zeiteinheit aus, extrahiert die Akustikeigenschaftsdaten im menschlichen Stimmfrequenzband und erzeugt die Zeitabfolge der Spracheigenschaftsmusterdaten, die aus Vektordaten mit N (N ist eine willkürliche natürliche Zahl) Komponenten bestehen, die Akustikeigenschaftsgrößen enthalten, die im allgemeinen bei der Spracherkennung verwendet werden, wie etwa Kurzzeitspektraldaten oder ein Logarithmuswert der Spektren im extrahierten Frequenzband, und die logarithmische Energie der Sprachsignale pro Zeiteinheit.
Auf diese Weise ist es möglich, ein Schlüsselwort mit einer Stimme beispielsweise unter Verwendung eine Mikrofons einzugeben und die Zeitabfolge der Spracheigenschaftsmusterdaten, die für die Schlüsselwortzuordnung erforderlich sind, aus dem eingegebenen Sprachsignal zu erzeugen.
Es besteht weiterhin die Möglichkeit, einen Aufbau einzurichten, bei dem der Schlüsselwort-Eingabeabschnitt mit einem Mikrofon und einer Kameravorrichtung zum Eingeben eines sich bewegenden Videos ausgestattet ist, wobei der oben erwähnte Schlüsselwortmuster-Umwandlungsabschnitt ein Videosignal, das eingegeben wird, wenn ein Benutzer ein Schlüsselwort ausspricht, den Lippenbildeigenschaftsmustern zuordnet, die zuvor für jeden ausgesprochenen Ton gespeichert wurden, und das Videosignal in die Bildeigenschaftsmusterdaten des Schlüsselwortes wie folgt umwandelt, wenn der Benutzer das Schlüsselwort ausspricht.
Wenn in diesem Fall der Schlüsselwort-Eingabeabschnitt 19 die Schlüsselwortinformationen empfängt, die von einer externen Spracheingabevorrichtung, wie etwa einem Mikrofon und einer Kameravorrichtung eingegeben werden, informiert der Abschnitt 19 den Videowiedergabe-Steuerabschnitt 13, daß die Eingabe des Schlüsselwortes abgeschlossen ist, und führt die A/D-Umwandlung des eingegebenen Schlüsselwort-Sprachsignals und des Videosignals des Gesichtes eines Benutzers aus, wenn der Benutzer das Schlüsselwort ausspricht, um sie dem Schlüsselwortmuster-Umwandlungsabschnitt 20 zuzuführen.
Der Schlüsselwort-Umwandlungsabschnitt 20 erzeugt aus dem eingegebenen Schlüsselwort-Sprachsignal die Zeitabfolge der Spracheigenschafts-Musterdaten, die aus Vektordaten mit N (N ist eine willkürliche natürliche Zahl) Bestandteilen bestehen, die Akustikeigenschaftsgrößen enthalten, die im allgemeinen bei der Spracherkennung verwendet werden. Weiterhin erfaßt der Abschnitt 20 einen Teil des menschlichen Lippenbereiches und extrahiert ein Lippenbereichsbild für jedes Vollbild des eingegebenen Schlüsselwort-Videosignals unter Verwendung der Lippeneigenschafts-Standardmustern, die aus den Lippenbereichsbildern einer registrierten Person im voraus abgerufen wurden, extrahiert weiter die Bildeigenschaftsmusterdaten zum Zeitpunkt der menschlichen Aussprache, die aus Informationen bestehen, die für eine Form einer Lippe kennzeichnend sind, aus dem extrahierten Lippenbereichsbild und erzeugt die Zeitabfolge der Bildeigenschaftsmusterdaten entsprechend einer Schlüsselwort-Aussprachezeit. Der Abschnitt 20 gibt beide Zeitabfolgedaten an den Schlüsselwortmuster-Zuordnungsabschnitt 22 aus.
Ein Beispiel der Bildeigenschaftsmusterdaten sind Vektordaten mit Komponenten, die der Zahl der geteilten Bildblöcke entsprechen, wobei jede Komponente aus Farbdurchschnittsdaten oder Luminanzdurchschnittsdaten jedes Bildblocks besteht, den man beim Extrahieren des Lippenbereichsbildes verwendet, den man erhält, indem ein Lippenbereichsbildraum in eine willkürliche Zahl von Blöcken geteilt wird. Ein weiteres Beispiel sind Vektordaten mit vier numerischen Komponenten, die man erhält, indem weiterhin lediglich ein Lippenbereich aus Lippenbereichsbilddaten extrahiert wird, die als Bildeigenschaft extrahiert wurden, indem beispielsweise ein Farbfilter verwendet wird, und ein entsprechender relativer Abstand zweier Punkte, die jeweils eine Lippenaußengrenze in vertikaler Richtung (oben und unten) umschreiben, und zweier Punkte, die jeweils die Lippenaußengrenze in horizontaler Richtung umschreiben, jeweils aus einem Schwerpunktsbereich des Lippenabschnittes berechnet wird.
Auf diese Weise ist es möglich, ein Schlüsselwort mit Video und Sprache unter Verwendung eines Mikrofons und einer Videokameravorrichtung einzugeben und sowohl die Zeitabfolge der Spracheigenschaftsmusterdaten des Schlüsselwortes aus dem eingegebenen Sprachsignal als auch die Zeitabfolge der Videoeigenschaftsmusterdaten des Schlüsselwortes aus dem eingegebenen Videosignal zu erzeugen.
Weiterhin ist das Szenenwiederauffindungssystem der vorliegenden Erfindung auf das Wiederauffinden einer Szene lediglich für Sprache anwendbar. Gemäß dem oben beschriebenen Verfahren werden Videosignale, Sprachsignale und Videowiederauffindungsindizes oder Sprachsignale und Sprach-/Video-Wiederauffindungsindizes in einem Speichermedium gespeichert. Es ist möglich, den Sprach-/Video-Wiederauffindungsindex mit derselben Struktur wie jener des oben erwähnten Videowiederauffindungsindex zu verwenden. Es ist möglich, das Wiederfinden eines Sprachsignals von einer Stelle zu beginnen, die einem Anfangszeitpunkt eines Kopfteilwortes in einem Schlüsselwort-Erfassungsintervall entspricht.
Diese Patentanmeldung beruht auf den Japanischen Patentanmeldungen No. HEI10-359414, angemeldet am 17. Dezember 1998, und JP-A-2000236494, angemeldet am 13. Dezember 1999.
Industrielle Anwendung
Unter separater Verwendung von Spracherkennungstechniken zum Zeitpunkt der Videoaufzeichnung und zum Zeitpunkt der Videowiedergabe ist es möglich, eine Videoszene schnell wiederzufinden, indem ein willkürliches Kennwort zum Zeitpunkt der Videowiedergabe verwendet wird, und eine schnelle Wiedergabe einer Szene gemäß der Suchvorgabe eines Benutzers zu erreichen.
Da weiterhin die Videowiederauffindungsindizes automatisch zeitgleich mit der Videoaufzeichnung erzeugt werden, wird davon ausgegangen, das Arbeiten deutlich verringert werden, die normalerweise manuell ausgeführt werden, um eine Indizierung mit dem Zweck durchzuführen, Videoszenen anzuordnen und wiederzuverwenden. Daher bietet die vorliegende Erfindung Vorteile auf Gebieten wie etwa von der besonderen Wiedergabefunktion bei Verwendung einer digitalen Videokamera oder eines digitalen Videobandrekorders in Haushalten bis hin zum Videosignal-Basisaufbau und der Wiederauffindung und Betrachtung von Videomaterial in großen digitalen Video-Bibliothekssystemen.

Claims

Eine Vorrichtung zur Erzeugung von Video-Wiederauffindungsdaten, enthaltend: einen Extraktionsabschnitt (103), der ausgebildet ist, ein charakteristisches Muster aus einem mit einem Videosignal synchronen Sprachsignal zu extrahieren; einen Index-Erzeugungsabschnitt (104), der dazu ausgebildet ist, das Sprachsignal für eine Sprachperiode als Verarbeitungsziel festzulegen, ein charakteristisches Muster, ähnlich einem Standardsprachmuster, das vorab in einer Sprachperiode vorbereitet wurde, zu erfassen und einen Index zu erzeugen, der Zeitsynchronisationsinformation, entsprechend einer Position, in der das ähnliche charakteristische Muster erfasst wird, enthält, so dass eine Vielzahl von Indizes in der Sprachperiode erzeugt wird, unter Verwendung einer Vielzahl von Standardsprachmustern einer Vielzahl von Phonemen, welche untereinander verschieden sind; und ein Multiplexabschnitt (121), der dazu ausgebildet ist, Videosignale, Sprachsignale und Indizes zu multiplexieren, um sie in Datenstrom-Format auszugeben.
Die Vorrichtung zur Erzeugung von Video-Wiederauffindungsdaten gemäß Anspruch 1, wobei ein vom Multiplexabschnitt ausgegebener Datenstrom einer Video-Wiederauffindungsvorrichtung (220) durch ein Rundfunknetzwerk oder ein Kommunikationsnetzwerk (230) zur Verfügung gestellt wird.
Die Vorrichtung zur Erzeugung von Video-Wiederauffindungsdaten gemäß Anspruch 1, in dem ein von dem Multiplexabschnitt ausgegebener Datenstrom in einem Speichermedium (9) gespeichert wird.
Die Vorrichtung zur Erzeugung von Video-Wiederauffindungsdaten gemäß einem der Ansprüche 1 bis 3, bei der der Multiplexabschnitt die Indizes in Einheiten pro Einheit aufteilt, die in Übereinstimmung mit einer Einheit GOP (Gruppe von Bildern) entsprechender Videosignale gebracht wird.
Die Vorrichtung zur Erzeugung von Video-Wiederauffindungsdaten gemäß einem der Ansprüche 1 bis 4, bei der der Multiplexabschnitt Videosignale, Sprachsignale und Indizes auf einen MPEG-Strom multiplexiert.
Die Vorrichtung zur Erzeugung von Video-Wiederauffindungsdaten gemäß einem der Ansprüche 1 bis 5, bei dem der Index eine Zusammenstellung von einem Typ des Phonems, einer Anfangszeit des charakteristischen Musters und einer Bewertung besteht, die für eine Ähnlichkeit zwischen dem Standardsprachmuster und dem charakteristischen Muster bezeichnend ist.
Eine Videoaufzeichnungsvorrichtung, die eine Vorrichtung zur Erzeugung von Video-Wiederauffindungsdaten gemäß einem der Ansprüche 1 bis 6 enthält, und die weiterhin enthält: ein Video-Speichermedium (9), in dem ein Datenstrom gespeichert wird, der von dem Multiplexabschnitt ausgegeben wird.
Ein Verfahren zur Erzeugung von Video-Wiederauffindungsdaten, umfassend: einen Extraktionsschritt der Extraktion eines charakteristischen Musters aus einem mit einem Videosignal synchronen Sprachsignal; einen Indexerzeugungsschritt der Festlegung des Sprachsignals für eine Sprachperiode als ein Verarbeitungsziel, des Erfassens eines charakteristischen Musters, ähnlich einem Standardsprachmuster, das im Voraus zu einer Sprachperiode vorbereitet ist, und des Erzeugens eines Index, der Zeitsynchronisationsinformation, entsprechend einer Position, an der das ähnliche charakteristische Muster erfasst ist, enthält, so dass eine Vielzahl von Indizes in der Sprachperiode erzeugt wird unter Verwendung einer Vielzahl von Standardsprachmustern einer Vielzahl von zueinander verschiedenen Phonemen; und einen Multiplexierschritt der Multiplexierung von Videosignalen, Sprachsignalen und Indizes, um sie in einem Datenstrom-Format auszugeben.
Das Verfahren zur Erzeugung von Video-Wiederauffindungsdaten gemäß Anspruch 8, weiter umfassend: einen Schritt des Zur-Verfügung-Stellens eines im Multiplexierschritt erhaltenen Datenstroms an eine Video-Wiederauffindungsvorrichtung (220) durch ein Rundfunknetzwerk oder eine Kommunikationsnetzwerk (230).
Das Verfahren zur Erzeugung von Video-Wiederauffindungsdaten gemäß Anspruch 8, weiter umfassend: einen Schritt der Speicherung eines in dem Multiplexierschritt erhaltenen Datenstroms in einem Speichermedium (9).
Das Verfahren zur Erzeugung von Video-Wiederauffindungsdaten gemäß einem der Ansprüche 8 bis 10, bei dem der Index eine Zusammenstellung von einem Typ des Phonems, einer Anfangszeit des charakteristischen Musters und einer Bewertung enthält, die für eine Ähnlichkeit zwischen dem Standardsprachmuster und dem charakteristischen Muster bezeichnend ist.
Eine Video-Wiederauffindungsvorrichtung (220), umfassend: einen Demultiplexabschnitt (211), der dazu eingerichtet ist, einen Datenstrom, auf den Videosignale, mit den Videosignalen synchrone Sprachsignale und aus den Sprachsignalen auf Phonembasis erzeugte Indizes multiplexiert sind, in zumindest die Indizes zu demultiplexieren; und einen Wiederauffindungs-Verarbeitungsabschnitt, der dazu eingerichtet ist, Zeitinformation für ein eingegebenes Schlüsselwort aus einer Kombination der Indizes zu erhalten, um ein gewünschtes Video aufzufinden, wobei jeder der Indizes Zeitsynchronisationsinfomtation enthält, die für eine Position eines charakteristischen Musters in den Sprachsignalen bezeichnend ist, und wobei das charakteristische Muster einem Standardsprachmuster eines Phonems entsprechend jedem der Indizes ähnlich ist.
Die Video-Wiederauffindungsvorrichtung gemäß Anspruch 12, bei der der Wiederauffindungs-Verarbeitungsabschnitt einen Zuordnungsabschnitt (205) umfasst, der dazu eingerichtet ist, Indizes entsprechend dem eingegebenen Schlüsselwort aus den demultiplexierten Indizes heraus zu holen und Zeitinformation aus einer Kombination der herausgeholten Indizes zu erhalten, und einen Steuerabschnitt (202), der dazu eingerichtet ist, ein Video entsprechend dem eingegebenen Schlüsselwort unter Benutzung der erhaltenen Zeitinformation wiederaufzufinden.
Die Video-Wiederauffindungsvorrichtung gemäß Anspruch 13, bei der der Zuordnungsabschnitt (205) das eingegebene Schlüsselwort in eine Phonemsequenz umwandelt, die Indizes entsprechend der Anordnung der Phonemsequenz heraus holt, Ähnlichkeiten für jedes Phonem addiert oder akkumuliert, um eine Ähnlichkeit für das eingegebene Schlüsselwort zu erhalten, und Zeitinformation einer Periode, in der die erhaltene Ähnlichkeit einen hohen Grad besitzt, erhält.
Die Video-Wiederauffindungsvorrichtung gemäß einem der Ansprüche 12 bis 14, weiter umfassend: einen Speicherabschnitt (201), der dazu ausgebildet ist, den Datenstrom, auf den die Videosignale, die Sprachsignale und die Indizes multiplexiert sind, zu speichern, ohne den Datenstrom zu demultiplexieren, wobei das gewünschte Video aus dem Speicherabschnitt (201) herausgeholt wird.
Die Video-Wiederauffindungsvorrichtung gemäß einem der Ansprüche 12 bis 14, weiter umfassend: einen Speicherabschnitt (201), der dazu ausgebildet ist, die Videosignale und die Sprachsignale zu speichern, wobei der Demultiplexabschnitt den Datenstrom in die Videosignale und die Sprachsignale zusammen mit den Indizes demultiplexiert, und die demutliplexierten Videosignale und Sprachsignale im Speicherabschnitt speichert, und das gewünschte Signal aus dem Speicherabschnitt (201) wieder aufgefunden wird.
Die Video-Wiederauffindungsvorrichtung gemäß einem der Ansprüche 12 bis 16, bei der Datenstrom durch ein Rundfunknetzwerk oder ein Kommunikationsnetzwerk (230) empfangen wird.
Die Video-Wiederauffindungsvorrichtung gemäß einem der Ansprüche 12 bis 16, bei der Datenstrom aus dem Speichermedium (9) gelesen wird.
Die Video-Wiederauffindungsvorrichtung gemäß einem der Ansprüche 12 bis 18, bei der die Indizes in Einheiten pro Einheit aufgeteilt sind, die in Übereinstimmung mit einer Einheit GOP (Gruppe von Bildern) von entsprechenden Videosignalen gebracht wird.
Eine Video-Wiedergabevorrichtung, umfassend die Video-Wiederauffindungsvorrichtung gemäß einem der Ansprüche 12 bis 19, und weiter umfassend: ein Videospeichermedium (9), in dem der Datenstrom gespeichert ist; einen Leseverarbeitungsabschnitt (14), der dazu ausgebildet ist, die Videosignale und die Sprachsignale aus dem Videospeichermedium zu lesen und währenddessen bei der Wiedergabe eines Videos Synchronisation aufrechtzuerhalten, wobei der Leseverarbeitungsabschnitt weiterhin den Demultiplexabschnitt (211) enthält; und einen Steuerabschnitt (13), der dazu ausgebildet ist, den Leseverarbeitungsabschnitt anzuweisen, die Videosignale und die Sprachsignale unter Verwendung ei ner Position die durch die erhaltene Zeitinformation als eine Lese-Anfangsposition spezifiziert ist, zu lesen.
Ein Video-Wiederauffindungsverfahren, umfassend: einen Demultiplexierschritt der Demultiplexierung eines Datenstroms, auf den Videosignale, mit den Videosignalen synchrone Sprachsignale und aus den Sprachsignalen auf Phonembasis erzeugte Indizes multiplexiert sind, in zumindest die Indizes; und einen Wiederauffindungs-Verarbeitungsschritt der Erzielung von Zeitinformation für ein eingegebenes Schlüsselwort aus einer Kombination der Indizes, um ein gewünschtes Video wiederaufzufinden, wobei jeder der Indizes Zeitsynchronisationsinformation enthält, die für eine Position eines charakteristischen Musters im Sprachsignal bezeichnend ist, wobei das charakteristische Muster einem Standardsprachmuster eines Phonems entsprechend jedem der Indizes ähnlich ist.
Das Video-Wiederauffindungsverfahren gemäß Anspruch 21, bei dem der Wiederauffindungs-Verarbeitungsschritt einen Zuordnungsschritt des Herausholens von Indizes aus den demultiplexierten Indizes, entsprechend dem eingegebenen Schlüsselwort, umfasst, und des Erhaltens von Zeitinformation aus einer Kombination der herausgeholten Indizes, und einen Schritt des Wiederauffindens eines Videos, entsprechend dem eingegebenen Schlüsselwort, unter Benutzung der erhaltenen Zeitinformation.
Das Video-Wiederauffindungsverfahren gemäß Anspruch 22, bei dem das eingegebene Schlüsselwort im Zuordnungsschritt in eine Phonemsequenz umgewandelt wird, die Indizes entsprechend der Anordnung der Phonemsequenz herausgeholt werden, Ähnlichkeiten für jedes Phonem addiert oder akkumuliert werden, um eine Ähnlichkeit für das eingegebene Schlüsselwort zu erhalten und Zeitinformation erhalten wird von einer Periode, bei der die erhaltene Ähnlichkeit einen hohen Grad besitzt.
Ein Video-Wiedergabeverfahren, das die Schritte des Verfahrens zur Wiederauffindung gemäß Anspruch 21 umfasst, wobei der Datenstrom in einem Videospeichermedium (9) gespeichert ist; die Videosignale und die Sprachsignale aus dem Videospeichermedium (9) gelesen werden, während bei der Wiedergabe eines Videos Synchronisation beibehalten wird; der Demultiplexierschritt ausgeführt wird, wenn eine Anweisung zur Video-Wiederauffindung gegeben wird; und die Videosignale und die Sprachsignale unter Benutzung einer durch die erhaltene Zeitinformation spezifizierte Position als eine Lese-Anfangsposition gelesen werden.
Eine Video-Aufzeichnungsvorrichtung, umfassend: einen Extraktionsabschnitt (10), der dazu eingerichtet ist, ein charakteristisches Muster aus einem in Synchronisation mit einem Videosignal bei der Aufzeichnung eines Videos eingegebenen Sprachsignal zu extrahieren; einen Index-Erzeugungsabschnitt (11), der ausgebildet ist, auf Zeitbasis in Paketen zusammengefasste und eine zeitliche Abfolge von extrahierten charakteristischen Mustern enthaltende Indizes zu erzeugen, um somit Indizes zu erzeugen, bei denen jedes der Pakete über Zeitinformation verfügt; einen Multiplexabschnitt (7), der dazu ausgebildet ist, eingegebene Videosignale, eingegebene Sprachsignale und Indizes zu multiplexieren, um sie in Datenstrom-Format auszugeben; und ein Videospeichermedium (9), in dem der von dem Multiplexabschnitt ausgegebene Datenstrom gespeichert wird.
Die Videoaufzeichnungsvorrichtung gemäß Anspruch 7 oder 25, bei der der Multiplexabschnitt die eingegebenen Videosignale, die eingegebenen Sprachsignale und die Indizes in einen MPEG-Strom multiplexiert.
Die Videoaufzeichnungsvorrichtung gemäß Anspruch 7, 25 oder 26, bei der der Datenstrom in dem Videospeichermedium (9) gemäß einem Speicherformat des Videospeichermediums gespeichert wird.
Eine Video-Wiedergabevorrichtung, umfassend: ein Videospeichermedium (9), in dem ein Datenstrom gespeichert ist, auf den Videosignale, mit den Videosignalen synchrone Sprachsignale und Indizes multiplexiert sind, die auf Zeitbasis in Paketen zusammengefasst sind, wobei eine zeitliche Abfolge von charakteristischen Mustern beibehalten wird, die aus den Sprachsignalen extrahiert sind, wobei jedes Paket über Zeitinformation verfügt; einen Leseverarbeitungsabschnitt (14), der dazu ausgebildet ist, die Videosignale und die Sprachsignale aus dem Videospeichermedium zu lesen und währenddessen bei der Wiedergabe eines Videos Synchronisation aufrecht zu erhalten, und die Indizes aus dem in dem Videospeichermedium gespeicherten Datenstrom zu demultiplexieren, wenn eine Anweisung zum Wiederauffinden eines Videos gegeben wird; einen Schlüsselwort-Umwandlungsabschnitt (20), der dazu ausgebildet ist, ein eingegebenes Schlüsselwort in eine zeitliche Abfolge von Daten eines charaktenstischen Musters umzuwandeln; einen Schlüsselwort-Zuordnungsabschnitt (22), der dazu ausgebildet ist, den Indizes die Daten der zeitlichen Abfolge des eingegebenen Schlüsselwortes zuzuordnen, um Zeitinformation einer Periode zu erhalten, in der die Daten der zeitlichen Abfolge zu den Indizes ähnlich sind; und einen Steuerabschnitt (13), der dazu ausgebildet ist, den Leseverarbeitungsabschnitt anzuweisen, das Videosignal und das Sprachsignal unter Benutzung einer durch die erhaltene Zeitinformation spezifizierten Position als eine Lese-Anfangsposition zu lesen.
Ein Videowiedergabeverfahren, umfassend: Speichern eines Datenstroms in einem Videospeichermedium (9), wobei auf dem Datenstrom Videosignale, mit den Videosignalen synchrone Sprachsignale und Indizes multiplexiert sind, wobei die Indizes auf Zeitbasis in Paketen zusammengefasst sind und eine zeitliche Abfolge von charakteristischen Mustern enthalten, die aus dem Sprachsignal extrahiert sind, wobei jedes Paket über Zeitinformation verfügt; Lesen der Videosignale und der Sprachsignale aus dem Videospeichermedium (9), während bei der Wiedergabe eines Videos Synchronisation aufrechterhalten wird, und Demultiplexierung der Indizes aus dem im Videospeichermedium gespeicherten Datenstrom, wenn eine Anweisung zum Wiederauffinden eines Videos gegeben wird; Umwandeln eines eingegebenen Schlüsselwortes in Daten einer zeitlichen Abfolge der charakteristischen Muster; Zuordnung der Daten der zeitlichen Abfolge des eingegebenen Schlüsselwortes zu den Indizes, um Zeitinformation einer Periode zu erhalten, in der die Daten der zeitlichen Abfolge zu den Indizes ähnlich sind; und Lesen des Videosignals und des Sprachsignals unter Benutzung einer Position, die durch die erhaltene Zeitinformation spezifiziert ist, als eine Lese-Anfangsposition.