DE69737824T2

DE69737824T2 - Video-wiederauffinden von mpeg-komprimierten sequenzen unter verwendung von dc- und bewegungssignaturen

Info

Publication number: DE69737824T2
Application number: DE69737824T
Authority: DE
Inventors: Nevenka Dimitorva; Mohamed S. Abdel-Mottaleb
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1996-04-25
Filing date: 1997-04-25
Publication date: 2008-03-06
Anticipated expiration: 2017-04-26
Also published as: JP4138007B2; DE69737824D1; JPH11509025A; US5870754A; WO1997040454A1; EP0842478A1; EP0842478B1

Description

HINTERGRUND DER ERFINDUNG
Die vorliegende Erfindung bezieht sich auf die Speicherung und das Wiederauffinden aus großen digitalen Videoarchiven von Videobildern, die unter Anwendung des MPEG-Codierungsstandards ("Moving Picture Experts Group") oder des Bewegungs JPEG-Standards ("Joint Photographic Experts Group") codiert sind, und insbesondere auf die Extraktion auf Basis von DC-Koeffizienten und Bewegungsvektoren, von Videosequenzsignaturen von MPEG oder JPEG komprimierten Videos, und auf die Suche nach und Erfassung von Videos auf Basis der extrahierten Signaturen.
Der MPEG Videokompressionsstandard ist in "Practical Digital Video With Programming Examples in C" von Phillip E, Mattison, John Wiley und Söhnen, 1994, Abschnitt 11, Seiten 373 bis 393 und in "MPEG: A Video Compression Standard for Multi-Media Applications", von Didier Le Gall, "Communications of the ACM", April 1991, Heft 34, Nr. 4, Seiten 46 bis 58, beschrieben und der J{EG Videokompressionsstandard ist in "The JPEG Still Picture Compression Standard", von Gregory K. Wallace, "Communications of the ACM", April 1991, Heft 34, Nr. 4, Seiten 31 bis 44 beschrieben.
Auch anwendbar auf Videobilder, die unter Anwendung des "Motion JPEG Standards" codiert worden sind, wird die vorliegende Erfindung hier in Bezug auf Videobilder beschrieben, die unter Anwendung des MPEG Standards codiert sind.
MPEG wird angewandt zur digitalen Codierung von Filmen zur Verwendung in der Informationsverarbeitungsindustrie. Mit diesem Standard können Videobilder auf CD-ROMS, Magnetspeichern und in RAM und ROM gespeichert werden. Der MPEG Standard ermöglicht es, dass Videobilder über Netzwerke, wie ISDN, Großbereichnetzwerke, LANs, Internet^TM Intranet^TM, übertragen werden.
Videoclips oder Videoströme sind Sequenzen einer beliebigen Anzahl Videoframes oder Videobilder. Ein Beispiel eines Videoclips ist Bilder von einer Fernsehnachrichtenshow. MPEG Videoclips, codiert als MPEG Video oder unter Anwendung der MPEG Systemschichtcodierung können nach der vorliegenden Erfindung extrahierte Signaturen haben.
In dem MPEG Standard ist die Farbdarstellung YCrCb, ein Farbschema, in dem Leuchtdichte und Farbart getrennt sind. Y ist ein Leuchtdichtefarbanteil, und CrCb sind zwei Farbartanteile. Für jeweils vier Leuchtdichtepixel gibt es ein Cr Pixel und ein Cb Pixel. In dem MPEG Standard wird die Farbartinformation mit der halben Leuchtdichterate in der horizontalen sowie vertikalen Richtung unterabgetastet, wobei ein Cr Wert und ein Cb Wert für jeweils 2 × 2 Leuchtdichtepixelblöcke entstehen. Farbart- und Leuchtdichtepixel werden in 8 × 8 Pixelblöcke organisiert. Pixelblöcke werden unter Anwendung der diskreten Kosinustransformation (DCT) in die Frequenzdomäne transformiert, was zu DC- und AC-Anteilen entsprechend den Pixelblöcken führt.
In dem MPEG Standard werden Bilder in einer Sequenz durch vier Typen dargestellt: I Frame, P Frame, B Frame oder D Frame. Jedes Bild wird in Scheiben aufgeteilt, wobei eine Scheibe einen oder mehrere Makroblöcke umfasst. Scheiben sind typischerweise aneinander grenzende Makroblöcke.
Ein Makroblock umfasst vier 8 × 8 Leuchtdichtepixelblöcke und je einen 8 × 8 Block von zwei Farbartanteilen. Deswegen umfasst ein Makroblock die DCT Koeffizienten für vier 8 × 8 Leuchtdichtepixelblöcke und einen 8 × 8 Block für je zwei Farbartkoeffizientenpixel. Auf alternative Weise kann der Makroblock unter Anwendung von Vorwärts- oder Rückwärtsbewegungsvektoren, nur für B oder P Frames codiert werden. Ein Vorwärtsbewegungsvektor eines Frames basiert auf Bewegung gegenüber einem vorhergehenden Frame, während ein Rückwärtsbewegungsvektor eines Frames auf Bewegung gegenüber einem nachfolgenden Frame beruht.
Innerhalb eines Bildvideoclips wird der Wert eines DC Koeffizienten gegenüber dem vorhergehenden DC Koeffizienten codiert, wobei DC Werte für Leuchtdichte gegenüber anderen Leuchtdichtewerten codiert werden und DSC Werte für Farbart gegenüber Farbartwerten codiert werden.
Der MPEG Standard umfasst MPEG-Video, MPEG-Audio, und MPEG-Systemschichtcodierung (was MPEG-Video, MPEG-Audio, und Information in Bezug auf die Frage, wie diese zwei miteinander zusammenarbeiten), und ermöglicht es, dass Bewegungsvideo in einem kosteneffektiven Memo manipuliert wird.
Das Aufbauen großer Videoarchiven, die es ermöglichen, dass Videoclips gespeichert, wieder aufgefunden, manipuliert und effizient übertragen werden, machen mehrere Technologien erforderlich, wie Videoanalyse, Inhaltserkennung, Videonotierung und Browsing. Für einen Benutzer ist die wichtigste Fähigkeit eine effiziente Erfassung auf Basis des Inhaltes der Videoclips. Die bestehenden Verfahren für eine auf Inhalt basierte Erfassung verlässt sich im Grunde auf die Extraktion von Schlüsselframes oder auf Textnotierung.
Videobrowsingsysteme, die sich auf Text verlassen, erfassen Videosequenzen durch Schlüsselwortnotierung. Die Textnotierungen, die normalerweise separat gespeichert sind, können unter Anwendung von Volltexterfassungsverfahren oder natürlicher Sprachverarbeitungsverfahren indiziert werden.
Browsingsysteme, die Schlüsselframes benutzen zum Darstellen von Videosequenzen verlassen sich auf den Grundgedanken der Detektion von Aufnahmenbegrenzungen und der Wahl bestimmter Frames als Schlüsselframes. Eine Aufnahme ist eine aneinander geschlossene Anzahl Videoframes, die einen Teil der Geschichte tragen. Die meisten modernen Filme umfassen mehr als tausend Schnitte (ein Schnitt ist ein Übergang zwischen Aufnahmen), was ein intelligentes Videowiederauffindungsprogramm erfordert um einige Tausend Frames je Film zu verarbeiten. Um zu sehen, was es in dem Video gibt, muss ein Benutzer die Schlüsselframes in den oben genannten Browsingverfahren vorher betrachten.
Weiterhin benutzen die oben genannten Browsingsysteme einzelne Schlüsselframes und Bewegung zum Suchen nach Videoclips, ohne dabei die Sequenz von Schlüsselframes zum Darstellen der Videoclips zu berücksichtigen, wenn der ganze Videoclip als eine Abfrage behandelt wird.
Ein alternatives Auffindungsverfahren zum Browsen ist durch Wiedergabe bestimmter Frames der Videosequenz, wodurch ein Benutzer die Möglichkeit hat, die betreffende Videosequenz zu erfassen und zu selektieren. Dieses alternatives Verfahren ist zeitaufwendig.
ZUSAMMENFASSUNG DER ERFINDUNG
Es ist deswegen u. a. eine Aufgabe der vorliegenden Erfindung, Videosequenzen wieder zu finden ohne dass man sich dabei auf Textnotierungen verlassen muss.
Es ist eine weitere Aufgabe der vorliegenden Erfindung, Videosequenzen wieder aufzufinden, und zwar unter Anwendung von Signaturen repräsentativer Frames, wobei Bewegung zwischen Frames berücksichtigt wird.
Eine andere Aufgabe der vorliegenden Erfindung ist es, Signaturen aus digital codierten Videoclips zu extrahieren, und zwar unter Anwendung des MPEG Codierungsstandards, auf Basis von DC Anteilen der DCT Koeffizienten und Bewegungsvektoren (wobei die durch die vorliegende Erfindung extrahierten Signaturen als DC+M Signaturen bezeichnet werden).
Es ist eine weitere Aufgabe der vorliegenden Erfindung Videoclips schnell und effizient aus einer großen Datenbank von Videomaterial zu erfassen.
Wieder eine andere Aufgabe der vorliegenden Erfindung ist es, aus örtlichen oder Ferndatenbanken Videoclips, ähnlich einem Abfragevideoclip, unter Verwendung von Signaturen der Datenbankvideoclips und der Abfragevideoclip zu erfassen.
Noch eine weitere Aufgabe der vorliegenden Erfindung ist, Videoclips von Motion JPEG komprimierten Videos und MPEG komprimierten Videos zu archivieren.
Eine zusätzliche Aufgabe der vorliegenden Erfindung ist es, Videoclips vor der Codierung neu zu codieren, und zwar unter Anwendung von Codierungsstandards anders als Motion JPEG oder MPEG in ein Motion JPEG- oder MPEG-Format, und Signaturen daraus zu extrahieren und zu speichern.
Eine weitere Aufgabe der vorliegenden Erfindung ist, ein Erfassungsverfahren, das ein Videoclip als eine Abfrage nimmt und eine Datenbank für Clips mit einem ähnlichen Inhalt sucht, was die Erfassung von Clips aus langem Videomaterial zum Editieren, zum Aussenden von Nachrichtenmaterial und Ermittlung von Copyrightverletzung erleichtert.
In der vorliegenden Erfindung werden Videoclips, die unter Anwendung von Motion JPEG codiert sind, als MPEG Videoströme betrachtet, wobei alle Frames intracodierte Frames sind (es gibt keine P Frames oder B Frames, wobei alle Frames I Frames sind). In Videoclips, die unter Anwendung des MPEG Codierungsstandards codiert sind, werden DC Anteile und Bewegungsvektoren auf herkömmliche Art und Weise ermittelt. Im Falle von Motion JPEG ist ein Abfrageclip eine Sequenz von JPEG Frames. Bei Videoclips, die unter Anwendung von Motion JPEG codiert worden sind, benutzen in der vorliegenden Erfindung die oben genannten Signaturen nur die DC Farbinformation (den DC Anteil der DCT Koeffizienten), ohne Anwendung der Bewegungsinformation. Die DC Farbinformation wird auf herkömmliche Art und Weise ermittelt.
Weiterhin wird eine Signatur eines Videoclips (nachstehend als eine Videoclipsignatur bezeichnet), durch die Sequenz von Signaturen dargestellt, extrahiert aus repräsentativen MPEG Frames (nachstehend als Framesignatur bezeichnet) innerhalb dieses Videoclips. Framesignaturen umfassen DC Anteile und Bewegungsvektoranteile entsprechend Paaren von Fenstern innerhalb jedes Frame. Deswegen werden die extrahierten Signaturen als die DC+M Signaturen bezeichnet. Bei dem DC+M Signaturextraktionsverfahren wird jeder Videoclip durch eine Sequenz von Framesignaturen dargestellt, was weniger Speicherraum erfordert als die codierten Videoobjekte oder Clips. Dieses DC+M Verfahren ist schnell, weil die DC Koeffizienten und die Bewegungsvektoren von MPEG Frames ohne vollständige Codierung der MPEG Frames extrahiert werden können. Die Signaturen können in Echtzeit extrahiert werden, während die Videoclips in das MPEG Format codiert werden oder während die MPEG codierten Videoclips wenigstens teilweise decodiert werden.
Nachdem Signaturen der Videoclips extrahiert worden sind, vergleicht der Videoerfassungsvorgang eine Signatur eines Videoclips (eines Abfragevideoclips) mit einer Datenbank, die Signaturen von Videoclips speichert (Datenbankvideoclips). Die zwei Videoclips werden als Sequenzen von Signaturen miteinander verglichen. Der Vergleich wird für jeden Videoclip in der Videoclipdatenbank durchgeführt und es wird eine Auswertung des Übereinstimmungsgrades zwischen der Signatur des Abfragevideoclips und der Signatur jedes Datenbankvideoclips eingehalten. Die Übereinstimmung basiert auf dem Hamming-Abstandsmaß zwischen den Signaturen der zwei Videoclips.
Der Benutzer kann dann selektieren, welche Videoclips nach der Auswertung er ansehen möchte. Die Rangordnung der Signaturen innerhalb der Sequenz basiert auf der Rangordnung von Frames in dem Videoclip. Die sequentielle Ordnung von Signaturen wird als Basis verwendet um die zeitliche Art des Videos in der vorliegenden Erfindung darzustellen.
Dies zusammen mit anderen Aufgaben und Vorteile, die nachstehend einleuchten dürften, liegen in den Einzelheiten der Konstruktion und Wirkung, wie dies nachstehend näher erläutert wird.
KURZE BESCHREIBUNG DER ZEICHNUNG
Ausführungsbeispiele der vorliegenden Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
1 eine Übersicht der Signaturextraktion,
2 eine Übersicht des Signaturvergleichs,
3 ein Blockschaltbild der Systemarchitektur für Videoerfassung,
4 eine Darstellung von Signaturextraktion aus Fensterpaaren in einem Videoframe,
5 eine Darstellung einer Makroblockstruktur,
6 eine Darstellung zur Erläuterung einer Herleitung von Bits in einer Signatur,
7 eine Darstellung der Organisation von Signaturbits,
8(A) und 8(B) detaillierte Darstellungen von Abbildungen von Fenstern in Bildern unterschiedlicher Größe,
9 ein Flussdiagramm zum Abbilden von Fenstern und zum Berechnen von DC Koeffizienten,
10 ein Flussdiagramm das die Signaturextraktion und den Archivierungsprozess darstellt,
11(A), 11(B), 11(C) und 11(D) Beispiele eines Vergleichs zwischen Frames in einem Datenbankvideoclip und Frames in einem Abfragevideoclip in dem Erfassungsprozess,
12 eine Wiedergabe, die eine Demonstration von Abfragevideoclips und Datenbankvideoclips, erfasst bei Wiedergabe in einer Benutzerschnittstelle.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Es gibt zwei Hauptaspekte der vorliegenden Erfindung:

(1) Archivierung und Signaturextraktion, und
(2) Erfassung von Videoclips unter Verwendung von Signaturen.

Das Archivieren und das Extrahieren von Signaturen bezieht sich auf das Extrahieren von Signaturen von Videoclips und das Speichern der extrahierten Signaturen der Videosequenzen in einer Datenbank. Erfassung bezieht sich auf das Extrahieren der Signatur aus einem Abfragevideoclip (wobei dieser Videoclip ein Clip ist, der von dem Benutzer bezeichnet worden ist, für den andere ähnliche Videoclips identifiziert werden sollen), und das nachfolgende Vergleichen dieser Abfragevideoclipsignatur mit den Signaturen, welche die Videoclips aus der Datenbank darstellen.
Ein Videoclip, dessen Signatur extrahiert werden soll, muss unter Anwendung des MPEG oder Motion JPEG Standards wenigstens teilweise codiert werden. Eine derartige Codierung muss wenigstens auf dem Pegel sein, dass man DC Koeffizienten und Bewegungsvektoren hat (wenn der Videoclip MPEG codiert wird), ohne Quantisierung, Lauflängencodierung und Huffmancodierung. Außerdem muss ein Videoclip wenigstens teilweise decodiert werden, und zwar unter Anwendung des MPEG Codierungsstandards. Für Videoclips, die unter Anwendung des Motion JPEG Codierungsstandards wenigstens teilweise codiert oder decodiert wurden, gibt es keine Bewegungsvektoren.
1 zeigt ein Flussdiagramm einer Übersicht der Extraktion von Signaturen repräsentativer Frames aus einem Videoclip. In 1 werden Positionen und Größen selektierter Fensterpaare, die für alle Videoclipsignatursequenzen, die in einer Datenbank gespeichert sind, konstant sind, in dem Schritt 100 eingegeben. Die genau Lage der Fensterpaare innerhalb jedes Frames wird vorher bestimmt und ist für jedes Frame innerhalb des Videoclips, dessen Signatur extrahiert wird, fest.
In dem Schritt 101 wird ein Videoclip empfangen und der Start- und Endpunkt des Videoclips werden bestimmt. Der Schritt 102 bestimmt, ob der Videoclip wenigstens teilweise unter Anwendung des MPEG oder des Motion JPEG Codierungsstandards codiert ist, überhaupt nicht codiert ist oder unter Anwendung eines anderen Codierungsstandards codiert wurde. Wenn der Videoclip überhaupt nicht codiert ist oder unter Anwendung eines Nicht-MPEG Codierungsstandards codiert wurde, wird der Videoclip unter Anwendung des MPEG Standards in dem Schritt 104 wenigstens teilweise codiert.
Frames, deren Signatur extrahiert werden soll, werden in dem Schritt 103 bestimmt. Eine Signatur wird nicht unbedingt für alle Frames extrahiert.
Wenn die Frames, deren Signatur extrahiert werden soll, einmal bestimmt worden sind, werden DC Koeffizienten und Bewegungsvektoren für die selektierten Frames an den selektierten Fensterpositionen in dem Schritt 105 extrahiert.
In dem Schritt 106 werden Bits, die der qualitativen Differenz zwischen Werten der DC Koeffizienten und Bits entsprechen, welche die qualitative Differenz zwischen Werten der Bewegungsvektoren (DC+M Signaturen) zwischen jedem Fenster in dem Fensterpaarangeben, bestimmt. In dem Schritt 107 wird die Signatur des Frames gebildet, und zwar durch Verkettung jeder Signatur der vorhergehenden DC+M Signaturen für jedes Fensterpaar innerhalb des Frames. In dem Schritt 108 wird die Signatur des Videoclips (die Videoclipsignatur) durch die Sequenz der Signaturen der repräsentativen Frames dargestellt.
Wen die Signatur eines Videoclips einmal extrahiert worden ist, wird diese Signatur in einer Datenbank mit Signaturen der anderen Videoclips gespeichert. Es kann mehr als nur eine Signatur aus einem bestimmten Videoclip extrahiert werden, und zwar abhängig von der Lage der Fenster innerhalb der Frames. Deswegen kann es mehrere Signaturdatenbanken geben, die je Signaturen mit Fenstern speichern, die in derselben Anordnung und an denselben Stellen als andere Signaturen innerhalb dieser Datenbank vorgesehen sind.
Nachdem die Signatur eines Abfragevideoclips extrahiert worden ist, wird eine Datenbank gesucht, die Signaturen speichert, die auf die beschriebene Art und Weise erhalten worden sind, um Videoclips auf gleiche Weise wie der Abfragevideoclip unterzubringen, und zwar auf Basis der Signatur dieses Videoclips. Das Suchverfahren kann derart eingestellt werden, dass Videoclips mit variierendem Ähnlichkeitsgrad geortet und erfasst werden können.
2 zeigt eine Übersicht der Ermittlung von Übereinstimmungen zwischen einer Signatur eines Abfragevideoclips und Signaturen anderer Videoclips.
Erstens wird in dem Schritt 201 der Abfragevideoclip ermittelt, und wird unter Anwendung des MPEG Codierungsstandards wenigstens teilweise codiert. Die Signatur des Abfragevideoclips wird entsprechend dem Prozess nach 1 extrahiert.
In dem Schritt 202 wird eine Signatur entsprechend einem Datenbankvideoclip zum vergleich mit der Signatur des Abfragevideoclips selektiert. Dazu kann jede beliebige repräsentative Framesignatur, die in der örtlichen Datenbank gespeichert ist, die erste zum Vergleichen selektierte Signatur sein.
In dem Schritt 203 wird der variable Minus-Bewertung ("minscore") auf die Länge der Framesignatur + 1 ausgelöst. Die Länge der Framesignatur in einer bevorzugten Ausführungsform der vorliegenden Erfindung ist 128; deswegen wird der Wert der Minus-Bewertung auf den Wert 129 ausgelöst, wobei dieser Wert größer ist als der möglichst große Wert für das Hamming-Abstandsmaß zwischen der aus dem Abfragevideoclip extrahierten Signatursequenz, und der aus dem Datenbankvideoclip extrahierten Signatursequenz. Wie in dem Schritt 208 dargestellt, speichert Minscore den Wert des niedrigsten totalen Hamming-Abstandsmaßes zwischen der Abfragevideoclipsignatursequenz und der Datenbankvideoclipsignatursequenz, berechnet für eine bestimmte Datenbank.
In dem Schritt 204 wird eine Variable ausgelöst, die einen Gesamtwert des Hamming-Abstandsmaßes zwischen repräsentativen Framesignaturen von dem Abfragevideoclip und repräsentativen Framesignaturen von dem Videoclip speichert, der mit dem Abfragevideoclip verglichen wird. In dem Schritt 204 wird auch eine Variable ausgelöst, welche die Anzahl Vergleiche zählt, die zwischen einer Framesignatur des Abfragevideoclips und Framesignaturen des Datenbankvideoclips durchgeführt werden.
In dem Schritt 205 werden Eingaben von der Abfragevideoclipssignatur, welche die Framesignaturen der repräsentativen Frames sind, in Übereinstimmung mit Eingaben von der Datenbankvideosignatur gebracht. Die Eingaben sind die Framesignaturen der repräsentativen Frames. Weiterhin wird die Sequenz von Eingaben von jeder Videoclipsignatur kollektiv als Signatursequenzen für den Videoclip bezeichnet.
Die erste Eingabe von der Abfragevideoclipsignatur wird mit der ersten Eingabe von der Datenbankvideoclipsignatur in Übereinstimmung gebracht. Weitere Eingaben von jeder der Abfragevideoclipsignatur und der Datenbankvideoclipsignatur wird mit einander in Übereinstimmung gebracht. Die Stelle der Framesignatur innerhalb der Signatursequenz ist nicht unbedingt dasselbe wie die Stelle des Frames, dessen Framesignatur extrahiert wurde, innerhalb des Videoclips.
In dem Schritt 206 wird ein Vergleich zwischen einer beliebigen Framesignatur in der Abfragevideoclipsignatur und bis drei Framesignaturen in der Datenbankvideoclipsignatursequenz entsprechend der beliebigen Framesignatur von der Anfragevideoclipsignatursequenz durchgeführt. Vorzugsweise ist ein Abstand von einem einzigen Frame, wobei jeder beliebige Offset oder jede beliebige Verschiebung zwischen den Eingaben in die Abfragevideoclipsignatursequenz und die Datenbankvideoclipsignatursequenz berücksichtigt wird, in der Vorwärts- sowie Rückwärtsrichtung in dem Videoclip zum Vergleich erlaubt ist. Wenn ein Abstand größer als ein einziges Frame in der Vorwärts- sowie in der Rückwärtsrichtung selektiert wird, kann eine Abfragevideoclipframesignatur mit mehr als drei Framesignaturen verglichen werden.
In dem Schritt 207 wird das Hamming-Abstandsmaß von der Signatur des Abfragevideoclips zu der Signatur jedes entsprechenden Frames in dem Datenbankvideoclip für die aktuelle Wiederholung der Schritte 204 bis 210 ermittelt. Die Abstandsvariable wird auf entsprechende Weise aktualisiert, als die Variable, die mit der Anzahl durchgeführter Vergleiche Schritt hält. Eine "Bewertung" des gesamten Hamming-Abstandsmaßes zwischen verglichenen Frames für jede Verschiebung wird aufgezeichnet.
Danach wird in dem Schritt 208, wenn der Wert der "Bewertung" niedriger ist als der Wert des Minscore, der Wert der "Bewertung" in Minscore gespeichert.
Die Datenbank wird typischerweise mehr Eingaben als die Abfragevideoclipsignatur enthalten; denn die Signatursequenz von dem Abfragevideoclip wird mit jeder Reihe von Eingaben von dem Datenbankvideoclip verglichen, wobei die Sequenz von Frames für jeden Videoclip bewahrt wird. Dies geschieht dadurch, dass zunächst die erste Eingabe in jede Signatursequenz in Übereinstimmung miteinander gebracht wird und der Vergleich durchgeführt wird. Danach wird die ganze Sequenz von Framesignaturen in dem Abfragevideoclip um eine Eingabe verschoben und die Vergleichssequenz wird wiederholt. Das Verschieben wird wiederholt, bis die Sequenz von Framesignaturen von der Abfragevideoclipsignatursequenz mit den entsprechenden Sequenzen von Eingaben in die Datenbank verglichen worden ist.
In dem Schritt 209 wird ermittelt, ob die Abfragevideosignatursequenz mit jeder Datenbankvideosignatursequenz für die selektierte Datenbankvideoclipsignatur verglichen worden ist. Sollte dies nicht der Fall sein, so wird in dem Schritt 210 die Abfragevideosignatursequenz um eine Eingabe gegenüber der Datenbankvideosignatursequenz verschoben und es wird eine Steuerung durchgeführt zu dem Schritt 204 für die nächste Wiederholung.
In dem Schritt 209 wird ermittelt, ob die Abfragevideosignatursequenz mit jeder Datenbankvideosignatursequenz für die selektierte Datenbankvideoclipsignatur verglichen worden ist, dann wird der Schritt 211 durchgeführt.
In dem Schritt 211 wird der Wert, der in dem Minscore gespeichert ist, in die Arrayscore eingefügt, die Eingaben des Minscore entsprechend jedem Datenbankclip speichert.
Ob alle Datenbankvideoclipsignatursequenzen, die in der Datenbank gespeichert sind, mit der Abfragevideoclipsignatursequenz vergleich worden sind, wird in dem Schritt 212 ermittelt.
Sollte dies nicht der Fall sein, so wird in dem Schritt 213 die nächste Datenbankvideoclipsequenz selektiert und die Schritte 203 bis 212 werden wiederholt.
Wenn alle Datenbankvideoclipsignatursequenzen verglichen worden sind, wird der Prozess in 2 beendet.
Die Ähnlichkeit zwischen der Abfragevideoclipsignatur und der Datenbankvideoclipsignatur wird als die Anzahl Bits in der Signatur weniger dem Hamming-Abstandsmaß zwischen den vorhergehenden Videoclipsignaturen ermittelt. Wenn der Hamming-Abstand klein ist, ist die Ähnlichkeit zwischen den zwei Videoclipsignaturen groß. Deswegen werden, wenn die Datenbankvideoclipsignaturen auf Basis der betreffenden Ähnlichkeit mit der Abfragevideoclipsignatur geordnet wird, die Datenbankvideoclipsignaturen in abfallender Ordnung der Ähnlichkeit gegliedert. Ein höherer Grad der Ähnlichkeit zwischen zwei Videoclips gibt an, dass die zwei Videoclips in der Erscheinung einander nahe liegen.
Anderseits werden, wenn die Datenbankvideoclipsignaturen auf Basis des betreffenden Hamming-Abstandes von der Abfragevideoclipsignatur geordnet werden, die Datenbankvideoclipsignaturen in ansteigender Reihenfolge des Hamming-Abstandes gegliedert. Ein niedrigerer Grad des Hamming-Abstandes gibt wieder an, näher in der Erscheinung.
Vorzugsweise wird das in 3 dargestellte Videosignaturextraktions- und -speichersystem 8 in einem Computer, wie einer "SUN"-Arbeitsstation oder einem Pentiem^TM-basierten PC, implementiert. Das System 8 umfasst eine Videoquelle 10, ein Videoinformationserfassungssystem 18 und eine Benutzerschnittstelle 32.
Die Videoquelle 10 kann Videoclips von einer Vielzahl von Quellen empfangen. Die Videoclips könnten in dem MPEG oder Motion JPEG Format bereits digital codiert sein und von dem MPEG Videoserver 12 geliefert werden. Weiterhin können die Videoclips von Live-Video geliefert werden, das von der Live-Videoquelle 14 geliefert wird, oder in dem MPEG- der Motion JPEG Format codiert oder in einem Format anders als MPEG, die von der Netzwerkquelle 16 geliefert werden.
Jede der Quellen 12, 14 und 16 kann mit anderen betreffenden Quellen gekoppelt sein, die Videoclips liefern und die in 3 nicht dargestellt sind. Eine repräsentative Quelle, mit der der MPEG Videoserver 12 zusammenarbeitet, ist das INTERNET^TM, das Videoclips an ftp Stellen in Computer speichern kann, in dem das UNIX^TM Operationssystem zusammen mit ftp deamon läuft, oder auf einer Anzahl Websites, wobei http Server laufen, die html Dokumentanträge erwarten.
Die Videoquelle 10 liefert einem Videoinformationserfassungssystem 18 Videoclips; wenn diese letzteren von dem MPEG Videoserver 12 sind, ist keine weitere Codierung erforderlich.
Wenn die Live-Videoquelle 14 Videoclips liefert, müssen die Videoclips unter Anwendung des MPEG Codierungsstandards komprimiert werden, bevor die Signatursequenzen extrahiert werden.
Wenn Videoclips von der Netzwerkquelle 16 geliefert werden, können sie in ein Format anders als das MPEG Format codiert worden sein; folglich müssen die Videoclips unter Anwendung des MPEG Codierungsstandards durch beispielsweise eine Videobrücke, bevor Extraktion der Signatursequenzen auftreten kann, teilweise neu codiert werden. Die Codierung kann herkömmliche Computer Hardware und Software benutzen.
In dem Videoinformationserfassungssystem 18 extrahiert der Archivierungs- und Signaturextraktionsprozess 20 die Signatur jedes Videoclips.
Außerdem speichert der Prozess 20 die extrahierten DC+M Signaturen von Videoclips, die von dem MPEG Videoserver 12 in der Metadatenbank 22 empfangen worden sind. Die Metadatenbank 22 wird als eine "Meta" Datenbank bezeichnet, weil Daten, die andere Daten beschreiben (d.h. Signaturen von Videoclips und andere beschreibende Daten davon) darin gespeichert werden. Der Prozess 20 kann in Software in jedem beliebigen UNIX^TM-basierten Computer, PC, oder in einer anderen Plattform implementiert werden. Der Prozess 20 könnte auch ein Teil einer MPEG Codierer- oder MPEG Decoderhardwareimplementierungsplatte sein.
Andererseits komprimiert, wenn der Prozess 20 Live-Video von der Live-Videoquelle 14 empfängt, der Prozess 20 ggf. teilweise auf eine herkömmliche Art und Weise das Live-Video, und zwar unter Anwendung des MPEG Codierungsstandards, extrahiert die DC+M Signatur aus den komprimierten MPEG Videoclips und speichert die extrahierten Signaturen in der Metadatenbank 22. Wenn die Netzwerkquelle 16 Videoclips überträgt, codiert der Prozess 20 die Videoclips neu in das MPEG Format, extrahiert die DC-M Signaturen aus den neu codierten MPEG Videoclips, und speichert die Signaturen in der Metadatenbank 22.
Zusammen mit den extrahierten Signaturen von Videoclips (wobei diese Signaturen Framesignaturen enthalten), speichert der Archivierungs- und Signaturextraktionsprozess 20 andere identifizierende Information, wie die Stelle, wo der entsprechende Videoclip gespeichert ist, die Größe des Videoclips in Bytes, die Zeitlänge des Videoclips und den Titel des Videoclips in der Metadatenbank 22. Die Frames, für welche die Framesignaturen extrahiert werden, werden auch als repräsentative Frames bezeichnet.
In 3 benutzt das Erfassungssubsystem 24 die aus einem Abfragevideoclip extrahierte Signatur um in der Metadatenbank 22 nach Signaturen ähnlicher Videoclips zu suchen. Das Erfassungssubsystem 24 umfasst: einen Ähnlichkeitsberechnungsprozess 26, einen Ordnungsprozess 28, und einen Abruf- und Wiedergabeprozess 30.
Der Ähnlichkeitsberechnungsprozess 26 ermittelt die "Ähnlichkeit" zwischen einer Signatur eines Abfragevideoclips und Signaturen der Videoclips, die in der Metadatenbank 22 gespeichert sind. Der Ordnungsprozess 28 ermittelt die Ordnung der Videoclips, deren Signaturen in der Metadatenbank 22 gespeichert sind. Dies benutzt das "Ähnlichkeits"-Maß.
Der Abruf- und Wiedergabeprozess 30 umfasst Zeiger zur Wiedergabe von Videoclips, deren Signaturen in der Metadatenbank 22 gespeichert sind. Wenn der Videoclip auf einer fernen Website im Internet gespeichert ist, folgt der Abruf- und Wiedergabeprozess 30 dem Internet-Knoten des Videoclips und der Stelle in dem Ferndatensystem.
Jeder Prozess 26, 28 und 30 kann ein Softwareprogramm oder Hardware oder aber Firmware sein.
Die Benutzerschnittstelle 32 ist Frontend-Software und geschrieben unter Anwendung von Entwicklungsmaterial, wie VISUAL C++^TM oder VISUAL BASIC^TM, wobei ein Benutzer einen Videoclip abgeben kann und Suchergebnisse wiedergeben kann.
Ein Beispiel einer Benutzerschnittstelle 32 nach der vorliegenden Erfindung ist in 12 dargstellt.
Extraktion der Signatursequenzen geschieht wie folgt.
Vorzugsweise wird jeder Framesignatur durch 128 Bits dargestellt, für Signaturen, die aus Videoclips extrahiert wurden, die MPEG Codiert sind. (Für Signaturen, die aus Videoclips extrahiert wurden, die Motion JPEG codiert sind, wird jede Framesignatur durch 96 Bits dargestellt, wie nachstehend noch näher erläutert wird). Aber die Anzahl Bits kann von einem Benutzer variiert werden, und zwar abhängig von einer Auflösung oder Empfindlichkeit, die in der Signatur des Videoclips erwünscht ist. Außerdem kann die Signatur 128 Bits für jedes Frame des Videoclips, für jedes andere Frame des Videoclips usw. umfassen.
Ein Videoclip kann als eine Sequenz von Videoframes betrachtet werden, d.h. {i₀...., i_n}. Ein Videoclip kann auch durch einen Subsatz dieser Frames dargestellt werden {j₀...., j_n}. Die repräsentativen Frames, die Frames sind, für die eine Signatur extrahiert wird, können auf Basis des MPEG Framemusters oder unter Anwendung der Schlüsselframes, extrahiert aus Szenenübergängen, selektiert werden. Jedes Frame wird unter Verwendung einer Signatur dargestellt, und zwar auf Basis der DC Koeffizienten von Fensterpaaren und deren Bewegungsvektoren.
In der vorliegenden Erfindung können die Videoclips wie folgt indiziert werden:

1. Durch Verwendung von I Frames als Basis der Herleitung der DC+M Signaturen. Dieses Verfahren erfordert nicht die Extraktion von Schlüsselframes. Der erzeugte Index ist aber größer und die Erfassungszeit länger; oder
2. Durch Verwendung der Schlüsselframes als Basis: Im Falle von Videomaterial mit langen Szenen erzeugt dieses Verfahren weniger Frames, mit denen gearbeitet werden muss.

Die DC+M Signaturen sind entweder örtliche DC+M Signaturen oder weltumfassende DC+M Signaturen. Die örtlichen DC+M Signaturen werden auch als Framesignaturen bezeichnet und sind Signaturen, die von einem bestimmten Frame und Nachbarframes hergeleitet worden sind, ohne Berücksichtigung des größeren Kontextes von Frames, zu denen das betreffende Frame gehören.
Für die örtlichen DC+M Signaturen und die weltumfassenden DC+M Signaturen werden die DC Anteile der Framesignaturen auf gleiche Weise extrahiert.
Die Bewegungsbits der Signatur weichen aber zwischen den örtlichen DC+M Signaturen und den weltumfassenden DC+M Signaturen ab. Die Bewegungsbits stellen dar, ob der Bewegungsfaktor, der mit einem Frame assoziiert ist, Null oder nicht Null ist. Für eine örtliche DC+M Signatur eines repräsentativen Frames gilt dies für Bewegung zwischen dem repräsentativen Frame und Frames, die unmittelbar das repräsentative Frame umgeben. Für die weltumfassende DC+M Signatur eines repräsentativen Frames geben die Bewegungsbits an, ob der Bewegungsfaktor Null ist oder nicht Null ist gegenüber der Bewegung zwischen dem repräsentativen Frame und Frames, die eine Anzahl Frames von dem repräsentativen Frame entfernt liegen. Die Bewegungssignatur wird typischerweise durch zwei Bits je Fensterpaar in örtlichen DC+M Signaturen dargestellt.
Auch Schlüsselframestellen können als repräsentative Frames verwendet werden, für die Signaturen extrahiert werden. Das Erzeugen von Signaturen ist abhängig von der Position des Schlüsselframes:

1. Wenn ein Schlüsselframe ein I Frame ist: wird der DC-Koeffizient von dem I Frame genommen und von den entsprechenden Bewegungsvektoren von dem nachfolgenden B oder P Frame – es ist keine zusätzliche Verarbeitung erforderlich;
2. Wenn das Schlüsselframe ein B Frame ist: wird vorausgesetzt, dass die Bezugsframes die DCT Koeffizienten erhalten. Die DC Koeffizienten werden von den betreffenden Makroblöcken in dem vorhergehenden I oder P Frame, oder in einem künftigen I oder P Frame extrahiert. Die Bewegungsvektoren in dem aktuellen Frame werden benutzt zum herleiten der Bewegungsvektorsignatur; und
3. Für ein P Frame: die Signaturextraktionsverarbeitung wird um ein Frame nach vorne verlagert. Die meisten Leuchtdichte- und Farbartblöcke in dem Frame nach vorne werden intracodiert (d.h. alle Information über den Makroblock, in dem die Blöcke sich befinden, liegt darin und wird nur durch DCT Koeffizienten beschrieben, ohne Verwendung von Bewegungsvektoren), was die Extraktion der DC Koeffizienten vereinfacht. Um die DC Koeffizienten zu extrahieren werden die DC Koeffizienten von dem betreffenden Makroblock des vorhergehenden Bezugsframes eingestellt (das ein I Frame oder P Frame ist). Um Bewegungsbits der Framesignatur zu erhalten werden die Bewegungsvektoren von dem nächsten B Frame verwendet. Wenn das nächste Frame ein I Frame ist, werden die Bewegungsvektoren von dem meist nahe liegenden künftigen B oder P Frame für die Bewegungssignatur verwendet. Deswegen wird, wenn das Schlüsselframe ein P Frame ist, die Framesignatur von den DC Koeffizienten und Bewegungsvektoren, die mit den oben genannten Frames assoziiert sind, extrahiert.

Wenn die Positionen der Schlüsselframes nicht im Voraus bekannt ist, wird die Signaturextraktion die I Frames in dem Videoclip verwenden.
Die Weltumfassenden DC+M Signaturen werden auch als Framesignaturen bezeichnet und werden von einem Frame in Bezug auf eine Sequenz von Frames innerhalb einer Videoaufnahme oder innerhalb eines durch den MPEG Standard codierten Framemusters extrahiert. Für weltumfassende DC+M Signaturen wird der DC Anteil der Signatur auf gleiche Weise extrahiert wie in dem Fall der örtlichen DC+M Signaturen, wie diese oben detailliert beschrieben worden sind. Der Bewegungsteil der Signatur wird durch Verfolgung der Makroblöcke entsprechend den Fensterpaaren ermittelt, bis das nächste I Frame erreicht wird oder über einen Subsatz der Anzahl Frames in dem Videoclip. Danach wird eine qualitative Beschreibung für die relative Bewegung der Fensterpaare berechnet. In diesem Fall kann die Bewegungssignatur länger sein als zwei Bits je Fensterpaar. Die Bewegungssignatur reflektiert die Beziehung zwischen den Fenstern in dem Fensterpaar über den Subsatz der Anzahl Frames in dem Videoclip.
Die Signaturen in der vorliegenden Erfindung werden von Beziehungen zwischen Fensterpaaren hergeleitet, wie in 4 dargestellt. Für jedes Bildframe 40 wird eine Anzahl Fensterpaare selektiert, in denen jedes Fensterpaar einem Teil der Signatur entspricht. Deswegen bestimmt die Anzahl Fensterpaare die Länge der Signatur. Jedes Fenster eines Fensterpaares entspricht einem Makroblock oder einem Gebiet, das viele Makroblöcke in dem Bildframe bedeckt.
Ein Makroblock in einem MPEG Frame entspricht einem 16 × 16 Pixelgebiet, wie in 5 dargestellt. Die Farbart- und Leuchtdichteabtastwerte werden zu 8 × 8 Pixelblöcken organisiert. Ein Makroblock umfasst vier 8 × 8 Blöcke mit Leuchtdichtepixeln und einen 8 × 8 Block jedes der zwei Farbartanteile, wie in 5 dargestellt.
Die Signaturen von Fensterpaaren können wie folgt hergeleitet werden:

(a) für eine Videosequenz mit nur I Frames (wie wenn unter Anwendung von Motion JPEG codiert): für jedes I Frame, werden 64 Bit von der Leuchtdichteebene hergeleitet, und zwei Sätze von 16 Bits werden von jeder der zwei Farbartebenen hergeleitet, für insgesamt 96 Bits für die DC Anteile. Es gibt keinen Beitrag von Bewegungsvektoren (für nachfolgende Übereinstimmung, während ausschließlich Motion JPEG codierte Videoclips verwendet werden, werden nur diese 96 Bits verwendet);
(b) für eine Videosequenz mit I, B und P Frames (wie für Videosequenzen, wobei MPEG angewandt wird): wird eine 128 Bitsignatur (auch als Schlüssel bezeichnet) hergeleitet, in der 96 Bits von den DC Koeffizienten und 32 Bits von der Bewegungsinformation hergeleitet werden, die in dem MPEG Datenstrom verfügbar sind. Für eine nachfolgende Übereinstimmung, während Signaturen verwendet werden, die von I, B und P Frames extrahiert wurden, werden alle vorhergehenden 128 Bits verwendet.

Wie in 4 dargestellt, umfasst das Frame 40 drei Beispiele von Fensterpaaren: w1 und w1', w2 und w2', und w3 und w3'. Die Positionen von Fensterpaaren werden im Voraus selektiert, aber sind für die ganze Metadatenbank 22 von Signaturen und für eine Signatur eines Abfragevideoclips fest. Ein einzelner Videoclip kann auf entsprechende Weise mehrere Signaturen haben, die in vielen Metadatenbanken 22 gespeichert sind. Wenn beispielsweise ein Satz mit Signaturen, die in einer Metadatenbank 22 gespeichert sind, wobei Konzentration auf die Mitte von Frames erwünscht ist, werden übereinstimmende Fenster auf entsprechende Weise gewählt. Andererseits werden, wenn Signaturen, die in einer anderen Metadatenbank 22 gespeichert sind, gemeint sind, mit Hintergrundgebieten überein zu stimmen, werden Fensterpositionen auf entsprechende Weise gewählt. In der Ausführungsform gibt es sechzehn Fensterpaare für jedes Frame.
Von jedem Satz mit Fensterpaaren w1 und q1', w2 und w2', und w3 und w3' in dem Frame 40 aus 4 wird eine Signatur 42 extrahiert. In 4 umfasst eine Signatur 42 die Fenstersignatur Sw1 von der Signatur entsprechend dem Fensterpaar w1 und w1'; die Fenstersignatur Sw2 von der Signatur entsprechend dem Fensterpaar w2 und w2'; und die Fenstersignatur Sw3 von der Signatur entsprechend dem Fensterpaar w3 und w3'.
Untenstehendes ist ein Beispiel davon, wie die Fenstersignaturen für jedes der vorhergehenden Fensterpaare bestimmt wird. Für jedes Fenster oder für jeden Makroblock in 6 werden für die Leuchtdichteblöcke und für jeden der zwei Farbartblöcke in 5 DC Koeffizienten extrahiert. In 5 werden vier Blöcke in der Leuchtdichteebene und zwei Blöcke in den Farbartebenen für Signaturextraktion verwendet. Die DC Anteile der Leuchtdichteblöcke und Farbartblöcke werden auf eine herkömmliche Art und Weise ermittelt.
Unter Verwendung des Fensterpaares w1 und w1' als Beispiel, wie in 6 dargestellt, hat jedes Fenster in dem Fensterpaar sechs DC Koeffizienten (DCi). In einer bevorzugten Ausführungsform werden sechs Signaturbits S1 bis S6 für jedes Fensterpaar auf Basis des Nachfolgenden extrahiert: Si = 1, wenn |DCi – Dci'| < = Schwelle (1) Si = 0, wenn |DCi – Dci'| > Schwelle (2)
Das Ergebnis der Extraktion für jedes Fensterpaar aus 6 der sechs assoziierten DC Anteile ist die Signatur 42 aus 4. Die Signatur 42 enthält 6 Bits für jede Signatur Sw1, Sw2, Sw3, entsprechend den Fensterpaaren w1 und w1', w2 und w2', und w3 und w3'. Außerdem tragen, wenn der Videoclip, für den die Signatur extrahiert wird, unter Anwendung des MPEG Standards codiert wird, Bewegungsbits (in 4 nicht dargestellt) auch zu der Signatur 42 bei.
In einer bevorzugten Ausführungsform wird ein Bit in der Signatur S_i berechnet, und zwar unter Verwendung des oben genannten Paares mit DC Koeffizienten, und zwar auf Basis der oben genannten Gleichungen (1) und (2). Die Signatur könnte aber auch unter Anwendung anderer Funktionen der DCT Koeffizienten des MPEG codierten Videoclips berechnet werden, beispielsweise durch Hinzufügung eines DC Anteils an den AC Anteil und durch Teilung durch eine beliebige Zahl.
Bevorzugt werden 16 Fensterpaare weil Computer am effizientesten binäre Zahlen in Gruppen von 2ⁿ speichern und ganze Zahlen ohne Vorzeichen typischerweise in 32 Bits in vielen Softwarecompilern, wie vielen C^TM Sprachcompilern, gespeichert werden. Es gibt 6 Blöcke in einem Makroblock und 16 Bits je Block, aus denen die DC Anteile hergeleitet werden: 4 Leuchtdichteblöcke × 16 Bits = 64 Bits, und 1 Block für je zwei Farbartblöcke (Cr und Cb) ergeben 2 × 16 Bits = 32 Bits für Farbart.
Bewegung zwischen Fenstern in einem Fensterpaar kann auf eine qualitative Weise wie folgt, unter Verwendung von 2 Bewegungsbits beschrieben werden:

1. Bits werden auf 00 gesetzt, wenn die beiden Fenster Null Bewegung zeigen (d.h. wenn der Bewegungsvektor Null ist);
2. Bits werden auf 01 gesetzt, wenn das erste Fenster statisch ist (der Bewegungsvektor ist Null) aber das zweite Fenster verlagert wurde (der Bewegungsvektor ist nicht Null);
3. Bits werden auf 10 gesetzt, wenn das erste Fenster sich verlagert hat (der Bewegungsvektor ist nicht Null) aber das zweite Fenster war statisch (der Bewegungsvektor ist Null); und
4. Bits werden auf 11 gesetzt, wenn die beiden Fenster Bewegung zeigen (die beiden Bewegungsvektoren sind nicht Null).

Es gibt keinen Beitrag von Bewegungsbits, wenn der Videoclip unter Anwendung des Motion JPEG Formats codiert wird.
7 zeigt ein Beispiel einer Signatur, für Fensterpaare eines Frames. Die Signatur 44 aus 7 ist 128 Bits lang, organisiert in Gruppen von 8 Bits je 16 Fensterpaare. Von den ersten 8 Bits in der Signatur von 7 sind beispielsweise die Bits L11 bis L14 die oben genannten Leuchtdichtebits für das Fensterpaar w1 und w1'; die Bits Cr1 und Cb1 sind die Farbartbits für das Fensterpaar w1 und w1'; und die Bits M11 und M12 sind die Bewegungsbits (falls vorhanden) für das Fensterpaar w1 und w1'. Acht Bits für jedes der Fensterpaare w2 und w2' bis w16 und w16' werden auf entsprechende Weise in 7 organisiert.
Wie in den 8(A) und 8(B) sind die Fenstergröße und die Positionen relativ zu den Bildgrößen. In einigen Fällen wird ein Fenster nur einen einzigen Makroblock bedecken, wie in 8(A) dargestellt. In anderen Fällen wird das Fenster mehr als nur einen einzigen Makroblock bedecken und möglicherweise Teile vieler Makroblöcke, wie in 8(B) dargestellt. In dem letzteren Fall wird der DC Wert als die gewichtete Summe der DC Werte der Makroblöcke berechnet, die durch das Fenster bedeckt werden.
Zum Normalisieren der Fenstergröße, wie oben, wenn ein Fenster mehr als nur einen Makroblock bedeckt, wird das Fenster auf einem Fenster der Standardgröße entsprechend dem in 9 gezeigten Prozess abgebildet.
9 ist ein Flussdiagramm zum Abbilden von Fenstern und zum Berechnen von DC Koeffizienten in der vorliegenden Erfindung. In dem Schritt 301 werden Koordinaten eines Fensters, definiert durch Wxi, Wyi, wobei i gleich 1, ...4 ist, in dem Bild der Standardgröße durch den Benutzer im Vorauf selektiert. Auch in dem Schritt 301 wird die neue Bildgröße als Eingang geliefert. In dem Schritt 302 wird jede Koordinate des Fensters in dem Standardbild abgebildet um der Größe des neuen Bildes zu entsprechen. In dem Schritt 303 werden Gewichtungen berechnet, und zwar auf Basis des Teilgebietes des Makroblocks, bedeckt durch das Fenster als Teil des gesamten Gebietes des Fensters in dem neuen Bild für jede Koordinate des in dem Schritt 301 definierten Fensters. Danach wird in dem Schritt 304 und wie anhand der 8(B) beschrieben, der DC Wert als die gewichtete Summe der DC Werte der Makroblöcke berechnet, die durch das Fenster bedeckt werden.
10 ist ein Flussdiagramm, das Framesignaturextraktion in dem Signaturarchivierungsprozess zeigt. In dem Schritt 401 wird ein Index j, der angibt, welches Fensterpaar in einem Frame für welche Signatur extrahiert wird, zu dem Wert "1" ausgelöst. In dem Schritt 402 beginnt der Prozess aus 10 für Fensterpaare W_j und W_j' mit DC Koeffizienten des Bildes und der Bewegungsvektoren M_wj und M_wj'. In dem Schritt 403 wird ein Index i, der angibt, welcher DC Anteil berechnet wird, zu dem Wert von "1" ausgelöst. In dem Schritt 404 wird der i. DC Koeffizient aus dem Fenster, angegeben durch DCi, für jedes Fenster W_j berechnet und der i. DC Koeffizient, angegeben durch DCi', wird für jedes Fenster W'_j berechnet, und zwar entsprechend der 6. In dem Schritt 405 wird der Absolutwert der Differenz zwischen DCi und DCi' mit einem beliebigen Schwellenbetrag verglichen, selektiert durch den Benutzer. Wenn die vorhergehende Differenz kleiner ist als der Schwellenbetrag, dann wird das i. Signaturbit S_i gleich 1 gesetzt, wie in dem Schritt 406 dargestellt. Andererseits wird, wenn die vorhergehende Differenz größer ist als der beliebige Schwellenwert oder diesem Wert entspricht, das i. Signaturbit gleich 0 gesetzt, wie in dem Schritt 407 dargestellt.
Aus jedem der Schritte 406 und 407 wird das i. Signaturbit mit den vorher geschaffenen Bits der Signatur verkettet zum Bilden einer aktualisierten Version der Signatur S, wie in dem Schritt 408 dargestellt. In dem Schritt 409 wird, wenn i kleiner ist als 6, was der Anzahl Blöcke (4 Leuchtdichte plus 1 von jeweils zwei Farbart) in dem Makroblock in der vorliegenden Erfindung), i um 1 erhöht in dem Schritt 410, und DCi und DCi' werden für den neuen Wert von i berechnet.
Andererseits wird, wenn i in dem Schritt 409 größer ist als 6 oder diesem Wert entspricht, in dem Schritt 411 der Absolutwert des Bewegungsvektors M_wj mit 0 verglichen um zu ermitteln, ob der Bewegungsvektor Null oder nicht Null ist. Wenn der Absolutwert des Bewegungsvektors nicht Null ist, wird in dem Schritt 412 das Bewegungsbit mj gleich 1 gesetzt. Andererseits wird, wenn der Absolutwert des Bewegungsvektors M_wj gleich 0 ist, das Bewegungsbit in dem Schritt 413 mj gleich 0 gesetzt. Danach wird in dem Schritt 414 ein neuer Wert der Signatur S weiterhin durch Verkettung der Signatur S mit dem Wert des Bewegungsbits mj gebildet.
In dem Schritt 415 wird der Absolutwert des Bewegungsvektors M_wj' mit 0 verglichen. Wenn der Absolutwert des Bewegungsvektors gröber ist als 0, wird in dem Schritt 416 das Bewegungsbit mj gleich Eins gesetzt. Wenn aber der Absolutwert des Bewegungsvektors M_wj' gleich 0 ist, wird in dem Schritt 417 der Wert des Bewegungsbits mj' gleich 0 gesetzt. In dem Schritt 418 wird die Signatur S und der Wert des Bewegungsvektors mj' verkettet zum Bilden eines neuen Wertes für die Signatur S.
In dem Schritt 419 wird, wenn der Wert des Fensterindexes j kleiner ist als die Anzahl Fensterpaare in dem Frame des Videoclips, dann wird der Wert von j in dem Schritt 421 um Eins erhöht und der Signaturextraktionsprozess der Schritte 402 bis 420 wird wiederholt. Wenn aber der Wert des Index j größer ist als die Anzahl Fenster in dem Frame des Videoclips, oder dieser Anzahl entspricht, ist die Signaturextraktion von einem Frame des Videoclips komplett.
Videoclips können unter Anwendung deren Signaturen wieder aufgefunden werden. Da jeder Videoclip als eine Sequenz von Signaturen dargestellt wird, werden diese Signaturen zum Vergleichen der Videoclips durch das Hamming-Abstandsmaß benutzt.
Ein Ziel bei dem wieder Auffinden von Video ist einen Abfragevideoclip zu identifizieren, die Signatur des Abfragevideoclips zu extrahieren, danach andere Videoclips aus einem örtlichen Speicher, einem Fernspeicher oder aus eine Kombination derselben oder Datenbanken aufzufinden, die eine Ähnlichkeit mit dem Abfragevideoclip haben, und zwar auf Basis der Signaturen der in den Datenbanken gespeicherten Videoclips.
Der erste Schritt in dem Erfassungsprozess ist das Extrahieren der Signaturen aus dem Abfragevideoclip. Danach wird die Signatur des Abfragevideoclips mit den Signaturen verglichen, die Videoclips darstellen, die in der Datenbank gespeichert sind. Das Zusammenpassen erfolgt durch Messung des herkömmlichen Hamming-Abstandes. So ist beispielsweise das Hamming-Abstandsmaß zwischen 0101 und 1011 gleich 3, weil die Anzahl verschiedener Bits zwischen 0101 und 1011 gleich 3 ist.
Der Hamming-Abstand zwischen zwei Frames wird durch einen Computer als eine Summe von Bits berechnet, die auf "1" gesetzt sind, erhalten in dem Ergebnis des bitweisen "Exklusiv-Oder" Vorgangs.
Die Berechnung des Hamming-Abstandes schafft Segmente von Videoclips aus der ganzen Datenbank mit einem minimalen Abstand, gegenüber dem Abfragevideoclip.
Für Videoclips, die unter Anwendung des MPEG Codierungsstandards codiert wurden, wird Bewegungsinformation auch in dem Erfassungsprozess benutzt. Wenn das Codierungsmuster nur I Frames betrifft, wie in dem Fall von Videoclips, die unter Anwendung des Motion JPEG Codierungsstandards codiert wurden, wird die Übereinstimmung zwischen der Abfragesignatur und den Datenbanksignaturen durch den Computer unter Verwendung von DC Signaturen durchgeführt.
Die Ähnlichkeit von Frames der Videoclips wird untersucht, wobei die Reihenfolge der Frames in der Sequenz beibehalten wird. So wird beispielsweise in der vorliegenden Erfindung die Signatur eines ersten repräsentativen Frames eines Abfragevideoclips mit der Signatur eines ersten repräsentativen Frames eines Datenbankvideoclips verglichen, wobei die Signatur eines zweiten repräsentativen Frames des Abfragevideoclips mit der Signatur eines repräsentativen Frames des Datenbankvideoclips verglichen wird, wenn es zwischen dem zweiten repräsentativen Frame des Abfragevideoclips und dem vorhergehenden repräsentativen Frame des Datenbankvideoclips eine Übereinstimmung gibt.
Übereinstimmung zwischen Signaturen repräsentativer Frames von dem Abfragevideoclip und der Datenbankvideoclip tritt auf, wenn das repräsentative Frame des Datenbankvideoclips, dessen Signatur an derselben Stelle (oder innerhalb eines Frames davon entfernt) in dem Datenbankvideoclip extrahiert ist, wie das repräsentative Frame des Abfragevideoclips, dessen Framesignatur extrahiert ist, wobei eine Offset Anzahl Frames zwischen den Frames in dem Abfragevideoclip und dem Datenbankvideoclip berücksichtigt wird.
Die Offsets werden hier anhand der 11(A) bis 11(D) beschrieben. Danach werden die Framesignaturen um eine Framesignatur verschoben, wobei die erste Framesignatur von dem Abfragevideoclip mit der zweiten Framesignatur des Datenbankvideoclips verglichen wird, usw.
Der vorher gehende Prozess der Verschiebung des Vergleichs der Framesignaturen um eine einzige Framesignatur wird wiederholt bis die Signatur der Abfragevideoclipsequenz mit allen Sequenzen von Framesignaturen in der Datenbank verglichen worden sind. Die erwartete Ähnlichkeit zwischen dem Abfragevideoclip und den in der Videoclipdatenbank gespeicherten Videoclips wird durch Subtraktion des gesamten Hamming-Abstandes zwischen entsprechenden Framesignaturen in der vorliegenden Erfindung von 128 berechnet. Die höchste Ähnlichkeitsbewertung wird dazu für jeden Videoclip gespeichert.
Ein Beispiel der Erfassung der Videoclips in der vorliegenden Erfindung wird anhand des nachfolgenden Pseudocodes beschrieben. Dieser berechnet das Hamming-Abstandsmaß zwischen der Signatur eines Abfragevideoclips und der Signatur eines Datenbankvideoclips.
Es wird nun vorausgesetzt, dass die Signatursequenz Q des Abfrageclips {q₁, ..., q_n} ist und die Signatursequenz D für den Datenbankclip {d₁, ..., d_m} ist. Der nachfolgende Pseudocode schafft die Hamming-Abstandsbewertungen, zwischen der Abfrageclipsignatur und der Datenbankclipsignatur.
Der gesamte Hamming-Abstand zwischen der Signatur eines Abfragevideoclips und der Signatur eines Datenbankvideoclips wird für alle Datenbankvideoclips berechnet. Die Signaturen entsprechen Frames in jedem Videoclip, aber der Abstand zwischen den Frames, für welche die betreffenden Signaturen in der Abfragesequenz und zwischen den Frames, für welche die betreffenden Signaturen in jeder Datenbanksequenz extrahiert wurden, sind einander nicht unbedingt gleich: der Abstand kann beliebig gewählt werden. So kann beispielsweise eine Framesignatur für jedes Frame 1, 2, 7 des Abfragevideoclips extrahiert worden sein, aber für jedes Frame der Frames 1, 5, 11 und 15 des Datenbankvideoclips, wenn jedes Frame der oben genannten Frames repräsentativ für den Videoclip ist. Andererseits kann jedes fünfte (oder zweite, oder dritte usw. beispielsweise) Frame für Signaturextraktion in dem Videoclip beliebig selektiert werden.
In dem oben genannten Pseudocode ist Q ein Satz mit "n" Eingaben und er weist eine Signatursequenz auf, wie diese aus dem Abfragevideoclip extrahiert worden ist. D_s ist ein Satz mit "m" Eingaben und umfasst die Signatursequenz, wie diese aus dem Datenbankvideoclip "s" extrahiert worden ist. Die "für" j Schleife wird wiederholt, für jeden Datenbankvideoclip "s", der in der Videosignatursequenzdatenbank gespeichert ist.
Am Anfang des Vergleichs zwischen der Abfragevideoclipsignatursequenz und jeder Datenbankvideoclipsignatursequenz wird zum Beibehalten der Abfragevideoclipsignatursequenz Q, TempQ bei Q ausgelöst. TempQ wird danach während des Vergleichs zwischen der Abfragevideoclipsignatursequenz und der Datenbankvideoclipsignatursequenz "s" manipuliert. Danach wird der variable Minscore bei dem Wert der Länge der Framesignatur + 1 ausgelöst.
In dem Pseudocode wird ein Index j, der die Anzahl Wiederholungen des Vergleichs zwischen der Signatur des Abfragevideoclips und der Signatur des Datenbankvideoclips bestimmt, ausgelöst. Der Index j basiert auf der Anzahl Framesignaturen in jedem der vorhergehenden Videoclips, wie dargerstellt. Variablen Summe_j, was den Hamming-Abstand für den Vergleich der Signatur des Abfragevideoclips von der Signatur des Datenbankvideoclips zur Wiederholung angibt, welche die Anzahl Vergleiche zwischen Framesignaturen für die vorhergehenden Videoclips ist, werden auch ausgelöst. Ein Index i gibt die Anzahl der repräsentativen Framesignaturen in der Abfragevideoclipsequenz an. Ein Index k gibt die Anzahl Frames in dem Datenbankvideoclip an, die in nicht mehr als nur einem Frame der repräsentativen Frames in dem Abfragevideoclip vorhanden sind, wobei eine etwaige Verschiebung oder ein etwaiger Offset von frames berücksichtigt wird.
In dem Pseudocode wird jede Framesignatur des Abfragevideoclipsignatur mit einer entsprechenden Framesignatur der Datenbankvideoclipsignatur verglichen. Außerdem wird jede Framesignatur der Abfragevideoclipsignatur mit der vorhergehenden oder nächsten Framesignatur der Datenbankvideoclipsignatur verglichen, wenn es eine Übereinstimmung gibt (wie oben detailliert erläutert). Auf entsprechende Weise wird jedes repräsentative Frame, für das eine Signatur extrahiert worden ist, des Abfragevideoclips mit jedem repräsentativen Frame des Datenbanksequenzvideoclips entsprechend dem einen Frame oder innerhalb des einen Frames (das bevorzugt wird, das aber jede beliebige vorbestimmte Zahl sein kann) in der Framerichtung des entsprechenden Frames von dem Abfragevideoclip verglichen, wobei die relativen Startpositionen zwischen den Frames der Abfragesequenz und den Frames der Videoclips berücksichtigt werden.
Für jedes Frame der zwei oder drei (wobei der Wert durch "k" angegeben ist) Frames, welche die oben genannten Kriterien von dem Abfragevideoclipframe erfüllen, (wie oben erläutert), werden der Hamming-Abstand zwischen der Signatur des Videoclips und der Signatur des Datenbankclips für die Frames, die verglichen werden, ermittelt, und die Summe_j und Zählwert_j werden auf entsprechende Weise aktualisiert.
In dem vorhergehenden Pseudocode wird der Hamming-Abstand für jedes der einen, zwei oder drei Frames, die innerhalb eines Frames des Abfragevideoclipframes sind, berechnet.
Nachdem der Vergleich zwischen der Signatur des Abfragevideoclips und der Signatur des Datenbankvideoclips für den aktuellen Offset zwischen den Eingaben der Abfragevideoclipsignatursequenz und der Datenbankvideoclipsignatursequenz komplett ist, wird der mittlere (Score_j) durch Teilung der Summe der Hamming-Abstände zwischen der Signatur eines Abfrage repräsentativen Frames und den Signaturen der repräsentativen, entsprechenden Frames durch die Anzahl berechneter Hamming-Abstände berechnet.
Da Minscore den Wert des niedrigsten Hamming-Abstandmaßes zwischen der aus dem Abfragevideoclip extrahierten Signatursequenz und der aus dem Datenbankvideoclip extrahierten Signatursequenz speichert, wenn das Hamming-Abstandsmaß, berechnet für den aktuellen Offset zwischen den Eingaben in der Abfragevideoclipsignatursequenz und der Datenbankvideoclipsignatursequenz niedriger ist als das Hamming-Abstandsmaß, berechnet für dieselbe Datenbankvideoclipsignatursequenz bei jedem beliebigen vorhergehenden Offset, wird der Wert des Minscore durch den Wert von Score_j ersetzt.
Da vorausgesetzt wird, dass die Anzahl Frames in dem Datenbankvideoclip größer ist als die Anzahl Frames in dem Abfragevideoclip, wird der Vergleich zwischen der Signatur des Abfragevideoclips und dem Datenbankvideoclip eine Anzahl Male gleich einer Anzahl Sequenzen von Framesignaturen in dem Datenbankvideoclip wiederholt, in dem die Sequenz von Framesignaturen in dem Abfragevideoclip existieren kann, wobei die Sequenz von Framesignaturen innerhalb jedes Videoclips beibehalten wird (d.h. die Videoclipframesignaturen werden in derselben Reihenfolge gehalten). Der Index j bestimmt, wann die oben genannten Kriterien erfüllt sind.
Für jeden nachfolgenden Vergleich zwischen der Abfragevideoclipsignatur und der Datenbankvideoclipsignatur wird die Abfragevideoclipsignatur gegenüber der Datenbankvideoclipsignatur um ein repräsentatives Frame versetzt. In dem oben genannten pseudocode TempQ = {q_p | q_p <- q_p + d_j + 1 – d_j, for p = 1,n}versetzt die Eingaben in die Abfragevideoclipsequenz, so dass die aus dem ersten repräsentativen Frame in dem Abfragevideoclip extrahierte Signatur versetzt ist um der nächsten Eingabe in die Datenbankvideoclipsignatursequenz zu entsprechen. Die nächste Eingabe in die Datenbankvideoclipsignatursequenz ist die Eingabe in die Datenbankvideoclipsignatursequenz, unmittelbar nach der Eingabe in die Datenbankvideoclipsignatursequenz, mit der die Signatur, die aus dem ersten repräsentativen Frame in der Abfragevideoclipsignatursequenz in der vorhergehenden Wiederholung der "für" j Schleife übereinstimmte.
Bei der Vollendung der "für" j Schleife für die aktuelle Datenbankvideoclipsignatursequenz "s" in der Datenbank werden der Wert des Minscore und der entsprechende, aktuelle Wert von "s" in eine Anordnung von Scores eingefügt. Scores speichert den niedrigsten Wert des Hamming-Abstandmaßes für jeden Datenbankvideoclip, mit dem die Abfragevideoclipsignatursequenz nach der vorliegenden Erfindung verglichen wurde.
Die Anordnung von Scores ist in einer bevorzugten Ausführungsform eine gekoppelte Liste, die auf Basis der niedrigeren Bewertungen sortiert wird. Der niedrigste in Scores gespeicherte Wert gibt die beste "Übereinstimmung" zwischen der Abfragevideoclipsignatursequenz und der Datenbankvideoclipsignatursequenz an.
Wenn Ähnlichkeit zwischen der Signatur des Abfragevideoclips und der Signatur jedes betreffenden Datenbankvideoclips als Basis zum Sortieren von Datenbankvideoclips benutzt wird, werden die Datenbankvideoclips in abfallender Reihenfolge der Ähnlichkeit gegliedert.
Mit dem oben genannten Pseudocode nach der vorliegenden Erfindung kann die Suche mit jeder beliebigen Signatur in der Datenbank gestartet werden.
In einer bevorzugten Ausführungsform wird, beim Berechnen des Maßes des Abstandes zwischen den Signaturen zweier Videoclips wird der Mittelwert aller Bewertungen verglichener Framesignaturen verwendet. Das Ähnlichkeitsmaß kann aber auf anderen Kriterien basieren, wie örtlicher Ähnlichkeit zwischen zwei Videoclips. Nachstehend folgen Verfahren auf dem Framepegel zum Ermitteln von Videoähnlichkeitsmaßen nach der vorliegenden Erfindung:

1. Die Verwendung der mittleren Gesamtbewertungen übereinstimmender Frames (was in dem oben genannten Pseudocode dargestellt ist):
2. Die Verwendung des Mittelwertes über einen Teil der höchsten Bewertung übereinstimmender Frames; oder
3. Die Verwendung des Mittelwertes über die örtlichen Bewertungen in der Nähe einiger örtlicher Maxima, wobei die Mittelwerte der Ähnlichkeit zwischen Signaturen repräsentativer Frames, welche die höchste Ähnlichkeit schaffen, verwendet werden.

Für die vorliegende Erfindung können auch Verfahren auf Pegeln anders als dem Framepegel angewandt werden.
Die oben genannten Ähnlichkeitsmaße schaffen die gesamte Ähnlichkeit zwischen zwei Videoclips, wobei das lineare Äußere räumlicher und Bewegungsmerkmale der betreffenden Videoclips berücksichtigt werden. Diese Verfahren sind nützlich, wenn die Ähnlichkeit zwischen zwei Videoclips zu der linearen Lage der Szenen in den betreffenden Videoclips relativ sein soll. Wenn aber die gesamte Ähnlichkeit von Subsegmenten zweier Videoclips erforderlich ist, und zwar ungeachtet der Lage der Szenen in dem Video (beispielsweise die Anfangsframes des Abfragevideoclips können mit den Endframes des Datenbankvideoclips übereinstimmen und umgekehrt), muss der Mittelwert der höchsten Bewertungen der ähnlichen gemeinsamen Subsegmente verwendet werden.
Weiterhin sind nach der vorliegenden Erfindung Benutzer imstande, mehreren Teilen des Abfragevideoclips, mehreren Aspekten der Videodarstellung, wie räumlichen und Bewegungsaspekten, Bedeutung zuzumessen. Der Benutzer ist imstande:

1. Eine Subsequenz von Frames Bedeutung zuzumessen;
2. Merkmalen, wie Leuchtdichte, Farbart, und Bewegungsanteilen von Videoclips Bedeutung zuzumessen;
3. Die Dichte repräsentativer Frames in der Sequenz der repräsentativen Frames, die in dem Suchprozess verwendet werden, zu selektieren; und
4. Videoframes zu selektieren, die in dem Suchprozess wichtig sind.

Ein Beispiel eines Vergleichs zwischen der Signatur des Abfragevideoclips und der Signatur eines Datenbankvideoclips übereinstimmend mit dem oben genannten Pseudocode, ist in den 11(A) bis 11(D) dargestellt. In den 11(A) bis 11(D) ist der Wert von m = 12 und von n = 4; deswegen werden m-n = 4 Wiederholungen des Vergleichs zwischen den oben genannten Signatursequenzen durchgeführt.
In dem Wiederauffindungsprozess werden die Signaturen von Frames von dem Abfragevideoclip mit den Signaturen von Frames von jedem Datenbankvideoclip verglichen. Die 11(A) bis 11(D) geben durch "R" an, welche Framenummern von jedem Abfragevideoclip und Datenbankvideoclip miteinander verglichen werden. Frames, die entsprechend dem oben genannten Pseudocode und Kriterien verglichen werden, sind durch Pfeile angegeben.
In 11(A) werden repräsentative Frames, was Frames sind, für die Signaturen extrahiert worden sind, durch "R" bezeichnet für jeden Abfragevideoclip und Datenbankvideoclip. Die repräsentativen Frames können an jede Framestelle angebracht werden, entweder beliebig oder zu regelmäßigen Intervallen, oder bei jedem Frame. Sogar die repräsentativen Frames können in ein unregelmäßiges Muster angebracht werden.
Auch wie in 11(A) dargestellt, wird das Frame 1 des Abfragevideoclips mit dem Frame 1 des Datenbankvideoclips verglichen. Denn, da das nächste Frame des Datenbankvideoclips mit einer Signatur das Frame 4 ist, ist der Abstand zwischen Frame 1 des Abfragevideoclips und Frame 4 des Datenbankvideoclips zu groß (d.h. die Abstände eines beliebig selektierten Frames übersteigt). Deswegen wird Frame 1 des Abfragevideoclips nur mit Frame 1 des Datenbankvideoclips verglichen.
Der Abstand für Übereinstimmung zwischen der Framenummer des repräsentativen Frames des Abfragevideoclips und der Framenummer des repräsentativen Datenbankframes des Datenbankvideoclips wird beliebig selektiert; in dem Fall der 11(A) bis 11(D) beispielsweise wird dieser Parameter beliebig als Eins gewählt. Deswegen wird, wenn ein repräsentatives Frame in dem Abfragevideoclip Frame Nummer 6 ist, die es von der Framenummer 6 des Abfragevideoclips extrahierte Signatur nur mit Signaturen verglichen, die für die Framenummern 5, 6 oder 7 aus dem Datenbankvideoclip gibt. Auf entsprechende Weise gibt es in dem Beispiel der 11(A) obschon es eine Signatur für das Frame Nummer 4 des Datenbankvideoclips gibt, kein Frame von dem Abfragevideoclip, das wählbar ist um mit der Signatur des Frames Nummer 4 aus dem Datenbankvideoclip verglichen zu werden, und zwar auf Basis des gewählten Parameters eines Abstandes eines einzigen Frames.
In 11(A) ist das Frame 6 des Abfragevideoclips ein repräsentatives Frame, dessen Signatur mit der Signatur für das Frame 7 aus dem Datenbankvideoclip verglichen wird, auch ein repräsentatives Frame innerhalb eines Frames des Frames 6 des Abfragevideoclips. Obschon, wie in 11(A) dargestellt, das Frame 8 des Abfragevideoclips ein repräsentatives Frame ist, und Frame 7 des Datenbankvideoclips, auch ein repräsentatives Frame ist, und innerhalb eines Frames des Frames 8 aus dem Abfragevideoclip ist, wird Frame 8 aus dem Abfragevideoclip nicht mit Frame 7 des Datenbankvideoclips verglichen, da das Frame 7 des Datenbankvideoclips bereits mit dem Frame 6 aus dem Abfragevideoclip verglichen worden ist.
In der vorliegenden Erfindung wird, wenn einmal eine Signatur von einem repräsentativen Frame aus dem Datenbankvideoclip mit einer Signatur von einem repräsentativen Frame aus dem Abfragevideoclip verglichen worden ist, diese Signatur des repräsentativen Frames aus dem Datenbankvideoclip nicht mit einer Signatur aus einem anderen repräsentativen Frame aus dem Abfragevideoclip verglichen, bis die Eingaben in die Abfragevideoclipsignatursequenz gegenüber den Eingaben in die Datenbankvideoclipsignatursequenz versetzt sind. Aber diese Beschränkung der Nichtverwendung einer Signatur aus einem repräsentativen Frame aus dem Datenbankvideoclip für einen zweiten Vergleich kann entfernt werden.
11(A) zeigt auch, dass die Framesignaturen aus Abfragevideoclipframes 11, 13, 15 und 17 mit Framesignaturen aus repräsentativen Datenbankvideoclipframes entsprechend der oben genannten Beschreibung verglichen werden. Die betreffenden Signaturen aus den repräsentativen Frames 20 und 24 aus dem Abfragevideoclip werden je mit den betreffenden Framesignaturen aus zwei Frames aus dem Datenbankvideoclip verglichen; jedes der vorhergehenden zwei repräsentativen Datenbankvideoclipframes fällt innerhalb eines Frames des entsprechenden repräsentativen Abfragevideoclipframes. Deswegen werden zwei "Bewertungen" für jedes der repräsentativen Frames 20 und 24 aus dem Abfragevideoclip erhalten. In dem Fall werden die zwei betreffenden "Bewertungen" für jedes repräsentative Videoclipframe 20 und 24 gemittelt, wie in dem oben genannten Pseudocode angegeben.
In 11(B) wird derselben Abfragevideoclip wie in 11(A) gegenüber der zweiten repräsentativen Framesignatur von dem Datenbasevideoclip verschoben, und zwar entsprechend dem oben beschriebenen Pseudocode.
Wie in 11(B) dargestellt, wird die aus dem repräsentativen Frame 1 aus dem Abfragevideoclip extrahierte Signatur mit der aus dem repräsentativen Frame 4 aus dem Datenbankvideoclip extrahierten Signatur verglichen. Denn, da ein zweites repräsentatives Frame aus dem Datenbankvideoclip nicht innerhalb eines Frames des repräsentativen Frames aus dem Abfragevideoclip ist, wobei die Offsetpositionen der zwei betreffenden Videoclips berücksichtigt werden, wird Frame 1 aus dem Abfragevideoclip nicht mit anderen Frames aus dem Datenbankvideoclip verglichen. Auf gleiche Weise entspricht das repräsentative Frame 6 aus dem Abfragevideoclip nicht einem repräsentativen Frame aus dem Datenbankvideoclip, und ist auch nicht innerhalb eines Frames des Datenbankvideoclips, wobei die vorhergehende Offsetposition berücksichtigt wird. Deswegen wird die aus dem repräsentativen Frame 6 aus dem Abfragevideoclip extrahierte Signatur nicht mit den aus einem Frame aus dem Datenbankvideoclip extrahierten Signaturen verglichen.
In 11(B) wird die aus dem repräsentativen Frame 8 aus dem Abfragevideoclip extrahierte Signatur mit der aus dem repräsentativen Frame 11 aus dem Datenbankvideoclip extrahierten Signatur verglichen. Das repräsentative Frame 8 aus dem Abfragevideoclip entspricht dem repräsentativen Frame 11 aus dem Datenbankvideoclip, wobei der Offset zwischen den Abfragevideoclipframes und den Datenbankvideoclipframes berücksichtigt wird. Auf gleiche Weise wird die aus dem repräsentativen Frame 11 aus dem Abfragevideoclip extrahierte Signatur mit der aus dem repräsentativen Frame 14 aus dem Datenbankvideoclip extrahierten Signatur verglichen. Die aus den repräsentativen Frames 13, 15, 17, 20 und 24 von dem Abfragevideoclip extrahierten betreffenden Signaturen werden mit den betreffenden aus entsprechenden repräsentativen Frames aus dem Datenbankvideoclip extrahierten Signaturen verglichen.
In 11(C) wird die aus dem repräsentativen Frame 1 aus dem Abfragevideoclip extrahierte Signatur mit der aus dem repräsentativen Frame 7 aus dem Datenbankvideoclip extrahierten Signatur verglichen, wobei das repräsentative Frame 7 das nächste repräsentative Frame ist, gegenüber dem das repräsentative Frame 1 aus dem Abfragevideoclip versetzt worden ist. Auf gleiche Weise wird die aus dem repräsentativen Frame 6 aus dem Abfragevideoclip extrahierte Signatur mit der aus dem repräsentativen Frame 11 aus dem Datenbankvideoclip extrahierten Signatur verglichen, usw.
In 11(D) wird die aus dem repräsentativen Frame 1 aus dem Abfragevideoclip extrahierte Signatur mit der aus dem repräsentativen Frame 11 aus dem Datenbankvideoclip extrahierten Signatur verglichen, wobei das repräsentative Frame 11 das nächste repräsentative Frame ist, gegenüber dem das repräsentative Frame 1 aus dem Abfragevideoclip versetzt worden ist. Auf gleiche Weise wird die aus dem repräsentativen Frame 6 aus dem Abfragevideoclip extrahierte Signatur mit den aus den repräsentativen Frames 15 und 17 aus dem Datenbankvideoclip extrahierten Signaturen verglichen, usw.
In den Beispielen in den 11(A) bis 11(D) wird die Differenz in der Anzahl Frames zwischen dem ersten repräsentativen Frame aus dem Abfragevideoclip und dem repräsentativen Frame aus dem Datenbankvideoclip, mit dem das repräsentative Frame aus dem Abfragevideoclip verglichen wird, für jeden Framesignaturvergleich zwischen dem Abfragevideoclip und dem Datenbankvideoclip beibehalten.
12 zeigt ein Beispiel einer Implementierung einer oben anhand der 3 beschriebenen Benutzerschnittstelle 32. Die in 12 dargestellte Benutzerschnittstelle 46 ist unter Anwendung eines TCL/TK Werkzeugs, das in der X WINDOWS^TM Plattform läuft. Wenn ein Benutzer "Suche durch Video" 48 selektiert, wird ein Thema wie "NACHRICHTEN" 50 und ein Abfragevideoclip 52 (der als das linke oberste Ikon in dem Arbeitsraum für das Wiederauffindungsgebiet 54 dargestellt ist), wird in der vorliegenden Erfindung nach Signaturen aus einer Metadatenbank 22 gesucht (hier anhand der 3 näher beschrieben) und es werden Ergebnisse dieses Suchvorgangs in dem Arbeitsraum für das Wiederauffindungsgebiet 54 wiedergegeben. Die resultierenden Videoclips werden entsprechend dem Ähnlichkeitspegel gegenüber dem Abfragevideoclip geordnet, und zwar von links nach rechts über die Reihen, danach von oben nach unten über Spalten. Das Schirmfenster 56 gibt ein kleines Bild eines selektierten Videos wieder.
Die vorliegende Erfindung umfasst auch Abwandlungen der Ausführungsformen.
Die vielen Merkmale und Vorteile der vorliegenden Erfindung dürften aus der detaillierten Beschreibung hervorgehen und sollen folglich durch die beiliegenden Patentansprüche alle Merkmale und Vorteile der vorliegenden Erfindung, die im Rahmen der Patentansprüche liegen, decken. Weiterhin ist es nicht erwünscht, da dem Fachmann viele Modifikationen und Änderungen einfallen dürften, die vorliegende Erfindung auf genau die beschriebene und dargestellte Konstruktion und Wirkungsweise zu beschränken, und auf entsprechende Weise können alle geeigneten Modifikationen und Äquivalenten, die in dem Rahmen der Patentansprüche liegen, darauf zurückgreifen.
Text in der Zeichnung
11A

Datenbankvideoclip
Framenummern
Abfragevideoclip

11B

Datenbankvideoclip
Framenummern
Abfragevideoclip

11C

Datenbankvideoclip
Framenummern
Abfragevideoclip

11D

Datenbankvideoclip
Framenummern

Abfragevideoclip
12

Video-Wiederauffindungsdemo
Alle Persönlich Drinnen Draußen Schlüsselframes
Suche per Video
Speichern als....
Löschen
Hilfe
Zurück
Einverstanden

Claims

Verfahren zum Identifizieren von Videoclips entsprechend einem Suchanfragevideoclip, wobei das genannte Verfahren auf Signaturen basiert, die durch Aufteilung wenigstens eines Bildes (40) jedes der Videoclips in eine Anzahl Fensterpaare extrahiert worden sind, wobei jedes Fensterpaar der Anzahl Fensterpaare ein erstes Fenster und ein zweites Fenster aufweist, und zum Schaffen der Signatur (42) entsprechend dem wenigstens eine Bild jedes der Videoclips auf Basis einer Anzahl Unterschiede zwischen jedem ersten Fenster und jedem zweiten Fenster der Anzahl Fensterpaare, und wobei dieses Verfahren die nachfolgenden Verfahrensschritte umfasst: – das Extrahieren (20) der Signatur des Suchanfragevideoclips; – das Vergleichen (26) der Signatur des Suchanfragevideoclips mit den Signaturen der Videoclips, wobei die Signaturen der Videoclips extrahiert (20) oder in einer Datenbank gespeichert sind; – das Ermitteln eines Ergebnisses der Ähnlichkeit der Signatur (26) jedes der Videoclips mit der Signatur des Suchanfragevideoclips; dadurch gekennzeichnet, dass der Suchanfragevideoclip und die Videoclips, die wenigstens teilweise in dem MPEG- oder in dem Bewegungs-JPEG-Standard codiert sind und die Signatur des Suchanfragevideoclips auf DC-Anteilen der DCT-Koeffizienten des Suchanfragevideoclips basiert und dass die Signaturen der Videoclips auf DC-Anteilen der DCT-Koeffizienten der Videoclips basieren.
Verfahren nach Anspruch 1, wobei das Verfahren weiterhin den Verfahrensschritt der Ordnung (28) der auf dem Ergebnis basierten Videoclips umfasst.
Verfahren nach Anspruch 1, wobei das Ergebnis durch Berechnung des Hamming Abstandsmaßes (207) zwischen den Signaturen ermittelt wird.
Verfahren nach Anspruch 1, 2 oder 3, wobei das Verfahren weiterhin das Wiedergeben der Videoclips auf Basis des Ergebnisses umfasst.
Verfahren nach Anspruch 1, 2, 3 oder 4, wobei das Verfahren weiterhin den Schritt der digitalen Codierung der Videoclips in das MPEG-Format umfasst, wenn die Videoclips nicht in das MPEG-Format (102) codiert sind.
Verfahren nach Anspruch 1 oder 2, wobei das Verfahren weiterhin den Schritt der digitalen Codierung der Videoclips in das Bewegungs-JPEG-Format umfasst, wenn die Videoclips nicht in das Bewegungs-JPEG-Format codiert sind.
Verfahren nach Anspruch 1, wobei die Datenbank die Stelle, die Größe und die Zeitlänge der Videoclips zu den Signaturen speichert.
Verfahren nach Anspruch 3, wobei das Hamming Abstandsmaß zwischen jedem Signaturbild des Suchanfragevideoclips und drei oder weniger Signaturbildern eines der Datenbankvideoclips ermittelt wird.
Anordnung zum Extrahieren von Signaturen aus Videoclips durch Aufteilung wenigstens eines Bildes (40) jedes der Videoclips in eine Anzahl Fensterpaare, wobei jedes Paar der Anzahl Fensterpaare ein erstes Fenster und ein zweites Fenster umfasst, und zum Schaffen der Signatur (42) entsprechend dem wenigstens einen Bild jedes der Videoclips auf Basis einer Anzahl Unterschiede zwischen jedem ersten Fenster und jedem zweiten Fenster der Anzahl Fensterpaare, und wobei die Anordnung die nachfolgenden Elemente umfasst: – eine Quelle, die Videoclips (10) liefert; und – ein Informationserfassungssystem (18) zum Extrahieren der Signatur aus einem Suchanfragevideoclip, und zum Identifizieren von Videoclips entsprechend dem Suchanfragevideoclip durch einen Vergleich der Signatur des Suchanfragevideoclips mit den Signaturen der Videoclips (26), wobei die Signaturen der Videoclips, die extrahiert (20) oder von der Quelle geliefert worden sind und zum Erfassen (30) aus der Videoquelle der Videoclips entsprechend dem Suchanfragevideoclip, dadurch gekennzeichnet, dass der Suchanfragevideoclip und die Videoclips, die wenigstens teilweise in den MPEG- oder Bewegungs-JPEG-Standard codiert sind, und die Signatur des Suchanfragevideoclips auf DC-Anteilen der DCT-Koeffizienten des Suchanfragevideoclips basieren und dass die Signaturen der Videoclips auf DC-Anteilender DCT-Koeffizienten der Videoclips basieren.
Anordnung nach Anspruch 9, wobei die Anordnung weiterhin eine Wiedergabeanordnung zum Wiedergeben der Videoclips ähnlich dem Suchanfragevideoclip aufweist, und wobei das Informationserfassungssystem weiterhin Folgendes umfasst: – einen Archivierungs- und Signaturextraktionsteil zum Codieren jedes der Suchanfragevideoclips und der Videoclips in ein MPEG-Format, wenn der Suchanfragevideoclip und die Videoclips nicht in dem MPEG-Format sind, und zum Extrahieren von Signaturen des Suchanfragevideoclips und der Videoclips, und – eine Datenbank (22) zum Speichern der Signaturen der Videoclips, wobei das Identifizieren von Videoclips ähnlich dem Suchanfragevideoclip durch einen Vergleich der Signatur des Suchanfragevideoclips mit den Signaturen der Videoclips, und wobei das Erfassen der Videoclips aus der Videoquelle ähnlich dem Suchanfragevideoclip mit Hilfe eines Subsystems implementiert wird.
Anordnung nach Anspruch 9, wobei das Videoinformationserfassungssystem weiterhin ein Erfassungssubsystem aufweist, das Ähnlichkeit zwischen der Signatur des Suchanfragevideoclips mit den Signaturen der Videoclips ermittelt.
Anordnung nach Anspruch 9 oder 10, die weiterhin eine Datenbank zur Speicherung der Signaturen umfasst.
Anordnung nach Anspruch 9, wobei die Anordnung weiterhin Folgendes umfasst: – eine Benutzerschnittstelle (32), die mit dem Videoerfassungssubsystem gekoppelt ist zur Wiedergabe der Videoclips, und wobei die Videoquelle Folgendes umfasst: – einen MPEG-Videoserver zum Liefern der Videoclips, codiert unter Anwendung eines MPEG-Codierungsstandards (12), – eine Live-Videoquelle zum Liefern der Videoclips (14), und – eine Netzwerkquelle zum Liefern der Videoclips, codiert unter Anwendung eines Codierungsstandards anders als der MPEG-Codierungsstandard (16); wobei das Informationserfassungssystem Folgendes umfasst: – einen Archivierungs- und Signaturextraktor (20) zum Codieren und teilweise Neucodieren unter Anwendung des MPEG-Codierungsstandards der Videoclips, wenn die Videoclips nicht codiert sind unter Anwendung des MPEG-Codierungsstandards, und zum Extrahieren der Signaturen aus den Videoclips, wenn die Videoclips unter Anwendung des MPEG-Codierungsstandards codiert sind, – eine Datenbank (22), die mit dem Archivierungs- und Signaturextraktor gekoppelt ist, zum gleichzeitigen Speichern der Signaturen, zum Identifizieren von Daten der betreffenden Videoclips entsprechend den Signaturen, und – ein Erfassungssubsystem (18), das mit der Datenbank gekoppelt ist, zum Vergleichen der Signatur eines Suchanfragevideoclips mit den Signaturen in der Datenbank, und zum Ermitteln einer Ähnlichkeit zwischen der Signatur des Suchanfragevideoclips und jedem der Signaturen, die in der Datenbank gespeichert sind, wobei das genannte Erfassungssubsystem Folgendes umfasst: – einen Ähnlichkeitsrechner (16) zum Berechnen der Ähnlichkeit, – eine Ordnungseinheit (28), die mit dem Ähnlichkeitsrechner gekoppelt ist, zum Ordnen der Signaturen auf Basis der Ähnlichkeit; und – eine Abruf- und Wiedergabeeinheit (30), die mit der Ordnungseinheit gekoppelt ist, zum Erfassen von Videoclips, die mit den Signaturen übereinstimmen.