WO2000036833A1 - Procede et appareil permettant de retrouver vocalement des scenes video ou audio - Google Patents

Procede et appareil permettant de retrouver vocalement des scenes video ou audio Download PDF

Info

Publication number
WO2000036833A1
WO2000036833A1 PCT/JP1999/007022 JP9907022W WO0036833A1 WO 2000036833 A1 WO2000036833 A1 WO 2000036833A1 JP 9907022 W JP9907022 W JP 9907022W WO 0036833 A1 WO0036833 A1 WO 0036833A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
unit
index
search
pattern
Prior art date
Application number
PCT/JP1999/007022
Other languages
English (en)
French (fr)
Inventor
Hiroshi Furuyama
Hitoshi Yashio
Ikuo Inoue
Mitsuru Endo
Masakatsu Hoshimi
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Matsushita Research Institute Tokyo, Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=26579715&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=WO2000036833(A1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Matsushita Electric Industrial Co., Ltd., Matsushita Research Institute Tokyo, Inc. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US09/600,881 priority Critical patent/US6611803B1/en
Priority to EP99959808A priority patent/EP1058453B1/en
Priority to DE69915455T priority patent/DE69915455T2/de
Publication of WO2000036833A1 publication Critical patent/WO2000036833A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data

Definitions

  • the present invention relates to a video search device and a search method capable of searching for a desired scene (video and / or audio) using a keyword.
  • search system that reads subtitle information and closed caption information used in US television broadcasting by character recognition from video and detects specific scenes.
  • this search system can provide a scene that well reflects the intent of search in scenes that well reflect subtitle information and closed captions, but since such information is added manually, some Difficult to apply widely to general video because it is limited to broadcast programs It is.
  • Japanese Patent Laying-Open No. 6-68168 discloses a video search system for searching for a desired scene using an audio key.
  • FIG. 1 shows functional blocks of the search system disclosed in the above-mentioned Japanese Patent Application Laid-Open No. 6-68168.
  • the audio signal and the video signal are received by the audio / video input unit 201, the received audio signal is stored in the audio signal recording unit 202, and the received video signal is transmitted to the video signal recording unit 203.
  • the speech signal is analyzed in the speech analysis unit 204, and time series data of feature parameters representing the features of the speech is generated.
  • the generated time series of the feature parameters is stored in the voice feature storage unit 205.
  • a keyword to be used later by the user for scene retrieval is provided to the keyword feature analysis unit 206 in the form of voice.
  • the keyword feature analysis unit 206 analyzes the speech as a keyword, and generates a time series of feature parameters representing the features of the speech keyword.
  • the generated time series data of the feature parameter overnight is stored in the keyword feature parameter overnight storage unit 207.
  • the key section extraction unit 208 compares the time series data of the characteristic parameters of the audio signal stored in the storage unit 202 with the time series data of the characteristic parameters of the key word audio. Extract a keyword section in the audio signal.
  • the index assigning unit 209 creates index position data 210 that associates the extracted keyword section with the frame number of the video signal corresponding to the audio signal.
  • the search is performed using the index position data 210 when searching, the frame number of the video signal where the keyword appears from the audio signal can be specified, and the corresponding video and audio are output from the video / audio output unit 211 Video and audio as desired by the user.
  • the voice keypad to be used for the search must be registered in advance, and the search cannot be performed using other keypads.
  • the search cannot be performed using other keypads.
  • a user entered an uncertain keyword it became a search error and could not search for a scene reflecting the search intention. Disclosure of the invention
  • the present invention has been made in view of the above-described circumstances, and a scene desired by a user in a video and / or audio search is searched for in an unknown word other than words or keywords registered in a dictionary or the like in advance. It is an object of the present invention to provide an apparatus and a method capable of accurately and quickly searching for an uncertain keyword input by a user.
  • the present invention divides and applies a series of voice recognition processing procedures to search data generation and search processing, so that a video / audio scene desired by a user can be searched at high speed, and scene search can be performed at high speed.
  • the time series of the score of the sub-key which is an intermediate result of the speech recognition processing, is created as a search index, while the input key is used as a sub-word during the search processing. was converted to a time series of, and matched with the search index.
  • the search index is transmitted through a communication network such as a broadcast network or a video network.
  • a communication network such as a broadcast network or a video network.
  • a subword is a basic unit of an acoustic model smaller than a word.
  • Each word is represented as a sequence of subcodes.
  • Figure 1 is a functional block diagram of an existing video search system.
  • FIG. 2 is a functional block diagram of the scene search system according to the first embodiment of the present invention.
  • FIG. 3 shows the configuration of the standard audio pattern
  • Figure 4 shows a phoneme similarity table.
  • Fig. 5 is a diagram showing a state in which a sub-code corresponding to the key-phoneme sequence is picked up from the phoneme similarity table.
  • Figure 6 shows a state where the picked up subwords are arranged in the order of the phoneme sequence of the keyword.
  • FIG. 7 is a functional block diagram of the scene search system according to the second embodiment of the present invention.
  • Fig. 8 (1) shows the configuration of an MPEG stream in which video signals, audio signals, and video search indexes are multiplexed.
  • Figure 8 (2) shows the configuration of the video stream.
  • Figure 8 (3) shows the configuration of the GOP
  • Figure 8 shows the configuration of the search data stream.
  • FIG. 9 is a functional block diagram of the scene search system according to the third embodiment of the present invention.
  • FIG. 10 is a functional block diagram of a video recording device according to the fourth embodiment of the present invention.
  • FIG. 11 is a functional block diagram of a video recording device according to a fifth embodiment of the present invention.
  • FIG. 12 is a functional block diagram of a video playback device according to a sixth embodiment of the present invention.
  • FIG. 2 shows a functional block diagram of the scene search system according to the first embodiment.
  • the scene search system according to the present embodiment includes a search data generation unit 100 that generates a video search index for searching for a desired scene from stored videos, an input search keyword and a video search.
  • a search processing unit that searches for a scene that reflects the search intention by comparing the index with the index.
  • the search data generation unit 100 has a video signal input unit 101 for receiving a video signal, and an audio signal input unit 102 for receiving an audio signal attached (synchronized) with the video signal.
  • the video signal and the audio signal input from the video signal input unit 101 and the audio signal input unit 102 are stored in the recording unit 201 provided in the search processing unit 200.
  • the audio signal input from the audio signal input unit 102 is also input to the audio feature pattern extraction unit 103.
  • the voice feature pattern extraction unit 103 analyzes a voice signal and extracts a voice feature pattern.
  • the extracted audio feature pattern is provided to the video search index generation unit 104.
  • the video search index generation unit 104 compares the extracted audio feature pattern with the standard audio pattern stored in the standard audio feature pattern storage unit 105, and finds the ⁇ start A set of time, end time, and score indicating similarity ⁇ is output as a video search index.
  • This video search index is stored in the recording unit 201 in the search processing unit 200.
  • the search processing unit 200 has a recording unit 201 in which a video signal, an audio signal, and a video search index are stored.
  • a phoneme similarity table based on the video search index is formed.
  • the phoneme similarity table will be described later.
  • the control unit 202 controls the reading position of the video signal and the audio signal stored in the recording unit 201.
  • a desired image is selected from the images stored in the recording unit 201.
  • a search key for searching for an image scene is input from a key input unit 203.
  • the input keyword is converted by a key word conversion unit 204 into a time series of subwords constituting the input keyword.
  • the key word pattern collating unit 205 retrieves from the recording unit 201 the video search index of the sub-key that matches the sub-key of the input key word.
  • the search keyword is restored using the video search index retrieved from the recording unit 201, and the score of each restored key card is calculated.
  • the control unit 202 extracts the corresponding video scene from the recording unit 201 based on the start time of the head subword of the restoration key having a high score.
  • the video signal constituting the video scene extracted from the recording unit 201 is output from the video signal output unit 206 to the outside, and the audio signal accompanying the video signal is output from the audio signal output unit 206 to the outside.
  • the voice feature pattern extraction unit 103 sequentially divides the input voice signal into analysis frames of 10 msec, and performs a fast Fourier transform on each of the analysis frames to obtain an acoustic feature representing the acoustic characteristics of the utterance frequency band of the person. To sex data. Furthermore, the acoustic characteristic data of the utterance frequency band is converted into vector data having N (N is an arbitrary natural number) components composed of acoustic characteristics. This vector data becomes a voice feature pattern.
  • the input voice is converted into a voice feature pattern (vector data) every 10 ms, and the sequentially converted voice feature pattern is output to the video search index generation unit 104.
  • the frame length of the analysis frame is not limited to 10 msec.
  • Subwords (#V, #CV, #CjV, CV, CjV, VC, QC, VQ, VV, V #, where C is a consonant and V is Vowels, j is a repetitive sound, Q is a prompt, and # is silence) are prepared in advance as standard voice patterns. It analyzes utterances collected from multiple speakers in advance and extracts speech feature patterns in subword units. The extracted voice feature patterns are statistically processed and registered as standard voice patterns. Specifically, a table in which each subword is associated with a standard voice pattern (the extracted voice feature pattern) is stored in the standard voice feature pattern storage unit 105. Figure 3 shows a specific example of the standard voice pattern. About 500 standard voice patterns are prepared. The number of standard voice patterns to be stored in the standard voice feature pattern storage unit 105 is not limited to 500, and should be determined appropriately according to the relationship between the amount of calculation and the required search accuracy.
  • the video search index generation unit 104 retrieves the first standard audio pattern from the standard audio feature pattern storage unit 105 and determines the similarity between the first standard audio pattern and the audio feature pattern of the input audio. Determined by voice recognition processing. For speech recognition processing, it is desirable to use speech recognition methods such as DP collation and HMM.
  • the section showing the highest similarity to the first standard voice pattern is detected as a sub-section, and the start time and end time of the detected sub-mode section and a score as the similarity are obtained.
  • a set of the terminal time, end time, and score ⁇ is output as one video search index. That is, one video search index is composed of phoneme symbols, start time, end time, and score.
  • the second standard audio pattern is extracted from the standard audio feature pattern storage unit 105. Then, the voice feature pattern of the same voice section is compared with the second standard voice pattern, and a sub-word section is detected for the second standard voice pattern in the same manner as above, and ⁇ start time, End time, score ⁇ is output as a video search index. Similarly, for the voice feature pattern in the same voice section, the standard voice pattern is switched and the remaining It detects the similarity with all the standard audio patterns and generates a video search index consisting of ⁇ start time, end time, score ⁇ for all the standard audio patterns.
  • the similar section is executed by moving the target audio section to the next adjacent audio section. Similarly, the voice section to be processed is shifted, and the process is completed when the search index is generated over the entire section of the input voice.
  • Fig. 4 shows a part of the lattice structure of the video search index. If the end of each audio section of the input audio divided in 10 msec units is the end of each video search index generated for that audio section, and the video search indexes in the same audio section are arranged in the order in which they were generated However, the video search indexes are arranged in a lattice pattern for the entire input voice.
  • a lattice structure of the video search index is called a phoneme similarity table.
  • each video search index is represented by a pair of a length corresponding to the start time and its score. In Fig. 4, only the five subwords “A”, “K A”, “S A”, “T A”, and “NA” from the phoneme similarity table of the video search index are shown as representatives.
  • the keyword conversion unit 204 converts the search keyword “empty” into a series of sub-heads. "Empty” is converted to "SO, OR, RA”.
  • the keyword pattern matching unit 205 picks up only the subwords constituting the search key code from the phoneme similarity table. In other words, only the subwords “SO”, “OR”, and “RA” that make up the search keyword are picked up from the lattice at each time.
  • Figure 5 shows the search keyword subwords “S ⁇ ” “0” Only “R” and "RA” indicate the lates that were picked up.
  • the subwords "S O”, "OR” and "RA” on the plurality of lattices that have been picked up are connected without gaps in the order of the subwords obtained by converting the search keywords.
  • the last subword “RA” is extracted from the lattice at a certain time
  • the previous subword “ ⁇ R” is extracted from the lattice at the beginning of "RA”
  • the subword further before the lattice at the beginning of "OR” Take out S Oj and concatenate” SO "” ⁇ R "” RA "with respect to the end of the last subword” RA ".
  • the score of the restored keyword is calculated. Add the scores assigned to the subwords “SO”, “OR”, and “RA” that make up the restored keyword. This added value is the score of the restoration keyword.
  • the restoration keywords with the end time of the subword “RA” shifted are created sequentially for all the times, and the score is calculated for each restoration keyword.
  • Figure 6 shows the restoration keyword with the end time of the subword “RA” shifted.
  • Keyword pattern matching unit 2 0 5 compressed by such DP matching method for each restoration key word in consideration of the expansion and contraction characteristics of the voice (time-series data of the sub-word) - Add decompression processing. Then, the scores of all the restored keywords are calculated. The scores of these restoration keys are input to the control unit 202.
  • the control unit 202 calculates the time code of the corresponding video signal from the start time of the first subword of the restored keyword having the higher score, and determines the corresponding portion of the video / audio signal stored in the recording unit 201. Control for reproduction is performed. As a result, the reproduced video signal and audio signal are output from the video signal output unit 206 and the audio signal output unit 207.
  • the time series data of the sub-mode to which the score is added is created from the audio signal attached to the video signal to be searched and stored in the recording unit 201 as it is as the video search index, while the keyword is used at the time of the search. Change to subword
  • the storage unit in which the word dictionary or the search key is registered in advance can be eliminated, and there is an advantage that the problem of unknown words does not occur.
  • search keyword is not collated with the pre-registered search keywords, it is possible to obtain an excellent effect that the user can search for the most likely video scene even when the user enters an uncertain keyword. it can.
  • the video search index generated by the search data generator is transmitted to the search device via a transmission medium.
  • FIG. 7 shows a configuration of a scene search system according to the second embodiment. Portions having the same functions as those in the first embodiment described above are denoted by the same reference numerals.
  • This scene search system includes a search data generator 120 that multiplexes a video search index generated from an audio signal attached to a video signal into a data stream, a subword of a search keyword, and a video search.
  • a search device 220 that searches for a desired video scene by collating the index with a search data generation device 120 transmits the multiplexed data stream of the video search index to the search device 220.
  • the transmission medium 230 includes a broadcast network, a communication network, a recording medium, and the like.
  • the broadcasting network includes a terrestrial broadcasting network or a cable broadcasting network, and the communication network includes an internet network.
  • a radio broadcast network is also included.
  • the search data generation device 120 includes a video signal input unit 101, an audio signal input unit 102, an audio feature pattern extraction unit 103, a video search index generation unit 104, and a standard audio pattern storage unit 1. 0 5 is provided. Further, the search data generation device 120 has a multiplexing unit 122 that multiplexes the video search index generated by the video search index generation unit 104, the video signal, and the audio signal. The multiplexing unit 12 21 converts the video search index, the video signal, and the audio signal into an MPEG stream. It is desirable to multiplex on a data stream, but it is also possible to multiplex on other data streams.
  • the search device 220 includes a recording unit 201, a control unit 202, a keyword input unit 203, a keyword conversion unit 204, a keyword pattern matching unit 205, a video signal output unit 206, and an audio signal output unit 207. . Further, the search device 220 includes a demultiplexing unit 221 that separates the video search index, the video signal, and the audio signal from the data stream in which the video search index, the video signal, and the audio signal are multiplexed.
  • a video search index is created from the input audio in the same manner as in the first embodiment described above.
  • the created video search index is output to the multiplexing unit 121.
  • the video signal received by the video signal input unit 101 and the audio signal received by the audio signal input unit 102 are output to the multiplexing unit 121.
  • the multiplexing unit 1221 stores the video signal, the audio signal, and the video search index into a plurality of video streams (video stream (1) to video stream (n)) and an audio stream (audio stream (1) to An audio stream (n)) and a private stream for storing user data (this stream is used for transmitting the video search index, so it is called a search data stream: search data stream (1 ) ⁇ Search data is converted to an overnight stream (n)).
  • FIG. 8 (1) shows a frame configuration of an MPEG stream in which a video signal, an audio signal, and a video search index are multiplexed. A stream header 101 for identifying the stream is added to the head of the MPEG stream.
  • Fig. 8 (2) shows the structure of the video stream.
  • the video stream is composed of multiple GOPs (Group of Pictures: GOP (1) to GOP (n)).
  • Figure 8 (3) shows the structure of the GOP.
  • GOP is an I picture (I (1)), I picture or P picture encoded in a frame.
  • P (2) to P (m)) encoded by motion compensation prediction with reference to the I-pictures located before and after temporally, and encoded by motion compensation prediction from both with reference to the P-picture It consists of a series of groups of B pictures (B (-1) to B (m-1)) to be converted.
  • Figure 8 (4) shows the structure of the search data stream.
  • the video search index (video search index (1) to video search index (n)) is united corresponding to a series of video frames constituting the GOP.
  • the MPEG stream multiplexed by the multiplexing unit 121 is transmitted to the search device 220 via the transmission medium 230, and is recorded in the recording unit 201.
  • the demultiplexing unit 221 separates a search index from the multiplexed MPEG stream and supplies the search index to the keyword pattern matching unit 205.
  • the video search index is collated with the search keyword, and a restored keyword is created in the same manner as in the first embodiment.
  • the control unit 202 accesses the corresponding GOP from the start time of the restoration keyword having a high score and extracts a video scene.
  • the video search index is separated from the MPEG stream, the video signal and the audio signal may be separated together and recorded in the recording unit 201. In this way, the video search index composed of sub-units of the input audio is multiplexed into the data stream together with the video signal and the audio signal. You can pass the video search index to.
  • the MPEG video playback unit is a GOP
  • the search index can be easily accessed by accessing the GOP corresponding to the input keyword during the search processing. Playback of the desired video scene can be started.
  • a corresponding scene is transmitted from a server system connected to the user terminal via a communication network. Is a scene search system provided.
  • FIG. 9 shows a system configuration of a scene search system according to the third embodiment.
  • the server system searches for a video scene desired by the user, which is composed of a search data generation unit 100 and a search processing unit 230, and transmits it to the user terminal.
  • the search data generation unit 100 includes a video signal input unit 101, an audio signal input unit 102, an audio feature pattern extraction unit 103, and a video search index generation unit 104.
  • the search processing unit 230 includes a recording unit 201, a control unit 202, and a keyword pattern matching unit 205. Further, the search processing unit 230 is provided with a key-type receiving unit 231 for receiving search keyword data sent from the user terminal 300 via the transmission medium 230, and a searched scene. And a multiplexing unit 232 for multiplexing the video signal and the audio signal on the data stream and transmitting the multiplexed signal to the user terminal 300 via the transmission medium 230.
  • the user terminal 300 has a keyword input unit 203, a keyword conversion unit 204, an audio signal output unit 207 for outputting a video signal of the searched scene, and an audio for outputting an audio signal of the searched scene.
  • a signal output unit 206 is provided.
  • the user terminal 300 transmits a sub-word of the search keyword converted by the keyword conversion unit 204 to the search processing unit 230 via the transmission medium 230 to the keyword transmission unit 310.
  • a demultiplexing unit 302 that separates a video signal and an audio signal from a data stream received from the search processing unit 230 via the transmission medium 230.
  • a search keyword is input at the user terminal 300.
  • the input key word is converted into a sub-key of the input key word by the key word conversion unit 204. Is done.
  • the sub-key of the input keypad is transmitted from the keyboard transmission unit 301 to the transmission medium 230.
  • the transmission medium 230 in the present embodiment is preferably a communication network such as an Internet connection network.
  • a video signal, an audio signal, and a video search index having a lattice structure are recorded in the same manner as in the first embodiment described above.
  • the keyword data received by the keyword receiving unit 231 is passed to the key-pattern matching unit 205.
  • the keyword pattern matching unit 205 picks up a video search index having a phoneme symbol that matches the sub-code of the keyword from the lattice structure of the video search index, and Create a recovery keyword.
  • the control unit 202 extracts the corresponding video signal and audio signal based on the start time of the restoration keyword having a high score.
  • the video signal and audio signal of the scene searched in this way are multiplexed into a data stream by the multiplexing unit 232, and then sent to the user terminal 300 via the transmission medium 230. .
  • the demultiplexing unit 302 separates the video signal and the audio signal from the data stream sent for the search keyword.
  • the separated video signal and audio signal are reproduced from the video signal output unit 206 and the audio signal output unit 207, respectively.
  • the video search index can be changed.
  • a desired scene can be searched from the user terminal 300 having no function of generating and searching.
  • the keyword conversion unit 204 is provided in the user terminal 300, but the keyword conversion unit 204 is arranged in the search processing unit 230. You may. According to this configuration, the above search can be performed without installing new software on an existing user terminal.
  • the fourth embodiment is an example in which the scene search system of the present invention is applied to a video recorder.
  • the video recording apparatus detects a human utterance from an audio signal obtained at the time of video recording, and extracts acoustic characteristic data obtained from the utterance as utterance characteristic pattern data. Furthermore, the utterance feature pattern data is formed into an index structure with time information attached, and then recorded on a recording medium together with the video signal and the audio signal.
  • FIG. 10 shows the configuration of a video recording device according to the present embodiment.
  • a video recording instruction control signal or the like input from the outside is received by the control signal input unit 1.
  • the video recording control unit 2 issues a recording start instruction signal and a stop instruction signal to each block constituting the apparatus according to the type of the received control signal.
  • the analog audio signal input at the start of video recording is converted into a digital audio signal by the audio signal input unit 3, and the digital audio signal is subjected to compression processing such as MPEG by the audio signal encoding unit 4.
  • the analog video signal input together with the start of video recording is converted into a digital video signal by the video signal input unit 5, and the digital video signal is subjected to compression processing such as MPEG by the video signal encoding unit 6.
  • the digital audio signal is distributed and input from the audio signal input unit 3 to the utterance feature pattern extraction unit 10.
  • the utterance feature pattern extraction unit 10 detects the acoustic characteristics of the utterance sound of the person from the input digital voice signal and acquires the utterance features pattern data.
  • the video search index generation unit 11 buckets the utterance feature pattern data supplied from the utterance feature pattern extraction unit 10 at a time period synchronized with the video signal, and forms a video search index structure with time information attached.
  • the compressed video signal and audio signal and the video search index are superimposed by the composite data recording processing unit 7 instructed by the video recording control unit 2 and recorded on the video recording medium 9 in a recording format such as a DVD.
  • the video recording medium 9 is composed of an optical disk, an HDD (magnetic disk), a memory card, a magnetic tape, or the like.
  • the video recording is performed by the control instruction from the composite data recording processing unit 7.
  • the recording medium operation control unit 8 performs physical control such as seeking of the recording position of the recording medium 9.
  • the video recording device configured as described above can be configured by a microcomputer embedded device or a dedicated LSI circuit group.
  • the utterance feature pattern extraction means is composed of an utterance feature pattern extraction unit 10
  • the index information recording means is composed of a video search index generation unit 11 and a composite data recording processing unit 7.
  • control signal input unit 1 When the control signal input unit 1 receives a video recording instruction control signal from an external remote control device or an input device such as a keyboard, the control signal input unit 1 converts the signal into a signal format suitable for the device and then sends the video recording instruction signal to the video recording control unit 2. Is issued. Upon receiving the video recording instruction signal, the video recording control unit 2 instructs each unit constituting the apparatus to start video recording, and changes the apparatus state to the video recording state. Upon receiving the instruction to start video recording, the audio signal input unit 3 performs AZD conversion processing on the audio signal input from an external television signal tuner device, microphone, VTR device, or the like, performs quantization, and then performs The audio signal is sequentially supplied to the audio signal encoding unit 4 and the utterance feature pattern extraction unit 10. The audio signal supplied to the audio signal encoding unit 4 is subjected to audio signal band compression processing such as MPEG and the like, and is sequentially transferred to the composite data recording processing unit 7.
  • audio signal band compression processing such as MPEG and the
  • the utterance feature pattern extraction unit 10 which receives the distribution of the audio signal from the audio signal input unit 3, performs FFT (Fast Fourier Transform) processing on the audio signal signal in a fixed time unit, and outputs the sound in the human utterance frequency band. Characteristic data is extracted, and is commonly used in speech recognition processing, such as the short-time spectrum or the logarithmic value of the spectrum in the extracted frequency band, or the logarithmic energy value of the audio signal within a certain time unit. It generates utterance feature pattern data, which is vector data having N (N is an arbitrary natural number) components composed of the acoustic features used in (1).
  • N is an arbitrary natural number
  • Video search index generator 1 The first is that the utterance feature patterns that are successively input are grouped into packets that can be synchronized between video and audio signals while maintaining their time series, and are packetized. The identification indicating the pattern data and the time information are added. As a result, an index structure that can access a video signal or an audio signal with reference to the time information from the position of the utterance feature pattern data is generated. The generated index structure bucket is sequentially transferred to the composite data recording processing unit 7.
  • the video signal input unit 5 which has also been instructed to start video recording, performs AZD conversion processing on the video signal input from an external television signal tuner device, camera, VTR device, or the like to perform quantization. It is supplied to the video signal encoding unit 6 as a predetermined digital video signal signal.
  • the digital video signal signal supplied to the video signal encoder 6 is subjected to video signal band compression processing such as MPEG, and is sequentially transferred to the composite data recording processor 7.
  • the composite data recording processing unit 7 Upon receiving the instruction to start the video recording, the composite data recording processing unit 7 issues a control signal to the recording medium operation control unit 8 and holds the data recording start position on the recording medium 9 prior to the start of data recording. .
  • the composite data recording processing unit 7, which receives the video signal, audio signal, and the index structure bucket generated by the video search index generation unit 11, each of which has been subjected to the signal band compression processing, uses a predetermined format such as MPEG.
  • the video signal, the audio signal, and the index structure bucket are multiplexed, and a control signal is issued to the recording medium operation control unit 8 to multiplex the data multiplexed at a predetermined position on the video recording medium 9 into a recording format such as a DVD. Record the following.
  • Such a series of operations is performed by the video recording control unit which issues a video recording stop instruction by the end of the video recording time from the start of video recording or the end of an external video signal input or an external control signal, and an error notification from each unit in the apparatus. Repeat until 2 is detected.
  • the video recording control unit 2 issues a video recording stop instruction to each unit constituting the device, and operates by transitioning the device to the initial state. Finish the work.
  • the above-mentioned index structure bucket is composed of a time series of utterance feature pattern data, but the video search index generation unit 11 performs a phoneme recognition process on the time series of the utterance feature pattern data, thereby obtaining an index structure.
  • the bucket can be made into a time series of a phoneme similarity table which is a time series pattern matching result for each sub-code.
  • the video search index generation unit 11 registers, in advance, the video search index generation unit 11 with respect to the time series of the utterance feature pattern data sequentially input from the utterance feature pattern extraction unit 10. Calculate the similarity between each subword and the standard pattern and create a phoneme similarity table.
  • the standard voice pattern for each sub-code is a phoneme time series such as short-time spectrum data, similarly to the utterance feature pattern data.
  • the matching interval is also fixed to a fixed time length, and the phoneme time series of the standard speech pattern and the phoneme time series of the utterance feature pattern data are compared with the DP (dynamic programming) matching method. Performs time-series pattern matching using ⁇ .
  • the matching section in the time series of the utterance feature pattern data most similar to the standard voice pattern is obtained for every sub-code, and the matching results are summarized as a phoneme similarity table.
  • the phoneme similarity table is composed of columns of the identification of each subword (phoneme symbol), the utterance section (start time, end time), which is the matching section most similar to the subword, and the similarity.
  • the phoneme similarity table consists of rows for the number of subcodes held in the standard speech pattern.
  • the top M (M is an arbitrary natural number) extracted from the highest similarity in the order of higher similarity are reconstructed, and the similarity table is reconstructed.
  • Video signal or audio signal An index structure bucket accessible to the signal is generated, and is sequentially transferred to the composite data recording processing unit 7.
  • the index structure bucket composed of the phoneme similarity table data time series created in this way is transferred to the video recording medium 9 via the composite data recording processing unit 7 as a video search index in a predetermined recording format. Recorded in.
  • a search index composed of a time series of a phoneme similarity table is generated from the audio signal, and the composite data recording processing unit 7 multiplexes the index, the video signal, and the audio signal to record the video. Since the data is stored in the medium 9, the desired video signal and audio signal can be easily accessed later using the video search index. Since the search index created in the present embodiment has the same structure as the video search index in the above-described first embodiment, the same key search as in the first embodiment is possible. .
  • the video recording apparatus extracts visual feature pattern data when a person utters from a video signal, and records the visual feature pattern data as a video search index.
  • FIG. 11 shows the configuration of a video recording device according to the present embodiment.
  • a video recording instruction control signal or the like input from the outside is received by the control signal input unit 1.
  • the video recording control unit 2 issues a recording start instruction signal and a stop instruction signal to each block constituting the apparatus according to the type of the received control signal.
  • the analog audio signal input at the start of video recording is converted into a digital audio signal by the audio signal input unit 3, and the digital audio signal is subjected to compression processing such as MPEG by the audio signal encoding unit 4.
  • the analog video signal input together with the start of video recording is converted into a digital video signal by the video signal input unit 5, and the digital video signal is subjected to compression processing such as MPEG by the video signal encoding unit 6.
  • Digital audio signal from audio signal input unit 3 to utterance feature pattern extraction unit 10 Distributed input.
  • the utterance feature pattern extraction unit 10 detects the acoustic characteristic data of the utterance sound of a person from the input speech signal, and acquires the utterance feature data.
  • the digital video signal is distributed and input from the video signal input unit 5 to the visual feature pattern extraction unit 12.
  • the visual feature pattern extraction unit 12 detects a lip region image of a human from the input video signal and extracts visual feature pattern data.
  • the video search index generation unit 11 converts the utterance feature pattern output supplied from the utterance feature pattern extraction unit 10 and the visual feature pattern output supplied from the visual feature pattern extraction unit 12 into video signals.
  • the data is bucketed at a time period synchronized with the time, and formed into an index structure for video search with time information and pattern data type attached.
  • the compressed video signal and audio signal and the video search index are superimposed by the composite data recording processing unit 7 instructed by the video recording control unit 2 and recorded on the video recording medium 9 in a recording format such as DVD.
  • the video recording medium 9 is composed of an optical disk, an HDD (magnetic disk), a memory card, a magnetic tape, or the like.
  • the recording medium operation control unit 8 performs physical control such as seeking of the recording position of the video recording medium 9 according to a control instruction from the composite data recording processing unit 7.
  • the video recording apparatus configured as described above can be configured with a microcomputer embedded device or a dedicated LSI circuit group.
  • control signal input unit 1 When the control signal input unit 1 receives a control signal of a video recording instruction from an external remote control device or an input device such as a keyboard, the control signal input unit 1 converts the signal into a signal format inside the device and then instructs the video recording control unit 2 to perform the video recording instruction. Issue a signal. Upon receiving the video recording instruction signal, the video recording control unit 2 instructs each unit constituting the apparatus to start video recording, and changes the apparatus state to the video recording state.
  • the audio signal input unit 3 Upon receiving the instruction to start video recording, the audio signal input unit 3 performs AZD conversion processing on the audio signal input from an external television signal tuner device, microphone, VTR device, or the like, performs quantization, and then performs The audio signal signal is sequentially supplied to the audio signal encoding unit 4 and the utterance feature pattern extraction unit 10. Now.
  • the audio signal signal supplied to the audio signal encoder 4 is subjected to audio signal band compression processing such as MPEG, and is sequentially transferred to the composite data recording processor 7.
  • FFT Fast Fourier Transform
  • the acoustic characteristic data of the audio signal is extracted, and the voice recognition processing of the short-time spectrum or the logarithmic value of the spectrum in the extracted frequency band or the logarithmic energy value of the audio signal within a certain time unit is performed.
  • This is vector data having N components (N is an arbitrary natural number) composed of commonly used acoustic features, and is used as the utterance feature pattern in the present invention.
  • the utterance feature pattern data extracted by the utterance feature pattern extraction unit 10 is sequentially output to the video search index generation unit 11.
  • the video search index generation unit 11 combines the sequentially input utterance feature pattern data into time units that can be synchronized between the video signal and the audio signal while retaining the time series, and buckets the packets. Time information.
  • an index structure that can access a video signal or an audio signal is generated by referring to the time information from the position of the utterance feature pattern, and the generated index structure bucket is sequentially transmitted to the composite data recording processing unit 7. Forward.
  • the video signal input unit which has also been instructed to start video recording, performs AZD conversion processing on the video signal input from an external television signal tuner device, camera or VTR device, etc.
  • the digital video signal is supplied to the video signal encoding unit 6 and the visual feature pattern extraction unit 12 as the digital video signal signal.
  • the digital video signal signal supplied to the video signal encoder 6 is subjected to video signal band compression processing such as MPEG and the like, and is sequentially transferred to the composite data recording processor 7.
  • the visual feature pattern extraction unit 12 which receives the distribution of the video signal signal from the video signal input unit 5, pre-selects the visual feature pattern for each image frame of the input video signal signal. Registered in the tongue extraction unit 12 ⁇ Using the built-in lip feature standard pattern extracted from the built-in image of the lips of the person, the detection of the lips of the person and the extraction process of the images around the lips are performed.
  • a color distribution histogram in the color space in the lip region as an image feature pattern, or a lip region image as a color distribution in the image space where n X m (n , M is an arbitrary natural number, n is the number of divisions on the X-axis, and m is the number of divisions on the Y-axis) using color information such as color average information or luminance average information in each block divided into image blocks.
  • the lip region image size is converted into a variable and the lip region is detected and the lip region image is extracted.
  • the visual feature pattern extraction unit 12 When the lip region can be detected and extracted from the input image frame, the visual feature pattern extraction unit 12 further extracts a visual feature pattern when the person is uttered from the extracted lip region image.
  • the visual feature pattern data information representing the shape of the lips is used.
  • vector data composed of components corresponding to the number of divided image blocks composed of color average information or luminance average information of each of the image blocks obtained by dividing the lip region image space used in extracting the lip region image into an arbitrary number
  • only the lips are extracted from the lip region image data from which the visual features have been extracted, using a color filter, etc., and two points (upper and lower) of the outside lip in the vertical direction from the area center of gravity of the lips and the water square
  • Two points (outside left and right) of the outgoing contact point such as Vectore, consisting of four numerical components, each of which calculates the relative distance from the center of gravity.
  • the utterance feature pattern data extracted by the utterance feature pattern extraction unit 10 and the visual feature pattern data extracted by the visual feature pattern extraction unit 12 are output to the sequential video search index generation unit 11. .
  • the video search index unit 11 combines the utterance feature patterns and the visual feature patterns that are sequentially input into a time unit that can be synchronized between the video signal and the audio signal while maintaining the time series.
  • the utterance feature pattern data and An index structure bucket accessible to the video signal or the audio signal is generated by referring to the time information from the position of the visual feature pattern data and sequentially transmitted to the composite data recording processing unit 7.
  • the composite data recording processing unit 7 Upon receiving the instruction to start the video recording, the composite data recording processing unit 7 issues a control signal to the recording medium operation control unit 8 and holds the data recording start position on the recording medium 9 prior to the start of data recording. .
  • the composite data recording processing unit 7, which receives the video signal and the audio signal each subjected to the signal band compression processing, and the index structure bucket data generated by the video search index generation unit 11
  • the video signal, the audio signal, and the index structure packet data are multiplexed in a predetermined format, and a control signal is issued to the recording medium operation control unit 8 to multiplex the data multiplexed at a predetermined position on the video recording medium 9 into a DVD or the like. Record according to the format.
  • Such a series of operations is performed by the video recording control unit which issues a video recording stop instruction by the end of the video recording time from the start of video recording or the end of an external video signal input or an external control signal, and an error notification from each unit in the apparatus. The process is repeated until 2 is detected. When these are detected, the video recording control unit 2 instructs each unit constituting the apparatus to stop video recording, and ends the operation by shifting the apparatus to the initial state.
  • the visual feature pattern at the time of human utterance was extracted from the video signal, and the index for video search was created together with the generated feature data, so that the voice recognition accuracy was improved by background music (BGM) and environmental noise. When it decreases, the recognition accuracy can be complemented.
  • BGM background music
  • the video playback device performs a video search and a quick look at a keyword by using a video search index recorded in the method described in the fourth and the fifth embodiments.
  • FIG. 12 shows the configuration of a video playback device according to the sixth embodiment.
  • a video playback instruction control signal or the like input from the outside is received by the control signal input unit 1.
  • the video reproduction control unit 13 issues a recording start instruction signal and a stop instruction signal to each block constituting the apparatus according to the type of the received control signal.
  • a video signal and an audio signal including the video search index generated by the method described in the fourth and fifth embodiments are recorded on the video recording medium 9 in a predetermined recording format such as a DVD.
  • a predetermined recording format such as a DVD.
  • an optical disk, an HDD (magnetic disk), a memory card, a magnetic tape, or the like can be used.
  • the composite data read processing unit 7 reads the video signal and the audio signal from the time position indicating the video playback position in accordance with the recording format on the video recording medium 9 according to the instruction from the video playback control unit 13, and further searches the video image search index. Is read. At this time, the recording medium operation control unit 8 performs physical control such as seeking to a position where read data is recorded in accordance with a control instruction from the composite data read processing unit 7.
  • the audio signal decoding unit 15 extends the signal band of the audio signal supplied from the composite data readout processing unit 14 and subjected to signal band compression processing such as MPEG, and the audio signal output unit 16 expands the signal band.
  • the DZA conversion is performed on the audio signal that has been subjected to
  • the video signal decoding unit 17 extends the signal band of the video signal subjected to the signal band compression processing such as MPEG supplied from the composite data read processing unit 14, and the video signal output unit 18 DZA-converts the decompressed video signal and outputs it to the outside.
  • the video search index forming unit 21 forms a video search index table from the video search index data supplied from the composite data read processing unit 14.
  • the formed index table is temporarily stored in the storage circuit 23.
  • a keyword input from the outside is received by the keyword input unit 19.
  • the keyword pattern conversion unit 20 converts the input keyword into a phoneme code string, and further converts it into pattern data to be used in pattern matching.
  • the key word pattern matching unit 22 stores the time series of the keyword characteristic pattern data Pattern matching is performed with the time series of the feature pattern overnight in the video search index table read from the route 23.
  • the video playback device configured as described above is configured with a built-in microcomputer or dedicated LSI circuit group.
  • control signal input unit 1 When the control signal input unit 1 receives a video playback instruction control signal from an external remote control device or an input device such as a keyboard, the control signal input unit 1 converts the signal into a signal format inside the device and then sends the video recording instruction signal to the video playback control unit 13. Is issued. Upon receiving the video recording instruction signal, the video reproduction control unit 13 instructs the composite data read processing unit 14 to start video recording together with, for example, time information indicating the beginning of the video signal.
  • the composite data read processing unit 14 Upon receiving the instruction to start video reproduction, the composite data read processing unit 14 converts the video signal recorded on the video recording medium 9 in a predetermined recording format, such as DVD, which has been subjected to signal band compression processing such as MPEG beforehand.
  • the read position of the audio signal and the audio signal are determined based on the indicated time information, and a control signal such as a seek to the read position of the video signal and the audio signal is issued to the recording medium operation control unit 8, and the video signal is transmitted from the video recording medium 9.
  • the signal and the audio signal are read out while maintaining time synchronization.
  • the video signal read by the composite data read processing unit 14 is supplied to the video signal decoding unit 17 and subjected to signal band expansion processing such as MPEG, and then supplied to the video signal output unit 18 and D ZA It is converted to an NTSC analog signal by conversion processing and output to an external television monitor or the like.
  • signal band expansion processing such as MPEG
  • the audio signal read by the composite data read processing unit 14 is supplied to the audio signal decoding unit 15 and subjected to signal band expansion processing such as MPEG, and then supplied to the audio signal output unit 16 and D It is converted into an analog audio signal by ZA conversion processing and output to an external speaker device or the like.
  • signal band expansion processing such as MPEG
  • control signal input unit 1 When the control signal input unit 1 receives a control signal of a video search instruction from an external remote control device or an input device such as a keyboard, the control signal input unit 1 converts the signal into a signal format inside the device and then sends the video search instruction to the video reproduction control unit 13. Issue. Upon receiving the video search instruction, the video reproduction control unit 13 issues a control signal to the keyword input unit 19 to prompt a key input.
  • the keyword input unit 19 When a keyword is input from an external keyboard or other input device, the keyword input unit 19 notifies the video playback control unit 13 of the completion of the keyword input, and converts the input keyword information into a key word pattern conversion unit 2 Transfer to 0.
  • the video playback control unit 13 Upon receiving the keyword input completion notification, the video playback control unit 13 initializes a keyword detection position management table inside the video playback control unit 13 for managing time information indicating the keyword detection position in the video signal for management. It issues a video search index data read instruction to the composite data read processing unit 14 and issues a pattern match start instruction to the key pattern match unit 22.
  • the video recording medium 9 is a recording medium such as a hard disk drive or an optical disk that guarantees high accessibility, normal video reproduction is continuously performed, and If the medium 9 uses a recording medium such as a magnetic tape that does not provide high accessibility, normal video reproduction is temporarily stopped.
  • the keyword pattern conversion unit 20 Upon receiving the keyword information, the keyword pattern conversion unit 20 converts the key code into a phoneme code string, and further refers to a standard voice pattern composed of a time series of utterance characteristic pattern data of each sub-code registered in advance. Then, the phoneme code string of the keyword is converted into the utterance feature pattern data time series for the key word configuration sub-code, and transferred to the key word pattern matching unit 22.
  • N number of acoustic features commonly used in speech recognition processing such as time spectrum data or logarithmic value of spectrum, and logarithmic energy value of speech signal within a certain time unit (N is an arbitrary number This is a time series of vector data having a component of (natural number).
  • the composite data read processing unit 14 that has received the video search index index readout instruction from the video reproduction control unit 13 receives the instruction.
  • a control signal such as seek of the read position of the image search index and a high-speed read is issued, and the image search index recorded on the video recording medium 9 in a predetermined recording format is read and read at a high speed.
  • the issued video index for index search is sequentially transferred to the video search index forming unit 21.
  • the index data for video search is bucketed in fixed time units according to the method described in the fourth and fifth embodiments, and the type of index data and the time information synchronized with the video signal and audio signal are recorded for each bucket.
  • This is time-series data including the attached utterance feature pattern overnight or visual feature pattern data or a phoneme similarity table which is a time-series pattern matching result for each sub-layer.
  • an index structure bucket formed by re-forming the video search index data transferred from the composite data read processing unit 14 in the above-mentioned bucket unit is time-sequential for each index data type.
  • the data is written to the storage circuit 23 having a FIFO (fast-in-fast-fat) memory structure or a circulating memory structure for a sufficient length of time to match the keyword.
  • the video search index formation unit 21 is newly transferred to an empty storage area on the storage circuit 23 each time.
  • the supplementary writing of the index structure packet formed by the above is performed.
  • the video search index forming unit 21 notifies the keypad pattern matching unit 22 of the completion of the index reading.
  • the keyword pattern matching unit 22 receiving the pattern matching start instruction from the video playback control unit 13 initializes the internal processing and storage circuit 23, and then transfers it from the keypad pattern conversion unit 20.
  • Keyword utterance feature pattern A matching section in which a certain degree of similarity is obtained by the sum of similarities between each utterance feature pattern in the case of being formed as a time series in the evening is defined as a keyword detection section.
  • time-series pattern matching such as DP matching is used, and the matching is repeated while successively reading and discarding the indexed buckets in the storage circuit 23 that have been matched, and a certain similarity is obtained in the process of repeating the matching. If the utterance feature is obtained, the time information attached to the index structure bucket in which the first utterance feature pattern data of the utterance feature pattern data is present is used as the keyword detection position, and the video is reproduced each time. Notify control unit 13.
  • the keyword pattern matching unit 22 performs the utterance feature pattern of the remaining index structure buckets in the storage circuit 23 —the evening matching process After that, the video playback control unit 13 is notified of the end of the keyword matching.
  • the video playback control unit 13 Upon receiving the time information indicating the first keyword detection position from the keycode pattern matching unit 22, the video playback control unit 13 records the received time information once at the top of the internal keyword detection position management table. Then, a video playback instruction from the received time information is issued to the composite data read processing unit 14, and after this, the device performs the same processing as normal video playback, and the video from the time information position where the keyword is detected The signal and the audio signal are output to the outside of the device.
  • the video playback control unit 13 Upon receiving the time information indicating the second or later keyword detection position from the keyword pattern matching unit 22, the video playback control unit 13 receives the time after the second position from the top of the keyword detection position management table. The information is sequentially recorded, and the time information is sequentially taken out from the keypad detection time management table only when an external instruction for reproducing the next candidate is instructed via the control signal input unit 1.
  • a video playback instruction from the fixed time position is issued to the composite data readout processing unit 14, and after that, this device goes through the same processing as normal video playback, and the video from the time information position where the keypad is detected. It outputs signals and audio signals to the outside of the device.
  • the video playback control unit 13 keeps the content of the keyword detection position management table even if the end of the keyword matching is notified from the keyword pattern matching unit 22 and the key pattern matching operation ends.
  • time information is sequentially extracted from the key detection time management table, and a video playback instruction from the designated time position is output to the composite data read processing unit 14.
  • the key word detection position management table is initialized when a new key word is input from the outside in response to a next video search instruction from the outside. This device repeats such a series of operations each time a video search instruction is received from an external keyboard, thereby identifying the video scene by key-checking the utterance information of the video program and starting from the identified position. Quick playback is possible by playing back video.
  • the index-structured bucket is a time series of the utterance feature pattern.
  • the keyword pattern matching unit 22 may adopt a method of performing pattern matching using the sub-keyword sequence of the input keyword and the similarity of each sub-key in the phoneme similarity table.
  • the key word pattern conversion unit 20 converts the key word transferred from the keyword input unit 19 into its phoneme code string and transfers it to the key word pattern matching unit 22.
  • the keyword pattern matching unit 22 Upon receiving a pattern matching start instruction from the video reproduction control unit 13, the keyword pattern matching unit 22 initializes the internal processing and storage circuit 23, and then determines the keyword transferred from the keyword pattern conversion unit 20.
  • the video search index forming unit 21 When the phoneme code string is received, the video search index forming unit 21 has a time interval length sufficient for pattern matching and the phoneme class similarity table data in the index structure packet arranged in chronological order in the storage circuit 23.
  • the time series pattern matching between the sequence and the phoneme code string of the received keyword is performed.
  • a matching section is used for time expansion and contraction used in the DP matching method.
  • the matching section in which a certain degree of similarity is obtained by the sum of the similarities of the sub-keys when formed as a phoneme sequence of the key-pad while expanding and contracting by the above-mentioned method or the like is defined as a key-pad detection section.
  • a group of index structure buckets having a section length sufficient for pattern matching is extracted from the phoneme similarity table having the same time width as the recorded video, and the utterance feature pattern data (start time, end end) of each extracted index structure packet is extracted. (With time and similarity).
  • the phoneme similarity table the number of utterance feature pattern data corresponding to all standard speech patterns (subwords) are arranged on the same time axis. A sequence of such utterance feature pattern data is continuously arranged by the number of sections existing in a section length sufficient for pattern matching.
  • the time series of the utterance feature pattern data of such a video search index and the time series of the utterance feature pattern of the sub-keys constituting the keyword were expanded and contracted using the DP matching method. Matching is performed, and a matching period in which the similarity between the two is equal to or more than a predetermined value is set as a keyword detection section.
  • the similarity between the two is obtained by extracting the utterance feature pattern data of the corresponding index structure bucket in the order of the sub-code sequence constituting the keyword, and adding the similarity of each extracted utterance feature pattern data. is there.
  • the start time of the first subword of the keyword detection section is notified to the video reproduction control unit 13 each time as a keyword detection position.
  • a keyword pattern conversion unit converts an input keyword into visual feature pattern data, and the keyword pattern collation unit uses a video search index recorded in a recording medium in advance as a fifth embodiment. It is possible to configure to match the visual feature pattern of the input keypad with the visual feature pattern of the input key using the visual feature pattern at the time of human utterance described in.
  • the keyword pattern conversion section 20 converts the key information transmitted from the keyword input section 19 into a phoneme code string, and furthermore, generates a utterance feature pattern of each sub-code registered in advance.
  • the phoneme standard pattern consisting of the time series and the visual feature standard pattern consisting of the visual feature pattern data of each utterance sub-code the phoneme code string of the key-pad is generated for the key-code sub-code. It is converted to time series and visual characteristics pattern data time series Patande Isseki, transfers to the keyword pattern matching unit 2 2.
  • the key pattern matching unit 22 receiving the pattern matching start instruction from the video playback control unit 13 initializes the internal processing and storage circuit 23, and is transferred from the keyword pattern conversion unit 20.
  • the utterance feature pattern data time series and the visual feature pattern data time series of the key are received, and the utterance feature pattern data set is stored in the storage circuit 23 by the video search index forming unit 21. Pattern matching is performed for each data type with the time series in the index structure packet arranged in chronological order for each index structure packet composed of an index structure packet and visual feature pattern data.
  • the matching section is expanded / contracted using a DP matching method or the like within a fixed time section in each characteristic pattern data time series in the index structure bucket arranged in chronological order in the storage circuit 23.
  • pattern matching is performed with the feature pattern overnight time series, and the sum of the similarities between the feature pattern data of each sub-type is obtained for each data type, and the sum is taken as the keyword similarity.
  • the matching section in which a certain degree of similarity is obtained from the sum of the keyword similarity obtained in the utterance feature pattern data time-series matching and the keyword similarity obtained in the visual feature pattern data time-series matching is keyed.
  • the word detection section the time information attached to the index structure bucket in which the first utterance feature pattern data in the time series of utterance feature pattern data exists is used as the keyword detection position. Notify 1 to 3.
  • the keyword input unit may include a microphone for voice input, and the keyword pattern conversion unit may be configured to convert the voice signal of the input keyword into the utterance feature pattern of the keyword. is there.
  • the keyword input unit 19 When a keyword is input from an external microphone or other voice input device, the keyword input unit 19 notifies the video playback control unit 13 of the completion of the keyword input, and converts the input keyword voice signal into AZD. After processing, it is supplied to the keyword pattern converter 20.
  • the keyword pattern conversion unit 20 performs an FFT (fast Fourier transform) process on the input keyword voice signal signal in fixed time units to extract a sound characteristic data of a person's voice frequency band. It is composed of acoustic features commonly used in speech recognition processing, such as the short-time spectrum data or the logarithmic value of the spectrum in the extracted frequency band, and the logarithmic energy value of the speech signal within a certain time unit. From vector data with N (N is an arbitrary natural number) components The utterance feature pattern data time series is generated and transmitted to the keyword pattern matching unit 22.
  • FFT fast Fourier transform
  • the keyword input unit includes a microphone and a moving image input camera device
  • the keyword pattern conversion unit includes a lip image feature pattern for each vocal sound registered in advance with respect to a video signal input when a user utters a keyboard. It is possible to make a configuration in which collation between and is performed to convert the video signal at the time of keyboard utterance into key visual feature pattern data.
  • the keyword input unit 19 notifies the video playback control unit 13 of the completion of the keyword input, and the input is performed.
  • AZD conversion processing is performed on the keyword audio signal and the video signal capturing the face of the person at the time of keyboard utterance, and the resulting signal is supplied to the keyword pattern conversion unit 20.
  • the keyword pattern converter 20 converts the input keyword speech signal signal into vector data having N (N is an arbitrary natural number) components composed of acoustic features commonly used in speech recognition processing.
  • N is an arbitrary natural number
  • a utterance feature pattern consisting of the following is generated, and a lip feature standard pattern extracted from a lip peripheral image of a person registered in advance for each image frame of the input video signal is input. Detecting the peripheral part of the lips of the person and extracting the image around the lips using the extracted lip region image, further extract the visual feature pattern data at the time of human utterance, which is composed of information representative of the shape of the lips, A visual feature pattern for the utterance time is generated, and a time series is generated and transferred to the keyword pattern matching unit 22.
  • the visual feature pattern data is, for example, the number of divided image blocks composed of color average information or luminance average information of each image block obtained by dividing the lip region image space used in extracting the lip region image into an arbitrary number.
  • Component Furthermore, only the lip portion is extracted from the lip region image data or the lip region image data from which the visual features have been extracted, and two points outside the lip in the vertical direction are extracted from the area centroid of the lip portion ( This is a vector vector consisting of four numerical components that calculate the relative distance from the center of gravity of each of the two points (left and right) and the two horizontal external contacts (left and right).
  • the scene search system of the present invention can be applied to a scene search using only voice.
  • the video signal, the audio signal, and the video search index, or the audio signal and the audio / video search index are stored in the recording medium according to the above-described method.
  • the audio-video search index can use the same structure as the video search index.
  • the extraction of the audio signal may be started from the position corresponding to the start time of the first sub-key of the key detection section.
  • the video search index is automatically generated at the same time as the video is recorded, the indexing work for organizing and reusing the video, which has traditionally relied on manuals, can be greatly reduced. It can be expected to use the special playback function for digital video cameras and digital video tape recorders at home. It is useful for video signal base construction and video search / browsing in large-scale digital video library systems.

Description

明 細 書 音声認識を利用して所望の映像 ·音声シーンを検索する装置及び方法 技術分野
本発明は、 キーワードを用いて所望のシーン (映像及び又は音声) を検索 するこのできる映像検索装置及び検索方法に関する。 背景技術
近年、 テレビジョン放送の多チャンネル化やイン夕一ネットに代表される コンピュータネットワークの急速な普及に伴い膨大な映像が家庭を含めた社 会に流通している。 一方、 記録メディア容量の増大に伴い、 家庭において大 量の映像信号の蓄積が可能になっている。 そこで、 このような大量の映像信 号の中からユーザが希望する映像シーンを簡単に且つ高い精度で取り出すた めの技術が必要になる。
これまでは、 映像信号の変化から映像信号の変わり目を検出してその部分 の映像シーンを表示する方式や、 画像認識技術を用いて特定のオブジェクト で構成される特定シーンを検出して表示する方式などの検索システムが考え られている。 しかしながら、 これらの検索システムは、 検索された映像シ一 ンが必ずしもユーザの検索意図をよく反映したシーンとは限らないといった 問題がある。
また、 字幕情報や, 米国のテレビジョン放送で採用されているクローズド キャプション情報を, 映像中から文字認識によって読取り、 特定シーンを検 出する検索システムがある。 しかし、 この検索システムは、 字幕情報やクロ ーズドキャプションを良く反映したシーンでは検索意図を良く反映したシ一 ンが得られるものの、 こうした情報は、 人手を介して付加されることから一 部の放送番組に限られているために、 広く一般の映像に適用することは困難 である。
ところで、 映像に付随している音声情報をキーヮ一ドとして用いることが できれば、 検索意図を良く反映した検索システムの実現が期待される。 特開 平 6— 6 8 1 6 8号公報には、 音声キ一ヮ一ドを用いて所望のシーンを検索 する映像検索システムが開示されている。
図 1に、 上記特開平 6— 6 8 1 6 8号公報に開示された検索システムの機 能ブロックが示されている。 音声信号及び映像信号が音声映像入力部 2 0 1 にて受信され、 受信された音声信号は音声信号記録部 2 0 2へ蓄積され、 受 信された映像信号は映像信号記録部 2 0 3に蓄積される。 音声信号は音声分 析部 2 0 4において分析され、 音声の特徴を表わした特徴パラメ一夕の時系 列データが生成される。 生成された特徴パラメ一夕の時系列は音声特徴記憶 部 2 0 5へ格納される。
一方、 ユーザが後からシーン検索に使用するためのキ一ワードが、 音声の 形式でキーワード特徴分析部 2 0 6に与えられる。 キーワード特徴分析部 2 0 6は、 キーワードとしての音声を分析して、 音声キーワードの特徴を表わ した特徴パラメ一夕の時系列デ一夕を生成する。 生成した特徴パラメ一夕の 時系列データはキーワード特徴パラメ一夕記憶部 2 0 7に格納される。 キ一ヮ一ド区間抽出部 2 0 8は、 記憶部 2 0 2に蓄積されている音声信号 の特徴パラメータの時系列データと、 キーヮード音声の特徴パラメ一夕の時 系列データとを比較して、 音声信号中のキーワード区間を抽出する。 インデ ックス付与部 2 0 9は、 抽出されたキーワード区間とその音声信号に対応す る映像信号のフレーム番号とを対応付けるインデックス位置データ 2 1 0を 作成する。
検索時にインデックス位置データ 2 1 0を使用して検索すれば、 音声信号 からキーヮードが出現する映像信号のフレーム番号を指定することが出来、 映像音声出力部 2 1 1から該当する映像と音声を出力でき、 ユーザが所望と する映像、 音声を提示することができる。 しかしながら、 予め検索に使用すべき音声キーヮ一ドを登録しなければな らず、 それ以外のキーヮ一ドを使用して検索することができないといった問 題がある。 特に、 ュ一ザが不確かなキーワードを入力した場合には、 検索ェ ラーとなってしまって検索意図を反映したシーンを検索できなかった。 発明の開示
本発明は、 以上のような実情に鑑みてなされたものであり、 映像及び又は 音声の検索においてュ一ザが希望するシーンを、 あらかじめ辞書などに登録 された単語やキーヮード以外の未知語や、 ユーザが入力した不確かなキーヮ ードであっても、 正確かつ高速に検索できる装置及び方法を提供することを 目的とする。
本発明は、 検索データの生成と検索処理とに一連の音声認識処理手順を分 割して適用することにより、 ユーザが希望する映像 ·音声シーンを高速に検 索でき、 高速に再生できるシーン検索システムを提供する。
また、 検索データ作成時には、 音声認識処理の中間結果であるサブ'ヮ一 ドのスコアの時系列デ一夕を検索ィンデックスとして作成する一方、 検索処 理時には入力キ一ヮ一ドをサブ'ワードの時系列に変換し、 検索ィンデック スと照合するようにした。
これにより、 単語辞書又は予め登録した検索キーヮードとの照合が無くな るため、 未登録の単語キーワードに対応できないいわゆる未知語の問題が解 決される。 また、 ユーザが不確かなキーワードを入力しても最も確からしい 映像 ·音声シーンを検索する事ができる。
また、 検索ィンデックスであるサブ'ヮ一ドのスコアの時系列データを、 映像信号、 音声信号と共にデータストリームに多重化するので、 放送網ゃィ ン夕一ネットなどの通信網を介した検索インデックスの流通も可能になる。 サブワードとは、 単語よりも小さい音響モデルの基本単位をいい、 音素や 子音一母音、 母音—子音—母音等の音節、 半音節 (Demisy liable) などが 挙げられる。 各単語はサブヮードの系列として表わされる。 図面の簡単な説明
図 1は、 既存の映像検索システムの機能ブロック図
図 2は、 本発明の第 1の実施の形態にかかるシーン検索システムの機能ブ ロック図
図 3は、 標準音声パタンのデ一夕構成図
図 4は、 音素類似度表を示す図
図 5は、 音素類似度表からキ一ヮ一ドの音素系列に相当するサブヮ一ドを ピックアップした状態を示す図
図 6は、 ピックアップしたサブワードをキーワードの音素系列の順に配列 した状態を示す図
図 7は、 本発明の第 2の実施の形態にかかるシーン検索システムの機能ブ ロック図
図 8 ( 1 ) は、 映像信号、 音声信号及び映像検索インデクスを多重化した M P E Gストリームの構成図
図 8 ( 2 ) は、 映像ストリームの構成図
図 8 ( 3 ) は、 G O Pの構成図
図 8 ( 4 ) は、 検索データストリームの構成図
図 9は、 本発明の第 3の実施の形態にかかるシーン検索システムの機能ブ ロック図
図 1 0は、 本発明の第 4の実施の形態にかかるビデオ録画装置の機能プロ ック図
図 1 1は、 本発明の第 5の実施の形態にかかるビデオ録画装置の機能プロ ック図
図 1 2は、 本発明の第 6の実施の形態にかかるビデオ再生装置の機能プロ ック図 発明の最良の実施の形態
(第 1の実施の形態)
図 2に、 第 1の実施の形態にかかるシーン検索システムの機能ブロック図 が示されている。 本実施の形態のシーン検索システムは、 蓄積されている映 像の中から所望のシーンを検索するための映像検索ィンデックスを生成する 検索データ生成部 1 0 0と、 入力された検索キーワードと映像検索インデッ クスとを照合して検索意図を良く反映したシーンを検索する検索処理部 2 0 0とを有する。
検索データ生成部 1 0 0は、映像信号を受信する映像信号入力部 1 0 1と、 その映像信号に付随 (同期) した音声信号を受信する音声信号入力部 1 0 2 とを有する。 映像信号入力部 1 0 1及び音声信号入力部 1 0 2から入力され た映像信号及び音声信号は、 検索処理部 2 0 0に設けられた記録部 2 0 1に 格納される。 さらに、 音声信号入力部 1 0 2から入力された音声信号は、 音 声特徴パタン抽出部 1 0 3へも入力される。音声特徴パタン抽出部 1 0 3は、 音声信号を分析して音声特徴パタンを抽出する。 抽出された音声特徴パタン は映像検索インデクス生成部 1 0 4へ与えられる。 映像検索インデクス生成 部 1 0 4は、 抽出された音声特徴パタンと標準音声特徴パタン格納部 1 0 5 に格納されている標準音声パタンとを比較して、 最も良く一致するサブヮ一 ドの {始端時刻、 終端時刻、 類似度を示すスコア } の組を映像検索インデッ クスとして出力する。 この映像検索ィンデックスは検索処理部 2 0 0にある 記録部 2 0 1に格納される。
検索処理部 2 0 0は、 映像信号、 音声信号及び映像検索インデックスが格 納された記録部 2 0 1を有する。 記録部 2 0 1には映像検索インデックスに よる音素類似度表が形成されている。 音素類似度表については後述する。 制 御部 2 0 2は、 記録部 2 0 1に格納されている映像信号、 音声信号の読出し 位置を制御している。 記録部 2 0 1に格納されている映像の中から所望の映 像シーンを検索するための検索キ一ヮ一ドはキ一ヮード入力部 2 0 3から入 力される。 入力されたキーヮードはキ一ヮード変換部 2 0 4により入力キー ワードを構成しているサブワードの時系列に変換される。 キーヮ一ドパタン 照合部 2 0 5は、 入力キーヮードのサブヮードと一致するサブヮ一ドの映像 検索インデックスを記録部 2 0 1から取り出す。 記録部 2 0 1から取り出さ れた映像検索インデックスによって検索キーヮードを復元し、 復元された各 キーヮ一ドのスコアを計算する。 制御部 2 0 2がスコアの高い復元キ一ヮ一 ドの先頭サブワードの始端時刻に基づいて記録部 2 0 1から該当する映像シ ーンを取り出す。 記録部 2 0 1から取り出される映像シーンを構成する映像 信号は映像信号出力部 2 0 6から外部へ出力され、 その映像信号に付随した 音声信号は音声信号出力部 2 0 7から外部へ出力される。
次に、 検索デ一夕生成部 1 0 0において映像検索インデックスを生成する 処理の詳細について説明する。 音声特徴パタン抽出部 1 0 3は、 入力した音 声信号を順次 1 0 m s e cの分析フレームに分割し、 その各分析フレームを 高速フーリエ変換して人物の発声周波数帯域の音響特性をあらわした音響特 性データに変換する。 さらに、 発声周波数帯域の音響特性データを、 音響特 徵量から構成される N個 (Nは任意の自然数) の成分を持つベクトルデータ に変換する。 このベクトルデータが音声特徴パタンとなる。 音声特徴パタン に変換される音響特徴量として、 入力音声の発声周波数帯域における短時間 スペクトル又はスペクトルの対数値、 入力音声の一定時間内での対数エネル ギ一などを用いるのが望ましい。
このように、 入力音声は 1 0 m s e c毎に音声特徴パタン (ベクトルデー 夕) に変換され、 順次変換された音声特徴パタンが映像検索インデクス生成 部 1 0 4へ出力される。 なお、 分析フレームのフレーム長は 1 0 m s e cに 限定されるものではない。
標準音声特徴パタン格納部 1 0 5に、 サブワード (# V , # C V, # C j V、 C V, C j V、 V C, Q C, V Q , V V, V #、 但し、 Cは子音、 Vは 母音、 j は拗音、 Qは促音、 #は無音である) が標準音声パタンとして予め 用意されている。 予め複数の話者から収集した発声を分析して、 サブワード 単位で音声特徴パタンを抽出する。 抽出された音声特徴パタンを統計的処理 して標準音声パタンとして登録している。具体的には、個々のサブワードと、 それらの標準音声パタン (抽出した音声特徴パタン) と、 を対応させたテー ブルが標準音声特徴パタン格納部 1 0 5に格納されている。 図 3に標準音声 パタンの具体例が示されている。 標準音声パタンを 5 0 0個程度用意してい る。 標準音声特徴パタン格納部 1 0 5に格納すべき標準音声パタンの個数は 5 0 0個に限定されるものではなく、 計算量と要求される検索精度との関係 で適宜決められるべきである。
映像検索インデクス生成部 1 0 4は、 標準音声特徴パタン格納部 1 0 5か ら第 1番目の標準音声パタンを取り出し、 第 1番目の標準音声パタンと入力 音声の音声特徴パタンとの類似度を音声認識処理によって求める。 音声認識 処理には、 DP 照合法、 H MMなどの音声認識手法を用いる事が望ましい。 第 1番目の標準音声パタンに対して最も高い類似度を示す区間をサブヮ一ド 区間として検出し、 検出したサブヮード区間の始端時刻と終端時刻と類似度 であるスコアとを求める。 このようにして求めた第 1番目の標準音声パタン の検出サブワード区間に関して 台端時刻、 終端時刻、 スコア } の組が 1つ の映像検索インデックスとして出力される。 すなわち、 1つの映像検索イン デックスは音素記号、 始端時刻、 終端時刻、 スコアで構成されている。 第 1番目の標準音声パタンに対する映像検索ィンデックスが求められたな らば、 第 2番目の標準音声パタンが標準音声特徴パタン格納部 1 0 5から取 り出される。 そして同一音声区間の音声特徴パタンと第 2番目の標準音声パ タンとを比較し、 上記同様にして第 2番目の標準音声パタンについてサブヮ ード区間を検出し、 検出サブワード区間に関する {始端時刻、 終端時刻、 ス コア } の組を映像検索インデックスとして出力する。 以下同様に、 同一音声 区間の音声特徴パタンに対して、 標準音声パタンを切換えながら、 残りの全 ての標準音声パタンとの類似度をそれぞれ検出し、 全ての標準音声パタンに 関して {始端時刻、 終端時刻、 スコア } の組からなる映像検索インデックス を生成する。
入力音声のある音声区間において全ての標準音声パタンに関して映像検索 インデックスが生成されたならば、 処理対象となる音声区間を隣接する次の 音声区間に移して同様の処理を実行する。 以下同様に、 処理対象となる音声 区間をシフトしていき、 入力音声の全区間に亘り検索ィンデクを生成したと ころで処理を完了する。
次に、 検索処理部 2 0 0においてキーヮードを用いて映像シーンを検索す る処理の詳細について説明する。
図 4に映像検索インデックスのラテイス構造の一部が示されている。 1 0 m s e c単位で分割した入力音声の各音声区間の終端を、 その音声区間に対 して生成した各映像検索ィンデックスの終端とし、 同一音声区間における映 像検索ィンデックスを生成された順番に配置すると、 入力音声の全体では映 像検索インデックスがラテイス状に配列される。 このような映像検索インデ ックスのラティス構造を音素類似度表と呼ぶこととする。 音素類似度表にお いて、 各映像検索ィンデックスは始端時刻に対応した長さとそのスコアの組 で表わされている。 図 4には、 映像検索インデックスの音素類似度表の中か ら 「A」 「K A」 「S A」 「T A」 「N A」 の 5種類のサブワードだけを代表で 示している。
いま、 キーワード入力部 2 0 3が検索キーワードとして 「空」 を受信した ものとする。 キーワード変換部 2 0 4は、 検索キーワード 「空」 をサブヮ一 ドの系列に変換する。 「空」 は 「S O、 O R、 R A」 に変換される。
キーワードパタン照合部 2 0 5は、 音素類似度表の中から、 検索キーヮ一 ドを構成するサブワードだけをピックアップする。 すなわち、 各時刻のラテ イスから、 検索キーワードを構成するサブワード 「S O」 「O R」 「R A」 だ けを、 ピックアップする。 図 5は検索キーワードのサブワード 「S〇」 「0 R」 「R A」 だけがピックアップされたラテイスを示している。
ピックアップされた複数のラテイス上のサブワード 「S O」 「O R」 「R A」 を、検索キーワードを変換したサブワードの系列順に隙間なく接続する。 ある時刻のラテイスから最後のサブワード 「R A」 を取り出し、 「R A」 の 始端時刻にあたるラテイスからその前のサブワード 「〇R」 を取り出し、 さ らに 「O R」 の始端時刻にあたるラテイスからさらに前のサブワード 「S Oj を取り出し、 最後のサブワード 「R A」 の終端を基準にして 「S O」 「〇R」 「R A」 を連結する。
このように 「S〇」 「〇R」 「R A」 を連結することにより復元されたキ一 ワードについて、 その復元キ一ワードのスコアを計算する。 復元されたキー ワードを構成するサブワード 「S O」 「O R」 「R A」 に付与されているスコ ァを加算する。 この加算値が復元キ一ワードのスコアである。 以下同様に、 サブワード 「R A」 の終端時刻をずらした復元キーワードを全ての時刻につ いて順次作成し、 各復元キーワードについてそのスコアを計算する。 図 6に サブワード 「R A」 の終端時刻をずらした復元キーワードが示されている。 キーワードパタン照合部 2 0 5は、 音声の伸縮特性を考慮して各復元キー ワード (サブワードの時系列データ) に対して DP照合法などにより圧縮 - 伸張処理を加える。 そして、 全ての復元キーワードのスコアを計算する。 こ れら復元キ一ヮ一ドのスコアを制御部 2 0 2へ入力する。
制御部 2 0 2は、 スコアが上位となる復元キーワードの先頭サブワードの 始端時刻から対応する映像信号のタイムコードを算出し、 記録部 2 0 1に蓄 積された映像 ·音声信号の該当部分を再生するための制御を行う。 この結果、 映像信号出力部 2 0 6、 音声信号出力部 2 0 7から再生された映像信号及び 音声信号が出力される。
このように、 検索対象の映像信号に付随した音声信号からスコアの付与さ れたサブヮードの時系列データを作成して映像検索ィンデックスとしてその まま記録部 2 0 1に保存する一方、 検索時にはキーワードをサブワードに変 換して映像検索ィンデックスと照合するようにしたので、 単語辞書又は検索 キ―ヮ一ドを予め登録した格納部を排除する事ができ、 未知語の問題も発生 しないといった利点がある。
しかも、 予め登録した検索キーワードとの照合を行わないことから、 ユー ザが不確かなキーヮードを入力した場合であっても最も確からしい映像シー ンを検索することができるといった優れた効果を奏することができる。
(第 2の実施の形態)
本発明の第 2の実施の形態にかかるシーン検索システムは、 検索デ一夕生 成装置で生成した映像検索ィンデックスを、 伝送媒体を介して検索装置へ伝 送するようにしている。
図 7に第 2の実施の形態にかかるシーン検索システムの構成が示されてい る。 上述した第 1の実施の形態と同一機能を有する部分には同一符号が使わ れている。 このシーン検索システムは、 映像信号に付属した音声信号から生 成された映像検索ィンデックスをデ一タストリームに多重化する検索デ一夕 生成装置 1 2 0と、 検索キ一ワードのサブワードと映像検索インデックスと を照合して所望の映像シーンを検索する検索装置 2 2 0と、 検索データ生成 装置 1 2 0で映像検索インデックスの多重化されたデ一夕ストリームを、 検 索装置 2 2 0へ伝送するための伝送媒体 2 3 0とから構成されている。 伝送 媒体 2 3 0には、 放送網、 通信網、 記録メディア等が含まれる。 放送網には 地上波放送網又はケーブル放送網があり、通信網にはィン夕ーネットがある。 音声シーンの検索であればラジオ放送網も含まれる。
検索データ生成装置 1 2 0は、 映像信号入力部 1 0 1、 音声信号入力部 1 0 2、 音声特徴パタン抽出部 1 0 3、 映像検索インデクス生成部 1 0 4、 標 準音声パタン格納部 1 0 5を備えている。 さらに、 検索データ生成装置 1 2 0は、 映像検索インデクス生成部 1 0 4で生成した映像検索インデックスと 映像信号と音声信号とを多重化する多重化部 1 2 1を有する。 多重化部 1 2 1は、 映像検索インデックスと映像信号と音声信号とを、 M P E Gストリ一 ム上に多重化することが望ましいが、 それ以外のデータストリーム上に多重 化する事も可能である。
検索装置 2 20は、 記録部 20 1、 制御部 202、 キーワード入力部 20 3、 キーワード変換部 204、 キーワードパタン照合部 20 5、 映像信号出 力部 206、 音声信号出力部 20 7を備えている。 さらに、 検索装置 220 は、 映像検索インデックスと映像信号と音声信号とが多重化されたデータス トリームから、 映像検索インデックス、 映像信号及び音声信号をそれぞれ分 離する多重分離部 22 1を有する。
検索データ生成装置 1 20に設けられた映像検索インデクス生成部 1 04 において、 上述した第 1の実施の形態と同様にして入力音声から映像検索ィ ンデックスが作成される。 作成された映像検索インデックスは多重化部 1 2 1へ出力される。 なお、 映像信号入力部 1 0 1で受信された映像信号及び音 声信号入力部 1 02で受信された音声信号が多重化部 1 2 1へ出力されてい る。
多重化部 1 2 1は、 映像信号、 音声信号、 映像検索インデックスを、 それ ぞれ複数の映像ストリーム (映像ストリーム ( 1) 〜映像ストリーム (n)) と、 音声ストリーム (音声ストリーム ( 1) 〜音声ストリーム (n)) と、 ユーザデータを格納するためのプライべ—トス卜リーム (このストリームを 映像検索ィンデックスの伝送に使うので、 検索デ一タストリームと呼ぶ:検 索デ一夕ストリーム (1) 〜検索デ一夕ストリーム (n)) に変換する。 図 8 (1) に、 映像信号、 音声信号及び映像検索インデックスが多重化さ れた MPEGストリームのフレーム構成が示されている。 MPEGストリー ムの先頭にはストリームを識別するためのストリームヘッダ 1 0 1が付加さ れる。 図 8 (2) に映像ストリームの構成が示されている。 映像ストリーム は、 複数の GO P (Group of Pictures: GOP ( 1) 〜GOP (n)) で 構成されている。 図 8 (3) に GOPの構成が示されている。 GOPは、 フ レーム内で符号化される I ピクチャ ( I ( 1))、 I ピクチャ又は Pピクチャ を参照して動き補償予測により符号化される Pピクチャ (P (2)〜P (m))、 時間的に前後に位置する I ピクチャ、 Pピクチャを参照して双方からの動き 補償予測により符号化される Bピクチャ (B (— 1) 〜B (m- 1 )) の一 連のグループにより構成される。 図 8 (4) に検索データストリームの構成 を示されている。 GOPを構成している一連の映像フレームに対応して、 映 像検索インデックス (映像検索インデックス (1) 〜映像検索インデックス (n)) をュニット化する。
多重化部 1 2 1によって多重化された MP EGス卜リームは、 伝送媒体 2 30を介して検索装置 2 20へ伝送され、 記録部 20 1に記録される。 検索 装置 220では、 多重分離部 22 1が多重化された MP EGストリームから 検索インデクスを分離してキーワードパタン照合部 20 5へ与える。 映像検 索ィンデックスと検索キーワードとを照合し、 第 1の実施の形態と同様にし て復元キーワードを作成する。 制御部 202が、 スコアの高い復元キーヮー ドの始端時刻から対応する GOPにアクセスして映像シーンを取り出す。 な お、 MPEGストリームから映像検索インデックスを分離する時に一緒に映 像信号及び音声信号も分離して、記録部 20 1に記録するようにしても良い。 このように、 入力音声のサブヮ一ドの単位で構成された映像検索ィンデッ クスを、映像信号及び音声信号とともにデータストリームに多重化したので、 放送網や通信網を利用してユーザに映像と一緒に映像検索ィンデックスを渡 す事ができる。
また、 MPEG の映像再生単位は GOP なので、 検索インデックスのュニ ット単位を一致させておくと、 検索処理時には入力したキーワードに該当す る検索インデックスと対応する GOP にアクセスすることにより、 容易に所 望の映像シーンを再生開始することが可能になる。
(第 3の実施の形態)
第 3の実施の形態は、 ユーザ端末から検索キーワードを入力したら、 その ユーザ端末に通信網を介して接続されたサーバシステムから該当するシーン が提供されるようにしたシーン検索システムである。
図 9に、 第 3の実施の形態にかかるシーン検索システムのシステム構成が 示されている。 図 9において、 上述した第 1の実施の形態及び第 2の実施の 形態のシーン検索システムと同一機能を有する部分には同一符号を使用して いる。 サーバシステムは、 検索データ生成部 1 0 0と、 検索処理部 2 3 0と で構成されている、 ユーザが希望する映像シ一ンを検索してユーザ端末へ送 信する。
検索データ生成部 1 0 0は、 映像信号入力部 1 0 1、 音声信号入力部 1 0 2、 音声特徴パタン抽出部 1 0 3及び映像検索インデクス生成部 1 0 4で構 成されている。
検索処理部 2 3 0は、 記録部 2 0 1、 制御部 2 0 2、 キーワードパタン照 合部 2 0 5を備える。 さらに、 検索処理部 2 3 0は、 ユーザ端末 3 0 0から 伝送媒体 2 3 0を経由して送られてくる検索キーワードのデータを受信する キーヮ一ド受信部 2 3 1と、 検索されたシーンの映像信号と音声信号とをデ 一タストリーム上に多重化して伝送媒体 2 3 0を経由してユーザ端末 3 0 0 へ送信する多重化部 2 3 2とを有する。
ユーザ端末 3 0 0は、 キーワード入力部 2 0 3、 キーワード変換部 2 0 4、 検索されたシーンの映像信号を出力する音声信号出力部 2 0 7、 検索された シーンの音声信号を出力する音声信号出力部 2 0 6を備える。 さらに、 ユー ザ端末 3 0 0は、 キーワード変換部 2 0 4によって変換された検索キーヮー ドのサブワードを伝送媒体 2 3 0を介して検索処理部 2 3 0へ送信するキー ワード送信部 3 0 1と、 検索処理部 2 3 0から伝送媒体 2 3 0を介して受信 したデータストリームから映像信号及び音声信号を分離する多重分離部 3 0 2とを有する。
以上のように構成されたシーン検索システムでは、 ユーザ端末 3 0 0にお いて検索キーワードが入力される。 ユーザ端末 3 0 0では、 入力されたキー ヮードがキ一ヮ一ド変換部 2 0 4により入力キーヮ一ドのサブヮ一ドに変換 される。 そして入力キーヮ一ドのサブヮ一ドがキーヮード送信部 3 0 1から 伝送媒体 2 3 0を介してへ送信される。 本実施の形態における伝送媒体 2 3 0はイン夕一ネットなどの通信網が望ましい。
検索処理部 2 3 0の記録部 2 0 1には、 上述した第 1の実施の形態と同様 にして映像信号、 音声信号及びラテイス構造の映像検索インデックスが記録 されている。 キーワード受信部 2 3 1が受信したキーワードデータはキ一ヮ —ドパタン照合部 2 0 5へ渡される。 キ一ワードパタン照合部 2 0 5は、 上 述したように映像検索ィンデックスのラティス構造からキ一ヮ一ドのサブヮ ―ドと一致する音素記号を持つ映像検索ィンデックスをピックアップして、 各時刻における復元キーワードを作成する。 そして制御部 2 0 2がスコアの 高い復元キーヮードの始端時刻に基づいて該当する映像信号及び音声信号を 取り出す。 このようにして検索されたシーンの映像信号及び音声信号は多重 化部 2 3 2でデ一タストリームの多重化された後、 伝送媒体 2 3 0を経由し てユーザ端末 3 0 0へ送られる。
ユーザ端末 3 0 0では、 多重分離部 3 0 2が検索キーワードに対して送ら れてきたデータストリームから映像信号及び音声信号を分離する。 分離され た映像信号及び音声信号は映像信号出力部 2 0 6及び音声信号出力部 2 0 7 からそれぞれ再生される。
このように、 ユーザ端末 3 0 0とサーバシステム (検索デ一夕生成部 1 0 0及び検索処理部 2 3 0 ) とを通信網 2 3 0を介して接続する事により、 映 像検索ィンデックスを生成する機能及び検索する機能を持たないユーザ端末 3 0 0から所望のシーンを検索することができる。
なお、 上記した第 3の実施の形態では、 ユーザ端末 3 0 0にキーワード変 換部 2 0 4を備えているが、 キーワード変換部 2 0 4を検索処理部 2 3 0に 配置するように構成しても良い。 この構成によれば、 既存のユーザ端末に新 たなソフトウエアのィンストールすることなく、上述検索を行う事ができる。
(第 4の実施の形態) 第 4の実施の形態は、 本発明のシ一ン検索システムをビデオ録画装置に適 用した例である。 本実施の形態にかかるビデオ録画装置は、 ビデオ録画時に 得られる音声信号から人物の発声音を検出して、 発声音から得られる音響特 性データを発声特徴パタンデータとして抽出する。 さらに、 発声特徴パタン データを時刻情報を添付したインデックス構造に成形したのち、 映像信号及 び音声信号と共に記録媒体へ記録する。
図 1 0に本実施の形態にかかるビデオ録画装置の構成が示されている。 外 部から入力されるビデオ録画指示制御信号等は制御信号入力部 1で受信され る。 ビデオ録画制御部 2は、 受信された制御信号の種別に応じて装置を構成 する各プロックへ録画開始指示信号や停止指示信号を発行する。
一方、 ビデオ録画開始とともに入力されるアナ口グ音声信号は音声信号入 力部 3でデジタル音声信号に変換され、 さらにデジタル音声信号が音声信号 エンコード部 4で M P E G等の圧縮処理を施される。 また、 ビデオ録画開始 とともに入力されるアナ口グ映像信号は映像信号入力部 5でデジタル映像信 号に変換され、 さらにデジタル映像信号が映像信号エンコード部 6で M P E G等の圧縮処理を施される。
音声信号入力部 3からデジタル音声信号が発声特徴パターン抽出部 1 0へ 分配入力される。 発声特徴パターン抽出部 1 0は、 入力したデジタル音声信 号から人物の発声音の音響特性デ一夕を検出して発声特徴パターンデ一夕を 取得する。 映像検索インデックス生成部 1 1は、 発声特徴パターン抽出部 1 0から供給される発声特徴パターンデータを映像信号と同期した時間周期で バケツト化し、時刻情報を添付した映像検索用インデックス構造に成形する。 圧縮された映像信号及び音声信号と映像検索ィンデックスは、 ビデオ録画 制御部 2から指示を受けた複合データ記録処理部 7によって重畳されて D V D等の記録フォーマットで映像記録媒体 9に記録される。 映像記録媒体 9は 光ディスクまたは H D D (磁気ディスク) またはメモリカードまたは磁気テ ープ等で構成される。 複合データ記録処理部 7からの制御指示により映像記 録媒体 9の記録位置のシーク等の物理的な制御を記録媒体動作制御部 8が行 う。 以上のように構成されたビデオ録画装置はマイクロコンピュー夕組み込 み機器または専用 L S I回路群等で構成することができる。 このビデオ録画 装置では、 発声特徴パタン抽出手段は発声特徴パタン抽出部 1 0から構成さ れ、 インデックス情報記録手段は映像検索インデックス生成部 1 1と複合デ 一夕記録処理部 7から構成される。
次にこの装置の動作について説明する。
制御信号入力部 1は、 外部のリモートコントロール装置またはキーポード 等の入力装置からビデオ録画指示の制御信号を受け付けると、 装置に適合し た信号形式に変換した後にビデオ録画制御部 2にビデオ録画指示信号を発行 する。 ビデオ録画指示信号を受けたビデオ録画制御部 2は、 装置を構成する 各部にビデオ録画開始の指示を行い装置状態をビデオ録画状態に遷移させる。 ビデオ録画開始の指示を受けた音声信号入力部 3は、 外部のテレビジョン 信号チューナー装置またはマイクロフォンまたは V T R装置等から入力され る音声信号に対して AZ D変換処理を施し量子化を行った後、 音声信号ェン コード部 4及び発声特徴パタン抽出部 1 0へ逐次音声信号を供給する。 音声 信号ェンコ一ド部 4に供給された音声信号は M P E G等の音声信号帯域圧縮 処理が施され、 複合デー夕記録処理部 7へと逐次転送される。
音声信号入力部 3から音声信号の分配供給を受けた発声特徴パタン抽出部 1 0では、 一定時間単位の音声信号信号に対して F F T (高速フーリエ変換) 処理を行い、 人物の発声周波数帯域の音響特性データを抽出し、 さらに抽出 した周波数帯域内での短時間スぺクトルデ一夕またはスぺクトルの対数値や、 一定時間単位内の音声信号の対数エネルギー値等の、 音声認識処理で一般的 に用いられる音響特徴量から構成される N個 (Nは任意の自然数) の成分を 持つべクトルデータである発声特徴パタンデータを生成する。
発声特徴パタン抽出部 1 0で抽出生成された発声特徴パタンデ一夕は逐次 映像検索インデクス生成部 1 1に出力される。 映像検索インデクス生成部 1 1は、 逐次入力されてくる個々の発声特徴パタンデ一夕を、 その時系列を保 持したまま映像信号及び音声信号間で同期可能な時間単位分にまとめてパケ ット化し、 バケツト毎に発声特徴パタンデータである事を示す識別と時刻情 報を付与する。 これにより、 発声特徴パタンデータの位置から時刻情報を参 照して映像信号または音声信号にアクセス可能なィンデクス構造が生成され る。 生成したインデクス構造バケツトを複合データ記録処理部 7に逐次転送 する。
一方、 同じくビデオ録画開始の指示を受けた映像信号入力部 5は、 外部の テレビジョン信号チューナー装置またはカメラまたは V T R装置等から入力 される映像信号に対して AZ D変換処理を施し量子化を行い所定のデジタル 映像信号信号として、 映像信号エンコード部 6に供給する。 映像信号ェンコ 一ド部 6に供給されたデジタル映像信号信号は M P E G等の映像信号帯域圧 縮処理が施され、 複合データ記録処理部 7へと逐次転送される。
ビデオ録画開始の指示を受けた複合データ記録処理部 7は、 データの記録 開始に先立ち、 記録媒体動作制御部 8に制御信号を発行して、 記録媒体 9へ のデータ記録開始位置の保持を行う。 各々信号帯域圧縮処理を施された映像 信号ならびに音声信号及び映像検索用インデクス生成部 1 1にて生成された インデクス構造バケツトを受け取った複合データ記録処理部 7は、 M P E G 等の所定のフォーマツ卜で映像信号と音声信号及びインデクス構造バケツト を多重化し、 記録媒体動作制御部 8への制御信号を発行して映像記録媒体 9 の所定の位置に多重化したデ一夕を D V D等の記録フォーマットにしたがつ て記録する。
こうした一連の動作は、 ビデオ録画開始からビデオ録画時間終了または外 部からの映像信号入力の終了または外部からの制御信号によるビデオ録画停 止指示、 及び装置内各部からのエラー通知をビデオ録画制御部 2が検出する まで繰り返される。 ビデオ録画制御部 2はこれらを検出した際は装置を構成 する各部にビデオ録画停止指示を行い、 装置を初期状態に遷移させる事で動 作を終了する。
ここで、 上記インデクス構造バケツトは発声特徴パタンデータの時系列で 構成されていたが、 映像検索インデックス生成部 1 1が発声特徴パタンデー 夕の時系列に対して音素認識処理を施す事により、 ィンデックス構造バケツ トをサブヮード毎の時系列パタン照合結果である音素類似度表の時系列にす る事ができる。
すなわち、 映像検索インデックス生成部 1 1が、 発声特徴パタン抽出部 1 0より逐次入力される発声特徴パタンデータの時系列に対して、 映像検索ィ ンデックス生成部 1 1に予め登録内蔵されてある各サブワードごとの標準パ タンとの類似度を算出し音素類似度表を作成する。
この際、 各サブヮードごとの標準音声パタンは発声特徴パタンデータと同 様に短時間スぺクトルデータ等の音素時系列である。 そして入力されてくる 発声特徴パタンデータに関しても照合区間を一定の時間長に固定しておき、 標準音声パタンの音素時系列と発声特徴パタンデータの音素時系列とを D P (ダイナミックプログラミング) 照合法等を用いた時系列パタン照合を行な Ό。
時系列パ夕ン照合では、 すべてのサブヮードごとに標準音声パタンに最も 類似した発声特徴パタンデータの時系列内での照合区間を求め、 照合結果を 音素類似度表としてまとめる。 尚、 音素類似度表は各サブワードの識別 (音 素記号) とそのサブワードに最も類似した照合区間である発声区間 (始端時 刻、 終端時刻) と類似度とから列を構成する。 音素類似度表は標準音声パ夕 ンで保持するサブヮード個数分の行で構成する。
作成された音素類似度表から、 類似度の高い順に上位 M個 (Mは任意の自 然数) までを抜き出して前記類似度表を再構成し、 時系列を保持したまま映 像信号及び音声信号間で同期可能な時間単位分にまとめてバケツト化し、 パ ケット毎に音素類似度表データである事を示す識別と時刻情報を付与する事 で音素類似度表データの位置から時刻情報を参照して映像信号または音声信 号にアクセス可能なィンデクス構造バケツトを生成し、 複合デ一夕記録処理 部 7に逐次転送する。
このようにして作成された音素類似度表データ時系列で構成されたィンデ クス構造バケツトは、 複合データ記録処理部 7を経由して映像検索用インデ クスとして、 映像記録媒体 9へ所定の記録フォーマットで記録される。
このように、 ビデオ録画時に音声信号から音素類似度表の時系列で構成さ れた検索用ィンデクスを生成し、 複合データ記録処理部 7によりインデクス と映像信号と音声信号とを多重化して映像記録媒体 9へ蓄積するようにした ので、 後から映像検索ィンデックスを用いて用意に希望の映像信号及び音声 信号にアクセスできる。 本実施の形態で作成される検索用インデクスは上述 した第 1の実施の形態における映像検索ィンデックスと同じ構造であるので、 第 1の実施の形態と同様のキ一ヮ一ド検索も可能である。
(第 5の実施の形態)
第 5の実施の形態にかかるビデオ録画装置は、 映像信号から人物発声時の 視覚特徴パタンデータを抽出し、 視覚特徴パタンデータを映像検索用インデ ックスとして記録する。
図 1 1に本実施の形態にかかるビデオ録画装置の構成が示されている。 外 部から入力されるビデオ録画指示制御信号等は制御信号入力部 1で受信され る。 ビデオ録画制御部 2は、 受信された制御信号の種別に応じて装置を構成 する各プロックへ録画開始指示信号や停止指示信号を発行する。
一方、 ビデオ録画開始とともに入力されるアナ口グ音声信号は音声信号入 力部 3でデジタル音声信号に変換され、 さらにデジタル音声信号が音声信号 エンコード部 4で M P E G等の圧縮処理を施される。 また、 ビデオ録画開始 とともに入力されるアナ口グ映像信号は映像信号入力部 5でデジタル映像信 号に変換され、 さらにデジタル映像信号が映像信号エンコード部 6で M P E G等の圧縮処理を施される。
音声信号入力部 3からデジタル音声信号が発声特徴パターン抽出部 1 0へ 分配入力される。 発声特徴パターン抽出部 1 0は、 入力した音声信号から人 物の発声音の音響特性データを検出して発声特徴パ夕一ンデ一夕を取得する。 また、 映像信号入力部 5からデジタル映像信号が視覚特徴パタン抽出部 1 2 へ分配入力される。 視覚特徴パタン抽出部 1 2は、 入力した映像信号から人 物の口唇領域画像を検出し視覚特徴パタンデータを抽出する。 映像検索イン デックス生成部 1 1は、 発声特徴パタン抽出部 1 0から供給される発声特徴 パタンデ一夕と視覚特徴パタン抽出部 1 2から供給される視覚特徴パ夕ンデ 一夕を各々映像信号と同期した時間周期でバケツト化し、 時刻情報ならびに パタンデータ種別を添付した映像検索用ィンデックス構造に成形する。
圧縮された映像信号及び音声信号と映像検索インデックスは、 ビデオ録画 制御部 2から指示を受けた複合データ記録処理部 7によって重畳されて D V D等の記録フォーマツ卜で映像記録媒体 9に記録される。 映像記録媒体 9は 光ディスクまたは H D D (磁気ディスク) またはメモリカードまたは磁気テ 一プ等で構成される。 複合デー夕記録処理部 7からの制御指示により映像記 録媒体 9の記録位置のシーク等の物理的な制御を記録媒体動作制御部 8が行 う。 以上のように構成されたビデオ録画装置はマイクロコンピュータ組み込 み機器または専用 L S I回路群等で構成することができる。
次に、 この装置の動作について説明する。
制御信号入力部 1は、 外部のリモートコン卜ロール装置またはキーポード 等の入力装置からビデオ録画指示の制御信号を受け付けると、 装置内部の信 号形式に変換した後にビデオ録画制御部 2にビデオ録画指示信号を発行する。 ビデオ録画指示信号を受けたビデオ録画制御部 2は、 装置を構成する各部に ビデオ録画開始の指示を行い装置状態をビデオ録画状態に遷移させる。
ビデオ録画開始の指示を受けた音声信号入力部 3は、 外部のテレビジョン 信号チューナー装置またはマイクロフォンまたは V T R装置等から入力され る音声信号に対して AZ D変換処理を施し量子化を行った後、 音声信号ェン コード部 4及び発声特徴パタン抽出部 1 0へ逐次音声信号信号の供給をおこ なう。 音声信号ェンコ一ド部 4に供給された音声信号信号は M P E G等の音 声信号帯域圧縮処理が施され、複合データ記録処理部 7へと逐次転送される。 音声信号入力部 3から音声信号信号の分配供給を受けた発声特徴パタン抽 出部 1 0では、 一定時間単位の音声信号信号に対して F F T (高速フーリエ 変換) 処理を行い、 人物の発声周波数帯域の音響特性データを抽出し、 さら に抽出した周波数帯域内での短時間スぺクトルデ一夕またはスぺクトルの対 数値や、 一定時間単位内の音声信号の対数エネルギー値等の音声認識処理で 一般的に用いられる音響特徴量から構成される N個 (Nは任意の自然数) の 成分を持つべクトルデータであり、 本発明ではこれを発声特徴パタンデ一夕 として用いる。
発声特徴パタン抽出部 1 0で抽出された発声特徴パタンデータは逐次映像 検索インデクス生成部 1 1に出力される。映像検索インデクス生成部 1 1は、 逐次入力されてくる個々の発声特徴パタンデータを、 その時系列を保持した まま映像信号及び音声信号間で同期可能な時間単位分にまとめてバケツト化 し、 パケット毎に時刻情報を付与する。 これにより、 発声特徴パタンデ一夕 の位置から時刻情報を参照して映像信号または音声信号にアクセス可能なィ ンデクス構造を生成し、 生成したインデクス構造バケツ卜を複合デ一夕記録 処理部 7に逐次転送する。
一方、 同じくビデオ録画開始の指示を受けた映像信号入力部は、 外部のテ レビジョン信号チューナー装置またはカメラまたは V T R装置等から入力さ れる映像信号に対して A ZD変換処理を施し量子化を行い所定のデジタル映 像信号信号として、 映像信号エンコード部 6及び視覚特徴パタン抽出部 1 2 に供給する。 映像信号ェンコ一ド部 6に供給されたデジタル映像信号信号は M P E G等の映像信号帯域圧縮処理が施され、 複合データ記録処理部 7へと 逐次転送される。
映像信号入力部 5から映像信号信号の分配供給を受けた視覚特徴パタン抽 出部 1 2では、 入力される映像信号信号の画像フレーム毎に予め視覚特徵パ タン抽出部 1 2に登録 ·内蔵してある人物の口唇周辺画像から取り出した口 唇特徴標準パタンを用いて、 人物の口唇周辺部の検出及び口唇周辺画像の抽 出処理を行う。 口唇領域の検出と口唇領域画像の抽出には、 画像特徴パタン デ一夕として口唇領域での色空間上の色分布ヒストグラムや、 画像空間上の 色分布として口唇領域画像を n X m個 (n、 mは任意の自然数で nは X軸上 の分割数を mは Y軸上の分割数) の画像プロックに分割した各々のプロック 内の色平均情報または輝度平均情報等の色情報を用い、 入力される画像フレ —ム内の口唇領域の大きさがまちまちである事を考慮して口唇領域画像サイ ズを変数化して口唇領域の検出および口唇領域画像の抽出を行う。
視覚特徴パタン抽出部 1 2は、 入力された画像フレームから口唇領域を検 出及び抽出できた場合、 抽出した口唇領域画像からさらに人物発声時の視覚 特徴パタンデ一夕の抽出を行う。
視覚特徴パタンデータは口唇の形状を代表する情報を用いる。 例えば前記 口唇領域画像抽出時に用いた口唇領域画像空間を任意の個数に分割した画像 ブロックのおのおのの色平均情報または輝度平均情報から構成される分割し た画像ブロック数分成分からなるべクトルデータや、 または視覚特徴抽出し た口唇領域画像データに対してさらに色フィル夕一等を用いて口唇部分のみ を抽出し、 口唇部分の面積重心点から垂直方向の唇外接点 2点 (上下) と水 平方向外接点 2点 (左右) にっきそれぞれ前記重心点からの相対距離を算出 した 4個の数値成分からなるべクトルデ一夕等である。
発声特徴パタン抽出部 1 0で抽出された発声特徴パ夕ンデ一夕と視覚特徴 パタン抽出部 1 2で抽出された視覚特徴パタンデータは、 逐次映像検索イン デクス生成部 1 1に出力される。 映像検索インデクス部 1 1は、 各々逐次入 力されてくる個々の発声特徴パタンデ一夕と視覚特徴パタンデ一夕を時系列 を保持したまま映像信号及び音声信号間で同期可能な時間単位分にまとめて 特徴パタンデータの種別ごとにバケツト化し、 バケツト毎に特徴パタンデー 夕の種別を表わす識別と時刻情報を付与する事で、 発声特徴パタンデータ及 び視覚特徴パタンデータの位置から時刻情報を参照して映像信号または音声 信号にアクセス可能なィンデクス構造バケツトを生成し複合データ記録処理 部 7に逐次転送する。
ビデオ録画開始の指示を受けた複合データ記録処理部 7は、 データの記録 開始に先立ち、 記録媒体動作制御部 8に制御信号を発行して、 記録媒体 9へ のデータ記録開始位置の保持を行う。 各々信号帯域圧縮処理を施された映像 信号ならびに音声信号、 及び映像検索用インデクス生成部 1 1にて生成され たィンデクス構造バケツトデ一夕を受け取つた複合デ一夕記録処理部 7は、 M P E G等の所定のフォーマツトで映像信号と音声信号及びィンデクス構造 パケットデータを多重化処理し、 記録媒体動作制御部 8への制御信号を発行 して映像記録媒体 9の所定の位置に多重化したデータを D V D等の記録フォ —マツ卜にしたがって記録する。
こうした一連の動作は、 ビデオ録画開始からビデオ録画時間終了または外 部からの映像信号入力の終了または外部からの制御信号によるビデオ録画停 止指示、 及び装置内各部からのエラー通知をビデオ録画制御部 2が検出する まで繰り返され、 ビデオ録画制御部 2はこれらを検出した際は装置を構成す る各部にビデオ録画停止指示を行い、 装置を初期状態に遷移させる事で動作 を終了する。
このように、 映像信号から人物発声時の視覚特徴パタンを抽出し、 発生特 徵パタンデータとともに映像検索用ィンデックスを作成したので、 B G M (バ ックグラウンドミュージック) や環境ノィズなどにより音声認識精度が低下 する場合に、 認識精度を補完することができる。
(第 6の実施の形態)
第 6の実施の形態にかかるビデオ再生装置は、 第 4、 第 5の実施の形態に 記述した方式で記録された映像検索用インデクスを用いて、 キーワードによ る映像検索ならびに早見を行う。
図 1 2に第 6の実施の形態にかかるビデオ再生装置の構成が示されている。 外部から入力されるビデオ再生指示制御信号等は制御信号入力部 1で受信さ れる。 ビデオ再生制御部 1 3は、 受信された制御信号の種別に応じて装置を 構成する各ブロックに対して録画開始指示信号や停止指示信号を発行する。 映像記録媒体 9に、 上述した第 4、 第 5の実施の形態に記述した方式で生成 された映像検索用ィンデクスを含む映像信号及び音声信号が D V D等の所定 の記録フォーマツ卜で記録されている。 映像記録媒体 9として光ディスクま たは H D D (磁気ディスク) またはメモリカードまたは磁気テープ等を用い る事ができる。 複合データ読出処理部 7は、 ビデオ再生制御部 1 3からの指 示により映像記録媒体 9での記録フォーマットに従いビデオ再生位置を示す 時刻位置から映像信号と音声信号を読み出し、 さらに映映像検索インデック スを読み出す。 このとき、 記録媒体動作制御部 8は複合デ一夕読出処理部 7 からの制御指示により読み出しデータが記録された位置へのシーク等の物理 的な制御を行う。
音声信号デコード部 1 5は複合データ読出処理部 1 4から供給される M P E G等の信号帯域圧縮処理が施された音声信号の信号帯域を伸張し、 音声信 号出力部 1 6は信号帯域伸張処理を施された音声信号を D ZA変換して外部 へ出力する。 また、 映像信号デコード部 1 7は複合データ読出処理部 1 4か ら供給される M P E G等の信号帯域圧縮処理が施された映像信号の信号帯域 を伸張し、 映像信号出力部 1 8は信号帯域伸張処理を施された映像信号を D ZA変換して外部へ出力する。
映像検索インデクス形成部 2 1は、 複合データ読出処理部 1 4から供給さ れる映像検索用インデクスデータから映像検索用ィンデクス表の形成を行う。 形成されたィンデクス表は記憶回路 2 3に一時蓄積される。
一方、 外部から入力されたキーワードはキーワード入力部 1 9で受け付け られる。 キーワードパタン変換部 2 0は入力されたキーワードを音素符号列 に変換し、 さらにパタン照合で使用するパタンデータに変換する。 キーヮー ドパタン照合部 2 2は、 キーワードの特徴パタンデータの時系列を、 記憶回 路 2 3から読み出した映像検索用ィンデクス表内の特徴パタンデ一夕の時系 列とパタン照合する。 以上のように構成されたビデオ再生装置はマイクロコ ンピュー夕組み込み機器または専用 L S I回路群等で構成される。
次に、 この装置の動作について説明する。
制御信号入力部 1は、 外部のリモートコントロール装置またはキーボード 等の入力装置からビデオ再生指示の制御信号を受け付けると、 装置内部の信 号形式に変換した後にビデオ再生制御部 1 3にビデオ録画指示信号を発行す る。 ビデオ録画指示信号を受けたビデオ再生制御部 1 3は、 複合データ読出 処理部 1 4に対して例えばビデオ信号の先頭を示す時刻情報とともにビデオ 録画開始の指示を行う。
ビデオ再生開始の指示を受けた複合データ読出処理部 1 4は、 映像記録媒 体 9に D V D等の所定の記録フォーマツトで記録されている予め M P E G等 の信号帯域圧縮処理を施されている映像信号と音声信号の読み出し位置を指 示された時刻情報により決定して、 記録媒体動作制御部 8に映像信号と音声 信号の読み出し位置へのシーク等の制御信号を発行し、 映像記録媒体 9から 映像信号と音声信号とを時間同期を保ちながら読み出す。
複合データ読出処理部 1 4により読み出された映像信号は、 映像信号デコ —ド部 1 7に供給され M P E G等の信号帯域伸張処理を施され後、 映像信号 出力部 1 8に供給され D ZA変換処理により N T S Cアナログ信号等に変換 されて、 外部のテレビジョンモニタ一装置等へ出力される。
同じく複合データ読出処理部 1 4により読み出された音声信号は、 音声信 号デコード部 1 5に供給され M P E G等の信号帯域伸張処理を施され後、 音 声信号出力部 1 6に供給され D ZA変換処理によりアナログ音声信号に変換 されて、 外部のスピーカ装置等へ出力される。
制御信号入力部 1が、 外部のリモートコントロール装置またはキーボード 等の入力装置からビデオ検索指示の制御信号を受け付けると、 装置内部の信 号形式に変換した後にビデオ再生制御部 1 3にビデオ検索指示を発行する。 ビデオ検索指示を受けたビデオ再生制御部 1 3は、 キーワード入力部 1 9 にキ—ヮ—ド入力を促す制御信号を発行する。
キーワード入力部 1 9は、 外部のキーボード等の入力装置からキーワード が入力されたら、 ビデオ再生制御部 1 3へキーワード入力完了の通知を行な い、 入力されたキーワード情報をキーヮ'ードパタン変換部 2 0へ転送する。 キーワード入力完了通知を受けたビデオ再生制御部 1 3は、 ビデオ信号内 のキーヮード検出位置を示す時刻情報を管理用にビデオ再生制御部 1 3内部 に持つキーヮード検出位置管理表を初期化した後、 複合データ読出処理部 1 4へ映像検索用ィンデクスデータ読み出し指示を発行し、 キ一ヮ一ドパタン 照合部 2 2へパタン照合開始の指示を発行する。 この際、 映像記録媒体 9が メモリ一力一ドゃ H D Dまたは光ディスク等の高いアクセス性が保証される 記録媒体を用いている場合は通常のビデオ再生は継続して行われており、 映 像記録媒体 9が磁気テープ等の高いアクセス性が得られない記録媒体を用い ている場合は一旦通常のビデオ再生は停止される。
キーワード情報を受け取ったキーワードパタン変換部 2 0は、 キーヮ一ド を音素符号列に変換し、 さらに予め内部に登録してある各サブヮ一ドの発声 特徴パタンデータ時系列からなる標準音声パタンを参照してキーワードの音 素符号列をキーヮ一ド構成サブヮード分の発声特徴パタンデータ時系列に変 換し、 キ一ワードパタン照合部 2 2へ転送する。
ここで、 標準音声パタン及び発声特徴パタンデ一夕時系列として用いるデ —夕は、 上記第 4、 第 5の実施の形態で用いた発声特徴パタンデータと同様 に人物の発声周波数帯域内での短時間スぺクトルデータまたはスぺクトルの 対数値や、 一定時間単位内の音声信号の対数エネルギー値等の音声認識処理 で一般的に用いられる音響特徴量から構成される N個 (Nは任意の自然数) の成分を持つベクトルデータの時系列である。
一方、 ビデオ再生制御部 1 3からの映像検索用インデクスデ一夕読み出し 指示を受け付けた複合データ読出処理部 1 4は、 記録媒体動作制御部 8に映 像検索用ィンデクスデ一夕の読み出し位置のシーク及び高速読み出し等の制 御信号を発行し、 映像記録媒体 9に所定の記録フォーマツトで記録されてい る映像検索用インデクスデ一夕を高速に読み出し、 読み出された映像検索用 インデクスデ一夕は逐次映像検索インデクス形成部 2 1へ転送される。
映像検索用インデクスデータは、 第 4 , 第 5の実施の形態で記述した方式 で一定時間単位でバケツト化されており、 バケツト毎にインデクスデータの 種別と映像信号及び音声信号に同期した時刻情報が添付された発声特徴パ夕 ンデ一夕または視覚特徴パタンデータまたは各サブヮ一ドごとの時系列パ夕 ン照合結果である音素類似度表からなる時系列データである。
映像検索インデクス形成部 2 1では、 複合データ読出処理部 1 4から転送 された映像検索用ィンデクスデ一夕を前記バケツト単位に再形成して形成さ れたィンデクス構造バケツトを、 ィンデクスデータ種別ごとに時系列を保つ てキーヮードの照合対象となるに十分な時間長分の F I F O (ファストィ ン · ファストァゥト) メモリ構造または循環メモリ構造を持つ記憶回路 2 3 に書き込む。 その後キーワードパタン照合部 2 2によって一時記憶回路 2 3 からのィンデクス構造バケツトが読み捨てらてると、 その都度映像検索ィン デクス形成部 2 1は記憶回路 2 3上の空き記憶領域に新たに転送されて形成 されるインデクス構造パケットの補充書き込みを行う。 尚、 映像検索インデ クス形成部 2 1はィンデクスデ一夕の最終部分を検出したらキーヮードパ夕 ン照合部 2 2へのインデクス読み出し終了通知を行う。
一方、 ビデオ再生制御部 1 3からパタン照合開始指示をうけたキーワード パタン照合部 2 2は、 内部の処理及び記憶回路 2 3を初期化した後、 キーヮ 一ドパ夕ン変換部 2 0より転送されてくるキーヮードの発声特徴パタンデ一 夕時系列を受け取って、 映像検索インデクス形成部 2 1によりパタン照合に 十分な時間区間長をもって記憶回路 2 3内に時刻順に並べられたインデクス 構造バケツト内の発声特徴パタンデータ時系列と、 受け取ったキーヮ一ドの 発声特徴パタンデ一夕の時系列とのパタン照合を行う。 このパタン照合では、 記憶回路 2 3に時刻順に並べられたインデクス構造 バケツト内の発声特徴パタンデータ時系列内での一定の時刻区間内で、 D P 照合法等を用いて照合区間を伸縮しながら、 キーワードの発声特徴パタンデ —夕の時系列として形成した場合の各発声特徴パタンデ一夕間の類似度の和 によって一定の類似性が得られた照合区間をキーヮードの検出区間とする事 となる。
パタン照合の際は、 D P照合法等の時系列パタン照合を用いて、 記憶回路 2 3内の照合を終えたインデクス構造バケツトを逐次読み捨て更新しながら 照合を繰り返し、 照合を繰り返す過程で一定の類似性を得られた場合は、 発 声特徴パ夕ンデ一夕時系列の最初の発声特徴パタンデータが存在するインデ クス構造バケツ卜に添付された時刻情報を、 キーワード検出位置としてその 都度ビデオ再生制御部 1 3へ通知する。尚、 キーワードパタン照合部 2 2は、 映像検索ィンデクス形成部 2 1からィンデクス読み出し終了が通知された場 合は、 記憶回路 2 3内の残りのインデクス構造バケツ卜の発声特徴パタンデ —夕の照合処理を終えてから、 ビデオ再生制御部 1 3へキーワード照合の終 了を通知する。
ビデオ再生制御部 1 3は、 キーヮ一ドパタン照合部 2 2より 1回目のキー ヮード検出位置を示す時刻情報を受け取ると一旦内部のキーヮ一ド検出位置 管理表の先頭に受け取った時刻情報を記録して、 受け取った時刻情報からの ビデオ再生指示を複合データ読出処理部 1 4に発行し、 その後この装置は通 常のビデオ再生と同様の処理を経て、 キーヮードを検出した時刻情報位置か らの映像信号及び音声信号を装置外部に出力する。
ビデオ再生制御部 1 3は、 キーワードパタン照合部 2 2より 2回目以降の キーヮード検出位置を示す時刻情報を受け取ると、 前記キーヮ一ド検出位置 管理表の先頭から 2番目に位置以降に受け取った時刻情報を順次記録して、 外部からの次候補再生を示す指示が制御信号入力部 1を経由して指示された 場合のみ前記キーヮ一ド検出時刻管理表から順次時刻情報を取り出して、 指 定時刻位置からのビデオ再生指示を複合データ読出処理部 1 4に発行し、 そ の後この装置は通常のビデオ再生と同様の処理を経て、 キーヮ一ドを検出し た時刻情報位置からの映像信号及び音声信号を装置外部に出力する。
ビデオ再生制御部 1 3は、 キーワードパタン照合部 2 2からキーワード照 合の終了を通知されても前記キーヮード検出位置管理表の内容は維持されて おり、 キ一ヮ一ドパタン照合動作が終了してからも外部からの次候補再生指 示を受け取る度に、 前記キ一ヮ一ド検出時刻管理表から順次時刻情報を取り 出して、 指定時刻位置からのビデオ再生指示を複合データ読出処理部 1 4に 発行可能であり、 前記キーヮード検出位置管理表は外部からの次のビデオ検 索指示による新たなキーヮ一ドが外部から入力される事で初期化される。 この装置は、 こうした一連の動作を外部からのキーヮードによるビデオ検 索指示を受け付ける度に繰り返えす事で、 ビデオ番組の発声情報へのキーヮ 一ド照合で映像シーンの特定し、 特定した位置からのビデオ再生による早見 が可能である。
以上の説明ではインデクス構造バケツトデ一夕が発声特徴パタンデ一夕の 時系列であった。 さらに、 キーワードパタン照合部 2 2において、 入力され たキーヮードのサブヮード列と前記音素類似度表内での各サブヮ一ドごとの 類似度を用いたパタン照合を行う方式を採る事もできる。 この場合、 キーヮ ードパタン変換部 2 0は、 キーワード入力部 1 9から転送されてきたキーヮ —ドをその音素符号列に変換しキーヮードパタン照合部 2 2へ転送する。 キーワードパタン照合部 2 2は、 ビデオ再生制御部 1 3からパタン照合開 始指示をうけると内部の処理及び記憶回路 2 3を初期化した後、 キーワード パタン変換部 2 0より転送されてくるキーワードの音素符号列を受け取って、 映像検索インデクス形成部 2 1によりパタン照合に十分な時間区間長をもつ て記憶回路 2 3内に時刻順に並べられたインデクス構造パケッ卜内の音素類 似度表データ時系列と、 受け取ったキーヮードの音素符号列との時系列パ夕 ン照合を行う。 このパタン照合では、 記憶回路 2 3内に時刻順に並べられたインデクス構 造バケツト内の音素類似度表データ時系列内での一定の時刻区間内で、 照合 区間を D P照合法で用いられる時間伸縮の手法等によつて伸縮しながらキー ヮードの音素系列として形成した場合のサブヮードごとの類似度の和によつ て一定の類似性得られた照合区間をキーヮ一ドの検出区間とする。
すなわち、 記録映像と同じ時間幅を持っている音素類似度表からパタン照 合に十分な区間長のインデクス構造バケツト群を取り出し、 取り出された各 インデクス構造パケットの発声特徴パタンデータ (始端時刻、 終端時刻、 類 似度を持つ) を時刻順に並べる。 音素類似度表における 1区間には全標準音 声パタン (サブワード) に対応した数の発声特徴パタンデータが同一時間軸 上に配列されている。 そのような発声特徴パタンデータの列が、 パタン照合 に十分な区間長に存在する区間の数だけ連続して配列される。 このような映 像検索インデックスの発声特徴パタンデータの時系列と, キーヮ一ドを構成 しているサブヮードの発声特徴パタンデ一夕の時系列と, を D P照合法を用 いて照合区間を伸縮しながら照合し、 両者の類似度が所定値以上とな照合期 間をキ一ワードの検出区間とする。 両者の類似度は、 キーワードを構成して いるサブヮード系列の順に該当するィンデクス構造バケツ卜の発声特徴パ夕 ンデータを取り出す、 その取り出された各発声特徴パタンデータが持つ類似 度を加算した値をである。
キーワード検出区間の最初のサブワードの始端時刻を、 キーワード検出位 置としてその都度ビデオ再生制御部 1 3へ通知する。
こうしたパタン照合方式によれば、 パタン照合処理の際に例えば発声特徴 パタンデ一夕時系列のような音響特性成分からなるべクトルデータ間の照合 処理を行う必要がない事から、 照合処理時間を大幅に削減することが可能で ある。
また、 映像検索インデックスを, 登録されたキーワードに対応させた固定 的した形で持つのではなく, 入力音声の音素類似度表といった中間状態の形 で保存するので、 検索キーワードを予め登録する必要がなく、 ユーザが不確 定なキ一ワードを入力した場合にも検索意図を最も良く反映した映像を検索 する事ができる。 また、 キーワードパタン変換部が、 入力されるキーワードを視覚特徵パ夕 ンデータへの変換を行い、 前記キーワードパタン照合部が、 予め記録媒体に 記録されている映像検索用ィンデクスとして第 5の実施の形態で記述した人 物発声時の視覚特徴パタンデ一夕を用い、 入力されたキーヮ一ドの視覚特徴 バタンデ一夕との照合を行うように構成する事が以下に可能である。
この場合、 キーワードパタン変換部 2 0は、 キーワード入力部 1 9から転 送されてきたキ一ヮ一ド情報を音素符号列に変換し、 さらに予め内部に登録 してある各サブヮードの発声特徴パタンデ一夕時系列からなる音素標準パ夕 ン、 及び各発声サブヮードの視覚特徴パタンデータからなる視覚特徴標準パ タンを参照参照してキーヮ一ドの音素符号列をキーヮ一ド構成サブヮード分 の発声特徴パタンデ一夕時系列と視覚特徴パタンデータ時系列に変換して、 キーワードパタン照合部 2 2へ転送する。 ビデオ再生制御部 1 3からパタン照合開始指示をうけたキーヮ一ドパ夕ン 照合部 2 2は、 内部の処理及び記憶回路 2 3を初期化した後、 キーワードパ タン変換部 2 0より転送されてくる前記キ一ヮ一ドの発声特徴パタンデータ 時系列と視覚特徴パタンデータ時系列を受け取って、 映像検索インデクス形 成部 2 1により記憶回路 2 3内に発声特徴パタンデ一夕で構成されるインデ クス構造バケツトと視覚特徴パタンデータで構成されるインデクス構造パケ ッ卜別に時刻順に並べられたインデクス構造パケット内のデ一夕時系列との パタン照合を、 それぞれのデータ種別ごとに行う。
各々のパタン照合では、 記憶回路 2 3内に時刻順に並べられたインデクス 構造バケツト内のそれぞれの特徴パタンデータ時系列内での一定の時刻区間 内で、 D P照合法等を用いて照合区間を伸縮しながらキーヮ一ドのそれぞれ の特徴パタンデ一夕時系列とのパタン照合を行いデータ種別ごとに各サブヮ ―ドの特徴パタンデータ間の類似度の和を求めキーヮード類似度とする。 このようにして求められた発声特徴パタンデータ時系列照合でのキーヮー ド類似度と、 視覚特徴パタンデータ時系列照合でのキーワード類似度の和か ら一定の類似性得られた照合区間をキ一ワードの検出区間とし、 検出した区 間の発声特徴パタンデータ時系列の最初の発声特徴パタンデータが存在する インデクス構造バケツ卜に添付された時刻情報を、 キーワード検出位置とし てその都度ビデオ再生制御部 1 3へ通知する。
このように音声からの発声特徴バタンデータと、 映像からの視覚特徵パ夕 ンデ一夕を併用したパタン照合をする事により、 例えば録画したビデオ番組 等で B G M (バックグラウンドミュージック) や騒音などによってインデク ス構造デバケツト内発声特徴パタンデータを構成する音響特性データの精度 が下がっている場合でも、 視覚特徴パタンデータを利用する事でキーヮード の検出精度の大幅な低下を防ぐ事が可能である。
また、 キーワード入力部が音声入力用マイクロフォンを備え、 キーワード パ夕ン変換部が入力されたキーワードの音声信号からキーワードの発声特徴 パタンデ一夕への変換を行うように構成する事が以下に可能である。
キーワード入力部 1 9は、 外部のマイクロフォン等の音声入力装置からキ —ワードが入力されたら、 ビデオ再生制御部 1 3へキーワード入力完了の通 知を行ない、 入力されたキーワード音声信号に AZ D変換処理を施してキー ワードパタン変換部 2 0へ供給する。
キーワードパタン変換部 2 0は、 入力されたキーワード音声信号信号に対 し、 一定時間単位で F F T (高速フーリエ変換) 処理を行い、 人物の発声周 波数帯域の音響特性デ一夕を抽出し、 さらに抽出した周波数帯域内での短時 間スペクトルデータまたはスペクトルの対数値や、 一定時間単位内の音声信 号の対数エネルギー値等の音声認識処理で一般的に用いられる音響特徴量か ら構成される N個 (Nは任意の自然数) の成分を持つベクトルデ一夕からな る発声特徴パタンデータ時系列を生成し、 キ一ワードパタン照合部 2 2へ転 送する。
このように、 マイクロフォン等を用いた音声によるキーワードの入力と、 入力された音声信号からキーヮード照合に必要なキーワードの発声特徵パ夕 ンデ一夕時系列を生成する事が可能となる。
また、 キーワード入力部がマイクロフォンと動画像入力用カメラ装置とを 備え、 前記キーヮードパタン変換部が利用者のキーヮード発声時に入力され る映像信号に対して予め登録されてある発声音ごとの口唇画像特徴パタンと の照合を行ない、 キーヮード発声時の映像信号からキ一ヮ一ドの視覚特徴パ タンデータへの変換を行うように構成する事が以下に可能である。
この場合、 キーワード入力部 1 9は、 外部のマイクロフォン等の音声入力 装置及びビデオカメラ装置とからキーワード情報が入力されたら、 ビデオ再 生制御部 1 3へキーワード入力完了の通知を行ない、 入力されたキーワード 音声信号及びキーヮード発声時の人物の顔を捉えた映像信号に AZ D変換処 理を施してキーワードパタン変換部 2 0へ供給する。
キーワードパタン変換部 2 0は、 入力されたキーワード音声信号信号から は、 音声認識処理で一般的に用いられる音響特徴量から構成される N個 (N は任意の自然数) の成分を持つべクトルデータからなる発声特徴パタンデー 夕時系列を生成し、 同じく入力されたキ一ヮ一ド映像信号信号の画像フレ一 ム毎に予め登録してある人物の口唇周辺画像から取り出した口唇特徴標準パ タンを用いて、人物の口唇周辺部の検出及び口唇周辺画像の抽出処理を行い、 抽出した口唇領域画像からさらに口唇の形状を代表する情報からなる人物発 声時の視覚特徴パタンデータを抽出し、 キーワード発声時間分の視覚特徵パ 夕ンデ一夕時系列生成し、それぞれキーワードパタン照合部 2 2へ転送する。 視覚特徴パタンデータは、 例えば前記口唇領域画像抽出時に用いた口唇領 域画像空間を任意の個数に分割した画像ブロックのおのおのの色平均情報ま たは輝度平均情報から構成される分割した画像ブロック数分成分がらなるベ クトルデータや、 または視覚特徴抽出した口唇領域画像データに対してさら に色フィル夕一等を用いて口唇部分のみを抽出し、 口唇部分の面積重心点か ら垂直方向の唇外接点 2点 (上下) と水平方向外接点 2点 (左右) にっきそ れぞれ前記重心点からの相対距離を算出した 4個の数値成分からなるべクト ルデ一夕等である。
このように、 マイクロフォン及びビデオカメラ装置を用いた映像 ·音声に よるキーヮードの入力と、 入力された音声信号からはキ一ヮ一ドの発声特徴 パタンデータ時系列を、 映像信号からはキ一ワードの視覚特徴パタンデータ 時系列を生成する事が可能となる。
また、 本発明のシーン検索システムは音声だけのシーン検索に適用するこ とができる。 上述した方式にしたがって映像信号と音声信号と映像検索イン デックス、 又は音声信号と音声映像検索ィンデックスとを記録媒体に蓄積す る。 音声映像検索ィンデックスは上記映像検索ィンデックスと同じ構造のも のを用いる事ができる。 キ一ヮ一ド検出区間の先頭サブヮ一ドの始端時刻に 対応する位置から音声信号の取り出しを開始すればよい。
本明細書は、 1 9 9 8年 1 2月 1 7日出願の特願平 1 0— 3 5 9 4 1 4号、 1 9 9 9年 1 2月 1 3日出願の特願平 1 1— 3 5 2 8 1 9号に基づく。 この 内容はここに含めておく。 産業上の利用可能性
音声認識技術をビデオ録画時とビデオ再生時に分割して用いる事により、 ビデオ再生時に任意のキーヮードを用いた高速な映像検索を行い、 利用者の 検索意図にそった早見を実現できる。
また、 映像検索用インデックスは、 ビデオの録画と同時に自動的に生成さ れるため、 従来マニュアルに頼っていた映像の整理や再利用を目的としたィ ンデキシング作業の手間が大幅に削減されることが期待でき、 家庭内でのデ ジ夕ルビデオカメラやデジタルビデオテープレコーダ等での特殊再生機能か ら大規模なデジタル映像ライブラリシステム等での映像信号ベース構築や映 像検索 ·閲覧等に有用である。

Claims

請求の範囲
1 . 映像信号に同期した音声信号から特徴パタンを抽出して映像検索のた めのィンデックスを生成する検索データ生成部と、 検索者から入力されるキ 一ワードと前記インデックスとを照合して所望とする映像を検索する検索処 理部とを具備する映像検索装置。
2 . 前記検索データ生成部は、 入力された音声信号から音声特徴量を抽出 する音声特徴パタン抽出部と、 抽出された音声特徴量と予め登録された標準 音声パタンとの間の類似度を算出する計算部と、 計算された類似度及び対応 する映像信号又は音声信号との時間同期情報を含んだインデックスを生成す るィンデックス生成部とを備える請求項 1記載の映像検索装置。
3 . 前記音声特徴パタン抽出部は、 入力された音声信号からサブワードに 相当する区間から前記音声特徴量を抽出し、 前記計算部は、 サブワードを単 位とした標準音声パタンを用いて類似度を計算することを特徴とする請求項
2記載の映像検索装置。
4 . 前記検索処理部は、 検索者から入力されるキーワードを音声特徴量の 時系列パタンに変換するキ一ヮ一ド変換部と、 変換されたキーヮードを音声 特徴量の時系列パタンと前記インデックスとを照合してキーワードと類似度 の高い区間を検出するキーヮ一ドパタン照合部とを備える請求項 1記載の映 像検索装置。
5 . 前記キーワードパタン照合部は、 前記音声信号の検索対象期間に亘っ て作成されたィンデックスで構成される音素類似度表の中から前記入力キ一 ヮ一ドに含まれるサブヮードに対応したィンデックスだけを抽出し、 抽出し たィンデクスを時系列データに変換してキーヮ一ドを復元し、 復元されたキ —ヮード毎に類似度を加算することを特徴とする請求項 4記載の映像検索装 置。
6 . 前記検索データ生成部から前記検索処理部に対して伝送媒体を介して 前記映像信号、 音声信号及びインデックスが伝達されることを特徴とする請 求項 1記載の映像検索装置。
7 . 前記伝送媒体は、 放送網、 通信網又は記録媒体のいずれかであること を特徴とする項 6記載の映像検索装置。
8 . 前記検索データ生成部は、 映像信号、 音声信号及びインデックスを多 重化してデータストリームの形式で出力する多重化部を備え、 前記検索処理 部は、 多重化されたデータストリームを映像信号、 音声信号及びインデック スに分離する多重分離部を備える請求項 6記載の映像検索装置。
9 . 前記多重化部は、 前記インデックスをユニットに分割する単位を、 対 応する映像信号の G O P (Group of Pictures) 単位と一致させることを 特徴とする請求項 8記載の映像検索装置。
1 0 . 映像信号及び音声信号とインデックスとの時間同期情報としてイン デックスのュニット部に対応する映像信号のタイムコードを記録することを 特徴とする請求項 9記載の映像検索装置。
1 1 . 前記インデックスのユニット部に記録するタイムコードは、 そのュニ ット部に対応する映像信号の開始時刻及び継続時間であることを特徴とする 請求項 1 0記載の映像検索装置。
1 2 . 映像信号に同期した音声信号から特徴パタンを抽出して映像検索の ためのィンデックスを生成する検索データ生成部と、 検索者から入力される キーヮ一ドと前記ィンデックスとを照合して所望とする映像を検索する検索 処理部とを具備し、
前記検索処理部は、 通信網を経由して接続された検索端末からキーヮード を受信する受信部と、 検索された映像信号を前記通信網を経由して前記検索 端末へ送信する送信部とを有する、 映像検索装置。
1 3 . 音声信号から特徴パタンを抽出して音声検索のためのインデックス を生成する検索データ生成部と、 検索者から入力されるキーヮードと前記ィ ンデックスとを照合して所望とする音声を検索する検索処理部とを具備する
1 4 . 前記検索データ生成部は、 入力された音声信号から音声特徴量を抽 出する音声特徴パタン抽出部と、 抽出された音声特徴量と予め登録された標 準音声パタンとの間の類似度を算出する計算部と、 計算された類似度及び対 応する音声信号との時間同期情報を含んだインデックスを生成するインデッ クス生成部とを備える請求項 1 3記載の音声検索装置。
1 5 . 映像信号に同期した音声信号から音声特徴量を抽出する音声特徵パ タン抽出部と、 抽出された音声特徴量と予め登録された標準音声パタンとの 間の類似度を算出する計算部と、 計算された類似度及び対応する映像信号又 は音声信号との時間同期情報を含んだインデックスを生成するインデックス 生成部とを備える映像検索インデックス生成装置。
1 6 . 前記音声特徴パタン抽出部は、 入力された音声信号からサブワード に相当する区間から前記音声特徴量を抽出し、 前記計算部は、 サブワードを 単位とした標準音声パタンを用いて類似度を計算することを特徴とする請求 項 1 5記載の映像検索インデックス生成装置。
1 7 . 映像信号とこの映像信号に同期した音声信号とこの音声信号から生 成された音素類似度表とが蓄積された記録部と、 検索者から入力されるキ一 ヮ一ドを音声特徴量の時系列パタンに変換するキ一ヮ一ド変換部と、 変換さ れたキーヮードを音声特徴量の時系列パタンと前記音素類似度表のインデッ クスとを照合してキ一ヮ一ドと類似度の高い区間を検出するキーヮ一ドパ夕 ン照合部と、 検出区間の先頭サブヮードの始端時刻に基づいて前記記録部か ら該当する映像信号を取り出す制御部とを備える検索処理装置。
1 8 . 前記キーワードパタン照合部は、 音素類似度表の中から前記入力キ ーヮードに含まれるサブヮードに対応したィンデックスだけを抽出し、 抽出 したィンデクスを時系列データに変換してキ一ヮ一ドを復元し、 復元された キーヮ一ド毎に類似度を加算することを特徴とする請求項 1 7記載の検索処
1 9 . 記録媒体を有するビデオ録画装置において、 ビデオ録画時に入力さ れる音声信号から人物の発声帯域における発声特徴パタンを抽出する発声特 徴パタン抽出部と、 前記発声特徴パタンをビデオ信号への同期情報とともに 前記記録媒体に映像検索インデクスとして記録するィンデクス記録制御部と を備える事を特徴とするビデオ録画装置。
2 0 . 記録媒体を有するビデオ録画装置において、 ビデオ録画時に入力さ れる音声信号から人物の発声帯域における発声特徴パタンを抽出する発声特 徵パタン抽出部と、 抽出された発声特徴パタンデータと予め登録されている 複数のサブヮ一ドの各発声特徴パタンとの類似度を算出して類似度及び時刻 情報を持った映像検索ィンデクスを生成するインデックス生成部と、 入力音 声対して作成された映像検索ィンデクスで構成される音素類似度表とビデオ 信号とを前記記録媒体に記録する記録制御部とを備えるビデオ録画装置。 2 1 . 前記発声特徴パタン抽出部は、 ビデオ録画時に入力される映像信号 に対して予め登録されてある発声音ごとの口唇画像特徵パタンデータとの照 合を行ない、 映像信号から人物発声時の視覚特徴パタンデータを抽出する事 を特徴とする請求項 1 9記載のビデオ録画装置。
2 2 . ビデオ信号の再生を行うビデオ再生装置において、 入力音声に対し て作成された映像検索ィンデクスとビデオ信号とが記録された記録媒体と、 検索者から入力されたキーワードをパタン照合用データに変換するキ一ヮ一 ドパタン変換部と、 前記キーヮードのパタン照合用デ一夕と既に前記記録媒 体に記録されているビデオ番組の前記映像検索ィンデクス内のパタン照合用 データとのパタン照合を行うキーヮードパタン照合部とを備えるビデオ再生
2 3 . ビデオ信号の再生を行うビデオ再生装置において、 入力音声に対し て作成された映像検索ィンデクスから構成された音素類似度表とビデオ信号 とが記録された記録媒体と、 入力されたキーヮ一ドのサブヮ一ド系列と前記 音素類似度表内の各サブヮードごとの類似度によってキーヮ一ド検出を行う キーワードパタン変換部とを備えたビデオ再生装置。
2 4 . 前記キーワードパタン変換部は、 入力されるキ一ワードを視覚特徴 パタンデータへの変換を行い、 前記キーワードパタン照合部が、 予め記録媒 体に記録されている映像検索ィンデックスとして人物発声時の視覚特徵パ夕 ンデ一夕を用いて、 入力されたキ一ヮ一ドの視覚特徴パタンデータとの照合 を行うことを特徴とする請求項 2 2記載のビデオ再生装置。
2 5 . 音声入力のためのマイクロフォンを備え、 前記キーワードパタン変 換部が前記マイクロフォンから入力されたキーヮードの音声信号を発声特徴 パタンデ一夕へ変換することを特徴とする請求項 2 2記載のビデオ再生装置。 2 6 . マイクロフォンと動画像入力のためのカメラ装置とを備え、 前記キ ーヮ一ドパタン変換部は、 利用者のキーヮード発声時にカメラ装置から入力 される映像信号に対して予め登録されてある発声音ごとの口唇画像特徴パ夕 ンとの照合を行ない、 キーヮード発声時の映像信号からキーヮ一ドの視覚特 徵パタンデータへの変換を行う事を特徴とする請求項 2 2記載のビデオ再生
2 7 . 映像信号に同期した音声信号から音声特徴量を抽出し、 抽出された 音声特徴量と予め登録された標準音声パタンとの間の類似度を算出し、 計算 された類似度及び対応する映像信号又は音声信号との時間同期情報を含んだ ィンデックスを生成し、 検索者から入力されるキーワードと前記ィンデック スとを照合して所望とする映像を検索する映像検索方法。
捕正書の請求の範囲
[2000年 5月 19日 (19. 05. 00 ) 国際事務局受理:出願当初の請求の範囲 2 一 4, 14及び 16は取り下げられた;出願当初の請求の範囲 1, 5, 10, 12, 13, 15, 17, 18, 20, 23及び 27は補正された;他の請求の範囲は変更なし。 (7頁)]
1. (補正後) 映像信号に同期した音声信号から特徴パタンを抽出し、 サ ブヮードを単位とした標準音声パタンを用いて類似度を計算し、 時間同期情 報を含んだサブヮード単位のインデックスを生成する検索データ生成部と、 入力されるキーヮードに対する時間情報を前記インデックスの組合せから導 出し、 所望とする映像を検索する検索処理部とを具備する映像検索装置。
2. (削除)
3. (削除)
4. (削除)
5. (補正後) 前記検索処理部は、 入力されるキーワードをサブワード系 列に変換し、サブヮ一ド系列の順序に従ってサブヮード毎の類似度を加算(累 積) することで、 キーワードに対する類似度を求め、 求めた類似度の高い区 間を所望の映像として検索することを特徵とする請求項 1記載の映像検索装 置。
6. 前記検索デ一夕生成部から前記検索処理部に対して伝送媒体を介して 前記映像信号、 音声信号及びィンデックスが伝達されることを特徴とする請
補正された用紙 (条約第 19条) 求項 1記載の映像検索装置。
7 . 前記伝送媒体は、 放送網、 通信網又は記録媒体のいずれかであること を特徴とする請求項 6記載の映像検索装置。
8 . 前記検索データ生成部は、 映像信号、 音声信号及びインデックスを多 重化してデータストリームの形式で出力する多重化部を備え、 前記検索処理 部は、 多重化されたデータストリームを映像信号、 音声信号及びインデック スに分離する多重分離部を備える請求項 6記載の映像検索装置。
9 . 前記多重化部は、 前記インデックスをユニットに分割する単位を、 対 応する映像信号の G O P (Group of Pictures) 単位と一致させることを 特徴とする請求項 8記載の映像検索装置。
1 0 . (補正後) 時間同期情報としてインデックスのユニット部に対応す る映像信号のタイムコードを記録することを特徴とする請求項 9記載の映像
1 1 . 前記インデックスのユニット部に記録するタイムコードは、 そのュニ ット部に対応する映像信号の開始時刻及び継続時間であることを特徴とする 請求項 1 0記載の映像検索装置。
1 2 . (補正後) 映像信号に同期した音声信号から特徴パタンを抽出し、 サブヮードを単位とした標準音声パタンを用いて類似度を計算し、 時間同期 情報を含んだサブヮード単位のィンデックスを生成する検索データ生成部と、 入力されるキーヮ一ドに対する時間情報を前記ィンデックスの組合せから導 出し、 所望とする映像を検索する検索処理部とを具備し、 前記検索処理部 は、 通信網を経由して接続された検索端末からキーワードを受信する受信部 と、 検索された映像信号は前記通信網を経由して前記検索端末へ送信する送 信部とを有する、 映像検索装置。
1 3 . (補正後) 音声信号から特徴パタンを抽出し、 サブワードを単位と した標準音声パタンを用いて類似度を計算し、 時間同期情報を含んだサブヮ ―ド単位のィンデックスを生成する検索データ生成部と、 入力されるキ一ヮ
補正された用紙 (条約第 19条) ―ドに対する時間情報を前記ィンデックスの組合せから導出し、 所望とする 音声を検索する検索処理部とを具備する音声検索装置。
補正された用紙 (条約第 19条)
1 4 . (削除)
1 5 . (補正後) 映像信号に同期した音声信号から特徴パタンを抽出する 音声特徴パタン抽出部と、 抽出された特徵パタンについてサブヮードを単位 とした標準音声パタンを用いて類似度を算出する計算部と、 計算された類似 度及び対応する映像信号又は音声信号との時間同期情報を含んだィンデック スを生成するインデックス生成部とを備える映像検索ィンデックス生成装置。
1 6 . (削除)
1 7 . (補正後) 映像信号とこの映像信号に同期した音声信号とこの音声 信号から生成されたサブヮード単位のィンデックスとが蓄積された記録部と、 入力されるキ一ヮ一ドをサブヮ一ド系列に変換'するキーヮ一ド変換部と、 変 換されたキ一ヮ一ドのサブヮ一ドと前記サブヮード単位のィンデックスとを 照合してキ一ヮ一ドと類似度の高い区間を検出するキーヮード照合部と、 検 出区間の先頭サブヮードの始端時刻に基づいて前記記録部から該当する映像 信号を取り出す制御部とを備える検索処理装置。
1 8 . (補正後) 前記キーワード照合部は、 入力されるキーワードをサブ ヮ一ド系列に変換し、 サブヮード系列の順序に従ってサブヮ一ド毎の類似度 を加算することで、 キーワードに対する類似度を求め、 求めた類似度の高い 区間を所望の映像として検索することを特徴とする請求項 1 7記載の検索処
1 9 . 記録媒体を有するビデオ録画装置において、 ビデオ録画時に入力さ
補正された用紙 (条約第19条 ) れる音声信号から人物の発声特徴パタンを抽出する発声特徴パタン抽出部と、 前記発声特徴パタンをビデオ信号への同期情報とともに前記記録媒体に映像 検索インデクスとして記録するィンデクス記録制御部とを備える事を特徴と するビデオ録画装置。
2 0 . (補正後) 記録媒体を有するビデオ録画装置において、 ビデオ録画 時に入力される音声信号から人物の発声帯域における特徴パタンを抽出する 発声特徴パタン抽出部と、 抽出された特徵パタンについてサブヮ一ドを単位 とした標準音声パタンを用いて類似度を算出して類似度及び時刻情報を持つ たサブヮ一ド単位のィンデクスを生成するィンデックス生成部と、 入力音声 対して作成されたサブヮード単位のィンデクスとビデオ信号とを前記記録媒 体に記録する記録制御部とを備えるビデオ録画装置。
2 1 . 前記発声特徴パタン抽出部は、 ビデオ録画時に入力される映像信号 に対して予め登録されてある発声音ごとの口唇画像特徴パタンデータとの照 合を行い、 映像信号から人物発声時の視覚特徴パタンデ一夕を抽出する事を 特徴とする請求項 1 9記載のビデオ録画装置。
2 2 . ビデオ信号の再生を行うビデオ再生装置において、 入力音声に対し て作成された映像検索ィンデクスとビデオ信号とが記録された記録媒体と、 検索者から入力されたキーヮ一ドをパタン照合用データに変換するキーヮ一 ドパタン変換部と、 前記キ一ヮ一ドのパタン照合用データと既に前記記録媒 体に記録されているビデオ番組の前記映像検索用インデクス内のパタン照合 用データとのパタン照合を行うキ一ヮ一ドパタン照合部とを備えるビデオ再 生装置。
2 3 . (補正後) ビデオ信号の再生を行うビデオ再生装置において、 入力 音声に対して作成されサブヮ一ド単位のィンデクスとビデオ信号とが記録さ れた記録媒体と、 入力されたキーヮードをサブワード系列に変換するキーヮ 一ド変換部と、 変換されたキ一ヮ一ドのサブヮード系列と前記サブヮード単 位のィンデックス内の各サブヮードごとの類似度によってキーヮード検出を
補正された用紙 (条約第 条) 行うキーヮード照合部とを備えたビデオ再生装置。
補正された用紙 (条約第 19条)
2 4 . 前記キーワードパタン変換部は、 入力されるキーワードを視覚特徴 パタンデ一夕への変換を行い、 前記キーワードパタン照合部が、 予め記録媒 体に記録されている映像検索ィンデクスとして人物発声時の視覚特徴パター ンデ—夕を用いて、 入力されたキ一ヮ一ドの視覚特徵パタンデ一夕との照合 を行うことを特徴とする請求項 2 2記載のビデオ再生装置。
2 5 . 音声入力のためのマイクロフォンを備え、 前記キーワードパタン変 換部が前記マイクロフォンから入力されたキーヮードの音声信号を発声特徴 パタンデ一夕へ変換すること特徴とする請求項 2 2記載のビデオ再生装置。
2 6 . マイクロフォンと動画像入力のためのカメラ装置とを備え、 前記キ ーヮ一ドパタン変換部は、 利用者のキーヮード発声時にカメラ装置から入力 される映像信号に対して予め登録されてある発声音ごとの口唇画像特徴パ夕 ンとの照合を行い、 キーヮード発声時の映像信号からキーヮードの視覚特徴 パタンデ一夕への変換を行う事を特徴とする請求項 2 2記載のビデオ再生装
2 7 . (補正後) 映像信号に同期した音声信号から特徴パタンを抽出し、 サブヮードを単位とした標準音声パタンを用いて類似度を計算し、 時間同期 情報を含んだサブヮ一ド単位のィンデックスを生成するィンデックス作成ェ 程と、 入力されるキ一ヮ一ドに対する時間情報を前記ィンデックスの組合せ から導出し、所望とする映像を検索する検索工程とを具備する映像検索方法。
補正された用紙 (条約第 19条) 条約 19条に基づく説明書
請求の範囲 第 1項、 第 12項、 第 13項、 第 27項は、
予めサブヮード単位でィンデックスを生成しておき、 検索時にはキーヮード に対応したサブヮード単位のィンデックスの組合わせからキ一ヮ一ドの発声 区間を求めること、 を明確にした。
引用例 1 (J P, 3-53379, A) は、 単語単位の音声認識によるイン デックス作成に関するものであり、
引用例 2 (新美康永, 情報科学講座 E · 1 9 · 3音声認識, (日), 共立出 版株式会社, (10. 1 0. 79) 第 90-第 93頁) は、 音声認識において サブヮードラティスを介して認識を行うことに関するもであり、
引用例 3 ( J P, 6 - 68168, A 段落番号 【00 18】 一 【001 9】, 図面 【図 3】) は、 単語単位の音声認識によるインデックスの作成と、 ィンデックスを参照した検索に関するのであり、
引用例 4 (J P, 5 - 108727, A) は、 画像入出力の際に声の入出 力を行って検索を行え、 さらに既存のファクシミリを用いて遠隔操作を行う ことに関するもである。
本発明は、 サブワード単位でインデックスを作成しておく事により、 検索 時には自由なキーワードに対処できて、 かつ高速に検索が行え、 さらにイン デックス作成と検索とを完全に分離することで人手を介さないインデックス の流通が可能になるといった、 効果を得たものである。
PCT/JP1999/007022 1998-12-17 1999-12-14 Procede et appareil permettant de retrouver vocalement des scenes video ou audio WO2000036833A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US09/600,881 US6611803B1 (en) 1998-12-17 1999-12-14 Method and apparatus for retrieving a video and audio scene using an index generated by speech recognition
EP99959808A EP1058453B1 (en) 1998-12-17 1999-12-14 Method and apparatus for retrieving desired video and audio scene using voice recognition
DE69915455T DE69915455T2 (de) 1998-12-17 1999-12-14 Verfahren und vorrichtung, um gewünschte video- und audioszenen durch spracherkennung wiederzufinden

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP10/359414 1998-12-17
JP35941498 1998-12-17
JP11/352819 1999-12-13
JP35281999A JP3252282B2 (ja) 1998-12-17 1999-12-13 シーンを検索する方法及びその装置

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US09/600,881 A-371-Of-International US6611803B1 (en) 1998-12-17 1999-12-14 Method and apparatus for retrieving a video and audio scene using an index generated by speech recognition
US10/434,119 Continuation US6728673B2 (en) 1998-12-17 2003-05-09 Method and apparatus for retrieving a video and audio scene using an index generated by speech recognition

Publications (1)

Publication Number Publication Date
WO2000036833A1 true WO2000036833A1 (fr) 2000-06-22

Family

ID=26579715

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1999/007022 WO2000036833A1 (fr) 1998-12-17 1999-12-14 Procede et appareil permettant de retrouver vocalement des scenes video ou audio

Country Status (5)

Country Link
US (2) US6611803B1 (ja)
EP (2) EP1058453B1 (ja)
JP (1) JP3252282B2 (ja)
DE (2) DE69924765T2 (ja)
WO (1) WO2000036833A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090136215A1 (en) * 1998-07-30 2009-05-28 Barton James M Digital video recorder system with an integrated dvd recording device
US8948569B2 (en) 1998-07-30 2015-02-03 Tivo Inc. Multiple outlet digital video recording system
US8965173B2 (en) 1998-07-30 2015-02-24 Tivo Inc. Multimedia stream processing system
US9264686B2 (en) 1998-07-30 2016-02-16 Tivo Inc. Tag-based menus in video streams
US10440342B2 (en) 2004-11-19 2019-10-08 Tivo Solutions Inc. Secure transfer of previously broadcasted content

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6760746B1 (en) 1999-09-01 2004-07-06 Eric Schneider Method, product, and apparatus for processing a data request
JP3252282B2 (ja) * 1998-12-17 2002-02-04 松下電器産業株式会社 シーンを検索する方法及びその装置
US7188138B1 (en) 1999-03-22 2007-03-06 Eric Schneider Method, product, and apparatus for resource identifier registration and aftermarket services
US6338082B1 (en) 1999-03-22 2002-01-08 Eric Schneider Method, product, and apparatus for requesting a network resource
USRE43690E1 (en) 1999-03-22 2012-09-25 Esdr Network Solutions Llc Search engine request method, product, and apparatus
US9141717B2 (en) 1999-03-22 2015-09-22 Esdr Network Solutions Llc Methods, systems, products, and devices for processing DNS friendly identifiers
US8667051B2 (en) * 1999-03-22 2014-03-04 Esdr Network Solutions Llc Real-time communication processing method, product, and apparatus
US8037168B2 (en) 1999-07-15 2011-10-11 Esdr Network Solutions Llc Method, product, and apparatus for enhancing resolution services, registration services, and search services
USRE44207E1 (en) 1999-09-01 2013-05-07 Esdr Network Solutions Llc Network resource access method, product, and apparatus
JP2002184159A (ja) * 2000-12-14 2002-06-28 Tdk Corp ディジタル式記録再生装置
GB2380599B (en) 2000-12-22 2003-10-29 Kent Ridge Digital Labs System and method for media production
JP3663362B2 (ja) * 2001-03-30 2005-06-22 インターナショナル・ビジネス・マシーンズ・コーポレーション インデックス生成装置
US7170886B1 (en) 2001-04-26 2007-01-30 Cisco Technology, Inc. Devices, methods and software for generating indexing metatags in real time for a stream of digitally stored voice data
US20030187652A1 (en) * 2002-03-27 2003-10-02 Sony Corporation Content recognition system for indexing occurrences of objects within an audio/video data stream to generate an index database corresponding to the content data stream
JP2004007539A (ja) * 2002-04-19 2004-01-08 Sumitomo Electric Ind Ltd ビジュアル情報の記録/再生方法、その装置及び通信システム
US20040006628A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for providing real-time alerting
US20040024585A1 (en) * 2002-07-03 2004-02-05 Amit Srivastava Linguistic segmentation of speech
WO2004029831A2 (en) * 2002-09-27 2004-04-08 International Business Machines Corporation System and method for enhancing live speech with information accessed from the world wide web
US20040083090A1 (en) * 2002-10-17 2004-04-29 Daniel Kiecza Manager for integrating language technology components
GB0230097D0 (en) * 2002-12-24 2003-01-29 Koninkl Philips Electronics Nv Method and system for augmenting an audio signal
JP4392179B2 (ja) * 2003-03-19 2009-12-24 株式会社リコー デジタルカメラ装置
AU2004271623A1 (en) * 2003-09-05 2005-03-17 Stephen D. Grody Methods and apparatus for providing services using speech recognition
US8165449B2 (en) * 2003-10-01 2012-04-24 Microsoft Corporation DV metadata extraction
US7272562B2 (en) * 2004-03-30 2007-09-18 Sony Corporation System and method for utilizing speech recognition to efficiently perform data indexing procedures
JP4429081B2 (ja) * 2004-06-01 2010-03-10 キヤノン株式会社 情報処理装置及び情報処理方法
JP4587165B2 (ja) * 2004-08-27 2010-11-24 キヤノン株式会社 情報処理装置及びその制御方法
US7634407B2 (en) * 2005-05-20 2009-12-15 Microsoft Corporation Method and apparatus for indexing speech
WO2007015489A1 (ja) * 2005-08-01 2007-02-08 Kyushu Institute Of Technology 音声検索装置及び音声検索方法
US7809568B2 (en) * 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US20070118873A1 (en) * 2005-11-09 2007-05-24 Bbnt Solutions Llc Methods and apparatus for merging media content
US9697231B2 (en) * 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for providing virtual media channels based on media search
US7831428B2 (en) * 2005-11-09 2010-11-09 Microsoft Corporation Speech index pruning
US9697230B2 (en) * 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for dynamic presentation of advertising, factual, and informational content using enhanced metadata in search-driven media applications
US7801910B2 (en) * 2005-11-09 2010-09-21 Ramp Holdings, Inc. Method and apparatus for timed tagging of media content
US20070106646A1 (en) * 2005-11-09 2007-05-10 Bbnt Solutions Llc User-directed navigation of multimedia search results
US20070106685A1 (en) * 2005-11-09 2007-05-10 Podzinger Corp. Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same
US7831425B2 (en) * 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
KR101208508B1 (ko) 2006-01-19 2012-12-05 엘지전자 주식회사 디지털 방송 프로그램 저장 방법, 및 이를 구현하기 위한디지털 방송용 단말기
US7602976B2 (en) * 2006-02-17 2009-10-13 Sony Corporation Compressible earth mover's distance
US7577684B2 (en) * 2006-04-04 2009-08-18 Sony Corporation Fast generalized 2-Dimensional heap for Hausdorff and earth mover's distance
US7668721B2 (en) * 2006-05-22 2010-02-23 Microsoft Corporation Indexing and strong verbal content
US8160885B2 (en) * 2006-07-11 2012-04-17 Don Ming Yang Voice signal encoding/decoding method
JP4980018B2 (ja) * 2006-09-21 2012-07-18 パナソニック株式会社 字幕生成装置
US8090694B2 (en) 2006-11-02 2012-01-03 At&T Intellectual Property I, L.P. Index of locally recorded content
US20080147692A1 (en) * 2006-12-14 2008-06-19 General Motors Corporation Method for manipulating the contents of an xml-based message
US8558952B2 (en) * 2007-05-25 2013-10-15 Nec Corporation Image-sound segment corresponding apparatus, method and program
DK2012304T3 (da) * 2007-07-06 2012-11-19 Zero To One Technology Comscope Fremgangsmåder til elektronisk analyse af en dialog samt tilsvarende systemer
JP4887264B2 (ja) * 2007-11-21 2012-02-29 株式会社日立製作所 音声データ検索システム
JP5105109B2 (ja) * 2007-11-22 2012-12-19 エンドレス株式会社 検索装置及び検索システム
EP2223460A4 (en) * 2007-12-20 2011-12-28 Bce Inc NON-CONTACT LABEL WITH SIGNATURE AND ASSOCIATED APPLICATIONS
US8487984B2 (en) 2008-01-25 2013-07-16 At&T Intellectual Property I, L.P. System and method for digital video retrieval involving speech recognition
US20090210233A1 (en) * 2008-02-15 2009-08-20 Microsoft Corporation Cognitive offloading: interface for storing and composing searches on and navigating unconstrained input patterns
JP4919993B2 (ja) * 2008-03-12 2012-04-18 株式会社日立製作所 情報記録装置
US8312022B2 (en) * 2008-03-21 2012-11-13 Ramp Holdings, Inc. Search engine optimization
US20090265165A1 (en) * 2008-04-21 2009-10-22 Sony Ericsson Mobile Communications Ab Automatic meta-data tagging pictures and video records
US9202460B2 (en) * 2008-05-14 2015-12-01 At&T Intellectual Property I, Lp Methods and apparatus to generate a speech recognition library
US9077933B2 (en) 2008-05-14 2015-07-07 At&T Intellectual Property I, L.P. Methods and apparatus to generate relevance rankings for use by a program selector of a media presentation system
US8566076B2 (en) * 2008-05-28 2013-10-22 International Business Machines Corporation System and method for applying bridging models for robust and efficient speech to speech translation
US8737770B2 (en) * 2009-02-16 2014-05-27 Cisco Technology, Inc. Method and apparatus for automatic mash-up generation
JP5478960B2 (ja) * 2009-06-30 2014-04-23 ヤフー株式会社 動画検索サーバおよび動画検索方法
US9489577B2 (en) * 2009-07-27 2016-11-08 Cxense Asa Visual similarity for video content
US9311395B2 (en) * 2010-06-10 2016-04-12 Aol Inc. Systems and methods for manipulating electronic content based on speech recognition
US8601076B2 (en) 2010-06-10 2013-12-03 Aol Inc. Systems and methods for identifying and notifying users of electronic content based on biometric recognition
JP5188619B2 (ja) * 2011-12-09 2013-04-24 株式会社日立製作所 情報記録装置
US8972262B1 (en) * 2012-01-18 2015-03-03 Google Inc. Indexing and search of content in recorded group communications
US20130308922A1 (en) * 2012-05-15 2013-11-21 Microsoft Corporation Enhanced video discovery and productivity through accessibility
US9282284B2 (en) * 2013-05-20 2016-03-08 Cisco Technology, Inc. Method and system for facial recognition for a videoconference
CN103413549B (zh) * 2013-07-31 2016-07-06 深圳创维-Rgb电子有限公司 语音交互的方法、系统以及交互终端
US20150243325A1 (en) * 2014-02-24 2015-08-27 Lyve Minds, Inc. Automatic generation of compilation videos
CN106228983B (zh) * 2016-08-23 2018-08-24 北京谛听机器人科技有限公司 一种人机自然语言交互中的场景处理方法及系统
US10546011B1 (en) * 2016-09-23 2020-01-28 Amazon Technologies, Inc. Time code to byte indexer for partial object retrieval
KR102085908B1 (ko) 2018-05-10 2020-03-09 네이버 주식회사 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법
JP7416091B2 (ja) 2020-01-13 2024-01-17 日本電気株式会社 映像検索システム、映像検索方法、及びコンピュータプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0353379A (ja) * 1989-07-21 1991-03-07 Nippon Telegr & Teleph Corp <Ntt> マルチメディアデータベース蓄積検索装置
JPH05108727A (ja) * 1991-10-18 1993-04-30 Nec Corp イメージ情報入出力方式
JPH0668168A (ja) * 1992-08-17 1994-03-11 Nippon Telegr & Teleph Corp <Ntt> 音響キーワードによる映像検索方法および装置
US5806036A (en) * 1995-08-17 1998-09-08 Ricoh Company, Ltd. Speechreading using facial feature parameters from a non-direct frontal view of the speaker

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0632012B2 (ja) * 1985-03-25 1994-04-27 株式会社東芝 音声認識装置
US5621858A (en) * 1992-05-26 1997-04-15 Ricoh Corporation Neural network acoustic and visual speech recognition system training method and apparatus
US5473726A (en) * 1993-07-06 1995-12-05 The United States Of America As Represented By The Secretary Of The Air Force Audio and amplitude modulated photo data collection for speech recognition
US5835667A (en) * 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US5710591A (en) * 1995-06-27 1998-01-20 At&T Method and apparatus for recording and indexing an audio and multimedia conference
JP3512098B2 (ja) 1996-12-13 2004-03-29 ソニー株式会社 情報記録装置および方法、並びに情報再生装置および方法
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
JP3252282B2 (ja) * 1998-12-17 2002-02-04 松下電器産業株式会社 シーンを検索する方法及びその装置
US6505153B1 (en) * 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0353379A (ja) * 1989-07-21 1991-03-07 Nippon Telegr & Teleph Corp <Ntt> マルチメディアデータベース蓄積検索装置
JPH05108727A (ja) * 1991-10-18 1993-04-30 Nec Corp イメージ情報入出力方式
JPH0668168A (ja) * 1992-08-17 1994-03-11 Nippon Telegr & Teleph Corp <Ntt> 音響キーワードによる映像検索方法および装置
US5806036A (en) * 1995-08-17 1998-09-08 Ricoh Company, Ltd. Speechreading using facial feature parameters from a non-direct frontal view of the speaker

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NIIMI Y: "JOHO KAGAKU KOZA", ONSEI NINSHIKI, XX, JP, 1 January 1979 (1979-01-01), JP, pages 90 - 93, XP002929908 *
See also references of EP1058453A4 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090136215A1 (en) * 1998-07-30 2009-05-28 Barton James M Digital video recorder system with an integrated dvd recording device
US8824865B2 (en) * 1998-07-30 2014-09-02 Tivo Inc. Digital video recorder system with an integrated DVD recording device
US8948569B2 (en) 1998-07-30 2015-02-03 Tivo Inc. Multiple outlet digital video recording system
US8965173B2 (en) 1998-07-30 2015-02-24 Tivo Inc. Multimedia stream processing system
US9002173B2 (en) 1998-07-30 2015-04-07 Tivo Inc. Digital security surveillance system
US9264686B2 (en) 1998-07-30 2016-02-16 Tivo Inc. Tag-based menus in video streams
US9800823B2 (en) 1998-07-30 2017-10-24 Tivo Solutions Inc. Digital security surveillance system
US9854199B2 (en) 1998-07-30 2017-12-26 Tivo Solutions Inc. Multiple outlet digital video recording system
US10021446B2 (en) 1998-07-30 2018-07-10 Tivo Solutions Inc. Multimedia stream processing system
US10440342B2 (en) 2004-11-19 2019-10-08 Tivo Solutions Inc. Secure transfer of previously broadcasted content

Also Published As

Publication number Publication date
DE69915455T2 (de) 2004-08-05
DE69915455D1 (de) 2004-04-15
US6728673B2 (en) 2004-04-27
DE69924765T2 (de) 2005-09-22
EP1357542B1 (en) 2005-04-13
US6611803B1 (en) 2003-08-26
EP1058453A1 (en) 2000-12-06
EP1357542A2 (en) 2003-10-29
JP3252282B2 (ja) 2002-02-04
JP2000236494A (ja) 2000-08-29
EP1058453A4 (en) 2002-03-13
US20030200091A1 (en) 2003-10-23
EP1058453B1 (en) 2004-03-10
DE69924765D1 (de) 2005-05-19
EP1357542A3 (en) 2003-11-19

Similar Documents

Publication Publication Date Title
JP3252282B2 (ja) シーンを検索する方法及びその装置
JP4905103B2 (ja) 動画再生装置
KR100782286B1 (ko) 정보의 검색 처리 방법, 검색 처리 장치, 저장 방법 및저장 장치
JP4491700B2 (ja) 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置
WO2004002144A1 (ja) メタデータ作成装置、その作成方法および検索装置
JP4937218B2 (ja) メタデータ編集装置及びメタデータ生成方法
JP2010161722A (ja) データ処理装置、データ処理方法、及び、プログラム
JP5296598B2 (ja) 音声情報抽出装置
JP4192703B2 (ja) コンテンツ処理装置、コンテンツ処理方法及びプログラム
JP3781715B2 (ja) メタデータ制作装置及び検索装置
JP5050445B2 (ja) 動画再生装置及び動画再生方法
JP4513165B2 (ja) 番組記録方法及び番組記録装置及び番組記録再生装置及び番組記録再生方法
JP2868981B2 (ja) 圧縮信号生成装置及び方法及び再生装置及び方法
JP3607228B2 (ja) 映像検索データ生成装置および映像検索データ生成方法並びに映像検索装置および映像検索方法
JP5337241B2 (ja) 映像編集装置
JP2004289530A (ja) 記録再生装置
JP2822940B2 (ja) 動画像音声データ編集装置
JPH0668168A (ja) 音響キーワードによる映像検索方法および装置
JP4053251B2 (ja) 画像検索システムおよび画像蓄積方法
KR101709053B1 (ko) 음원의 음성 정보와 자막을 음절 단위로 동기화하기 위한 자막 파일 구조 및 자막 재생 장치
JP3021252B2 (ja) データ検索方法及びデータ検索装置
JP3985656B2 (ja) 映像索引付加方法及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2005341138A (ja) 映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体
JP2000092435A (ja) 信号特徴抽出方法及びその装置、音声認識方法及びその装置、動画編集方法及びその装置
JPH0630367A (ja) 映像検索方法および装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 09600881

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 1999959808

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1999959808

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 1999959808

Country of ref document: EP