WO2000036833A1

WO2000036833A1 - Procede et appareil permettant de retrouver vocalement des scenes video ou audio

Info

Publication number: WO2000036833A1
Application number: PCT/JP1999/007022
Authority: WO
Inventors: Hiroshi Furuyama; Hitoshi Yashio; Ikuo Inoue; Mitsuru Endo; Masakatsu Hoshimi
Original assignee: Matsushita Electric Industrial Co., Ltd.; Matsushita Research Institute Tokyo, Inc.
Priority date: 1998-12-17
Filing date: 1999-12-14
Publication date: 2000-06-22
Also published as: DE69915455T2; DE69915455D1; US6728673B2; DE69924765T2; EP1357542B1; US6611803B1; EP1058453A1; EP1357542A2; JP3252282B2; JP2000236494A; EP1058453A4; US20030200091A1; EP1058453B1; DE69924765D1; EP1357542A3

Description

明細書音声認識を利用して所望の映像 ·音声シーンを検索する装置及び方法技術分野

本発明は、キーワードを用いて所望のシーン（映像及び又は音声）を検索するこのできる映像検索装置及び検索方法に関する。背景技術

近年、テレビジョン放送の多チャンネル化やイン夕一ネットに代表されるコンピュータネットワークの急速な普及に伴い膨大な映像が家庭を含めた社会に流通している。一方、記録メディア容量の増大に伴い、家庭において大量の映像信号の蓄積が可能になっている。そこで、このような大量の映像信号の中からユーザが希望する映像シーンを簡単に且つ高い精度で取り出すための技術が必要になる。

これまでは、映像信号の変化から映像信号の変わり目を検出してその部分の映像シーンを表示する方式や、画像認識技術を用いて特定のオブジェクトで構成される特定シーンを検出して表示する方式などの検索システムが考えられている。しかしながら、これらの検索システムは、検索された映像シ一ンが必ずしもユーザの検索意図をよく反映したシーンとは限らないといった問題がある。

また、字幕情報や，米国のテレビジョン放送で採用されているクローズドキャプション情報を，映像中から文字認識によって読取り、特定シーンを検出する検索システムがある。しかし、この検索システムは、字幕情報やクローズドキャプションを良く反映したシーンでは検索意図を良く反映したシ一ンが得られるものの、こうした情報は、人手を介して付加されることから一部の放送番組に限られているために、広く一般の映像に適用することは困難である。

ところで、映像に付随している音声情報をキーヮ一ドとして用いることができれば、検索意図を良く反映した検索システムの実現が期待される。特開平 6— 6 8 1 6 8号公報には、音声キ一ヮ一ドを用いて所望のシーンを検索する映像検索システムが開示されている。

図 1に、上記特開平 6— 6 8 1 6 8号公報に開示された検索システムの機能ブロックが示されている。音声信号及び映像信号が音声映像入力部 2 0 1 にて受信され、受信された音声信号は音声信号記録部 2 0 2へ蓄積され、受信された映像信号は映像信号記録部 2 0 3に蓄積される。音声信号は音声分析部 2 0 4において分析され、音声の特徴を表わした特徴パラメ一夕の時系列データが生成される。生成された特徴パラメ一夕の時系列は音声特徴記憶部 2 0 5へ格納される。

一方、ユーザが後からシーン検索に使用するためのキ一ワードが、音声の形式でキーワード特徴分析部 2 0 6に与えられる。キーワード特徴分析部 2 0 6は、キーワードとしての音声を分析して、音声キーワードの特徴を表わした特徴パラメ一夕の時系列デ一夕を生成する。生成した特徴パラメ一夕の時系列データはキーワード特徴パラメ一夕記憶部 2 0 7に格納される。キ一ヮ一ド区間抽出部 2 0 8は、記憶部 2 0 2に蓄積されている音声信号の特徴パラメータの時系列データと、キーヮード音声の特徴パラメ一夕の時系列データとを比較して、音声信号中のキーワード区間を抽出する。インデックス付与部 2 0 9は、抽出されたキーワード区間とその音声信号に対応する映像信号のフレーム番号とを対応付けるインデックス位置データ 2 1 0を作成する。

検索時にインデックス位置データ 2 1 0を使用して検索すれば、音声信号からキーヮードが出現する映像信号のフレーム番号を指定することが出来、映像音声出力部 2 1 1から該当する映像と音声を出力でき、ユーザが所望とする映像、音声を提示することができる。しかしながら、予め検索に使用すべき音声キーヮ一ドを登録しなければならず、それ以外のキーヮ一ドを使用して検索することができないといった問題がある。特に、ュ一ザが不確かなキーワードを入力した場合には、検索ェラーとなってしまって検索意図を反映したシーンを検索できなかった。発明の開示

本発明は、以上のような実情に鑑みてなされたものであり、映像及び又は音声の検索においてュ一ザが希望するシーンを、あらかじめ辞書などに登録された単語やキーヮード以外の未知語や、ユーザが入力した不確かなキーヮードであっても、正確かつ高速に検索できる装置及び方法を提供することを目的とする。

本発明は、検索データの生成と検索処理とに一連の音声認識処理手順を分割して適用することにより、ユーザが希望する映像 ·音声シーンを高速に検索でき、高速に再生できるシーン検索システムを提供する。

また、検索データ作成時には、音声認識処理の中間結果であるサブ'ヮ一ドのスコアの時系列デ一夕を検索ィンデックスとして作成する一方、検索処理時には入力キ一ヮ一ドをサブ'ワードの時系列に変換し、検索ィンデックスと照合するようにした。

これにより、単語辞書又は予め登録した検索キーヮードとの照合が無くなるため、未登録の単語キーワードに対応できないいわゆる未知語の問題が解決される。また、ユーザが不確かなキーワードを入力しても最も確からしい映像 ·音声シーンを検索する事ができる。

また、検索ィンデックスであるサブ'ヮ一ドのスコアの時系列データを、映像信号、音声信号と共にデータストリームに多重化するので、放送網ゃィン夕一ネットなどの通信網を介した検索インデックスの流通も可能になる。サブワードとは、単語よりも小さい音響モデルの基本単位をいい、音素や子音一母音、母音—子音—母音等の音節、半音節（Demisy liable) などが挙げられる。各単語はサブヮードの系列として表わされる。図面の簡単な説明

図 1は、既存の映像検索システムの機能ブロック図

図 2は、本発明の第 1の実施の形態にかかるシーン検索システムの機能ブロック図

図 3は、標準音声パタンのデ一夕構成図

図 4は、音素類似度表を示す図

図 5は、音素類似度表からキ一ヮ一ドの音素系列に相当するサブヮ一ドをピックアップした状態を示す図

図 6は、ピックアップしたサブワードをキーワードの音素系列の順に配列した状態を示す図

図 7は、本発明の第 2の実施の形態にかかるシーン検索システムの機能ブロック図

図 8 ( 1 ) は、映像信号、音声信号及び映像検索インデクスを多重化した M P E Gストリームの構成図

図 8 ( 2 ) は、映像ストリームの構成図

図 8 ( 3 ) は、 G O Pの構成図

図 8 ( 4 ) は、検索データストリームの構成図

図 9は、本発明の第 3の実施の形態にかかるシーン検索システムの機能ブロック図

図 1 0は、本発明の第 4の実施の形態にかかるビデオ録画装置の機能プロック図

図 1 1は、本発明の第 5の実施の形態にかかるビデオ録画装置の機能プロック図

図 1 2は、本発明の第 6の実施の形態にかかるビデオ再生装置の機能プロック図発明の最良の実施の形態

(第 1の実施の形態）

図 2に、第 1の実施の形態にかかるシーン検索システムの機能ブロック図が示されている。本実施の形態のシーン検索システムは、蓄積されている映像の中から所望のシーンを検索するための映像検索ィンデックスを生成する検索データ生成部 1 0 0と、入力された検索キーワードと映像検索インデックスとを照合して検索意図を良く反映したシーンを検索する検索処理部 2 0 0とを有する。

検索データ生成部 1 0 0は、映像信号を受信する映像信号入力部 1 0 1と、その映像信号に付随（同期）した音声信号を受信する音声信号入力部 1 0 2 とを有する。映像信号入力部 1 0 1及び音声信号入力部 1 0 2から入力された映像信号及び音声信号は、検索処理部 2 0 0に設けられた記録部 2 0 1に格納される。さらに、音声信号入力部 1 0 2から入力された音声信号は、音声特徴パタン抽出部 1 0 3へも入力される。音声特徴パタン抽出部 1 0 3は、音声信号を分析して音声特徴パタンを抽出する。抽出された音声特徴パタンは映像検索インデクス生成部 1 0 4へ与えられる。映像検索インデクス生成部 1 0 4は、抽出された音声特徴パタンと標準音声特徴パタン格納部 1 0 5 に格納されている標準音声パタンとを比較して、最も良く一致するサブヮ一ドの {始端時刻、終端時刻、類似度を示すスコア } の組を映像検索インデックスとして出力する。この映像検索ィンデックスは検索処理部 2 0 0にある記録部 2 0 1に格納される。

検索処理部 2 0 0は、映像信号、音声信号及び映像検索インデックスが格納された記録部 2 0 1を有する。記録部 2 0 1には映像検索インデックスによる音素類似度表が形成されている。音素類似度表については後述する。制御部 2 0 2は、記録部 2 0 1に格納されている映像信号、音声信号の読出し位置を制御している。記録部 2 0 1に格納されている映像の中から所望の映像シーンを検索するための検索キ一ヮ一ドはキ一ヮード入力部 2 0 3から入力される。入力されたキーヮードはキ一ヮード変換部 2 0 4により入力キーワードを構成しているサブワードの時系列に変換される。キーヮ一ドパタン照合部 2 0 5は、入力キーヮードのサブヮードと一致するサブヮ一ドの映像検索インデックスを記録部 2 0 1から取り出す。記録部 2 0 1から取り出された映像検索インデックスによって検索キーヮードを復元し、復元された各キーヮ一ドのスコアを計算する。制御部 2 0 2がスコアの高い復元キ一ヮ一ドの先頭サブワードの始端時刻に基づいて記録部 2 0 1から該当する映像シーンを取り出す。記録部 2 0 1から取り出される映像シーンを構成する映像信号は映像信号出力部 2 0 6から外部へ出力され、その映像信号に付随した音声信号は音声信号出力部 2 0 7から外部へ出力される。

次に、検索デ一夕生成部 1 0 0において映像検索インデックスを生成する処理の詳細について説明する。音声特徴パタン抽出部 1 0 3は、入力した音声信号を順次 1 0 m s e cの分析フレームに分割し、その各分析フレームを高速フーリエ変換して人物の発声周波数帯域の音響特性をあらわした音響特性データに変換する。さらに、発声周波数帯域の音響特性データを、音響特徵量から構成される N個（Nは任意の自然数）の成分を持つベクトルデータに変換する。このベクトルデータが音声特徴パタンとなる。音声特徴パタンに変換される音響特徴量として、入力音声の発声周波数帯域における短時間スペクトル又はスペクトルの対数値、入力音声の一定時間内での対数エネルギ一などを用いるのが望ましい。

このように、入力音声は 1 0 m s e c毎に音声特徴パタン（ベクトルデー夕）に変換され、順次変換された音声特徴パタンが映像検索インデクス生成部 1 0 4へ出力される。なお、分析フレームのフレーム長は 1 0 m s e cに限定されるものではない。

標準音声特徴パタン格納部 1 0 5に、サブワード（# V , # C V， # C j V、 C V， C j V、 V C， Q C， V Q , V V， V #、但し、 Cは子音、 Vは母音、 j は拗音、 Qは促音、 #は無音である）が標準音声パタンとして予め用意されている。予め複数の話者から収集した発声を分析して、サブワード単位で音声特徴パタンを抽出する。抽出された音声特徴パタンを統計的処理して標準音声パタンとして登録している。具体的には、個々のサブワードと、それらの標準音声パタン（抽出した音声特徴パタン）と、を対応させたテーブルが標準音声特徴パタン格納部 1 0 5に格納されている。図 3に標準音声パタンの具体例が示されている。標準音声パタンを 5 0 0個程度用意している。標準音声特徴パタン格納部 1 0 5に格納すべき標準音声パタンの個数は 5 0 0個に限定されるものではなく、計算量と要求される検索精度との関係で適宜決められるべきである。

映像検索インデクス生成部 1 0 4は、標準音声特徴パタン格納部 1 0 5から第 1番目の標準音声パタンを取り出し、第 1番目の標準音声パタンと入力音声の音声特徴パタンとの類似度を音声認識処理によって求める。音声認識処理には、 DP 照合法、 H MMなどの音声認識手法を用いる事が望ましい。第 1番目の標準音声パタンに対して最も高い類似度を示す区間をサブヮ一ド区間として検出し、検出したサブヮード区間の始端時刻と終端時刻と類似度であるスコアとを求める。このようにして求めた第 1番目の標準音声パタンの検出サブワード区間に関して台端時刻、終端時刻、スコア } の組が 1つの映像検索インデックスとして出力される。すなわち、 1つの映像検索インデックスは音素記号、始端時刻、終端時刻、スコアで構成されている。第 1番目の標準音声パタンに対する映像検索ィンデックスが求められたならば、第 2番目の標準音声パタンが標準音声特徴パタン格納部 1 0 5から取り出される。そして同一音声区間の音声特徴パタンと第 2番目の標準音声パタンとを比較し、上記同様にして第 2番目の標準音声パタンについてサブヮード区間を検出し、検出サブワード区間に関する {始端時刻、終端時刻、スコア } の組を映像検索インデックスとして出力する。以下同様に、同一音声区間の音声特徴パタンに対して、標準音声パタンを切換えながら、残りの全ての標準音声パタンとの類似度をそれぞれ検出し、全ての標準音声パタンに関して {始端時刻、終端時刻、スコア } の組からなる映像検索インデックスを生成する。

入力音声のある音声区間において全ての標準音声パタンに関して映像検索インデックスが生成されたならば、処理対象となる音声区間を隣接する次の音声区間に移して同様の処理を実行する。以下同様に、処理対象となる音声区間をシフトしていき、入力音声の全区間に亘り検索ィンデクを生成したところで処理を完了する。

次に、検索処理部 2 0 0においてキーヮードを用いて映像シーンを検索する処理の詳細について説明する。

図 4に映像検索インデックスのラテイス構造の一部が示されている。 1 0 m s e c単位で分割した入力音声の各音声区間の終端を、その音声区間に対して生成した各映像検索ィンデックスの終端とし、同一音声区間における映像検索ィンデックスを生成された順番に配置すると、入力音声の全体では映像検索インデックスがラテイス状に配列される。このような映像検索インデックスのラティス構造を音素類似度表と呼ぶこととする。音素類似度表において、各映像検索ィンデックスは始端時刻に対応した長さとそのスコアの組で表わされている。図 4には、映像検索インデックスの音素類似度表の中から「A」「K A」「S A」「T A」「N A」の 5種類のサブワードだけを代表で示している。

いま、キーワード入力部 2 0 3が検索キーワードとして「空」を受信したものとする。キーワード変換部 2 0 4は、検索キーワード「空」をサブヮ一ドの系列に変換する。「空」は「S O、 O R、 R A」に変換される。

キーワードパタン照合部 2 0 5は、音素類似度表の中から、検索キーヮ一ドを構成するサブワードだけをピックアップする。すなわち、各時刻のラテイスから、検索キーワードを構成するサブワード「S O」「O R」「R A」だけを、ピックアップする。図 5は検索キーワードのサブワード「S〇」「0 R」「R A」だけがピックアップされたラテイスを示している。

ピックアップされた複数のラテイス上のサブワード「S O」「O R」「R A」を、検索キーワードを変換したサブワードの系列順に隙間なく接続する。ある時刻のラテイスから最後のサブワード「R A」を取り出し、「R A」の始端時刻にあたるラテイスからその前のサブワード「〇R」を取り出し、さらに「O R」の始端時刻にあたるラテイスからさらに前のサブワード「S Oj を取り出し、最後のサブワード「R A」の終端を基準にして「S O」「〇R」「R A」を連結する。

このように「S〇」「〇R」「R A」を連結することにより復元されたキ一ワードについて、その復元キ一ワードのスコアを計算する。復元されたキーワードを構成するサブワード「S O」「O R」「R A」に付与されているスコァを加算する。この加算値が復元キ一ワードのスコアである。以下同様に、サブワード「R A」の終端時刻をずらした復元キーワードを全ての時刻について順次作成し、各復元キーワードについてそのスコアを計算する。図 6にサブワード「R A」の終端時刻をずらした復元キーワードが示されている。キーワードパタン照合部 ₂ 0 ₅は、音声の伸縮特性を考慮して各復元キーワード（サブワードの時系列データ）に対して DP照合法などにより圧縮 - 伸張処理を加える。そして、全ての復元キーワードのスコアを計算する。これら復元キ一ヮ一ドのスコアを制御部 2 0 2へ入力する。

制御部 2 0 2は、スコアが上位となる復元キーワードの先頭サブワードの始端時刻から対応する映像信号のタイムコードを算出し、記録部 2 0 1に蓄積された映像 ·音声信号の該当部分を再生するための制御を行う。この結果、映像信号出力部 2 0 6、音声信号出力部 2 0 7から再生された映像信号及び音声信号が出力される。

このように、検索対象の映像信号に付随した音声信号からスコアの付与されたサブヮードの時系列データを作成して映像検索ィンデックスとしてそのまま記録部 2 0 1に保存する一方、検索時にはキーワードをサブワードに変換して映像検索ィンデックスと照合するようにしたので、単語辞書又は検索キ―ヮ一ドを予め登録した格納部を排除する事ができ、未知語の問題も発生しないといった利点がある。

しかも、予め登録した検索キーワードとの照合を行わないことから、ユーザが不確かなキーヮードを入力した場合であっても最も確からしい映像シーンを検索することができるといった優れた効果を奏することができる。

(第 2の実施の形態）

本発明の第 2の実施の形態にかかるシーン検索システムは、検索デ一夕生成装置で生成した映像検索ィンデックスを、伝送媒体を介して検索装置へ伝送するようにしている。

図 7に第 2の実施の形態にかかるシーン検索システムの構成が示されている。上述した第 1の実施の形態と同一機能を有する部分には同一符号が使われている。このシーン検索システムは、映像信号に付属した音声信号から生成された映像検索ィンデックスをデ一タストリームに多重化する検索デ一夕生成装置 1 2 0と、検索キ一ワードのサブワードと映像検索インデックスとを照合して所望の映像シーンを検索する検索装置 2 2 0と、検索データ生成装置 1 2 0で映像検索インデックスの多重化されたデ一夕ストリームを、検索装置 2 2 0へ伝送するための伝送媒体 2 3 0とから構成されている。伝送媒体 2 3 0には、放送網、通信網、記録メディア等が含まれる。放送網には地上波放送網又はケーブル放送網があり、通信網にはィン夕ーネットがある。音声シーンの検索であればラジオ放送網も含まれる。

検索データ生成装置 1 2 0は、映像信号入力部 1 0 1、音声信号入力部 1 0 2、音声特徴パタン抽出部 1 0 3、映像検索インデクス生成部 1 0 4、標準音声パタン格納部 1 0 5を備えている。さらに、検索データ生成装置 1 2 0は、映像検索インデクス生成部 1 0 4で生成した映像検索インデックスと映像信号と音声信号とを多重化する多重化部 1 2 1を有する。多重化部 1 2 1は、映像検索インデックスと映像信号と音声信号とを、 M P E Gストリ一ム上に多重化することが望ましいが、それ以外のデータストリーム上に多重化する事も可能である。

検索装置 2 20は、記録部 20 1、制御部 202、キーワード入力部 20 3、キーワード変換部 204、キーワードパタン照合部 20 5、映像信号出力部 206、音声信号出力部 20 7を備えている。さらに、検索装置 220 は、映像検索インデックスと映像信号と音声信号とが多重化されたデータストリームから、映像検索インデックス、映像信号及び音声信号をそれぞれ分離する多重分離部 22 1を有する。

検索データ生成装置 1 20に設けられた映像検索インデクス生成部 1 04 において、上述した第 1の実施の形態と同様にして入力音声から映像検索ィンデックスが作成される。作成された映像検索インデックスは多重化部 1 2 1へ出力される。なお、映像信号入力部 1 0 1で受信された映像信号及び音声信号入力部 1 02で受信された音声信号が多重化部 1 2 1へ出力されている。

多重化部 1 2 1は、映像信号、音声信号、映像検索インデックスを、それぞれ複数の映像ストリーム（映像ストリーム（ 1) 〜映像ストリーム（n)) と、音声ストリーム（音声ストリーム（ 1) 〜音声ストリーム（n)) と、ユーザデータを格納するためのプライべ—トス卜リーム（このストリームを映像検索ィンデックスの伝送に使うので、検索デ一タストリームと呼ぶ：検索デ一夕ストリーム（1) 〜検索デ一夕ストリーム（n)) に変換する。図 8 (1) に、映像信号、音声信号及び映像検索インデックスが多重化された MPEGストリームのフレーム構成が示されている。 MPEGストリームの先頭にはストリームを識別するためのストリームヘッダ 1 0 1が付加される。図 8 (2) に映像ストリームの構成が示されている。映像ストリームは、複数の GO P (Group of Pictures： GOP ( 1) 〜GOP (n)) で構成されている。図 8 (3) に GOPの構成が示されている。 GOPは、フレーム内で符号化される I ピクチャ（ I ( 1))、 I ピクチャ又は Pピクチャを参照して動き補償予測により符号化される Pピクチャ（P (2)〜P (m))、時間的に前後に位置する I ピクチャ、 Pピクチャを参照して双方からの動き補償予測により符号化される Bピクチャ（B (— 1) 〜B (m- 1 )) の一連のグループにより構成される。図 8 (4) に検索データストリームの構成を示されている。 GOPを構成している一連の映像フレームに対応して、映像検索インデックス（映像検索インデックス（1) 〜映像検索インデックス (n)) をュニット化する。

多重化部 1 2 1によって多重化された MP EGス卜リームは、伝送媒体 2 30を介して検索装置 2 20へ伝送され、記録部 20 1に記録される。検索装置 220では、多重分離部 22 1が多重化された MP EGストリームから検索インデクスを分離してキーワードパタン照合部 20 5へ与える。映像検索ィンデックスと検索キーワードとを照合し、第 1の実施の形態と同様にして復元キーワードを作成する。制御部 202が、スコアの高い復元キーヮードの始端時刻から対応する GOPにアクセスして映像シーンを取り出す。なお、 MPEGストリームから映像検索インデックスを分離する時に一緒に映像信号及び音声信号も分離して、記録部 20 1に記録するようにしても良い。このように、入力音声のサブヮ一ドの単位で構成された映像検索ィンデックスを、映像信号及び音声信号とともにデータストリームに多重化したので、放送網や通信網を利用してユーザに映像と一緒に映像検索ィンデックスを渡す事ができる。

また、 MPEG の映像再生単位は GOP なので、検索インデックスのュニット単位を一致させておくと、検索処理時には入力したキーワードに該当する検索インデックスと対応する GOP にアクセスすることにより、容易に所望の映像シーンを再生開始することが可能になる。

(第 3の実施の形態）

第 3の実施の形態は、ユーザ端末から検索キーワードを入力したら、そのユーザ端末に通信網を介して接続されたサーバシステムから該当するシーンが提供されるようにしたシーン検索システムである。

図 9に、第 3の実施の形態にかかるシーン検索システムのシステム構成が示されている。図 9において、上述した第 1の実施の形態及び第 2の実施の形態のシーン検索システムと同一機能を有する部分には同一符号を使用している。サーバシステムは、検索データ生成部 1 0 0と、検索処理部 2 3 0とで構成されている、ユーザが希望する映像シ一ンを検索してユーザ端末へ送信する。

検索データ生成部 1 0 0は、映像信号入力部 1 0 1、音声信号入力部 1 0 2、音声特徴パタン抽出部 1 0 3及び映像検索インデクス生成部 1 0 4で構成されている。

検索処理部 2 3 0は、記録部 2 0 1、制御部 2 0 2、キーワードパタン照合部 2 0 5を備える。さらに、検索処理部 2 3 0は、ユーザ端末 3 0 0から伝送媒体 2 3 0を経由して送られてくる検索キーワードのデータを受信するキーヮ一ド受信部 2 3 1と、検索されたシーンの映像信号と音声信号とをデ一タストリーム上に多重化して伝送媒体 2 3 0を経由してユーザ端末 3 0 0 へ送信する多重化部 2 3 2とを有する。

ユーザ端末 3 0 0は、キーワード入力部 2 0 3、キーワード変換部 2 0 4、検索されたシーンの映像信号を出力する音声信号出力部 2 0 7、検索されたシーンの音声信号を出力する音声信号出力部 2 0 6を備える。さらに、ユーザ端末 3 0 0は、キーワード変換部 2 0 4によって変換された検索キーヮードのサブワードを伝送媒体 2 3 0を介して検索処理部 2 3 0へ送信するキーワード送信部 3 0 1と、検索処理部 2 3 0から伝送媒体 2 3 0を介して受信したデータストリームから映像信号及び音声信号を分離する多重分離部 3 0 2とを有する。

以上のように構成されたシーン検索システムでは、ユーザ端末 3 0 0において検索キーワードが入力される。ユーザ端末 3 0 0では、入力されたキーヮードがキ一ヮ一ド変換部 2 0 4により入力キーヮ一ドのサブヮ一ドに変換される。そして入力キーヮ一ドのサブヮ一ドがキーヮード送信部 3 0 1から伝送媒体 2 3 0を介してへ送信される。本実施の形態における伝送媒体 2 3 0はイン夕一ネットなどの通信網が望ましい。

検索処理部 2 3 0の記録部 2 0 1には、上述した第 1の実施の形態と同様にして映像信号、音声信号及びラテイス構造の映像検索インデックスが記録されている。キーワード受信部 2 3 1が受信したキーワードデータはキ一ヮ —ドパタン照合部 2 0 5へ渡される。キ一ワードパタン照合部 2 0 5は、上述したように映像検索ィンデックスのラティス構造からキ一ヮ一ドのサブヮ ―ドと一致する音素記号を持つ映像検索ィンデックスをピックアップして、各時刻における復元キーワードを作成する。そして制御部 2 0 2がスコアの高い復元キーヮードの始端時刻に基づいて該当する映像信号及び音声信号を取り出す。このようにして検索されたシーンの映像信号及び音声信号は多重化部 2 3 2でデ一タストリームの多重化された後、伝送媒体 2 3 0を経由してユーザ端末 3 0 0へ送られる。

ユーザ端末 3 0 0では、多重分離部 3 0 2が検索キーワードに対して送られてきたデータストリームから映像信号及び音声信号を分離する。分離された映像信号及び音声信号は映像信号出力部 2 0 6及び音声信号出力部 2 0 7 からそれぞれ再生される。

このように、ユーザ端末 3 0 0とサーバシステム（検索デ一夕生成部 1 0 0及び検索処理部 2 3 0 ) とを通信網 2 3 0を介して接続する事により、映像検索ィンデックスを生成する機能及び検索する機能を持たないユーザ端末 3 0 0から所望のシーンを検索することができる。

なお、上記した第 3の実施の形態では、ユーザ端末 3 0 0にキーワード変換部 2 0 4を備えているが、キーワード変換部 2 0 4を検索処理部 2 3 0に配置するように構成しても良い。この構成によれば、既存のユーザ端末に新たなソフトウエアのィンストールすることなく、上述検索を行う事ができる。

(第 4の実施の形態）第 4の実施の形態は、本発明のシ一ン検索システムをビデオ録画装置に適用した例である。本実施の形態にかかるビデオ録画装置は、ビデオ録画時に得られる音声信号から人物の発声音を検出して、発声音から得られる音響特性データを発声特徴パタンデータとして抽出する。さらに、発声特徴パタンデータを時刻情報を添付したインデックス構造に成形したのち、映像信号及び音声信号と共に記録媒体へ記録する。

図 1 0に本実施の形態にかかるビデオ録画装置の構成が示されている。外部から入力されるビデオ録画指示制御信号等は制御信号入力部 1で受信される。ビデオ録画制御部 2は、受信された制御信号の種別に応じて装置を構成する各プロックへ録画開始指示信号や停止指示信号を発行する。

一方、ビデオ録画開始とともに入力されるアナ口グ音声信号は音声信号入力部 3でデジタル音声信号に変換され、さらにデジタル音声信号が音声信号エンコード部 4で M P E G等の圧縮処理を施される。また、ビデオ録画開始とともに入力されるアナ口グ映像信号は映像信号入力部 5でデジタル映像信号に変換され、さらにデジタル映像信号が映像信号エンコード部 6で M P E G等の圧縮処理を施される。

音声信号入力部 3からデジタル音声信号が発声特徴パターン抽出部 1 0へ分配入力される。発声特徴パターン抽出部 1 0は、入力したデジタル音声信号から人物の発声音の音響特性デ一夕を検出して発声特徴パターンデ一夕を取得する。映像検索インデックス生成部 1 1は、発声特徴パターン抽出部 1 0から供給される発声特徴パターンデータを映像信号と同期した時間周期でバケツト化し、時刻情報を添付した映像検索用インデックス構造に成形する。圧縮された映像信号及び音声信号と映像検索ィンデックスは、ビデオ録画制御部 2から指示を受けた複合データ記録処理部 7によって重畳されて D V D等の記録フォーマットで映像記録媒体 9に記録される。映像記録媒体 9は光ディスクまたは H D D (磁気ディスク）またはメモリカードまたは磁気テープ等で構成される。複合データ記録処理部 7からの制御指示により映像記録媒体 9の記録位置のシーク等の物理的な制御を記録媒体動作制御部 8が行う。以上のように構成されたビデオ録画装置はマイクロコンピュー夕組み込み機器または専用 L S I回路群等で構成することができる。このビデオ録画装置では、発声特徴パタン抽出手段は発声特徴パタン抽出部 1 0から構成され、インデックス情報記録手段は映像検索インデックス生成部 1 1と複合デ一夕記録処理部 7から構成される。

次にこの装置の動作について説明する。

制御信号入力部 1は、外部のリモートコントロール装置またはキーポード等の入力装置からビデオ録画指示の制御信号を受け付けると、装置に適合した信号形式に変換した後にビデオ録画制御部 2にビデオ録画指示信号を発行する。ビデオ録画指示信号を受けたビデオ録画制御部 2は、装置を構成する各部にビデオ録画開始の指示を行い装置状態をビデオ録画状態に遷移させる。ビデオ録画開始の指示を受けた音声信号入力部 3は、外部のテレビジョン信号チューナー装置またはマイクロフォンまたは V T R装置等から入力される音声信号に対して AZ D変換処理を施し量子化を行った後、音声信号ェンコード部 4及び発声特徴パタン抽出部 1 0へ逐次音声信号を供給する。音声信号ェンコ一ド部 4に供給された音声信号は M P E G等の音声信号帯域圧縮処理が施され、複合デー夕記録処理部 7へと逐次転送される。

音声信号入力部 3から音声信号の分配供給を受けた発声特徴パタン抽出部 1 0では、一定時間単位の音声信号信号に対して F F T (高速フーリエ変換）処理を行い、人物の発声周波数帯域の音響特性データを抽出し、さらに抽出した周波数帯域内での短時間スぺクトルデ一夕またはスぺクトルの対数値や、一定時間単位内の音声信号の対数エネルギー値等の、音声認識処理で一般的に用いられる音響特徴量から構成される N個（Nは任意の自然数）の成分を持つべクトルデータである発声特徴パタンデータを生成する。

発声特徴パタン抽出部 1 0で抽出生成された発声特徴パタンデ一夕は逐次映像検索インデクス生成部 1 1に出力される。映像検索インデクス生成部 1 1は、逐次入力されてくる個々の発声特徴パタンデ一夕を、その時系列を保持したまま映像信号及び音声信号間で同期可能な時間単位分にまとめてパケット化し、バケツト毎に発声特徴パタンデータである事を示す識別と時刻情報を付与する。これにより、発声特徴パタンデータの位置から時刻情報を参照して映像信号または音声信号にアクセス可能なィンデクス構造が生成される。生成したインデクス構造バケツトを複合データ記録処理部 7に逐次転送する。

一方、同じくビデオ録画開始の指示を受けた映像信号入力部 5は、外部のテレビジョン信号チューナー装置またはカメラまたは V T R装置等から入力される映像信号に対して AZ D変換処理を施し量子化を行い所定のデジタル映像信号信号として、映像信号エンコード部 6に供給する。映像信号ェンコ一ド部 6に供給されたデジタル映像信号信号は M P E G等の映像信号帯域圧縮処理が施され、複合データ記録処理部 7へと逐次転送される。

ビデオ録画開始の指示を受けた複合データ記録処理部 7は、データの記録開始に先立ち、記録媒体動作制御部 8に制御信号を発行して、記録媒体 9へのデータ記録開始位置の保持を行う。各々信号帯域圧縮処理を施された映像信号ならびに音声信号及び映像検索用インデクス生成部 1 1にて生成されたインデクス構造バケツトを受け取った複合データ記録処理部 7は、 M P E G 等の所定のフォーマツ卜で映像信号と音声信号及びインデクス構造バケツトを多重化し、記録媒体動作制御部 8への制御信号を発行して映像記録媒体 9 の所定の位置に多重化したデ一夕を D V D等の記録フォーマットにしたがつて記録する。

こうした一連の動作は、ビデオ録画開始からビデオ録画時間終了または外部からの映像信号入力の終了または外部からの制御信号によるビデオ録画停止指示、及び装置内各部からのエラー通知をビデオ録画制御部 2が検出するまで繰り返される。ビデオ録画制御部 2はこれらを検出した際は装置を構成する各部にビデオ録画停止指示を行い、装置を初期状態に遷移させる事で動作を終了する。

ここで、上記インデクス構造バケツトは発声特徴パタンデータの時系列で構成されていたが、映像検索インデックス生成部 1 1が発声特徴パタンデー夕の時系列に対して音素認識処理を施す事により、ィンデックス構造バケツトをサブヮード毎の時系列パタン照合結果である音素類似度表の時系列にする事ができる。

すなわち、映像検索インデックス生成部 1 1が、発声特徴パタン抽出部 1 0より逐次入力される発声特徴パタンデータの時系列に対して、映像検索ィンデックス生成部 1 1に予め登録内蔵されてある各サブワードごとの標準パタンとの類似度を算出し音素類似度表を作成する。

この際、各サブヮードごとの標準音声パタンは発声特徴パタンデータと同様に短時間スぺクトルデータ等の音素時系列である。そして入力されてくる発声特徴パタンデータに関しても照合区間を一定の時間長に固定しておき、標準音声パタンの音素時系列と発声特徴パタンデータの音素時系列とを D P (ダイナミックプログラミング）照合法等を用いた時系列パタン照合を行な Ό。

時系列パ夕ン照合では、すべてのサブヮードごとに標準音声パタンに最も類似した発声特徴パタンデータの時系列内での照合区間を求め、照合結果を音素類似度表としてまとめる。尚、音素類似度表は各サブワードの識別（音素記号）とそのサブワードに最も類似した照合区間である発声区間（始端時刻、終端時刻）と類似度とから列を構成する。音素類似度表は標準音声パ夕ンで保持するサブヮード個数分の行で構成する。

作成された音素類似度表から、類似度の高い順に上位 M個（Mは任意の自然数）までを抜き出して前記類似度表を再構成し、時系列を保持したまま映像信号及び音声信号間で同期可能な時間単位分にまとめてバケツト化し、パケット毎に音素類似度表データである事を示す識別と時刻情報を付与する事で音素類似度表データの位置から時刻情報を参照して映像信号または音声信号にアクセス可能なィンデクス構造バケツトを生成し、複合デ一夕記録処理部 7に逐次転送する。

このようにして作成された音素類似度表データ時系列で構成されたィンデクス構造バケツトは、複合データ記録処理部 7を経由して映像検索用インデクスとして、映像記録媒体 9へ所定の記録フォーマットで記録される。

このように、ビデオ録画時に音声信号から音素類似度表の時系列で構成された検索用ィンデクスを生成し、複合データ記録処理部 7によりインデクスと映像信号と音声信号とを多重化して映像記録媒体 9へ蓄積するようにしたので、後から映像検索ィンデックスを用いて用意に希望の映像信号及び音声信号にアクセスできる。本実施の形態で作成される検索用インデクスは上述した第 1の実施の形態における映像検索ィンデックスと同じ構造であるので、第 1の実施の形態と同様のキ一ヮ一ド検索も可能である。

(第 5の実施の形態）

第 5の実施の形態にかかるビデオ録画装置は、映像信号から人物発声時の視覚特徴パタンデータを抽出し、視覚特徴パタンデータを映像検索用インデックスとして記録する。

図 1 1に本実施の形態にかかるビデオ録画装置の構成が示されている。外部から入力されるビデオ録画指示制御信号等は制御信号入力部 1で受信される。ビデオ録画制御部 2は、受信された制御信号の種別に応じて装置を構成する各プロックへ録画開始指示信号や停止指示信号を発行する。

音声信号入力部 3からデジタル音声信号が発声特徴パターン抽出部 1 0へ分配入力される。発声特徴パターン抽出部 1 0は、入力した音声信号から人物の発声音の音響特性データを検出して発声特徴パ夕一ンデ一夕を取得する。また、映像信号入力部 5からデジタル映像信号が視覚特徴パタン抽出部 1 2 へ分配入力される。視覚特徴パタン抽出部 1 2は、入力した映像信号から人物の口唇領域画像を検出し視覚特徴パタンデータを抽出する。映像検索インデックス生成部 1 1は、発声特徴パタン抽出部 1 0から供給される発声特徴パタンデ一夕と視覚特徴パタン抽出部 1 2から供給される視覚特徴パ夕ンデ一夕を各々映像信号と同期した時間周期でバケツト化し、時刻情報ならびにパタンデータ種別を添付した映像検索用ィンデックス構造に成形する。

圧縮された映像信号及び音声信号と映像検索インデックスは、ビデオ録画制御部 2から指示を受けた複合データ記録処理部 7によって重畳されて D V D等の記録フォーマツ卜で映像記録媒体 9に記録される。映像記録媒体 9は光ディスクまたは H D D (磁気ディスク）またはメモリカードまたは磁気テ一プ等で構成される。複合デー夕記録処理部 7からの制御指示により映像記録媒体 9の記録位置のシーク等の物理的な制御を記録媒体動作制御部 8が行う。以上のように構成されたビデオ録画装置はマイクロコンピュータ組み込み機器または専用 L S I回路群等で構成することができる。

次に、この装置の動作について説明する。

制御信号入力部 1は、外部のリモートコン卜ロール装置またはキーポード等の入力装置からビデオ録画指示の制御信号を受け付けると、装置内部の信号形式に変換した後にビデオ録画制御部 2にビデオ録画指示信号を発行する。ビデオ録画指示信号を受けたビデオ録画制御部 2は、装置を構成する各部にビデオ録画開始の指示を行い装置状態をビデオ録画状態に遷移させる。

ビデオ録画開始の指示を受けた音声信号入力部 3は、外部のテレビジョン信号チューナー装置またはマイクロフォンまたは V T R装置等から入力される音声信号に対して AZ D変換処理を施し量子化を行った後、音声信号ェンコード部 4及び発声特徴パタン抽出部 1 0へ逐次音声信号信号の供給をおこなう。音声信号ェンコ一ド部 4に供給された音声信号信号は M P E G等の音声信号帯域圧縮処理が施され、複合データ記録処理部 7へと逐次転送される。音声信号入力部 3から音声信号信号の分配供給を受けた発声特徴パタン抽出部 1 0では、一定時間単位の音声信号信号に対して F F T (高速フーリエ変換）処理を行い、人物の発声周波数帯域の音響特性データを抽出し、さらに抽出した周波数帯域内での短時間スぺクトルデ一夕またはスぺクトルの対数値や、一定時間単位内の音声信号の対数エネルギー値等の音声認識処理で一般的に用いられる音響特徴量から構成される N個（Nは任意の自然数）の成分を持つべクトルデータであり、本発明ではこれを発声特徴パタンデ一夕として用いる。

発声特徴パタン抽出部 1 0で抽出された発声特徴パタンデータは逐次映像検索インデクス生成部 1 1に出力される。映像検索インデクス生成部 1 1は、逐次入力されてくる個々の発声特徴パタンデータを、その時系列を保持したまま映像信号及び音声信号間で同期可能な時間単位分にまとめてバケツト化し、パケット毎に時刻情報を付与する。これにより、発声特徴パタンデ一夕の位置から時刻情報を参照して映像信号または音声信号にアクセス可能なィンデクス構造を生成し、生成したインデクス構造バケツ卜を複合デ一夕記録処理部 7に逐次転送する。

一方、同じくビデオ録画開始の指示を受けた映像信号入力部は、外部のテレビジョン信号チューナー装置またはカメラまたは V T R装置等から入力される映像信号に対して A ZD変換処理を施し量子化を行い所定のデジタル映像信号信号として、映像信号エンコード部 6及び視覚特徴パタン抽出部 1 2 に供給する。映像信号ェンコ一ド部 6に供給されたデジタル映像信号信号は M P E G等の映像信号帯域圧縮処理が施され、複合データ記録処理部 7へと逐次転送される。

映像信号入力部 5から映像信号信号の分配供給を受けた視覚特徴パタン抽出部 1 2では、入力される映像信号信号の画像フレーム毎に予め視覚特徵パタン抽出部 1 2に登録 ·内蔵してある人物の口唇周辺画像から取り出した口唇特徴標準パタンを用いて、人物の口唇周辺部の検出及び口唇周辺画像の抽出処理を行う。口唇領域の検出と口唇領域画像の抽出には、画像特徴パタンデ一夕として口唇領域での色空間上の色分布ヒストグラムや、画像空間上の色分布として口唇領域画像を n X m個（n、 mは任意の自然数で nは X軸上の分割数を mは Y軸上の分割数）の画像プロックに分割した各々のプロック内の色平均情報または輝度平均情報等の色情報を用い、入力される画像フレ —ム内の口唇領域の大きさがまちまちである事を考慮して口唇領域画像サイズを変数化して口唇領域の検出および口唇領域画像の抽出を行う。

視覚特徴パタン抽出部 1 2は、入力された画像フレームから口唇領域を検出及び抽出できた場合、抽出した口唇領域画像からさらに人物発声時の視覚特徴パタンデ一夕の抽出を行う。

視覚特徴パタンデータは口唇の形状を代表する情報を用いる。例えば前記口唇領域画像抽出時に用いた口唇領域画像空間を任意の個数に分割した画像ブロックのおのおのの色平均情報または輝度平均情報から構成される分割した画像ブロック数分成分からなるべクトルデータや、または視覚特徴抽出した口唇領域画像データに対してさらに色フィル夕一等を用いて口唇部分のみを抽出し、口唇部分の面積重心点から垂直方向の唇外接点 2点（上下）と水平方向外接点 2点（左右）にっきそれぞれ前記重心点からの相対距離を算出した 4個の数値成分からなるべクトルデ一夕等である。

発声特徴パタン抽出部 1 0で抽出された発声特徴パ夕ンデ一夕と視覚特徴パタン抽出部 1 2で抽出された視覚特徴パタンデータは、逐次映像検索インデクス生成部 1 1に出力される。映像検索インデクス部 1 1は、各々逐次入力されてくる個々の発声特徴パタンデ一夕と視覚特徴パタンデ一夕を時系列を保持したまま映像信号及び音声信号間で同期可能な時間単位分にまとめて特徴パタンデータの種別ごとにバケツト化し、バケツト毎に特徴パタンデー夕の種別を表わす識別と時刻情報を付与する事で、発声特徴パタンデータ及び視覚特徴パタンデータの位置から時刻情報を参照して映像信号または音声信号にアクセス可能なィンデクス構造バケツトを生成し複合データ記録処理部 7に逐次転送する。

ビデオ録画開始の指示を受けた複合データ記録処理部 7は、データの記録開始に先立ち、記録媒体動作制御部 8に制御信号を発行して、記録媒体 9へのデータ記録開始位置の保持を行う。各々信号帯域圧縮処理を施された映像信号ならびに音声信号、及び映像検索用インデクス生成部 1 1にて生成されたィンデクス構造バケツトデ一夕を受け取つた複合デ一夕記録処理部 7は、 M P E G等の所定のフォーマツトで映像信号と音声信号及びィンデクス構造パケットデータを多重化処理し、記録媒体動作制御部 8への制御信号を発行して映像記録媒体 9の所定の位置に多重化したデータを D V D等の記録フォ —マツ卜にしたがって記録する。

こうした一連の動作は、ビデオ録画開始からビデオ録画時間終了または外部からの映像信号入力の終了または外部からの制御信号によるビデオ録画停止指示、及び装置内各部からのエラー通知をビデオ録画制御部 2が検出するまで繰り返され、ビデオ録画制御部 2はこれらを検出した際は装置を構成する各部にビデオ録画停止指示を行い、装置を初期状態に遷移させる事で動作を終了する。

このように、映像信号から人物発声時の視覚特徴パタンを抽出し、発生特徵パタンデータとともに映像検索用ィンデックスを作成したので、 B G M (バックグラウンドミュージック）や環境ノィズなどにより音声認識精度が低下する場合に、認識精度を補完することができる。

(第 6の実施の形態）

第 6の実施の形態にかかるビデオ再生装置は、第 4、第 5の実施の形態に記述した方式で記録された映像検索用インデクスを用いて、キーワードによる映像検索ならびに早見を行う。

図 1 2に第 6の実施の形態にかかるビデオ再生装置の構成が示されている。外部から入力されるビデオ再生指示制御信号等は制御信号入力部 1で受信される。ビデオ再生制御部 1 3は、受信された制御信号の種別に応じて装置を構成する各ブロックに対して録画開始指示信号や停止指示信号を発行する。映像記録媒体 9に、上述した第 4、第 5の実施の形態に記述した方式で生成された映像検索用ィンデクスを含む映像信号及び音声信号が D V D等の所定の記録フォーマツ卜で記録されている。映像記録媒体 9として光ディスクまたは H D D (磁気ディスク）またはメモリカードまたは磁気テープ等を用いる事ができる。複合データ読出処理部 7は、ビデオ再生制御部 1 3からの指示により映像記録媒体 9での記録フォーマットに従いビデオ再生位置を示す時刻位置から映像信号と音声信号を読み出し、さらに映映像検索インデックスを読み出す。このとき、記録媒体動作制御部 8は複合デ一夕読出処理部 7 からの制御指示により読み出しデータが記録された位置へのシーク等の物理的な制御を行う。

音声信号デコード部 1 5は複合データ読出処理部 1 4から供給される M P E G等の信号帯域圧縮処理が施された音声信号の信号帯域を伸張し、音声信号出力部 1 6は信号帯域伸張処理を施された音声信号を D ZA変換して外部へ出力する。また、映像信号デコード部 1 7は複合データ読出処理部 1 4から供給される M P E G等の信号帯域圧縮処理が施された映像信号の信号帯域を伸張し、映像信号出力部 1 8は信号帯域伸張処理を施された映像信号を D ZA変換して外部へ出力する。

映像検索インデクス形成部 2 1は、複合データ読出処理部 1 4から供給される映像検索用インデクスデータから映像検索用ィンデクス表の形成を行う。形成されたィンデクス表は記憶回路 2 3に一時蓄積される。

一方、外部から入力されたキーワードはキーワード入力部 1 9で受け付けられる。キーワードパタン変換部 2 0は入力されたキーワードを音素符号列に変換し、さらにパタン照合で使用するパタンデータに変換する。キーヮードパタン照合部 2 2は、キーワードの特徴パタンデータの時系列を、記憶回路 2 3から読み出した映像検索用ィンデクス表内の特徴パタンデ一夕の時系列とパタン照合する。以上のように構成されたビデオ再生装置はマイクロコンピュー夕組み込み機器または専用 L S I回路群等で構成される。

次に、この装置の動作について説明する。

制御信号入力部 1は、外部のリモートコントロール装置またはキーボード等の入力装置からビデオ再生指示の制御信号を受け付けると、装置内部の信号形式に変換した後にビデオ再生制御部 1 3にビデオ録画指示信号を発行する。ビデオ録画指示信号を受けたビデオ再生制御部 1 3は、複合データ読出処理部 1 4に対して例えばビデオ信号の先頭を示す時刻情報とともにビデオ録画開始の指示を行う。

ビデオ再生開始の指示を受けた複合データ読出処理部 1 4は、映像記録媒体 9に D V D等の所定の記録フォーマツトで記録されている予め M P E G等の信号帯域圧縮処理を施されている映像信号と音声信号の読み出し位置を指示された時刻情報により決定して、記録媒体動作制御部 8に映像信号と音声信号の読み出し位置へのシーク等の制御信号を発行し、映像記録媒体 9から映像信号と音声信号とを時間同期を保ちながら読み出す。

複合データ読出処理部 1 4により読み出された映像信号は、映像信号デコ —ド部 1 7に供給され M P E G等の信号帯域伸張処理を施され後、映像信号出力部 1 8に供給され D ZA変換処理により N T S Cアナログ信号等に変換されて、外部のテレビジョンモニタ一装置等へ出力される。

同じく複合データ読出処理部 1 4により読み出された音声信号は、音声信号デコード部 1 5に供給され M P E G等の信号帯域伸張処理を施され後、音声信号出力部 1 6に供給され D ZA変換処理によりアナログ音声信号に変換されて、外部のスピーカ装置等へ出力される。

制御信号入力部 1が、外部のリモートコントロール装置またはキーボード等の入力装置からビデオ検索指示の制御信号を受け付けると、装置内部の信号形式に変換した後にビデオ再生制御部 1 3にビデオ検索指示を発行する。ビデオ検索指示を受けたビデオ再生制御部 1 3は、キーワード入力部 1 9 にキ—ヮ—ド入力を促す制御信号を発行する。

キーワード入力部 1 9は、外部のキーボード等の入力装置からキーワードが入力されたら、ビデオ再生制御部 1 3へキーワード入力完了の通知を行ない、入力されたキーワード情報をキーヮ'ードパタン変換部 2 0へ転送する。キーワード入力完了通知を受けたビデオ再生制御部 1 3は、ビデオ信号内のキーヮード検出位置を示す時刻情報を管理用にビデオ再生制御部 1 3内部に持つキーヮード検出位置管理表を初期化した後、複合データ読出処理部 1 4へ映像検索用ィンデクスデータ読み出し指示を発行し、キ一ヮ一ドパタン照合部 2 2へパタン照合開始の指示を発行する。この際、映像記録媒体 9がメモリ一力一ドゃ H D Dまたは光ディスク等の高いアクセス性が保証される記録媒体を用いている場合は通常のビデオ再生は継続して行われており、映像記録媒体 9が磁気テープ等の高いアクセス性が得られない記録媒体を用いている場合は一旦通常のビデオ再生は停止される。

キーワード情報を受け取ったキーワードパタン変換部 2 0は、キーヮ一ドを音素符号列に変換し、さらに予め内部に登録してある各サブヮ一ドの発声特徴パタンデータ時系列からなる標準音声パタンを参照してキーワードの音素符号列をキーヮ一ド構成サブヮード分の発声特徴パタンデータ時系列に変換し、キ一ワードパタン照合部 2 2へ転送する。

ここで、標準音声パタン及び発声特徴パタンデ一夕時系列として用いるデ —夕は、上記第 4、第 5の実施の形態で用いた発声特徴パタンデータと同様に人物の発声周波数帯域内での短時間スぺクトルデータまたはスぺクトルの対数値や、一定時間単位内の音声信号の対数エネルギー値等の音声認識処理で一般的に用いられる音響特徴量から構成される N個（Nは任意の自然数）の成分を持つベクトルデータの時系列である。

一方、ビデオ再生制御部 1 3からの映像検索用インデクスデ一夕読み出し指示を受け付けた複合データ読出処理部 1 4は、記録媒体動作制御部 8に映像検索用ィンデクスデ一夕の読み出し位置のシーク及び高速読み出し等の制御信号を発行し、映像記録媒体 9に所定の記録フォーマツトで記録されている映像検索用インデクスデ一夕を高速に読み出し、読み出された映像検索用インデクスデ一夕は逐次映像検索インデクス形成部 2 1へ転送される。

映像検索用インデクスデータは、第 4 , 第 5の実施の形態で記述した方式で一定時間単位でバケツト化されており、バケツト毎にインデクスデータの種別と映像信号及び音声信号に同期した時刻情報が添付された発声特徴パ夕ンデ一夕または視覚特徴パタンデータまたは各サブヮ一ドごとの時系列パ夕ン照合結果である音素類似度表からなる時系列データである。

映像検索インデクス形成部 2 1では、複合データ読出処理部 1 4から転送された映像検索用ィンデクスデ一夕を前記バケツト単位に再形成して形成されたィンデクス構造バケツトを、ィンデクスデータ種別ごとに時系列を保つてキーヮードの照合対象となるに十分な時間長分の F I F O (ファストィン · ファストァゥト）メモリ構造または循環メモリ構造を持つ記憶回路 2 3 に書き込む。その後キーワードパタン照合部 2 2によって一時記憶回路 2 3 からのィンデクス構造バケツトが読み捨てらてると、その都度映像検索ィンデクス形成部 2 1は記憶回路 2 3上の空き記憶領域に新たに転送されて形成されるインデクス構造パケットの補充書き込みを行う。尚、映像検索インデクス形成部 2 1はィンデクスデ一夕の最終部分を検出したらキーヮードパ夕ン照合部 2 2へのインデクス読み出し終了通知を行う。

一方、ビデオ再生制御部 1 3からパタン照合開始指示をうけたキーワードパタン照合部 2 2は、内部の処理及び記憶回路 2 3を初期化した後、キーヮ一ドパ夕ン変換部 2 0より転送されてくるキーヮードの発声特徴パタンデ一夕時系列を受け取って、映像検索インデクス形成部 2 1によりパタン照合に十分な時間区間長をもって記憶回路 2 3内に時刻順に並べられたインデクス構造バケツト内の発声特徴パタンデータ時系列と、受け取ったキーヮ一ドの発声特徴パタンデ一夕の時系列とのパタン照合を行う。このパタン照合では、記憶回路 2 3に時刻順に並べられたインデクス構造バケツト内の発声特徴パタンデータ時系列内での一定の時刻区間内で、 D P 照合法等を用いて照合区間を伸縮しながら、キーワードの発声特徴パタンデ —夕の時系列として形成した場合の各発声特徴パタンデ一夕間の類似度の和によって一定の類似性が得られた照合区間をキーヮードの検出区間とする事となる。

パタン照合の際は、 D P照合法等の時系列パタン照合を用いて、記憶回路 2 3内の照合を終えたインデクス構造バケツトを逐次読み捨て更新しながら照合を繰り返し、照合を繰り返す過程で一定の類似性を得られた場合は、発声特徴パ夕ンデ一夕時系列の最初の発声特徴パタンデータが存在するインデクス構造バケツ卜に添付された時刻情報を、キーワード検出位置としてその都度ビデオ再生制御部 1 3へ通知する。尚、キーワードパタン照合部 2 2は、映像検索ィンデクス形成部 2 1からィンデクス読み出し終了が通知された場合は、記憶回路 2 3内の残りのインデクス構造バケツ卜の発声特徴パタンデ —夕の照合処理を終えてから、ビデオ再生制御部 1 3へキーワード照合の終了を通知する。

ビデオ再生制御部 1 3は、キーヮ一ドパタン照合部 2 2より 1回目のキーヮード検出位置を示す時刻情報を受け取ると一旦内部のキーヮ一ド検出位置管理表の先頭に受け取った時刻情報を記録して、受け取った時刻情報からのビデオ再生指示を複合データ読出処理部 1 4に発行し、その後この装置は通常のビデオ再生と同様の処理を経て、キーヮードを検出した時刻情報位置からの映像信号及び音声信号を装置外部に出力する。

ビデオ再生制御部 1 3は、キーワードパタン照合部 2 2より 2回目以降のキーヮード検出位置を示す時刻情報を受け取ると、前記キーヮ一ド検出位置管理表の先頭から 2番目に位置以降に受け取った時刻情報を順次記録して、外部からの次候補再生を示す指示が制御信号入力部 1を経由して指示された場合のみ前記キーヮ一ド検出時刻管理表から順次時刻情報を取り出して、指定時刻位置からのビデオ再生指示を複合データ読出処理部 1 4に発行し、その後この装置は通常のビデオ再生と同様の処理を経て、キーヮ一ドを検出した時刻情報位置からの映像信号及び音声信号を装置外部に出力する。

ビデオ再生制御部 1 3は、キーワードパタン照合部 2 2からキーワード照合の終了を通知されても前記キーヮード検出位置管理表の内容は維持されており、キ一ヮ一ドパタン照合動作が終了してからも外部からの次候補再生指示を受け取る度に、前記キ一ヮ一ド検出時刻管理表から順次時刻情報を取り出して、指定時刻位置からのビデオ再生指示を複合データ読出処理部 1 4に発行可能であり、前記キーヮード検出位置管理表は外部からの次のビデオ検索指示による新たなキーヮ一ドが外部から入力される事で初期化される。この装置は、こうした一連の動作を外部からのキーヮードによるビデオ検索指示を受け付ける度に繰り返えす事で、ビデオ番組の発声情報へのキーヮ一ド照合で映像シーンの特定し、特定した位置からのビデオ再生による早見が可能である。

以上の説明ではインデクス構造バケツトデ一夕が発声特徴パタンデ一夕の時系列であった。さらに、キーワードパタン照合部 2 2において、入力されたキーヮードのサブヮード列と前記音素類似度表内での各サブヮ一ドごとの類似度を用いたパタン照合を行う方式を採る事もできる。この場合、キーヮードパタン変換部 2 0は、キーワード入力部 1 9から転送されてきたキーヮ —ドをその音素符号列に変換しキーヮードパタン照合部 2 2へ転送する。キーワードパタン照合部 2 2は、ビデオ再生制御部 1 3からパタン照合開始指示をうけると内部の処理及び記憶回路 2 3を初期化した後、キーワードパタン変換部 2 0より転送されてくるキーワードの音素符号列を受け取って、映像検索インデクス形成部 2 1によりパタン照合に十分な時間区間長をもつて記憶回路 2 3内に時刻順に並べられたインデクス構造パケッ卜内の音素類似度表データ時系列と、受け取ったキーヮードの音素符号列との時系列パ夕ン照合を行う。このパタン照合では、記憶回路 2 3内に時刻順に並べられたインデクス構造バケツト内の音素類似度表データ時系列内での一定の時刻区間内で、照合区間を D P照合法で用いられる時間伸縮の手法等によつて伸縮しながらキーヮードの音素系列として形成した場合のサブヮードごとの類似度の和によつて一定の類似性得られた照合区間をキーヮ一ドの検出区間とする。

すなわち、記録映像と同じ時間幅を持っている音素類似度表からパタン照合に十分な区間長のインデクス構造バケツト群を取り出し、取り出された各インデクス構造パケットの発声特徴パタンデータ（始端時刻、終端時刻、類似度を持つ）を時刻順に並べる。音素類似度表における 1区間には全標準音声パタン（サブワード）に対応した数の発声特徴パタンデータが同一時間軸上に配列されている。そのような発声特徴パタンデータの列が、パタン照合に十分な区間長に存在する区間の数だけ連続して配列される。このような映像検索インデックスの発声特徴パタンデータの時系列と，キーヮ一ドを構成しているサブヮードの発声特徴パタンデ一夕の時系列と，を D P照合法を用いて照合区間を伸縮しながら照合し、両者の類似度が所定値以上とな照合期間をキ一ワードの検出区間とする。両者の類似度は、キーワードを構成しているサブヮード系列の順に該当するィンデクス構造バケツ卜の発声特徴パ夕ンデータを取り出す、その取り出された各発声特徴パタンデータが持つ類似度を加算した値をである。

キーワード検出区間の最初のサブワードの始端時刻を、キーワード検出位置としてその都度ビデオ再生制御部 1 3へ通知する。

こうしたパタン照合方式によれば、パタン照合処理の際に例えば発声特徴パタンデ一夕時系列のような音響特性成分からなるべクトルデータ間の照合処理を行う必要がない事から、照合処理時間を大幅に削減することが可能である。

また、映像検索インデックスを，登録されたキーワードに対応させた固定的した形で持つのではなく，入力音声の音素類似度表といった中間状態の形で保存するので、検索キーワードを予め登録する必要がなく、ユーザが不確定なキ一ワードを入力した場合にも検索意図を最も良く反映した映像を検索する事ができる。また、キーワードパタン変換部が、入力されるキーワードを視覚特徵パ夕ンデータへの変換を行い、前記キーワードパタン照合部が、予め記録媒体に記録されている映像検索用ィンデクスとして第 5の実施の形態で記述した人物発声時の視覚特徴パタンデ一夕を用い、入力されたキーヮ一ドの視覚特徴バタンデ一夕との照合を行うように構成する事が以下に可能である。

この場合、キーワードパタン変換部 2 0は、キーワード入力部 1 9から転送されてきたキ一ヮ一ド情報を音素符号列に変換し、さらに予め内部に登録してある各サブヮードの発声特徴パタンデ一夕時系列からなる音素標準パ夕ン、及び各発声サブヮードの視覚特徴パタンデータからなる視覚特徴標準パタンを参照参照してキーヮ一ドの音素符号列をキーヮ一ド構成サブヮード分の発声特徴パタンデ一夕時系列と視覚特徴パタンデータ時系列に変換して、キーワードパタン照合部 _{2 2}へ転送する。ビデオ再生制御部 1 3からパタン照合開始指示をうけたキーヮ一ドパ夕ン照合部 2 2は、内部の処理及び記憶回路 2 3を初期化した後、キーワードパタン変換部 2 0より転送されてくる前記キ一ヮ一ドの発声特徴パタンデータ時系列と視覚特徴パタンデータ時系列を受け取って、映像検索インデクス形成部 2 1により記憶回路 2 3内に発声特徴パタンデ一夕で構成されるインデクス構造バケツトと視覚特徴パタンデータで構成されるインデクス構造パケッ卜別に時刻順に並べられたインデクス構造パケット内のデ一夕時系列とのパタン照合を、それぞれのデータ種別ごとに行う。

各々のパタン照合では、記憶回路 2 3内に時刻順に並べられたインデクス構造バケツト内のそれぞれの特徴パタンデータ時系列内での一定の時刻区間内で、 D P照合法等を用いて照合区間を伸縮しながらキーヮ一ドのそれぞれの特徴パタンデ一夕時系列とのパタン照合を行いデータ種別ごとに各サブヮ ―ドの特徴パタンデータ間の類似度の和を求めキーヮード類似度とする。このようにして求められた発声特徴パタンデータ時系列照合でのキーヮード類似度と、視覚特徴パタンデータ時系列照合でのキーワード類似度の和から一定の類似性得られた照合区間をキ一ワードの検出区間とし、検出した区間の発声特徴パタンデータ時系列の最初の発声特徴パタンデータが存在するインデクス構造バケツ卜に添付された時刻情報を、キーワード検出位置としてその都度ビデオ再生制御部 1 3へ通知する。

このように音声からの発声特徴バタンデータと、映像からの視覚特徵パ夕ンデ一夕を併用したパタン照合をする事により、例えば録画したビデオ番組等で B G M (バックグラウンドミュージック）や騒音などによってインデクス構造デバケツト内発声特徴パタンデータを構成する音響特性データの精度が下がっている場合でも、視覚特徴パタンデータを利用する事でキーヮードの検出精度の大幅な低下を防ぐ事が可能である。

また、キーワード入力部が音声入力用マイクロフォンを備え、キーワードパ夕ン変換部が入力されたキーワードの音声信号からキーワードの発声特徴パタンデ一夕への変換を行うように構成する事が以下に可能である。

キーワード入力部 1 9は、外部のマイクロフォン等の音声入力装置からキ —ワードが入力されたら、ビデオ再生制御部 1 3へキーワード入力完了の通知を行ない、入力されたキーワード音声信号に AZ D変換処理を施してキーワードパタン変換部 2 0へ供給する。

キーワードパタン変換部 ₂ 0は、入力されたキーワード音声信号信号に対し、一定時間単位で F F T (高速フーリエ変換）処理を行い、人物の発声周波数帯域の音響特性デ一夕を抽出し、さらに抽出した周波数帯域内での短時間スペクトルデータまたはスペクトルの対数値や、一定時間単位内の音声信号の対数エネルギー値等の音声認識処理で一般的に用いられる音響特徴量から構成される N個（Nは任意の自然数）の成分を持つベクトルデ一夕からなる発声特徴パタンデータ時系列を生成し、キ一ワードパタン照合部 2 2へ転送する。

このように、マイクロフォン等を用いた音声によるキーワードの入力と、入力された音声信号からキーヮード照合に必要なキーワードの発声特徵パ夕ンデ一夕時系列を生成する事が可能となる。

また、キーワード入力部がマイクロフォンと動画像入力用カメラ装置とを備え、前記キーヮードパタン変換部が利用者のキーヮード発声時に入力される映像信号に対して予め登録されてある発声音ごとの口唇画像特徴パタンとの照合を行ない、キーヮード発声時の映像信号からキ一ヮ一ドの視覚特徴パタンデータへの変換を行うように構成する事が以下に可能である。

この場合、キーワード入力部 1 9は、外部のマイクロフォン等の音声入力装置及びビデオカメラ装置とからキーワード情報が入力されたら、ビデオ再生制御部 1 3へキーワード入力完了の通知を行ない、入力されたキーワード音声信号及びキーヮード発声時の人物の顔を捉えた映像信号に AZ D変換処理を施してキーワードパタン変換部 2 0へ供給する。

キーワードパタン変換部 2 0は、入力されたキーワード音声信号信号からは、音声認識処理で一般的に用いられる音響特徴量から構成される N個（N は任意の自然数）の成分を持つべクトルデータからなる発声特徴パタンデー夕時系列を生成し、同じく入力されたキ一ヮ一ド映像信号信号の画像フレ一ム毎に予め登録してある人物の口唇周辺画像から取り出した口唇特徴標準パタンを用いて、人物の口唇周辺部の検出及び口唇周辺画像の抽出処理を行い、抽出した口唇領域画像からさらに口唇の形状を代表する情報からなる人物発声時の視覚特徴パタンデータを抽出し、キーワード発声時間分の視覚特徵パ夕ンデ一夕時系列生成し、それぞれキーワードパタン照合部 2 2へ転送する。視覚特徴パタンデータは、例えば前記口唇領域画像抽出時に用いた口唇領域画像空間を任意の個数に分割した画像ブロックのおのおのの色平均情報または輝度平均情報から構成される分割した画像ブロック数分成分がらなるベクトルデータや、または視覚特徴抽出した口唇領域画像データに対してさらに色フィル夕一等を用いて口唇部分のみを抽出し、口唇部分の面積重心点から垂直方向の唇外接点 2点（上下）と水平方向外接点 2点（左右）にっきそれぞれ前記重心点からの相対距離を算出した 4個の数値成分からなるべクトルデ一夕等である。

このように、マイクロフォン及びビデオカメラ装置を用いた映像 ·音声によるキーヮードの入力と、入力された音声信号からはキ一ヮ一ドの発声特徴パタンデータ時系列を、映像信号からはキ一ワードの視覚特徴パタンデータ時系列を生成する事が可能となる。

また、本発明のシーン検索システムは音声だけのシーン検索に適用することができる。上述した方式にしたがって映像信号と音声信号と映像検索インデックス、又は音声信号と音声映像検索ィンデックスとを記録媒体に蓄積する。音声映像検索ィンデックスは上記映像検索ィンデックスと同じ構造のものを用いる事ができる。キ一ヮ一ド検出区間の先頭サブヮ一ドの始端時刻に対応する位置から音声信号の取り出しを開始すればよい。

本明細書は、 1 9 9 8年 1 2月 1 7日出願の特願平 1 0— 3 5 9 4 1 4号、 1 9 9 9年 1 2月 1 3日出願の特願平 1 1— 3 5 2 8 1 9号に基づく。この内容はここに含めておく。産業上の利用可能性

音声認識技術をビデオ録画時とビデオ再生時に分割して用いる事により、ビデオ再生時に任意のキーヮードを用いた高速な映像検索を行い、利用者の検索意図にそった早見を実現できる。

また、映像検索用インデックスは、ビデオの録画と同時に自動的に生成されるため、従来マニュアルに頼っていた映像の整理や再利用を目的としたィンデキシング作業の手間が大幅に削減されることが期待でき、家庭内でのデジ夕ルビデオカメラやデジタルビデオテープレコーダ等での特殊再生機能から大規模なデジタル映像ライブラリシステム等での映像信号ベース構築や映像検索 ·閲覧等に有用である。

Claims

請求の範囲

1 . 映像信号に同期した音声信号から特徴パタンを抽出して映像検索のためのィンデックスを生成する検索データ生成部と、検索者から入力されるキ一ワードと前記インデックスとを照合して所望とする映像を検索する検索処理部とを具備する映像検索装置。

2 . 前記検索データ生成部は、入力された音声信号から音声特徴量を抽出する音声特徴パタン抽出部と、抽出された音声特徴量と予め登録された標準音声パタンとの間の類似度を算出する計算部と、計算された類似度及び対応する映像信号又は音声信号との時間同期情報を含んだインデックスを生成するィンデックス生成部とを備える請求項 1記載の映像検索装置。

3 . 前記音声特徴パタン抽出部は、入力された音声信号からサブワードに相当する区間から前記音声特徴量を抽出し、前記計算部は、サブワードを単位とした標準音声パタンを用いて類似度を計算することを特徴とする請求項

2記載の映像検索装置。

4 . 前記検索処理部は、検索者から入力されるキーワードを音声特徴量の時系列パタンに変換するキ一ヮ一ド変換部と、変換されたキーヮードを音声特徴量の時系列パタンと前記インデックスとを照合してキーワードと類似度の高い区間を検出するキーヮ一ドパタン照合部とを備える請求項 1記載の映像検索装置。

5 . 前記キーワードパタン照合部は、前記音声信号の検索対象期間に亘って作成されたィンデックスで構成される音素類似度表の中から前記入力キ一ヮ一ドに含まれるサブヮードに対応したィンデックスだけを抽出し、抽出したィンデクスを時系列データに変換してキーヮ一ドを復元し、復元されたキ —ヮード毎に類似度を加算することを特徴とする請求項 4記載の映像検索装置。

6 . 前記検索データ生成部から前記検索処理部に対して伝送媒体を介して前記映像信号、音声信号及びインデックスが伝達されることを特徴とする請求項 1記載の映像検索装置。

7 . 前記伝送媒体は、放送網、通信網又は記録媒体のいずれかであることを特徴とする項 6記載の映像検索装置。

8 . 前記検索データ生成部は、映像信号、音声信号及びインデックスを多重化してデータストリームの形式で出力する多重化部を備え、前記検索処理部は、多重化されたデータストリームを映像信号、音声信号及びインデックスに分離する多重分離部を備える請求項 6記載の映像検索装置。

9 . 前記多重化部は、前記インデックスをユニットに分割する単位を、対応する映像信号の G O P (Group of Pictures) 単位と一致させることを特徴とする請求項 8記載の映像検索装置。

1 0 . 映像信号及び音声信号とインデックスとの時間同期情報としてインデックスのュニット部に対応する映像信号のタイムコードを記録することを特徴とする請求項 9記載の映像検索装置。

1 1 . 前記インデックスのユニット部に記録するタイムコードは、そのュニット部に対応する映像信号の開始時刻及び継続時間であることを特徴とする請求項 1 0記載の映像検索装置。

1 2 . 映像信号に同期した音声信号から特徴パタンを抽出して映像検索のためのィンデックスを生成する検索データ生成部と、検索者から入力されるキーヮ一ドと前記ィンデックスとを照合して所望とする映像を検索する検索処理部とを具備し、

前記検索処理部は、通信網を経由して接続された検索端末からキーヮードを受信する受信部と、検索された映像信号を前記通信網を経由して前記検索端末へ送信する送信部とを有する、映像検索装置。

1 3 . 音声信号から特徴パタンを抽出して音声検索のためのインデックスを生成する検索データ生成部と、検索者から入力されるキーヮードと前記ィンデックスとを照合して所望とする音声を検索する検索処理部とを具備する

1 4 . 前記検索データ生成部は、入力された音声信号から音声特徴量を抽出する音声特徴パタン抽出部と、抽出された音声特徴量と予め登録された標準音声パタンとの間の類似度を算出する計算部と、計算された類似度及び対応する音声信号との時間同期情報を含んだインデックスを生成するインデックス生成部とを備える請求項 1 3記載の音声検索装置。

1 5 . 映像信号に同期した音声信号から音声特徴量を抽出する音声特徵パタン抽出部と、抽出された音声特徴量と予め登録された標準音声パタンとの間の類似度を算出する計算部と、計算された類似度及び対応する映像信号又は音声信号との時間同期情報を含んだインデックスを生成するインデックス生成部とを備える映像検索インデックス生成装置。

1 6 . 前記音声特徴パタン抽出部は、入力された音声信号からサブワードに相当する区間から前記音声特徴量を抽出し、前記計算部は、サブワードを単位とした標準音声パタンを用いて類似度を計算することを特徴とする請求項 1 5記載の映像検索インデックス生成装置。

1 7 . 映像信号とこの映像信号に同期した音声信号とこの音声信号から生成された音素類似度表とが蓄積された記録部と、検索者から入力されるキ一ヮ一ドを音声特徴量の時系列パタンに変換するキ一ヮ一ド変換部と、変換されたキーヮードを音声特徴量の時系列パタンと前記音素類似度表のインデックスとを照合してキ一ヮ一ドと類似度の高い区間を検出するキーヮ一ドパ夕ン照合部と、検出区間の先頭サブヮードの始端時刻に基づいて前記記録部から該当する映像信号を取り出す制御部とを備える検索処理装置。

1 8 . 前記キーワードパタン照合部は、音素類似度表の中から前記入力キーヮードに含まれるサブヮードに対応したィンデックスだけを抽出し、抽出したィンデクスを時系列データに変換してキ一ヮ一ドを復元し、復元されたキーヮ一ド毎に類似度を加算することを特徴とする請求項 1 7記載の検索処

1 9 . 記録媒体を有するビデオ録画装置において、ビデオ録画時に入力される音声信号から人物の発声帯域における発声特徴パタンを抽出する発声特徴パタン抽出部と、前記発声特徴パタンをビデオ信号への同期情報とともに前記記録媒体に映像検索インデクスとして記録するィンデクス記録制御部とを備える事を特徴とするビデオ録画装置。

2 0 . 記録媒体を有するビデオ録画装置において、ビデオ録画時に入力される音声信号から人物の発声帯域における発声特徴パタンを抽出する発声特徵パタン抽出部と、抽出された発声特徴パタンデータと予め登録されている複数のサブヮ一ドの各発声特徴パタンとの類似度を算出して類似度及び時刻情報を持った映像検索ィンデクスを生成するインデックス生成部と、入力音声対して作成された映像検索ィンデクスで構成される音素類似度表とビデオ信号とを前記記録媒体に記録する記録制御部とを備えるビデオ録画装置。 2 1 . 前記発声特徴パタン抽出部は、ビデオ録画時に入力される映像信号に対して予め登録されてある発声音ごとの口唇画像特徵パタンデータとの照合を行ない、映像信号から人物発声時の視覚特徴パタンデータを抽出する事を特徴とする請求項 1 9記載のビデオ録画装置。

2 2 . ビデオ信号の再生を行うビデオ再生装置において、入力音声に対して作成された映像検索ィンデクスとビデオ信号とが記録された記録媒体と、検索者から入力されたキーワードをパタン照合用データに変換するキ一ヮ一ドパタン変換部と、前記キーヮードのパタン照合用デ一夕と既に前記記録媒体に記録されているビデオ番組の前記映像検索ィンデクス内のパタン照合用データとのパタン照合を行うキーヮードパタン照合部とを備えるビデオ再生

2 3 . ビデオ信号の再生を行うビデオ再生装置において、入力音声に対して作成された映像検索ィンデクスから構成された音素類似度表とビデオ信号とが記録された記録媒体と、入力されたキーヮ一ドのサブヮ一ド系列と前記音素類似度表内の各サブヮードごとの類似度によってキーヮ一ド検出を行うキーワードパタン変換部とを備えたビデオ再生装置。

2 4 . 前記キーワードパタン変換部は、入力されるキ一ワードを視覚特徴パタンデータへの変換を行い、前記キーワードパタン照合部が、予め記録媒体に記録されている映像検索ィンデックスとして人物発声時の視覚特徵パ夕ンデ一夕を用いて、入力されたキ一ヮ一ドの視覚特徴パタンデータとの照合を行うことを特徴とする請求項 2 2記載のビデオ再生装置。

2 5 . 音声入力のためのマイクロフォンを備え、前記キーワードパタン変換部が前記マイクロフォンから入力されたキーヮードの音声信号を発声特徴パタンデ一夕へ変換することを特徴とする請求項 2 2記載のビデオ再生装置。 2 6 . マイクロフォンと動画像入力のためのカメラ装置とを備え、前記キーヮ一ドパタン変換部は、利用者のキーヮード発声時にカメラ装置から入力される映像信号に対して予め登録されてある発声音ごとの口唇画像特徴パ夕ンとの照合を行ない、キーヮード発声時の映像信号からキーヮ一ドの視覚特徵パタンデータへの変換を行う事を特徴とする請求項 2 2記載のビデオ再生

2 7 . 映像信号に同期した音声信号から音声特徴量を抽出し、抽出された音声特徴量と予め登録された標準音声パタンとの間の類似度を算出し、計算された類似度及び対応する映像信号又は音声信号との時間同期情報を含んだィンデックスを生成し、検索者から入力されるキーワードと前記ィンデックスとを照合して所望とする映像を検索する映像検索方法。

捕正書の請求の範囲

[2000年 5月 19日（19. 05. 00 ) 国際事務局受理：出願当初の請求の範囲 2 一 4， 14及び 16は取り下げられた；出願当初の請求の範囲 1, 5， 10, 12, 13， 15, 17, 18, 20， 23及び 27は補正された；他の請求の範囲は変更なし。（7頁）]

1. (補正後）映像信号に同期した音声信号から特徴パタンを抽出し、サブヮードを単位とした標準音声パタンを用いて類似度を計算し、時間同期情報を含んだサブヮード単位のインデックスを生成する検索データ生成部と、入力されるキーヮードに対する時間情報を前記インデックスの組合せから導出し、所望とする映像を検索する検索処理部とを具備する映像検索装置。

2. (削除）

3. (削除）

4. (削除）

5. (補正後）前記検索処理部は、入力されるキーワードをサブワード系列に変換し、サブヮ一ド系列の順序に従ってサブヮード毎の類似度を加算（累積）することで、キーワードに対する類似度を求め、求めた類似度の高い区間を所望の映像として検索することを特徵とする請求項 1記載の映像検索装置。

6. 前記検索デ一夕生成部から前記検索処理部に対して伝送媒体を介して前記映像信号、音声信号及びィンデックスが伝達されることを特徴とする請

補正された用紙（条約第 19条）求項 1記載の映像検索装置。

7 . 前記伝送媒体は、放送網、通信網又は記録媒体のいずれかであることを特徴とする請求項 6記載の映像検索装置。

1 0 . (補正後）時間同期情報としてインデックスのユニット部に対応する映像信号のタイムコードを記録することを特徴とする請求項 9記載の映像

1 2 . (補正後）映像信号に同期した音声信号から特徴パタンを抽出し、サブヮードを単位とした標準音声パタンを用いて類似度を計算し、時間同期情報を含んだサブヮード単位のィンデックスを生成する検索データ生成部と、入力されるキーヮ一ドに対する時間情報を前記ィンデックスの組合せから導出し、所望とする映像を検索する検索処理部とを具備し、前記検索処理部は、通信網を経由して接続された検索端末からキーワードを受信する受信部と、検索された映像信号は前記通信網を経由して前記検索端末へ送信する送信部とを有する、映像検索装置。

1 3 . (補正後）音声信号から特徴パタンを抽出し、サブワードを単位とした標準音声パタンを用いて類似度を計算し、時間同期情報を含んだサブヮ ―ド単位のィンデックスを生成する検索データ生成部と、入力されるキ一ヮ

補正された用紙（条約第 19条） ―ドに対する時間情報を前記ィンデックスの組合せから導出し、所望とする音声を検索する検索処理部とを具備する音声検索装置。

補正された用紙（条約第 19条)

1 4 . (削除）

1 5 . (補正後）映像信号に同期した音声信号から特徴パタンを抽出する音声特徴パタン抽出部と、抽出された特徵パタンについてサブヮードを単位とした標準音声パタンを用いて類似度を算出する計算部と、計算された類似度及び対応する映像信号又は音声信号との時間同期情報を含んだィンデックスを生成するインデックス生成部とを備える映像検索ィンデックス生成装置。

1 6 . (削除）

1 7 . (補正後）映像信号とこの映像信号に同期した音声信号とこの音声信号から生成されたサブヮード単位のィンデックスとが蓄積された記録部と、入力されるキ一ヮ一ドをサブヮ一ド系列に変換'するキーヮ一ド変換部と、変換されたキ一ヮ一ドのサブヮ一ドと前記サブヮード単位のィンデックスとを照合してキ一ヮ一ドと類似度の高い区間を検出するキーヮード照合部と、検出区間の先頭サブヮードの始端時刻に基づいて前記記録部から該当する映像信号を取り出す制御部とを備える検索処理装置。

1 8 . (補正後）前記キーワード照合部は、入力されるキーワードをサブヮ一ド系列に変換し、サブヮード系列の順序に従ってサブヮ一ド毎の類似度を加算することで、キーワードに対する類似度を求め、求めた類似度の高い区間を所望の映像として検索することを特徴とする請求項 1 7記載の検索処

1 9 . 記録媒体を有するビデオ録画装置において、ビデオ録画時に入力さ

補正された用紙（条約第¹⁹条 ) れる音声信号から人物の発声特徴パタンを抽出する発声特徴パタン抽出部と、前記発声特徴パタンをビデオ信号への同期情報とともに前記記録媒体に映像検索インデクスとして記録するィンデクス記録制御部とを備える事を特徴とするビデオ録画装置。

2 0 . (補正後）記録媒体を有するビデオ録画装置において、ビデオ録画時に入力される音声信号から人物の発声帯域における特徴パタンを抽出する発声特徴パタン抽出部と、抽出された特徵パタンについてサブヮ一ドを単位とした標準音声パタンを用いて類似度を算出して類似度及び時刻情報を持つたサブヮ一ド単位のィンデクスを生成するィンデックス生成部と、入力音声対して作成されたサブヮード単位のィンデクスとビデオ信号とを前記記録媒体に記録する記録制御部とを備えるビデオ録画装置。

2 1 . 前記発声特徴パタン抽出部は、ビデオ録画時に入力される映像信号に対して予め登録されてある発声音ごとの口唇画像特徴パタンデータとの照合を行い、映像信号から人物発声時の視覚特徴パタンデ一夕を抽出する事を特徴とする請求項 1 9記載のビデオ録画装置。

2 2 . ビデオ信号の再生を行うビデオ再生装置において、入力音声に対して作成された映像検索ィンデクスとビデオ信号とが記録された記録媒体と、検索者から入力されたキーヮ一ドをパタン照合用データに変換するキーヮ一ドパタン変換部と、前記キ一ヮ一ドのパタン照合用データと既に前記記録媒体に記録されているビデオ番組の前記映像検索用インデクス内のパタン照合用データとのパタン照合を行うキ一ヮ一ドパタン照合部とを備えるビデオ再生装置。

2 3 . (補正後）ビデオ信号の再生を行うビデオ再生装置において、入力音声に対して作成されサブヮ一ド単位のィンデクスとビデオ信号とが記録された記録媒体と、入力されたキーヮードをサブワード系列に変換するキーヮ一ド変換部と、変換されたキ一ヮ一ドのサブヮード系列と前記サブヮード単位のィンデックス内の各サブヮードごとの類似度によってキーヮード検出を

補正された用紙（条約第条) 行うキーヮード照合部とを備えたビデオ再生装置。

補正された用紙（条約第 19条)

2 4 . 前記キーワードパタン変換部は、入力されるキーワードを視覚特徴パタンデ一夕への変換を行い、前記キーワードパタン照合部が、予め記録媒体に記録されている映像検索ィンデクスとして人物発声時の視覚特徴パターンデ—夕を用いて、入力されたキ一ヮ一ドの視覚特徵パタンデ一夕との照合を行うことを特徴とする請求項 2 2記載のビデオ再生装置。

2 5 . 音声入力のためのマイクロフォンを備え、前記キーワードパタン変換部が前記マイクロフォンから入力されたキーヮードの音声信号を発声特徴パタンデ一夕へ変換すること特徴とする請求項 2 2記載のビデオ再生装置。

2 6 . マイクロフォンと動画像入力のためのカメラ装置とを備え、前記キーヮ一ドパタン変換部は、利用者のキーヮード発声時にカメラ装置から入力される映像信号に対して予め登録されてある発声音ごとの口唇画像特徴パ夕ンとの照合を行い、キーヮード発声時の映像信号からキーヮードの視覚特徴パタンデ一夕への変換を行う事を特徴とする請求項 2 2記載のビデオ再生装

2 7 . (補正後）映像信号に同期した音声信号から特徴パタンを抽出し、サブヮードを単位とした標準音声パタンを用いて類似度を計算し、時間同期情報を含んだサブヮ一ド単位のィンデックスを生成するィンデックス作成ェ程と、入力されるキ一ヮ一ドに対する時間情報を前記ィンデックスの組合せから導出し、所望とする映像を検索する検索工程とを具備する映像検索方法。

補正された用紙（条約第 19条) 条約 19条に基づく説明書

請求の範囲第 1項、第 12項、第 13項、第 27項は、

予めサブヮード単位でィンデックスを生成しておき、検索時にはキーヮードに対応したサブヮード単位のィンデックスの組合わせからキ一ヮ一ドの発声区間を求めること、を明確にした。

引用例 1 (J P， 3-53379， A) は、単語単位の音声認識によるインデックス作成に関するものであり、

引用例 2 (新美康永，情報科学講座 E · 1 9 · 3音声認識，（日），共立出版株式会社，（10. 1 0. 79) 第 90-第 93頁）は、音声認識においてサブヮードラティスを介して認識を行うことに関するもであり、

引用例 3 ( J P, 6 - 68168, A 段落番号【00 18】一【001 9】，図面【図 3】）は、単語単位の音声認識によるインデックスの作成と、ィンデックスを参照した検索に関するのであり、

引用例 4 (J P, 5 - 108727, A) は、画像入出力の際に声の入出力を行って検索を行え、さらに既存のファクシミリを用いて遠隔操作を行うことに関するもである。

本発明は、サブワード単位でインデックスを作成しておく事により、検索時には自由なキーワードに対処できて、かつ高速に検索が行え、さらにインデックス作成と検索とを完全に分離することで人手を介さないインデックスの流通が可能になるといった、効果を得たものである。