WO2006049249A1 - ディジタル映像再生装置 - Google Patents

ディジタル映像再生装置 Download PDF

Info

Publication number
WO2006049249A1
WO2006049249A1 PCT/JP2005/020300 JP2005020300W WO2006049249A1 WO 2006049249 A1 WO2006049249 A1 WO 2006049249A1 JP 2005020300 W JP2005020300 W JP 2005020300W WO 2006049249 A1 WO2006049249 A1 WO 2006049249A1
Authority
WO
WIPO (PCT)
Prior art keywords
character information
digital video
dictionary
index
code
Prior art date
Application number
PCT/JP2005/020300
Other languages
English (en)
French (fr)
Inventor
Atsushi Iisaka
Atsushi Yamashita
Takuya Hirai
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US11/666,678 priority Critical patent/US7953602B2/en
Priority to EP05805411A priority patent/EP1811776B1/en
Publication of WO2006049249A1 publication Critical patent/WO2006049249A1/ja

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/426Internal components of the client ; Characteristics thereof
    • H04N21/42646Internal components of the client ; Characteristics thereof for reading from or writing on a non-volatile solid state storage medium, e.g. DVD, CD-ROM
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/432Content retrieval operation from a local storage medium, e.g. hard-disk
    • H04N21/4325Content retrieval operation from a local storage medium, e.g. hard-disk by playing back content from the storage medium
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/84Television signal recording using optical recording
    • H04N5/85Television signal recording using optical recording on discs or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/87Regeneration of colour television signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2537Optical discs
    • G11B2220/2562DVDs [digital versatile discs]; Digital video discs; MMCDs; HDCDs

Definitions

  • the present invention relates to a digital video reproduction apparatus for reproducing digital video content.
  • a list of chapters is displayed as an index image at the start of content playback, and a key provided on the device main body or remote control is operated. To select chapters. As a result, the user can reproduce the content with the desired chapter power.
  • some recent BS digital no-vision televisions have a voice recognition function, and the channel can be switched by inputting a broadcast station name, a channel name, or the like by voice.
  • Patent Document 1 JP 11 41538 A
  • an object of the present invention is to provide a digital video reproduction apparatus capable of designating a reproduction position of digital video content by voice.
  • a first aspect of the present invention is a digital video reproduction device (1) for reproducing digital video content, which can be used for voice recognition processing based on a signal of the digital video content.
  • a dictionary creation means (102) for creating a dictionary, a speech recognition means (104) for performing speech recognition processing using the dictionary created by the dictionary creation means, and a speech recognition result of the speech recognition means Playback control means (105) for controlling playback of digital video content based on the playback control.
  • a second aspect of the present invention is the playback position selection for causing the user to select the playback position of the digital video content included in the video signal of the digital video content in the first aspect.
  • Character information recognizing means (101) for recognizing character information from an image (FIGS. 2, 4, and 5) is further provided, and the dictionary creating means uses the character information recognized by the character information recognizing means.
  • an index dictionary is created for allowing the user to select a playback position by voice.
  • the reproduction position selection image when the reproduction position selection image is displayed on a display device, the reproduction position selection image is registered in the index dictionary based on the reproduction position selection image.
  • the image display device further comprises index display means (106) for highlighting the character string portion corresponding to the written character information based on the recognition result of the character information recognition means.
  • the character information recognized by the character information recognition means is stored in a nonvolatile manner as chapter information of digital video content used in the past.
  • Non-volatile storage means (107) is further provided.
  • a fifth aspect of the present invention is the digital video content according to the fourth aspect, wherein the non-volatile storage means converts the character information recognized by the character information recognition means to the character information corresponding to the character information. Is stored together with history information indicating whether or not this part has been reproduced in the past.
  • a sixth aspect of the present invention is that, in the fifth aspect, the nonvolatile storage means corresponds to the character information, together with the history information, the character information recognized by the character information recognition means.
  • the digital video content part is recorded together with the date and time when it was reproduced.
  • a seventh aspect of the present invention is that, in the second aspect, the dictionary creation unit is configured such that the number of characters of the character information recognized by the character information recognition unit exceeds a predetermined threshold.
  • the index dictionary is created by using a reduced number of characters of the character information.
  • a language determining means (101) for determining whether or not the character information recognized by the character information recognizing means is Japanese, and the character information If the character information is not recognized by the recognition means or if the character information recognized by the character information recognition means is in English, the reproduction position selection image is determined according to a predetermined rule.
  • Code addition means (103) for adding a code
  • index display means (106) for causing the display device (5) to display the reproduction position selection image added with the code by the code addition means;
  • the creation means uses the English character information recognized by the character information recognition means and the code added to the reproduction position selection image by the code addition means to select the reproduction position by voice to the user.
  • An index dictionary is created for the purpose.
  • a ninth aspect of the present invention is the playback position selection for causing the user to select the playback position of the digital video content included in the video signal of the digital video content in the first aspect.
  • a code adding means (103) for adding a code to an image (FIGS. 2, 4, and 5) according to a predetermined rule and a reproduction position selection image to which a code is added by the code adding means are displayed.
  • the dictionary creating means is for causing the user to select a playback position of the digital video content included in the signal of the digital video content.
  • an index dictionary is created to allow the user to select the playback position by voice.
  • the user can view chapter information of a medium such as a DVD that has been used in the past without setting the medium.
  • the user can check which chapter has been played back in the past and which chapter has not been played back.
  • a chapter viewed in the past can be selected based on a past reproduction date and time.
  • FIG. 1 is a diagram showing a configuration of a digital video playback apparatus according to an embodiment of the present invention.
  • FIG. 2 is a first example of an index image.
  • FIG. 3 is a diagram showing functions of the system controller 4.
  • FIG. 4 is a second example of the index image.
  • FIG. 5 is a third example of an index image.
  • FIG. 6 is a first example of an index dictionary.
  • FIG. 7 shows a second example of the index dictionary.
  • FIG. 8 shows a first example of an index image covered by the index display means 106.
  • FIG. 9 is a second example of an index image covered by the index display means 106.
  • FIG. 10 is a third example of the index image cached by the index display means 106.
  • FIG. 11 shows a third example of the index dictionary.
  • FIG. 12 is an example of information stored in the storage unit 107 together with the index dictionary.
  • the digital video playback device 1 includes a DVD drive 2 that can play back DVD video, a buffer 3 that temporarily stores video played back by the DVD drive 2, and digital video playback.
  • a system controller 4 that controls the entire device 1, a display device 5 that displays video, a button 6 that the user presses to start voice input, a microphone 8 that inputs voice, and a microphone ADC (Analog to Digital Converter) 7 that converts analog audio signals from 8 into digital audio signals.
  • the DVD drive 2 and microphone 8 are not necessarily built in the digital video playback device 1.
  • DVD video When a user records a DVD on which digital video content (here, referred to as a DVD video) is inserted into the DVD drive 2, an indented image as shown in FIG. Displayed in 5.
  • DVD video has multiple Selection buttons 21 to 25 for selecting each chapter are displayed on the index image.
  • the selection button is not necessarily limited to the button shown in FIG. 2, and when the outline of the selection button is not displayed (that is, the same color as the background), or a reduced image of the first video of the chapter is used as the selection button. There is also a case.
  • 20 in FIG. 2 is not a selection button but a part of the background display.
  • Figure 2 shows an example where a DVD video consists of five chapters. The user can play a DVD video from the chapter by selecting a desired chapter listing power using an input device (not shown).
  • Selection names 21 to 25 The chapter names (such as “an entrance ceremony” and “an excursion”) are not included in the DVD video as text information (character code).
  • the index image including the buttons 21 to 25 is merely stored in the DVD video as image information. Information for distinguishing which area of the index image corresponds to which selection button is stored in the DVD video.
  • System controller 4 is realized by a combination of hardware such as a microcomputer, DSP, and memory, and software stored in ROM, etc., and performs character recognition processing in image information, voice recognition processing, and chapter playback processing.
  • the system controller 4 functions as character information recognition means 101, index dictionary creation means 102, code addition means 103, voice recognition means 104, reproduction control means 105, index display means 106, and storage means 107.
  • each means will be described in detail.
  • the character information recognition means 101 recognizes characters from the selection buttons 21 to 25 (that is, the image area for selecting each chapter) in FIG. 2 included in the index image read from the DVD drive 2. Character information is extracted by processing.
  • the character information recognition unit 101 has a function of determining whether or not the character information extracted by the character recognition process is English. Here, depending on whether or not the English character information is extracted, The processing procedure after this changes.
  • the explanation is based on the assumption that the digital video playback device 1 is used in the English-speaking area. However, for example, the digital video playback device 1 is used in the Japanese-speaking area. If this is the case, the subsequent processing procedure will change depending on whether or not Japanese character information is extracted. That is, more generally, the character information recognition unit 101 only needs to have a function of determining whether or not the character information extracted by the character recognition process is a specific language.
  • the character information recognizing means 101 When English character information is extracted by the character information recognizing means 101, the character information recognizing means 101 outputs the extracted character information to the index dictionary creating means 102 as text data. On the other hand, when the English character information is not extracted (that is, when no character information is extracted or when non-English character information is extracted), the character information recognition means 101 reads the code information. The sign adding process is requested to the adding means 103. For example, when the chapter name is displayed in Japanese on the selection button as shown in FIG. 4 or when the selection button is a reduced image (summail) of the first video of the chapter as shown in FIG. The character information recognizing unit 101 requests the code adding unit 103 for the code adding process.
  • the sign adding means 103 assigns a code such as a number to a selection button that does not include English character information in accordance with a predetermined rule, and a text corresponding to the code assigned to each selection button.
  • the data is output to the index dictionary creation means 102.
  • the index dictionary creation means 102 is text data ("entrance ceremony”, “excursion”, etc.) output from the character information recognition means 101 or text data ("1", “excursion”, etc.) output from the sign addition means 103. Based on “2” and the like, an index dictionary that can be used for speech recognition processing by the speech recognition means 104 is created. Hereinafter, the processing of the index dictionary creating means 102 will be described more specifically.
  • the index dictionary creation means 102 first checks whether there is any identical text data in the text data output from the character information recognition means 101 or the signed calorie means 103, and there is identical text data. In such a case, numbers (more precisely, text data corresponding to the numbers) are added after the text data so that the text data can be distinguished. For example, the text data input to the index dictionary creation means 102 If there are two “an excursion”, convert one to "excursion 'one" and the other to "excursion'two".
  • the index dictionary creation means 102 uses these text data to create an index dictionary for speech recognition processing. Created and stored in the storage means 107.
  • the storage unit 107 may be a non-volatile storage unit that retains the stored contents even when the power is turned off, or may be a volatile storage unit that loses the stored contents when the power is turned off.
  • the display position in the index image of the corresponding selection button is also recorded in association with the text data.
  • FIG. 6 shows the contents of the index dictionary created based on the index image of FIG.
  • FIG. 7 shows the contents of the index dictionary created based on the index image of FIG. 4 or FIG.
  • the index dictionary creating means 102 has a plurality of the same text data as described above, and therefore, for those in which numbers etc. are added to the text data, those after addition of the numbers etc. are converted into text. At the same time as recording as data, information (flag) indicating that the recorded text data is obtained by adding numbers or the like to the original text data is recorded in the index dictionary in association with the text data.
  • the index display means 106 performs display control for presenting the user with words to be uttered in order to select each selection button included in the index image. More specifically, for the character string recognized as English by the character information recognition means 101, the display position of the character string in the index image is acquired from the character information recognition means 101 as necessary, and the character string is recognized as shown in FIG. Underline 51-55 to the character string as shown in the figure, surround the character string with a frame, and utterance marks 61-65 indicating that the character string is to be uttered near the character string The character string is emphasized by adding it.
  • the index dictionary creating means 102 for a character string in which a number or the like is added to the text data, a number (71, 72) is additionally displayed after the character string as shown in FIG.
  • the codes (81 to 85) assigned to the character strings by the code addition means 103 are additionally displayed as shown in FIG. To do.
  • voice recognition start signal S 1 is output from button 6.
  • the voice recognition means 104 receives the voice recognition start signal S1
  • the voice recognition means 104 performs voice recognition processing using the voice data D1 fetched through the ADC 7 and the index dictionary stored in the storage means 107.
  • the speech recognition means 104 displays a selection button corresponding to the text data. The position information is acquired and output to the reproduction control means 105.
  • the reproduction control means 105 specifies a chapter from the display position information received from the voice recognition means 104, and starts reproduction of the chapter.
  • the character information recognition means 101 has a function of determining whether or not the character information extracted by the character recognition process is Japanese, and is included in the index image in Japanese.
  • the index dictionary creating means 102 first starts from the character information recognizing means 101 or the sign adding means 103.
  • the output text data is converted into katakana data (such as “Two Yugakushiki”, “Yensoku”, “Ichi”, “Two”).
  • katakana data such as “Two Yugakushiki”, “Yensoku”, “Ichi”, “Two”.
  • the text data output from the character information recognition unit 101 and the code addition unit 103 and the display position of the corresponding selection button in the index image are also recorded in association with the katakana data.
  • Fig. 11 shows the contents of the index dictionary created based on the index image shown in Fig. 4.
  • the user selects an arbitrary selection button by voice from the selection buttons included in the index image, and views a chapter corresponding to the selection button. Can start.
  • chapters can be selected by voice, which is particularly useful as an in-vehicle DVD playback device.
  • a navigation apparatus having a digital video content playback function may be used.
  • non-volatile storage means is used as the storage means 107, and the index dictionary created by the index dictionary creation means 102 is retained even after the digital video reproduction apparatus 1 is turned off.
  • the data stored in the storage means 107 can be used when the digital video playback apparatus 1 is turned off and then turned on again, the usability of the digital video playback apparatus 1 can be improved. it can.
  • an application example using a non-volatile storage unit as the storage unit 107 will be described.
  • the index dictionary created by the index dictionary creation means 102 is stored in association with DVD video titles, DVD-specific information, and other additional information. Recorded in 107.
  • Information specific to a DVD includes, for example, the size of data recorded on the DVD, the video time, and the number of chapters.
  • the playback control means 105 stores the playback date and time in the storage means 107 as playback history information in association with the display position information of the selection button corresponding to the chapter.
  • the reproduction control unit 105 stores the time counter value of the video at the time of the stop in the storage unit 107 as the reproduction history information in association with the reproduction date and time.
  • the system controller 4 first checks whether a DVD is inserted in the DV drive 2! If a DVD has been inserted into the DVD drive 2, the system controller 4 refers to the information stored in the storage means 107 as shown in FIG. Check if the DVD has been inserted in the past. If the DVD currently inserted in DVD drive 2 is a DVD that has been inserted in the past, voice recognition processing is performed using the index dictionary created in the past, and it is inserted for the first time. In the case of a DVD, the index image power is also created in an index dictionary and stored in the storage means 107, and voice recognition processing is executed using this index dictionary. This saves you the trouble of creating a new index dictionary for DVDs that have been used in the past, so it takes less time to insert a DVD into the DV D drive 2 and select a chapter by force. be able to.
  • each chapter Information indicating whether or not the force has been reproduced in the past can be added to the index image by the index display means 106 and the force can be displayed on the display device 5.
  • the case of playing back digital video content recorded on a DVD has been described as an example.
  • the present invention is not limited to this, and the digital video recorded on another recording medium is used.
  • the present invention can be similarly applied to the case of playing back content, the case of playing back digital video content supplied through a communication line, and the case of playing back digital video content supplied by broadcast waves. .
  • the character information recognition means 101 does not perform character recognition processing.
  • the index dictionary creating means 102 should create an index dictionary using the text information.

Abstract

 文字情報認識手段(101)は、インデックス画像に含まれている選択用ボタンから文字認識処理によって文字情報を抽出する。インデックス辞書作成手段(102)は、文字情報認識手段(101)から出力されたテキストデータに基づいて、音声認識手段(104)による音声認識処理に利用可能なインデックス辞書を作成する。音声認識手段(104)は、ADC(7)を通じて取り込まれる音声データ(D1)と記憶手段(107)に記憶されているインデックス辞書を用いて音声認識処理を行う。再生制御手段(105)は、音声認識手段(104)の音声認識処理結果に基づいてチャプターの再生を制御する。これにより、DVDビデオのチャプター選択画面に表示されるチャプター選択用ボタンの中から所望のボタンを音声で選択可能となる。

Description

明 細 書
ディジタル映像再生装置
技術分野
[0001] 本発明はディジタル映像コンテンツを再生するためのディジタル映像再生装置に 関する。
背景技術
[0002] 従来、 DVD (Digital Versatile Disc)プレーヤーなどのディジタル映像再生装 置では、コンテンツの再生開始時に、インデックス画像としてチャプターの一覧が表 示され、装置本体やリモコンに設けられたキーを操作してチャプターの選択を行うこと ができる。これにより、ユーザは所望のチャプター力もコンテンツを再生することがで きる。
[0003] ところで、最近の BSディジタルノヽイビジョンテレビには音声認識機能が搭載されて いるものがあり、放送局名やチャンネル名などを音声によって入力することによってチ ヤンネルを切り替えることができる。
[0004] また、入力音声に対して音声認識処理を行い、この処理結果に基づいて入力音声 に対応する文字列を画面に表示する装置が提案されている (例えば、特許文献 1参 照)。
特許文献 1 :特開平 11 41538号公報
発明の開示
発明が解決しょうとする課題
[0005] ところで、 DVDプレーヤーなどの映像再生装置において、チャプターに付けられた 名前を発声することによってチャプターを選択できれば便利である。し力しながら、音 声によるチャプターの選択を可能とするためには、ユーザの発声した言葉がどのチヤ プターを表しているのかを判定するための参照テーブルが予め用意されている必要 がある。
[0006] し力しながら、通常は、ディジタル映像コンテンツにはそのような参照テーブルが含 まれていないので、仮に映像再生装置に音声認識機能を組み込むことによって、ュ 一ザが発声した言葉を音声認識処理によって認識できるようにしたとしても、ユーザ が発声した言葉力 チャプターを特定することは不可能である。
[0007] それゆえに本発明は、ディジタル映像コンテンツの再生位置を音声によって指定す ることのできるディジタル映像再生装置を提供することを目的とする。
課題を解決するための手段
[0008] 上記課題を解決するために、本発明は以下の構成を採用した。なお、括弧内の参 照符号および図番号は、本発明の理解を助けるために、図面との対応関係を示した ものであって、本発明の範囲を何ら限定するものではない。
[0009] 本発明の第 1の局面は、ディジタル映像コンテンツを再生するためのディジタル映 像再生装置(1)であって、ディジタル映像コンテンツの信号に基づ 、て音声認識処 理に利用可能な辞書を作成する辞書作成手段(102)と、前記辞書作成手段によつ て作成された辞書を用いて音声認識処理を行う音声認識手段(104)と、前記音声認 識手段の音声認識結果に基づいてディジタル映像コンテンツの再生制御を行う再生 制御手段(105)とを備える。
[0010] 本発明の第 2の局面は、第 1の局面において、ディジタル映像コンテンツの映像信 号に含まれて ヽる、当該ディジタル映像コンテンツの再生位置をユーザに選択させる ための再生位置選択用画像 (図 2、図 4、図 5)から、文字情報を認識する文字情報 認識手段(101)をさらに備え、前記辞書作成手段は、前記文字情報認識手段によ つて認識された文字情報を用いて、ユーザに再生位置を音声で選択させるためのィ ンデッタス辞書を作成することを特徴とする。
[0011] 本発明の第 3の局面は、第 2の局面において、前記再生位置選択用画像を表示装 置に表示するときに、当該再生位置選択用画像に基づ 、て前記インデックス辞書に 登録された文字情報に対応する文字列部分を、前記文字情報認識手段の認識結果 に基づいて強調表示するインデックス表示手段(106)をさらに備えることを特徴とす る。
[0012] 本発明の第 4の局面は、第 2の局面において、前記文字情報認識手段によって認 識された文字情報を、過去に利用したディジタル映像コンテンツのチャプター情報と して不揮発的に記憶する不揮発性記憶手段(107)をさらに備えることを特徴とする。 [0013] 本発明の第 5の局面は、第 4の局面において、前記不揮発性記憶手段は、前記文 字情報認識手段によって認識された文字情報を、当該文字情報に対応する前記デ イジタル映像コンテンツの部分が過去に再生されたかどうかを示す履歴情報とともに 記憶することを特徴とする。
[0014] 本発明の第 6の局面は、第 5の局面において、前記不揮発性記憶手段は、前記文 字情報認識手段によって認識された文字情報を、前記履歴情報とともに、当該文字 情報に対応する前記ディジタル映像コンテンツの部分が再生された日時とともに記 憶することを特徴とする。
[0015] 本発明の第 7の局面は、第 2の局面において、前記辞書作成手段は、前記文字情 報認識手段によって認識された文字情報の字数が予め定めた閾値を超えていた場 合に、当該文字情報の字数を短くしたものを用いて前記インデックス辞書を作成する ことを特徴とする。
[0016] 本発明の第 8の局面は、第 2の局面において、前記文字情報認識手段によって認 識された文字情報が日本語かどうかを判断する言語判断手段(101)と、前記文字情 報認識手段によって文字情報が認識されなカゝつた場合もしくは前記文字情報認識手 段によって認識された文字情報が英語でな力 た場合に、前記再生位置選択用画 像に対して予め定めた規則に従って符号を付加する符号付加手段(103)と、前記 符号付加手段によって符号の付加された再生位置選択用画像を表示装置 (5)に表 示させるインデックス表示手段(106)とをさらに備え、前記辞書作成手段は、前記文 字情報認識手段によって認識された英語の文字情報と、前記符号付加手段によって 再生位置選択用画像に付加された符号とを用いて、ユーザに再生位置を音声で選 択させるためのインデックス辞書を作成することを特徴とする。
[0017] 本発明の第 9の局面は、第 1の局面において、ディジタル映像コンテンツの映像信 号に含まれて ヽる、当該ディジタル映像コンテンツの再生位置をユーザに選択させる ための再生位置選択用画像(図 2、図 4、図 5)に対して、予め定めた規則に従って符 号を付加する符号付加手段(103)と、前記符号付加手段によって符号の付加された 再生位置選択用画像を表示装置(5)に表示させるインデックス表示手段(106)とを さらに備え、前記辞書作成手段は、前記符号付加手段によって再生位置選択用画 像に付加された符号を用いて、ユーザに再生位置を音声で選択させるためのインデ ックス辞書を作成することを特徴とする。
[0018] 本発明の第 10の局面は、第 1の局面において、前記辞書作成手段は、ディジタル 映像コンテンツの信号に含まれて ヽる、当該ディジタル映像コンテンツの再生位置を ユーザに選択させるためのテキスト情報を用いて、ユーザに再生位置を音声で選択 させるためのインデックス辞書を作成することを特徴とする。
発明の効果
[0019] 上記第 1の局面によれば、ディジタル TVのコンテンツのタイトルや DVDビデオのコ ンテンッのチャプター名などを音声で選択できるようになる。
[0020] 上記第 2の局面によれば、例えば、 DVDビデオなどのチャプター選択画面などで チャプターを音声で選択することが可能となる。
[0021] 上記第 3の局面によれば、例えば、所望のチャプターを選択するためにどの言葉を 発声すればよいのかをユーザに分力り易く提示することができる。
[0022] 上記第 4の局面によれば、例えば、ユーザは、メディアをセットせずとも過去に利用 したことのある DVD等のメディアのチャプター情報を見られるようになる。
[0023] 上記第 5の局面によれば、例えば、ユーザは、過去に再生したチャプターがどれで あるか、再生していないチャプターがどれであるかを確認することができる。
[0024] 上記第 6の局面によれば、例えば、過去の再生日時を手がかりに過去に見たチヤ プターを選択することができる。
[0025] 上記第 7の局面によれば、例えば、チャプター名が長い場合に、チャプター名の全 てを発声することなくより簡単に選択することが可能となる。
[0026] 上記第 8の局面によれば、例えば、チャプター名が特に付されていないチャプター や、英語以外の言語のチャプター名が付されたチャプターであっても、符号を発声 することによって簡単に選択することが可能となる。
[0027] 上記第 9の局面によれば、例えば、 DVDビデオなどのチャプター選択画面などで チャプター選択用のボタンに文字列が含まれていない場合であっても、符号を発声 することによってチャプターを選択することが可能となる。
[0028] 上記第 10の局面によれば、例えば、ディジタル TVのコンテンツなどのように、映像 中の選択用ボタンに対応するテキスト情報がコンテンツ自体に予め含まれている場 合に、このテキスト情報を用いて音声認識用の辞書を簡単に作成することができる。 図面の簡単な説明
[0029] [図 1]図 1は、本発明の一実施形態に係るディジタル映像再生装置の構成を示す図 である。
[図 2]図 2は、インデックス画像の第 1の例である。
[図 3]図 3は、システムコントローラ 4の機能を示す図である。
[図 4]図 4は、インデックス画像の第 2の例である。
[図 5]図 5は、インデックス画像の第 3の例である。
[図 6]図 6は、インデックス辞書の第 1の例である。
[図 7]図 7は、インデックス辞書の第 2の例である。
[図 8]図 8は、インデックス表示手段 106によってカ卩ェされたインデックス画像の第 1の 例である。
[図 9]図 9は、インデックス表示手段 106によってカ卩ェされたインデックス画像の第 2の 例である。
[図 10]図 10は、インデックス表示手段 106によってカ卩ェされたインデックス画像の第 3の例である。
[図 11]図 11は、インデックス辞書の第 3の例である。
[図 12]図 12は、インデックス辞書とともに記憶手段 107に記憶される情報の一例であ る。
符号の説明
[0030] 1 ディジタル映像再生装置
2 DVDドライブ
3 バッファ
4 システムコントローラ 10 インデックス画像
20 背景表示
21〜25 選択用ボタン
51〜55 アンダーライン
61〜65 発話マーク
71、 72 符号
81〜85 符号
101 文字情報認識手段
102 インデックス辞書作成手段
103 符号付加手段
104 音声認識手段
105 再生制御手段
106 インデックス表示手段
107 記憶手段
発明を実施するための最良の形態
[0031] 以下、図面を参照しながら、本発明の一実施形態に係るディジタル映像再生装置 について説明する。
[0032] 図 1にお 、て、ディジタル映像再生装置 1は、 DVDビデオを再生できる DVDドライ ブ 2と、 DVDドライブ 2によって再生された映像を一時的に記憶するバッファ 3と、ディ ジタル映像再生装置 1を全体的に制御するシステムコントローラ 4と、映像を表示する 表示装置 5と、ユーザが音声入力を開始しょうとするときに押すボタン 6と、音声を入 力するためのマイク 8と、マイク 8からのアナログ音声信号をディジタル音声信号に変 換する ADC (Analog to Digital Converter) 7とを備えている。なお、 DVDドラ イブ 2やマイク 8は必ずしもディジタル映像再生装置 1に内蔵されて ヽる必要はな ヽ。
[0033] ユーザがディジタル映像コンテンツ(ここでは DVDビデオとする)を記録した DVD を DVDドライブ 2に装着すると、初期画面として DVDビデオから図 2に示すようなィ ンデッタス画像が読み出されて表示装置 5に表示される。 DVDビデオは複数のチヤ プターに区分されており、インデックス画像には各チャプターを選択するための選択 用ボタン 21〜25が表示される。なお、選択用ボタンは必ずしも図 2のようなボタンに 限らず、選択用ボタンの輪郭が表示されない (すなわち背景と同一色)場合や、チヤ プターの先頭の映像の縮小画像を選択用ボタンとして利用する場合もある。なお、図 2の 20は選択用ボタンではなく背景表示の一部である。図 2は、 DVDビデオが 5つ のチャプターで構成されている場合の例を示している。ユーザは、図示しない入力装 置を用いて、このチャプターの一覧力 所望のチャプターを選択することによって、そ のチャプターから DVDビデオをを再生することができる。
[0034] 選択用ボタン 21〜25に表示されているチャプター名(「an entrance ceremony 」、「an excursion」など)は、 DVDビデオにテキスト情報(文字コード)としては含ま れておらず、選択用ボタン 21〜25を含むインデックス画像が単なる画像情報として DVDビデオに記憶されているに過ぎない。インデックス画像のうち、どの領域がどの 選択用ボタンに対応するかを区別するための情報は、 DVDビデオに記憶されて 、る
[0035] 次に、図 5を用いてシステムコントローラ 4の機能について説明する。システムコント ローラ 4は、マイコン、 DSP、メモリーなどのハードウェアと、 ROMなどに記憶されたソ フトウエアとの組み合わせによって実現され、画像情報内の文字認識処理や、音声 認識処理や、チャプターの再生処理などを行う。具体的には、システムコントローラ 4 は、文字情報認識手段 101、インデックス辞書作成手段 102、符号付加手段 103、 音声認識手段 104、再生制御手段 105、インデックス表示手段 106および記憶手段 107として機能する。以下、各手段について詳細に説明する。
[0036] 文字情報認識手段 101は、 DVDドライブ 2から読み出されたインデックス画像に含 まれている図 2の選択用ボタン 21〜25 (すなわち各チャプターを選択するための画 像領域)から文字認識処理によって文字情報を抽出する。なお、文字情報認識手段 101は、文字認識処理によって抽出された文字情報が英語か否かを判断する機能 を有しており、ここで英語の文字情報が抽出された力否かに応じて、この後の処理手 順が変化する。なお、ここではディジタル映像再生装置 1が英語圏で使用されること を前提として説明しているが、例えばディジタル映像再生装置 1が日本語圏で使用さ れる場合には、 日本語の文字情報が抽出されたカゝ否かに応じて、この後の処理手順 が変化することになる。すなわち、より一般的には、文字情報認識手段 101は、文字 認識処理によって抽出された文字情報が特定の言語か否かを判断する機能を有し ていればよい。
[0037] 文字情報認識手段 101において英語の文字情報が抽出された場合には、文字情 報認識手段 101は、抽出した文字情報をテキストデータとしてインデックス辞書作成 手段 102へ出力する。一方、英語の文字情報が抽出されな力つた場合 (すなわち、 文字情報が何ら抽出されな力つた場合もしくは英語以外の文字情報が抽出された場 合)には、文字情報認識手段 101は、符号付加手段 103に対して符号付加処理を依 頼する。例えば、図 4のように選択用ボタンにおいてチャプター名が日本語で表示さ れている場合や、図 5のように選択用ボタンがチャプターの先頭映像の縮小画像 (サ ムネイル)である場合に、文字情報認識手段 101は符号付加手段 103に符号付加処 理を依頼することになる。
[0038] なお、文字情報認識手段 101にお ヽて利用される文字認識技術としては、公知の 任意の技術を用いることができる。
[0039] 符号付加手段 103は、英語の文字情報が含まれていない選択用ボタンに対して予 め定めた規則に従って番号などの符号を割り当て、各選択用ボタンに割り当てた符 号に対応するテキストデータをインデックス辞書作成手段 102へ出力する。
[0040] インデックス辞書作成手段 102は、文字情報認識手段 101から出力されたテキスト データ(「入学式」、「遠足」など)または符号付加手段 103から出力されたテキストデ ータ(「1」、「2」など)に基づいて、音声認識手段 104による音声認識処理に利用可 能なインデックス辞書を作成する。以下、インデックス辞書作成手段 102の処理をより 具体的に説明する。
[0041] インデックス辞書作成手段 102は、まず、文字情報認識手段 101または符号付カロ 手段 103から出力されたテキストデータの中に同一のテキストデータが無いかどうか をチェックし、同一のテキストデータがある場合は、それらのテキストデータを区別でき るようにテキストデータの後ろに数字 (より正確には数字に対応するテキストデータ)等 を追加する。例えば、インデックス辞書作成手段 102に入力されるテキストデータの 中に「an excursion が 2つあった場合には、一方を「excursion' one」に、他方を「 excursion' two」に変換する。
[0042] インデックス画像に含まれて 、る全ての選択用ボタンにっ 、てテキストデータが作 成できたら、インデックス辞書作成手段 102は、これらのテキストデータを用いて音声 認識処理用のインデックス辞書を作成し、記憶手段 107に記憶する。記憶手段 107 は、電源が切れても記憶内容を保持し続ける不揮発性の記憶手段であってもよ ヽし 、電源が切れれば記憶内容が失われる揮発性の記憶手段であってもよい。インデッ タス辞書には、テキストデータと関連付けて、対応する選択用ボタンのインデックス画 像における表示位置も同時に記録される。図 6は、図 2のインデックス画像に基づい て作成されるインデックス辞書の内容を示している。図 7は、図 4または図 5のインデッ タス画像に基づ ヽて作成されるインデックス辞書の内容を示して!/、る。
[0043] なお、インデックス辞書作成手段 102は、前述のように同一のテキストデータが複数 存在していたことからテキストデータに数字等を追加したものについては、数字等を 追加した後のものをテキストデータとして記録すると同時に、この記録されているテキ ストデータが本来のテキストデータに数字等を追加したものであることを示す情報 (フ ラグ)をこのテキストデータと関連付けてインデックス辞書に記録する。
[0044] インデックス表示手段 106は、インデックス画像に含まれる各選択用ボタンを選択 するためにユーザが発声すべき言葉をユーザに提示するための表示制御を行う。よ り具体的には、文字情報認識手段 101によって英語として認識された文字列につい ては、必要に応じてインデックス画像におけるその文字列の表示位置を文字情報認 識手段 101から取得し、図 8のように文字列にアンダーライン 51〜55を引いたり、文 字列を枠で囲ったり、文字列の近くにその文字列が発話すべき文字列であることを示 す発話マーク 61〜65を付加したりすることによって、その文字列を強調する。また、 インデックス辞書作成手段 102において、そのテキストデータに数字等を追加した文 字列については、図 9のようにその文字列の後に数字(71、 72)を追加表示する。ま た、文字情報認識手段 101によって英語以外の言語として認識された文字列につい ては、図 10のように符号付加手段 103によってこの文字列に割り当てられた符号 (8 1〜85)を追加表示する。このようなインデックス表示手段 106の処理の結果、ユーザ はインデックス画面にぉ 、て所望のチャプターを選択した 、ときにどの文字列を発声 すれば良!、かが一目で分力るようになる。
[0045] ユーザが音声入力を開始するためにボタン 6を押すと、ボタン 6から音声認識開始 信号 S1が出力される。音声認識手段 104は、音声認識開始信号 S1を受信すると、 ADC7を通じて取り込まれる音声データ D1と記憶手段 107に記憶されているインデ ックス辞書を用いて音声認識処理を行う。この音声認識処理の結果、インデックス辞 書にお 、て音声データ D1に対応するテキストデータが見つ力つた場合には、音声 認識手段 104はインデックス辞書力もこのテキストデータに対応する選択用ボタンの 表示位置情報を取得して、これを再生制御手段 105に出力する。
[0046] 再生制御手段 105は、音声認識手段 104から受け取った表示位置情報からチヤプ ターを特定し、そのチャプターの再生を開始する。
[0047] なお、 日本語圏において、文字情報認識手段 101が、文字認識処理によって抽出 された文字情報が日本語か否かを判断する機能を有しており、 日本語においてイン デッタス画像に含まれるチャプター名の文字が漢字によって表記されて 、る場合に は、発音される文字列と同じ辞書を作るために、インデックス辞書作成手段 102は、 まず、文字情報認識手段 101または符号付加手段 103から出力されたテキストデー タをカタカナデータ(「二ユウガクシキ」、「ェンソク」、「イチ」、「二」など)に変換する。ィ ンデッタス辞書には、カタカナデータと関連付けて、文字情報認識手段 101および符 号付加手段 103から出力されたテキストデータや、対応する選択用ボタンのインデッ タス画像における表示位置も同時に記録される。図 11は、図 4のインデックス画像に 基づ 1、て作成されるインデックス辞書の内容を示して!ヽる。
[0048] 以上のようなシステムコントローラ 4の機能により、ユーザはインデックス画像に含ま れている選択用ボタンから任意の選択用ボタンを音声で選択して、その選択用ボタ ンに対応するチャプターの視聴を開始することができる。このように、本実施の形態に よれば、チャプターを音声で選択することができるため、特に車載用の DVD再生装 置として特に有用である。また、本実施の形態にさらにナビゲーシヨン機能を追加す ることによって、ディジタル映像コンテンツの再生機能を備えたナビゲーシヨン装置と してちよい。 [0049] なお、記憶手段 107として不揮発性の記憶手段を利用し、インデックス辞書作成手 段 102によって作成したインデックス辞書を、ディジタル映像再生装置 1の電源を切 つた後も保持しておくようにすれば、ディジタル映像再生装置 1の電源を一度切って 力も入れ直したときに、記憶手段 107に過去に記憶されたデータを使用することがで きるので、ディジタル映像再生装置 1の使い勝手を向上することができる。以下、記憶 手段 107として不揮発性の記憶手段を利用した応用例について説明する。
[0050] この応用例においては、インデックス辞書作成手段 102によって作成されたインデ ックス辞書は、図 12に示すように、 DVDビデオのタイトルや DVDに固有の情報や他 の付加情報と関連付けて記憶手段 107に記録される。 DVDに固有の情報としては、 例えば、 DVDに記録されて 、るデータの大きさや映像の時間やチャプター数などで ある。また、再生制御手段 105は、チャプターの再生を行ったときに、その再生日時 をそのチャプターに対応する選択用ボタンの表示位置情報と関連づけて再生履歴 情報として記憶手段 107に記憶する。また、ユーザがチャプターの途中で再生を停 止した場合には、再生制御手段 105は、停止時点における映像のタイムカウンター 値を再生時の日時と関連づけて再生履歴情報として記憶手段 107に記憶する。
[0051] ディジタル映像再生装置 1の電源が投入されると、システムコントローラ 4は、まず D VDドライブ 2に DVDが挿入されて!、るかを確認する。 DVDドライブ 2に DVDが挿入 されていた場合には、システムコントローラ 4は、記憶手段 107に記憶されている図 1 2のような情報を参照して、現在 DVDドライブ 2に挿入されている DVDが過去に挿入 されたことのある DVDかどうかを確認する。そして、現在 DVDドライブ 2に挿入されて いる DVDが過去に挿入されたことのある DVDであった場合は、過去に作成したイン デッタス辞書を利用して音声認識処理を実行し、初めて挿入された DVDであった場 合は、インデックス画像力もインデックス辞書を作成して記憶手段 107に記憶し、この インデックス辞書を利用して音声認識処理を実行する。これにより、過去に利用したこ とのある DVDについてはインデックス辞書を改めて作成する手間が省けるため、 DV Dドライブ 2に DVDを挿入して力 音声によってチャプターを選択可能となるまでに 時間を短縮することができる。
[0052] また、記憶手段 107に記憶されて 、る再生日時情報を利用すれば、チャプター毎 に過去に再生した力否かを示す情報をインデックス表示手段 106によってインデック ス画像に付加して力も表示装置 5に表示させることもできる。
[0053] また、記憶手段 107に記憶されているカウンター値情報を利用すれば、ユーザが過 去に再生を途中で停止したチャプターを再び選択したときに、その停止時点からチヤ プターの再生を開始することができる。
[0054] なお、本実施の形態では、 DVDに記録されたディジタル映像コンテンツを再生す る場合を例に説明したが、本発明はこれに限らず、他の記録媒体に記録されたディ ジタル映像コンテンツを再生する場合や、通信回線を通じて供給されるディジタル映 像コンテンツを再生する場合や、放送波によって供給されるディジタル映像コンテン ッを再生する場合にも、本発明を同様に適用することができる。なお、ディジタル TV のコンテンツなどのように、映像中の選択用ボタンに対応するテキスト情報がコンテン ッ自体に予め含まれている場合には、文字情報認識手段 101による文字認識処理 を行うことなしに、インデックス辞書作成手段 102はそのテキスト情報を用いてインデ ックス辞書を作成すればょ ヽ。
産業上の利用可能性
[0055] 車両搭載用のナビゲーシヨンシステムには音声認識機能を有するものが多く存在し 、 DVDの再生が可能なものが広く普及している。このようなシステムに本発明のディ ジタル信号カゝら音声認識で使用できる辞書を作成する手段を追加することにより、ド ライバが運転中であっても音声によって安全にチャプターの選択を行うことができ、特 に車載用として有用である。

Claims

請求の範囲
[1] ディジタル映像コンテンツを再生するためのディジタル映像再生装置であって、 ディジタル映像コンテンツの信号に基づいて音声認識処理に利用可能な辞書を作 成する辞書作成手段と、
前記辞書作成手段によって作成された辞書を用いて音声認識処理を行う音声認 識手段と、
前記音声認識手段の音声認識結果に基づいてディジタル映像コンテンツの再生 制御を行う再生制御手段とを備えた、ディジタル映像再生装置。
[2] ディジタル映像コンテンツの映像信号に含まれている、当該ディジタル映像コンテ ンッの再生位置をユーザに選択させるための再生位置選択用画像から、文字情報を 認識する文字情報認識手段をさらに備え、
前記辞書作成手段は、前記文字情報認識手段によって認識された文字情報を用 Vヽて、ユーザに再生位置を音声で選択させるためのインデックス辞書を作成すること を特徴とする、請求項 1に記載のディジタル映像再生装置。
[3] 前記再生位置選択用画像を表示装置に表示するときに、当該再生位置選択用画 像に基づいて前記インデックス辞書に登録された文字情報に対応する文字列部分を 、前記文字情報認識手段の認識結果に基づ!、て強調表示するインデックス表示手 段をさらに備えることを特徴とする、請求項 2に記載のディジタル映像再生装置。
[4] 前記文字情報認識手段によって認識された文字情報を、過去に利用したディジタ ル映像コンテンツのチャプター情報として不揮発的に記憶する不揮発性記憶手段を さらに備えることを特徴とする、請求項 2に記載のディジタル映像再生装置。
[5] 前記不揮発性記憶手段は、前記文字情報認識手段によって認識された文字情報 を、当該文字情報に対応する前記ディジタル映像コンテンッの部分が過去に再生さ れたかどうかを示す履歴情報とともに記憶することを特徴とする、請求項 4に記載の ディジタル映像再生装置。
[6] 前記不揮発性記憶手段は、前記文字情報認識手段によって認識された文字情報 を、前記履歴情報とともに、当該文字情報に対応する前記ディジタル映像コンテンツ の部分が再生された日時とともに記憶することを特徴とする、請求項 5に記載のディ ジタル映像再生装置。
[7] 前記辞書作成手段は、前記文字情報認識手段によって認識された文字情報の字 数が予め定めた閾値を超えていた場合に、当該文字情報の字数を短くしたものを用 Vヽて前記インデックス辞書を作成することを特徴とする、請求項 2に記載のディジタル 映像再生装置。
[8] 前記文字情報認識手段によって認識された文字情報が日本語かどうかを判断する 言語判断手段と、
前記文字情報認識手段によって文字情報が認識されな力つた場合もしくは前記文 字情報認識手段によって認識された文字情報が英語でな力つた場合に、前記再生 位置選択用画像に対して予め定めた規則に従って符号を付加する符号付加手段と 前記符号付加手段によって符号の付加された再生位置選択用画像を表示装置に 表示させるインデックス表示手段とをさらに備え、
前記辞書作成手段は、前記文字情報認識手段によって認識された英語の文字情 報と、前記符号付加手段によって再生位置選択用画像に付加された符号とを用いて 、ユーザに再生位置を音声で選択させるためのインデックス辞書を作成することを特 徴とする、請求項 2に記載のディジタル映像再生装置。
[9] ディジタル映像コンテンツの映像信号に含まれている、当該ディジタル映像コンテ ンッの再生位置をユーザに選択させるための再生位置選択用画像に対して、予め 定めた規則に従って符号を付加する符号付加手段と、
前記符号付加手段によって符号の付加された再生位置選択用画像を表示装置に 表示させるインデックス表示手段とをさらに備え、
前記辞書作成手段は、前記符号付加手段によって再生位置選択用画像に付加さ れた符号を用いて、ユーザに再生位置を音声で選択させるためのインデックス辞書 を作成することを特徴とする、請求項 1に記載のディジタル映像再生装置。
[10] 前記辞書作成手段は、ディジタル映像コンテンツの信号に含まれている、当該ディ ジタル映像コンテンツの再生位置をユーザに選択させるためのテキスト情報を用いて
、ユーザに再生位置を音声で選択させるためのインデックス辞書を作成することを特 徴とする、請求項 1に記載のディジタル映像再生装置。
PCT/JP2005/020300 2004-11-08 2005-11-04 ディジタル映像再生装置 WO2006049249A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US11/666,678 US7953602B2 (en) 2004-11-08 2005-11-04 Digital video reproducing apparatus for recognizing and reproducing a digital video content
EP05805411A EP1811776B1 (en) 2004-11-08 2005-11-04 Digital video reproduction apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004323970A JP3824168B2 (ja) 2004-11-08 2004-11-08 ディジタル映像再生装置
JP2004-323970 2004-11-08

Publications (1)

Publication Number Publication Date
WO2006049249A1 true WO2006049249A1 (ja) 2006-05-11

Family

ID=36319249

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/020300 WO2006049249A1 (ja) 2004-11-08 2005-11-04 ディジタル映像再生装置

Country Status (5)

Country Link
US (1) US7953602B2 (ja)
EP (1) EP1811776B1 (ja)
JP (1) JP3824168B2 (ja)
CN (1) CN100536552C (ja)
WO (1) WO2006049249A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101606384B (zh) * 2007-12-07 2011-01-12 索尼株式会社 图像处理装置、运动图像再现装置及其处理方法
US7929764B2 (en) 2007-06-15 2011-04-19 Microsoft Corporation Identifying character information in media content

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2123030A1 (en) * 2006-12-14 2009-11-25 Koninklijke Philips Electronics N.V. System and method for reproducing and displaying information
CN101472082B (zh) * 2007-12-25 2012-07-25 新奥特(北京)视频技术有限公司 一种场记系统和方法
KR20120080069A (ko) * 2011-01-06 2012-07-16 삼성전자주식회사 디스플레이 장치 및 그 음성 제어 방법
KR101295711B1 (ko) * 2011-02-15 2013-08-16 주식회사 팬택 음성 인식으로 애플리케이션의 실행 가능한 이동통신 단말 장치 및 방법
CN105340003B (zh) * 2013-06-20 2019-04-05 株式会社东芝 语音合成字典创建装置以及语音合成字典创建方法
JP6739907B2 (ja) * 2015-06-18 2020-08-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器特定方法、機器特定装置及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101805A (ja) * 1999-10-04 2001-04-13 L & G Kikaku:Kk 音声認識自在な記録再生装置
JP2002041081A (ja) * 2000-07-28 2002-02-08 Sharp Corp 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
JP2003230094A (ja) * 2002-02-06 2003-08-15 Nec Corp チャプター作成装置及びデータ再生装置及びその方法並びにプログラム
JP2006018336A (ja) * 2004-06-30 2006-01-19 Toshiba Corp メタデータ生成装置および方法、メタデータ生成プログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5031206A (en) * 1987-11-30 1991-07-09 Fon-Ex, Inc. Method and apparatus for identifying words entered on DTMF pushbuttons
JPH02253369A (ja) * 1989-03-28 1990-10-12 Canon Inc 電子辞書
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5809471A (en) * 1996-03-07 1998-09-15 Ibm Corporation Retrieval of additional information not found in interactive TV or telephony signal by application using dynamically extracted vocabulary
KR100217179B1 (ko) * 1997-03-25 1999-09-01 윤종용 디지털비디오디스크 재생장치에서의 메뉴재생방법
JPH1141538A (ja) 1997-07-17 1999-02-12 Nec Home Electron Ltd 音声認識文字表示装置
DE69712485T2 (de) * 1997-10-23 2002-12-12 Sony Int Europe Gmbh Sprachschnittstelle für ein Hausnetzwerk
US6408128B1 (en) * 1998-11-12 2002-06-18 Max Abecassis Replaying with supplementary information a segment of a video
US6314398B1 (en) * 1999-03-01 2001-11-06 Matsushita Electric Industrial Co., Ltd. Apparatus and method using speech understanding for automatic channel selection in interactive television
US6643620B1 (en) * 1999-03-15 2003-11-04 Matsushita Electric Industrial Co., Ltd. Voice activated controller for recording and retrieving audio/video programs
JP2001028722A (ja) * 1999-07-13 2001-01-30 Matsushita Electric Ind Co Ltd 動画像管理装置及び動画像管理システム
DE60120062T2 (de) * 2000-09-19 2006-11-16 Thomson Licensing Sprachsteuerung von elektronischen Geräten
CN1266670C (zh) * 2001-06-22 2006-07-26 皇家菲利浦电子有限公司 具有语音控制装置和测试语音控制装置功能的测试装置的器件
US20030069734A1 (en) * 2001-10-05 2003-04-10 Everhart Charles Allen Technique for active voice recognition grammar adaptation for dynamic multimedia application
US20040177317A1 (en) * 2003-03-07 2004-09-09 John Bradstreet Closed caption navigation
US7437296B2 (en) * 2003-03-13 2008-10-14 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation apparatus and information search apparatus
US7508984B2 (en) * 2003-07-31 2009-03-24 Ricoh Company, Ltd. Language recognition method, system and software
US20060075429A1 (en) * 2004-04-30 2006-04-06 Vulcan Inc. Voice control of television-related information
US20070143117A1 (en) * 2005-12-21 2007-06-21 Conley Kevin M Voice controlled portable memory storage device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101805A (ja) * 1999-10-04 2001-04-13 L & G Kikaku:Kk 音声認識自在な記録再生装置
JP2002041081A (ja) * 2000-07-28 2002-02-08 Sharp Corp 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
JP2003230094A (ja) * 2002-02-06 2003-08-15 Nec Corp チャプター作成装置及びデータ再生装置及びその方法並びにプログラム
JP2006018336A (ja) * 2004-06-30 2006-01-19 Toshiba Corp メタデータ生成装置および方法、メタデータ生成プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1811776A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7929764B2 (en) 2007-06-15 2011-04-19 Microsoft Corporation Identifying character information in media content
CN101606384B (zh) * 2007-12-07 2011-01-12 索尼株式会社 图像处理装置、运动图像再现装置及其处理方法

Also Published As

Publication number Publication date
US7953602B2 (en) 2011-05-31
CN101057497A (zh) 2007-10-17
CN100536552C (zh) 2009-09-02
EP1811776B1 (en) 2011-06-01
JP2006134506A (ja) 2006-05-25
EP1811776A4 (en) 2009-10-28
EP1811776A1 (en) 2007-07-25
JP3824168B2 (ja) 2006-09-20
US20080208576A1 (en) 2008-08-28

Similar Documents

Publication Publication Date Title
WO2006049249A1 (ja) ディジタル映像再生装置
JP3248981B2 (ja) 計算機
US5999695A (en) Multilingual recording medium and reproduction apparatus
US20090119108A1 (en) Audio-book playback method and apparatus
US20040102955A1 (en) DVD driver for language study and method of processing audio streams thereof
JP2007503747A (ja) リアルタイムのメディア辞書
US20070016846A1 (en) Apparatus and method for reproducing text file in digital video device
US20070087312A1 (en) Method for separating sentences in audio-video display system
JP2004325905A (ja) 外国語学習装置および外国語学習プログラム
JP4970392B2 (ja) 音声の録音と再生方法及び該方法を用いる電子辞書
JP4994182B2 (ja) オーディオ装置
KR20010099450A (ko) 음악파일 재생장치
JP2007149163A (ja) コンテンツ再生装置
JP7009338B2 (ja) 情報処理装置、情報処理システム、および映像装置
KR101074018B1 (ko) 학습 보조 장치
JP5295699B2 (ja) 車載用オーディオ装置
KR970071761A (ko) 비디오 콤팩트 디스크 플레이어에서의 어학 학습을 위한 재생 방법
KR20010054297A (ko) 디지탈동영상 맵핑방법 및 이것을 이용한 반복재생방법
KR20050106246A (ko) 엠펙 플레이어에 있어서 데이터 검색 방법
JP2001312288A (ja) 音楽データ処理装置
KR20040062317A (ko) 오디오 데이터 파일의 부가 정보 음성 안내방법
KR970071662A (ko) 비디오 콤팩트 디스크 플레이어에서의 어학 학습을 위한 재생방법
JP2006208514A (ja) 二ヶ国語で入力し得るカラオケ選曲用キーボードを備えたカラオケ装置及びその装置における選曲方法
US20080126419A1 (en) Method for providing file information according to selection of language and file reproducing apparatus using the same
KR970071661A (ko) 비디오 콤팩트 디스크 플레이어에서의 어학 학습을 위한 재생 방법

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KM KN KP KR KZ LC LK LR LS LT LU LV LY MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 11666678

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2005805411

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 200580038147.9

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 2005805411

Country of ref document: EP