CN100489842C - 分布式文件检索方法、装置、程序及记录该程序的记录介质 - Google Patents
分布式文件检索方法、装置、程序及记录该程序的记录介质 Download PDFInfo
- Publication number
- CN100489842C CN100489842C CNB021060347A CN02106034A CN100489842C CN 100489842 C CN100489842 C CN 100489842C CN B021060347 A CNB021060347 A CN B021060347A CN 02106034 A CN02106034 A CN 02106034A CN 100489842 C CN100489842 C CN 100489842C
- Authority
- CN
- China
- Prior art keywords
- retrieval
- retrieval server
- server
- version
- document retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Abstract
本发明是通过对存储有多个文件的数据库进行文件检索的多个检索服务器以及通信连接到这些检索服务器、对各检索服务器进行检索指示的综合检索服务器进行文件检索的分布式文件检索方法,各检索服务器将根据由检索操作获得的中间结果生成的统计信息发送到综合检索服务器,综合检索服务器对所述统计信息进行合计,生成全局统计信息并发送到各检索服务器,各检索服务器根据所述全局统计信息计算记分,把符合各个检索条件的检索结果返回到综合检索服务器。通过上述操作,能够实现正确而有效的检索文件间的排序,提升文件检索的质量。
Description
技术领域
本发明涉及分布式文件检索方法及装置,具体地说,涉及能够高效且高速进行文件检索的分布式文件检索方法及装置。
背景技术
传统的文件检索装置有例如特开平9-319757号公报或10-21250号公报记载的装置。特开平9-319757号公报的文件检索装置,在各检索服务器中进行封闭的记分计算和排序,并分别返回前M件。
另外,特开平10-21250号公报的文件检索装置提供了利用一个以上的搜索引擎、使用来自一个以上的服务器的可利用的多个数据库的文件检索方法。
但是,上述的传统技术中,特开平9-319757号公报的文件检索装置的技术中有排序结果不正确的缺点。另外,特开平10-21250号公报的文件检索装置的技术中虽然记分计算、排序结果正确,但是由于各检索服务器找到的全部记录的信息返回时效率低下,有不现实的缺点。
发明内容
本发明的分布式文件检索方法,通过多个检索服务器和综合这些检索服务器的综合检索服务器进行文件检索时,各检索服务器将根据由检索操作获得的中间结果生成的统计信息发送到综合检索服务器,综合检索服务器对所述统计信息进行合计,生成全局统计信息并发送到各检索服务器,各检索服务器根据所述全局统计信息计算正确的记分,把符合各个检索条件的检索结果返回到综合检索服务器,从而获得能够在文件检索时进行更确切有效的文件检索的效果。
具有上述结构的本发明的各种形态中,本发明是通过对存储有多个文件的数据库进行文件检索的多个检索服务器以及通信连接到这些检索服务器、对各检索服务器进行检索指示的综合检索服务器进行文件检索的分布式文件检索方法,各检索服务器将根据由检索操作获得的中间结果生成的统计信息发送到综合检索服务器,综合检索服务器对所述统计信息进行合计,生成全局统计信息并发送到各检索服务器,各检索服务器根据所述全局统计信息计算记分,把符合各个检索条件的检索结果返回到综合检索服务器。从而,获得能够在文件检索时进行更确切有效的文件检索的作用和效果。
另外,本发明作为分布式文件检索装置,由对存储有多个文件的数据库进行文件检索的多个检索服务器以及通信连接到这些检索服务器、对各检索服务器进行检索指示的综合检索服务器构成,所述检索服务器包括:对数据库进行检索操作的检索单元;保持检索操作获得的中间结果的单元;根据中间结果生成并输出统计信息的统计信息输出单元;向检索的各文件赋予记分的记分计算单元,另外,所述综合检索服务器包括对多个检索服务器发送来的统计信息进行合计的统计信息合计单元,在所述综合检索服务器生成全局统计信息并发送到各检索服务器,各检索服务器根据所述全局统计信息计算正确的记分,把符合各个检索条件的检索结果返回到综合检索服务器。从而,能够简洁且高速地进行操作,获得能够在文件检索时进行更确切有效的文件检索的作用和效果。
另外,在上述结构的基础上,最好所述综合检索服务器还包括:根据统计信息合计单元合计的统计信息生成综合版本的单元;进行综合版本的更新的综合版本更新单元;进行综合版本的管理的综合版本管理单元,另外,最好所述检索服务器还包括:进行数据库版本的更新的综合版本更新单元;进行版本管理的版本管理单元。
而且,本发明是为了通过对存储有多个文件的数据库进行文件检索的多个检索服务器以及使这些检索服务器通信连接、对各检索服务器进行检索指示的综合检索服务器进行文件检索,执行包含有多个步骤的处理的程序以及记录该程序的计算机可读取的记录介质。所述的多个步骤为:各检索服务器将根据由检索操作获得的中间结果生成的统计信息发送到综合检索服务器的步骤;综合检索服务器对所述统计信息进行合计,生成全局统计信息并发送到各检索服务器的步骤;各检索服务器根据所述全局统计信息计算记分,把符合各个检索条件的检索结果返回到综合检索服务器的步骤。从而,获得能够在文件检索时进行更确切有效的文件检索的作用和效果。
如上所述,根据本发明,能够获得在文件检索时进行更确切有效的文件检索的效果。
从而,本发明的目的在于提供,在文件检索时进行有效且正确的检索文件间的排序、能够提升文件检索质量的文章检索方法以及采用该方法的分布式文件检索方法及装置。
通过参照附图进行说明的以下的实施例,将明白本发明的目的和优点。
附图说明
图1是表示本发明实施例1的分布式文件检索装置的结构的方框图。
图2是表示上述实施例中进行文件检索处理操作时,客户机、综合检索服务器、检索服务器间的操作顺序的顺序图。
图3是表示上述实施例中的检索要求的数据结构的图。
图4是表示上述实施例中的中间结果的数据内容的一个例子的图。
图5是表示上述实施例中统计信息输出单元合计并求出的出现有各检索词的文件数的图。
图6是表示上述实施例中登记在综合版本管理表的综合版本数据的例子的图。
图7是表示上述实施例中进行检索要求、检索执行、统计信息生成、合计等处理操作的数据库中经过一段时间后版本变迁的一个例子的图。
图8是表示实施例2中进行文件检索处理操作时,客户机、综合检索服务器、检索服务器间的操作顺序的顺序图。
图9是表示上述实施例中的检索要求的数据结构的图。
图10是为了概括说明本发明的上述各实施例中的分布式文件检索处理的操作顺序、由综合检索服务器进行的处理的总流程图。
图11是所述综合检索服务器进行检索指示处理的流程图。
图12是所述综合检索服务器进行合计、更新处理的流程图。
图13是为了概括说明本发明的上述各实施例中的分布式文件检索处理的操作顺序、由检索服务器进行的处理的总流程图。
图14是所述检索服务器进行检索、统计处理的流程图。
图15是所述检索服务器进行记分计算处理的流程图。
图16是为了概括说明本发明的上述各实施例中的分布式文件检索处理的操作顺序、由客户终端进行的处理的总流程图。
具体实施方式
(实施例1)
以下,参照图面说明本发明的实施例。图1是表示本发明实施例1的分布式文件检索装置的结构的方框图。图1中,1是综合检索服务器,2是检索服务器,本实施例中设置有多个检索服务器2a、2b。3是客户机,输出文件检索的要求并接收文件检索的结果。综合检索服务器1和检索服务器2相互进行通信连接,以便进行文件检索数据的收发。检索服务器2a、2b具有存储有大量文件的数据库,对各个数据库存储的文件进行文件检索。综合检索服务器1对从多个检索服务器2发送来的文件检索结果进行合计并把全部文件检索结果提交给客户机(用户)。
图1的综合检索服务器1中,11是接收客户机3的指令并输入检索条件的检索条件输入单元,12是把输入的检索条件发送到检索服务器2的检索条件发送单元,13是接受并合计检索服务器发送来的统计信息的统计信息合计单元,14是按照所定的规则把检索服务器2发送来的检索结果重排的重排单元,15是把检索结果发送到客户机3的检索结果输出单元。另外,16是对统计合计单元13中获得的合计结果生成的检索结果的综合版本进行更新的综合版本更新单元,17是管理综合版本的综合版本管理表,18是参照综合版本、将其结果输出到检索条件发送单元12的综合版本参照单元。另外,综合版本管理表17是综合检索服务器1中的存储器的数据存储区域。
另外,图1的检索服务器2(代表2a,但是2b也采用同样结构)中,21是接收综合检索服务器1的检索条件并输入自己的检索条件的检索条件输入单元,22是根据输入的检索条件进行检索操作的检索单元,23是存储大量文件的数据库,24是由检索单元22进行检索的结果而获得的文件检索过程中的结果的中间结果,25是根据中间结果对各检索的文件计算记分的记分计算单元,26是根据记分计算单元25的记分计算结果对检索结果进行重排的检索结果重排单元,27是把检索结果发送到综合检索服务器的检索结果输出单元。另外,28是从中间结果24生成统计信息并将该统计信息发送到统计检索服务器1的统计信息输出单元,29是管理检索服务器2a中的检索结果的版本的版本管理表,30是参照版本、将其结果输出到检索单元22的版本参照单元,31是对版本管理表29的内容进行更新的版本更新单元,32是变更中间结果时、释放变更前的中间结果的中间结果释放单元。另外,中间结果24及版本管理表29分别为检索服务器2a中的存储器的数据存储区域。
以下,说明具有根据本发明实施例的结构的分布式文件检索装置的文件检索操作。
图2是表示进行文件检索处理操作时,客户机3、综合检索服务器1、检索服务器2a及2b间的操作顺序的顺序图。首先,客户机3向综合检索服务器1输出检索要求41a。本实施例中,上述检索要求是该分布式文件检索装置的系统中对综合数据库C的最初的检索要求。另外,综合数据库C是把检索服务器2a上的数据库A23a和检索服务器2b上的数据库A23b连接在一起的虚拟数据库,而不是实际的数据库。图3是表示本实施例中的检索要求41a~41c的数据结构的图。从该数据结构图可以明显看出,检索要求41a的内容为,检索对象:综合数据库C
检索式:携带or电话or液晶
取得件数:20件
综合版本名:--
这里,“检索对象:综合数据库C”表示用户将综合数据库C作为检索对象。“检索式:携带or电话or液晶”是用根据该标记的检索式进行检索的要求。另外,“取得件数:20件”是指取文件记分按高低顺序排序为前20件的要求。另外,“综合版本名”在本检索要求41a中未指定。
接收上述检索要求41a的综合检索服务器1将检索条件输入检索条件输入单元11,通过综合版本参照单元18参照综合版本管理表17的综合版本数据后,由检索条件发送单元12将进一步的检索要求41a、41c发送到检索服务器2a和检索服务器2b。这时,由于要发送到综合检索服务器1的综合数据库C的检索要求还没有来过一次,所以不存在综合版本数据。因而,向检索服务器2a及2b发送版本名未指定的检索要求41b、41c的数据。具体地说,从图3可以明显看出,发送到检索服务器2a的检索要求41b的数据为,
检索对象:数据库A
检索式:携带or电话or液晶
取得件数:20件
综合版本名:--
另外,从图3可以明显看出,发送到检索服务器2b的检索要求41c的数据为,
检索对象:数据库B
检索式:携带or电话or液晶
取得件数:20件
综合版本名:--。
检索服务器2a及2b中,将上述检索条件输入检索条件输入单元21,作为检索操作42,由检索单元22对数据库A(检索服务器2a的情况)及数据库B(检索服务器2b的情况)进行检索。检索服务器2a及2b通过并行处理进行检索操作42。检索服务器2a中,在检索操作42时,版本参照单元30参照版本管理表29,可以知道数据库A23a的最新版本的版本名为0315且总文件数为30000。然后,检索单元22对该版本的数据库A23a进行检索,求出符合检索条件的文件号和各检索词在文件内的出现频度,存储到中间结果24的区域。
图4是表示上述中间结果的数据内容的一个例子的图。根据图的检索服务器2a在上述检索条件下检索的结果,可知文件号为3、5、24、......、29230的文件为符合检索的文件。这里,如果看到文件号“3”的文件,可知在该文件中“携带”存在1处、“电话”存在2处、“液晶”存在0处。文件号为“5”以下的文件也表示同样的内容。根据该中间结果,统计信息输出单元28合计出现各个检索词的文件数并生成统计信息。图5是表示上述统计信息输出单元合计并求出的出现有各检索词的文件数的图。从该图可知,作为上述中间结果合计的文件中,出现“携带”的文件数为125、出现“电话”的文件数为893、出现“液晶”的文件数为650。这里,出现文件的“数”意味着至少出现一次各检索词的文件的数,该文件中无论出现一次或多次,计数均为“1”。
然后,统计信息输出单元28向综合检索服务器1同时返回上述统计信息和检索时使用的最新版本的信息(版本名0315、总文件数30000)。然后,检索服务器2a等待综合检索服务器1求出的全局统计信息发送过来。
以上的检索服务器2a的一系列操作在检索服务器2b中并行地进行。如图2所示,从检索服务器2b在与检索服务器2a同样的检索条件下检索的结果,可以知道检索服务器2b的数据库B(即23b)的最新版本的版本名为0628且总文件数为40000。另外,根据通过检索操作42检索的文件生成的中间结果,可以知道出现“携带”的文件数为164、出现“电话”的文件数为320、出现“液晶”的文件数为220。
综合检索服务器1接收到检索服务器2a及2b的统计信息后进行统计信息合计操作43。该操作中,统计信息合计单元13将检索服务器2a及2b返回的出现各检索词的文件数相加(即合计),算出综合数据库C中出现各检索词的文件数。然后,综合检索服务器1根据上述合计结果进行综合版本管理表更新操作44。该综合版本管理表更新操作44中,综合版本更新单元16将综合数据库C的综合版本0001登记到综合版本管理表17。如上所述,检索开始时刻的综合检索服务器1的综合数据库C的综合版本数据并不存在。因而在该时刻,综合数据库C的综合版本0001首次登记到综合版本管理表17。
通过该登记处理,构成综合数据库C的综合版本0001的数据库A23a的版本名0315和数据库B23b的版本名0628以及各种总文件数的信息存储到综合版本管理表17。图6的上面一行是表示登记在上述综合版本管理表17的综合版本0001数据的图(下面一行数据是通过后处理生成的数据)。综合检索服务器1将如此求出的综合数据库C的综合版本0001的总文件数和出现各检索词的文件数发送到检索服务器2a、检索服务器2b。由于综合数据库C的综合版本0001的总文件数和出现各检索词的文件数包含了所有从检索服务器2发送来的文件数,因而可以称为全局统计信息。顺便指出,上述处理操作获得的全局统计信息若用图2进行说明,则检索使用的综合版本的总文件数为70000(30000+40000=70000)。另外,出现“携带”的文件数为289、出现“电话”的文件数为1213、出现“液晶”的文件数为870。
接收了综合数据库C的综合版本0001的总文件数和出现各检索词的文件数的检索服务器2a进行文件记分的计算操作45。该文件记分的计算操作45中,利用从综合检索服务器1发送来的全局统计信息,即综合数据库C的综合版本0001的总文件数和出现各检索词的文件数,对中间结果24的区域保存的中间结果的各个文件,记分计算单元25通过下式
S=Σ(tf*idf)
计算出文件记分S。这里tf是检索词在文件内的出现频度,
idf=log(出现检索词的文件数/总文件数)。
另外,上述文件记分S的计算式是一个范例,但并不局限于此。
根据该结果,检索结果重排单元26按照文件记分的升序重排文件号。而且,检索结果输出单元27将前20件文件号和文件记分返回综合检索服务器1。
以上的检索服务器2a的一系列操作也在检索服务器2b中并行地进行,也从该检索服务器2b的检索结果输出单元27将前20件文件号和文件记分返回综合检索服务器1。
综合检索服务器1中,检索结果重排单元14按照文件记分的升序重排检索服务器2a及检索服务器2b返回的合计40件的文件号。然后,检索结果输出单元15将文件记分前20件的结果和检索使用的综合数据库C的版本名0001返回客户机。
另外,在相同检索条件下求出文件记分在前21位以下的检索结果,或者想取得检索结果中选择的文件的实体的情况下,从客户机向综合检索服务器1发送指定综合版本名0001的检索要求(或取得实体的要求)。从而,通过固定于检索服务器2a中对应的数据库A23a的版本名0315、并且固定于检索服务器2b中对应的数据库B23b的版本名0628进行检索(或实体取得),能够获得一致性的结果。
图7是表示进行检索要求、检索执行、统计信息生成、合计等处理操作的数据库A23a及数据库B23b中版本随时间而变迁的一个例子的图。上述的操作相当于在图7中的时刻T1,用户将综合数据库C作为检索对象、以检索式“携带or电话or液晶”进行检索、取得文件记分的升序排序的前20件时的操作。因而,在该时刻T1,数据库A23a的最新版本的版本名为0315、另外数据库B23b的最新版本的版本名为0628,这与上述说明一致。
(实施例2)
以下,说明本发明的实施例2。在图7中的时刻T2,用户将综合数据库C作为检索对象,以另一个检索式“电视or数字的”进行检索,取得文件记分的升序排序的前20件。图8是表示进行上述文件检索处理操作时,客户机3、综合检索服务器1、检索服务器2a及检索服务器2b间的操作顺序的顺序图。首先,从客户机3向综合检索服务器1输出检索要求51a。该检索要求51a是对综合数据库C未指定综合版本名的检索要求。
图9是表示本实施例中的检索要求51a~51c的数据结构的图。从该数据结构图可以明显看出,检索要求51a的内容为,
检索对象:综合数据库C
检索式:电视or数字的
取得件数:20件
综合版本名:--。
接收上述检索要求51a的综合检索服务器1将检索条件输入检索条件输入单元11,通过综合版本参照单元18参照综合版本管理表17的综合版本数据,求出综合数据库C的最新的综合版本。此刻的最新的综合版本为“0001”(图8)。然后,综合检索服务器1通过检索条件发送单元12将进一步的检索要求51b、51c发送到检索服务器2a和检索服务器2b。这时,由于上述的最新的综合版本为“0001”,对检索服务器2a指定数据库A23a的版本0315并提出检索要求51b,另外,对检索服务器2b指定数据库B23b的版本0628并提出检索要求51c。这时,作为版本模式的“最新”要求一起发送。版本模式“最新”是指,如果有比发送的版本名更新的版本则对该版本进行检索,一起返回真正最新版本的信息,如果发送的版本名是最新版本,则不必返回该版本。
具体地说,从图9可以明显看出,发送到检索服务器2a的检索要求51b的数据为,
检索对象:数据库A
检索式:电视or数字的
取得件数:20件
版本名:0315
版本模式:最新,
另外,从图9可以明显看出,发送到检索服务器2b的检索要求51c的数据为,
检索对象:数据库B
检索式:电视or数字的
取得件数:20件
版本名:0628
版本模式:最新。
检索服务器2a及2b中,将上述检索条件输入检索条件输入单元21,作为检索操作52,由检索单元22对数据库A(检索服务器2a的情况)及数据库B(检索服务器2b的情况)进行检索。检索服务器2a及2b通过并行处理进行检索操作52。检索服务器2a中,在检索操作52时,版本参照单元30参照版本管理表29,可以知道数据库A23a的最新版本的版本名不是0315,而是0316,且总文件数为30100(图7)。然后,检索单元22对最新版本0316的数据库A23a进行检索,求出符合检索条件的文件号和各检索词在文件内的出现频度,存储到中间结果24的区域。
另外,由于本实施例的中间结果24与图4表示的实施例1的中间结果24可以用相同的形式表现,因而省略了在图中的表示。另外,如图5所示,统计信息输出单元28合计并求出的出现各检索词的文件数也可以用相同的形式表现,因而省略了在图中的表示。
然后,统计信息输出单元28向综合检索服务器1同时返回统计信息和检索时使用的最新版本的信息(版本名0316、总文件数30100)。然后,检索服务器2a等待综合检索服务器1求出的全局统计信息发送过来。
以上的检索服务器2a的一系列操作在检索服务器2b中并行地进行。如图7及图8所示,检索服务器2b在与检索服务器2a相同的情况下以检索要求51c的检索条件下检索的结果,可以知道数据库B23b的最新版本的版本名仍为0628且总文件数仍为40000。因而,检索单元22对最新版本0628的数据库B23b进行检索,另外,根据通过检索操作52检索的文件生成的中间结果24存储在中间结果区域。从而,从该中间结果24求出出现检索词的文件数,并由统计信息输出单元28将其返回综合检索服务器1。但是,不返回检索使用的版本0628的信息。
综合检索服务器1接收到检索服务器2a及2b的统计信息后进行统计信息合计操作53。该操作中,统计信息合计单元13将检索服务器2a及2b返回的出现各检索词的文件数相加(即合计),算出综合数据库C中出现各检索词的文件数。然后,综合检索服务器1根据上述合计结果进行综合版本管理表更新操作54。该综合版本管理表更新操作54中,综合版本更新单元16检查登记到综合版本管理表17的综合版本的个数是否超过一定值,如果超过一定值则从旧的综合版本开始删除。另外,综合版本更新单元16将综合数据库C的综合版本0002登记到综合版本管理表17。以此将构成综合数据库C的综合版本0002的数据库A23a的版本名0316和数据库B23b的版本名0628以及各种总文件数的信息存储到综合版本管理表17。
图6的下面一行是表示登记在上述综合版本管理表17的综合版本0002数据的图。综合检索服务器1将如此求出的综合数据库C的综合版本0002的总文件数和出现各检索词的文件数发送到检索服务器2a、检索服务器2b。由于综合数据库C的综合版本0002的总文件数和出现各检索词的文件数包括了全部从检索服务器2发送来的文件数,因而可以称为全局统计信息。顺便指出,如果明白上述处理操作所获得的全局统计信息,检索使用的综合版本的总文件数为70100(30100+40000=70100)(图8)。
接收了综合数据库C的综合版本0002的总文件数和出现各检索词的文件数的检索服务器2a进行文件记分的计算操作55。该文件记分的计算操作55中,利用从综合检索服务器1发送来的全局统计信息,即综合数据库C的综合版本0002的总文件数和出现各检索词的文件数,对中间结果24的区域保存的中间结果的各个文件,记分计算单元25通过下式
S=Σ(tf*idf)
计算出文件记分S。这里tf是检索词在文件内的出现频度,
idf=log(出现检索词的文件数/总文件数)。
另外,上述文件记分S的计算式是一个范例,但并不局限于此。
根据该结果,检索结果重排单元26按照文件记分的升序重排文件号。而且,检索结果输出单元27将前20件文件号和文件记分返回综合检索服务器1。
以上的检索服务器2a的一系列操作在检索服务器2b中并行地进行,也从该检索服务器2b的检索结果输出单元27将前20件文件号和文件记分返回综合检索服务器1。
综合检索服务器1中,检索结果重排单元14按照文件记分的升序重排检索服务器2a及检索服务器2b返回的合计40件的文件号。然后,检索结果输出单元15将文件记分前20件的结果和检索使用的综合数据库C的版本名0002返回客户机。
另外,在相同检索条件下求出文件记分在前21位以下的检索结果,或者想取得检索结果中选择的文件的实体的情况下,从客户机向综合检索服务器1发送指定综合版本名0002的检索要求(或实体取得要求)。从而,通过固定于检索服务器2a中对应的数据库A23a的版本名0316、并且固定于检索服务器2b中对应的数据库B23b的版本名0628进行检索(或实体取得),能够获得一致性的结果。
另外,本实施例中也可以加入根据卸载的信息删除综合版本的操作。
即,检索服务器2a及2b中,将从综合检索服务器1接收的检索条件输入检索条件输入单元21,由检索单元22对数据库A(检索服务器2a的情况)及数据库B(检索服务器2b的情况)进行检索操作52。这时,检索服务器2a中,在检索操作52时,版本参照单元30参照版本管理表29,可以知道数据库A23a的最新版本的版本名不是0315、而是0316,且总文件数为30100(图7)。另外,可以知道这时版本0315已经卸载(同图)。这种场合,检索单元22对最新版本0316的数据库A23a进行检索,求出符合检索条件的文件号和各检索词在文件内的出现频度,存储到中间结果24的区域。
然后,统计信息输出单元28向综合检索服务器1同时返回包含出现各检索词的文件数的统计信息、检索时使用的最新版本的信息(版本名0316、总文件数30100)以及版本0315变成不能利用(被卸载)的信息。然后,在检索服务器2a中等待综合检索服务器1求出的全局统计信息发送过来。
在检索服务器2b中,进行与本实施例所述相同的操作。
然后,综合检索服务器1接收到检索服务器2a及2b的统计信息后进行统计信息合计操作53。该操作中,统计信息合计单元13将检索服务器2a及2b返回的出现各检索词的文件数相加(即合计),算出综合数据库C中出现各检索词的文件数。然后,综合检索服务器1根据上述合计结果进行综合版本管理表更新操作54。该综合版本管理表更新操作54中,综合版本更新单元16将包含有变成不能利用的数据库A23a的版本0315的综合版本0001删除。另外,综合版本更新单元16将综合数据库C的综合版本0002登记到综合版本管理表17。以此将构成综合数据库C的综合版本0002的数据库A23a的版本名0316和数据库B23b的版本名0628以及各种总文件数的信息存储到综合版本管理表17。
然后,综合检索服务器1将综合数据库C的综合版本0002的总文件数和出现各检索词的文件数发送到检索服务器2a及2b。
(文件检索操作的变更形态)
在进行文件检索操作时,通常,检索服务器(2a)中,综合版本参照单元30参照综合版本管理表29,求出数据库A23a的最新版本的信息。时间序列最初的阶段(即图7中的时刻T1)中,可以知道最新版本的版本名为0315、总文件数为30000。这种场合,检索单元22对该版本的数据库A23a进行检索,求出符合检索条件的文件号和各检索词在文件内的出现频度,存储到中间结果24的区域。然后,统计信息输出单元28在向综合检索服务器1返回检索时使用的最新版本的信息(版本名0315、总文件数30000)的同时,将出现各检索词的文件数作为文件记分计算所使用的统计信息向综合检索服务器1返回。检索服务器2a在附带限定时间内等待综合检索服务器1求出的全局统计信息发送过来。如果过了该限定时间,则终止该检索要求的处理,并转移到别的检索要求的处理。
(多个中间结果的保持)
检索服务器2a中,版本参照单元30参照版本管理表29,求出数据库A的最新版本的信息。时间序列最初的阶段(即图7中的时刻T1)中,可以知道最新版本的版本名为0315、总文件数为30000。这种场合,检索单元22对该版本的数据库A23a进行检索,求出符合检索条件的文件号和各检索词在文件内的出现频度,存储到中间结果24的区域。这时,该中间结果24中分配有固有的ID。然后,统计信息输出单元28在向综合检索服务器1返回检索时使用的最新版本的信息(版本名0315、总文件数30000)的同时,将出现各检索词的文件数作为文件记分计算所使用的统计信息向综合检索服务器1返回。这时,中间结果24中分配的固有的ID也一起返回。如果该中间结果的数超过一定个数,检索服务器2a等待综合检索服务器1求出的全局统计信息发送过来。但是,如果该中间结果的数不超过一定个数,则不等待综合检索服务器1求出的全局统计信息发送过来,转移到别的检索要求的处理。
综合检索服务器1接收到检索服务器2a及2b的统计信息后进行统计信息合计操作。该操作中,统计信息合计单元13将检索服务器2a及2b返回的出现各检索词的文件数相加(即合计),算出综合数据库C中出现各检索词的文件数。然后,综合检索服务器1根据上述合计结果进行综合版本管理表更新操作。该综合版本管理表更新操作中,综合版本更新单元16将综合数据库C的综合版本0001登记到综合版本管理表17。
通过该登记处理,将构成综合数据库C的综合版本0001的数据库A23a的版本名0315和数据库B23b的版本名0628以及各种总文件数的信息存储到综合版本管理表17。综合检索服务器1把这样求出的综合数据库C的综合版本0001的总文件数和出现各检索词的文件数发送到检索服务器2a及检索服务器2b。这时,从检索服务器2a及检索服务器2b与出现的文件数一起发送来的ID一起返回。
接收了综合数据库C的综合版本0001的总文件数和出现各检索词的文件数的检索服务器2a进行文件记分的计算操作(与实施例1的操作45相同)。该文件记分的计算操作中,利用从综合检索服务器1发送来的全局统计信息,即综合数据库C的综合版本0001的总文件数和出现各检索词的文件数,对中间结果24的区域保存的、且保持适当ID的中间结果的各个文件,记分计算单元25通过下式
S=Σ(tf*idf)
计算出文件记分S。这里tf是检索词在文件内的出现频度,
idf=log(出现检索词的文件数/总文件数)。
根据该结果,检索结果重排单元26按照文件记分的升序重排文件号。而且,检索结果输出单元27将前M件文件号和文件记分返回综合检索服务器1。
以上的检索服务器2a的一系列操作在检索服务器2b中并行地进行,也从该检索服务器2b的检索结果输出单元27将前M件文件号和文件记分返回综合检索服务器1。
综合检索服务器1中,检索结果重排单元14按照文件记分的升序重排检索服务器2a及检索服务器2b返回的合计2M件的文件号。然后,检索结果输出单元15将文件记分前M件的结果和检索使用的综合数据库C的版本名0001返回客户机。
另外,在相同检索条件下求出文件记分在前(M+1)位以下的检索结果,或者想取得检索结果中选择的文件的实体的情况下,从客户机向综合检索服务器1发送指定综合版本名0001的检索要求(或实体取得要求)。从而,通过固定于检索服务器2a中对应的数据库A23a的版本名0315、并且固定于检索服务器2b中对应的数据库B23b的版本名0628进行检索(或实体取得),能够获得一致性的结果。
(关于处理流程)
图10~图16是表示为了概括说明本发明的上述各实施例中的分布式文件检索处理的操作顺序、用于客户机终端(以下,将上述各实施例中的客户机分成客户机终端和利用客户机终端的用户进行说明)、综合检索服务器以及检索服务器的流程图。即,图10~图12表示综合检索服务器进行的处理流程,图13~图15表示各检索服务器进行的处理流程,图16表示客户机终端进行的处理流程。以下,参照这些图,按照综合检索服务器、检索服务器、客户机终端的顺序分别说明其操作顺序。
(综合检索服务器的处理)
如图10的流程图所示,综合检索服务器确认从客户机终端发送来检索要求后(步骤101),检索条件输入单元根据该检索要求输入自己的检索条件(步骤102)。以该检索条件的输入为信号,开始进行对各检索服务器的检索指示处理。
即,如图11的检索指示处理流程图所示,在通过检索条件输入单元输入的检索条件中,检查是否指定了综合版本名(步骤103)。
未指定综合版本名时(步骤103·否),综合版本参照单元参照综合版本管理表(步骤104),确认综合版本数据的有无(步骤105)。如果存在综合版本数据(步骤105·是),检索条件发送单元从最新的综合版本数据取得版本名(步骤106),将指定该版本名且包含版本模式“最新”的检索要求发送到各检索服务器(步骤107)。另一方面,如果不存在综合版本数据(步骤105·否),检索条件发送单元将未指定检索条件发送单元版本名的检索要求发送到各检索服务器(步骤108)。
相对地,指定综合版本名时(步骤103·是),综合版本参照单元参照综合版本管理表(步骤104),确认指定综合版本数据的有无(步骤109)。如果存在综合版本数据(步骤109·是),检索条件发送单元从指定的综合版本数据取得版本名(步骤110),将指定该版本名的检索要求发送到各检索服务器(步骤111)。另一方面,如果不存在指定综合版本数据(步骤109·否),则与未指定综合版本名时进行同样的处理(步骤105~108)。
上述检索指示处理完成后,如图10的流程图所示,综合检索服务器等待从进行了检索指示的各检索服务器发送来的局部统计信息全部聚齐(步骤112·否)。
然后,综合检索服务器确认从进行了检索指示的各检索服务器发送来的局部统计信息全部聚齐(步骤112·是)后,转移到由统计信息合计单元及统计信息更新单元进行的合计、更新处理。
即,如图12的合计、更新处理流程图所示,统计信息合计单元根据各检索服务器发送来的局部统计信息进行合计处理,算出出现各检索词的文件数(步骤113)。
然后,向来自检索服务器的局部统计信息添加该检索服务器的最新版本信息时,根据该最新版本信息,或者,在不添加最新版本信息时,参照综合版本管理表,计算出总文件数(步骤114)。
接着,综合版本更新单元根据算出的总文件数和出现各检索词的文件数,进行综合版本管理表的更新、登记(步骤115)。
在该更新、登记时,上述最新版本信息包含卸载信息的情况下(步骤116·是),综合版本更新单元根据该卸载信息删除适当的综合版本数据(步骤117)。
另外,上述更新、登记时,综合版本数据的个数超过一定值的情况下(步骤118·是),综合版本更新单元按照从旧的数据开始的顺序(或者检索频度低的顺序)删除综合版本数据(步骤119)。
另外,上述步骤115~119的处理可以不在检索服务器发送来最新版本信息时进行、而在适当的时刻进行。
接着,统计信息合计单元将如此算出的总文件数和出现文件数,即全局统计信息与中间结果的固有ID一起发送到各检索服务器(步骤120)。
上述合计、更新处理完成后,如图10的流程图所示,综合检索服务器等待从发送了该全局统计信息的各检索服务器发送来返回数据(文件号以及文件记分)(步骤121·否)。
然后,综合检索服务器确认从各检索服务器发送来的返回数据全部聚齐(步骤121·是)后,检索结果重排单元将该全部文件号按照文件记分的升序重排(步骤122)。
接着,检索结果输出单元将前M件(来自客户机终端的检索要求指定的件数)的排序结果和该检索所使用的综合版本名作为最终检索结果发送到客户机终端(步骤123)。
以上操作完成后,转移到下一个检索处理(步骤124·是)或结束整个处理(步骤124·否)。
(检索服务器的处理)
如图13的流程图所示,检索服务器确认从综合检索服务器发送来检索指示数据后(步骤201·是),判别该检索指示数据的种类。具体地说,判别检索指示数据的种类是检索条件或是全局统计信息(步骤202)。
如果是全局统计信息,基本上转移到记分计算次序,这将在以后说明。
另一方面,如果是检索条件,则检索条件输入单元输入该检索条件(步骤203),转移到以下说明的检索、统计处理。
即,如图14的检索、统计处理流程图所示,首先,版本参照单元确认检索条件是否包含版本名、版本模式“最新”(步骤204、205)。
检索条件中未指定版本名时(步骤204·否),版本参照单元参照版本管理表取得最新版本的信息(最新版本名及该总文件数)(步骤206),然后,转移到检索单元对该最新版本名的数据库进行检索的操作(步骤207)。
检索条件中指定版本名(步骤204·是),且不包含版本模式“最新”时(步骤205·否),继续进行检索操作,从而版本参照单元不参照版本管理表,转移到检索单元对指定版本名的数据库进行检索的操作(步骤208)。
检索条件中指定版本名(步骤204·是),且包含版本模式“最新”时(步骤205·是),版本参照单元参照版本管理表取得上述最新版本的信息(步骤206),判断该最新版本名和检索条件中指定版本名是否相同(步骤209)。
最新版本名和指定版本名相同时(步骤209·是),转移到检索单元对指定版本名的数据库进行检索的操作(步骤208)。
相对地,最新版本名和指定版本名不同时(步骤209·否),进一步确认指定版本名是否卸载(步骤210),如果未卸载(步骤210·否),转移到检索单元对该指定版本名的数据库进行检索的操作(步骤208)。另一方面,如果指定版本名卸载时(步骤210·是),转移到检索单元对最新版本名的数据库进行检索的操作(步骤207),并将错误信息发送到综合检索服务器。
上述检索操作完成后,与上述所有情况相同,检索单元将中间结果(在进行检索时由检索获得的文件号和文件内出现频度)与分配给该中间结果的固有ID一起存储在中间结果的数据区域(步骤211)。
然后,统计信息输出单元对出现各检索词的文件数进行合计、生成局部统计信息(步骤212),转移到下一个统计信息输出的处理。
即,统计信息输出单元将生成的局部统计信息与固有ID一起发送到综合检索服务器(步骤213、214、或215)。这里,未指定版本名时(步骤204·否),或虽然指定版本名但该指定版本与最新版本不同时(步骤204是、步骤209·否),向上述局部统计信息添加上述最新版本的信息并发送(步骤213)。另外,指定版本名和最新版本名不同时(步骤204·否),指定版本名被卸载的情况下(步骤210·是),将卸载信息包含在上述最新版本信息中进行发送(步骤214)。
上述检索处理完成后,如图13的流程图所示,检索服务器自动选择或者等待从综合检索服务器发送来全局统计信息,或者转移到下一个检索处理。
即,判断是否超过限定时间(步骤216),如果超过限定时间(步骤216·是),判断中间结果的个数是否超过一定个数(步骤217)。如果中间结果的个数不超过一定个数(步骤217·否),则不等待发送来全局统计信息,转移到下一个检索处理。
相对地,如果未超过限定时间(步骤216·否),或即使超过限定时间中间结果的个数也超过一定个数时(步骤216是、步骤218·是),不转移到下一个检索处理(步骤201~步骤215),而等待发送来全局统计信息(步骤218·否)。
上述任何一种情况下,以从综合检索服务器发送来全局统计信息为信号,立刻或者在所定的处理后转移到记分计算处理。
即,如图15的记分计算处理流程图所示,检索服务器的记分计算单元利用从综合检索服务器发送来的全局统计信息,算出关于保持有适当固有ID的中间结果的各文件的记分(步骤219)。
接着,检索结果重排单元按照文件记分的升序重排文件号(步骤220)。另外,文件记分的重排方法不局限于此。
接着,检索结果输出单元将前M件(来自客户机终端的检索要求指定的件数)的文件号和文件记分发送到综合检索服务器(步骤221)。
以上的记分计算处理完成后,如图13的流程图所示,检索服务器转移到下一个检索处理(步骤222·是)或结束整个处理(步骤222·否)。
(客户机终端的处理)
通过上述综合检索服务器及检索服务器的处理操作,用户可以进行更确切、更有效的文件检索。
即,如图16的流程图所示,作为信息检索起源的用户首先使检索画面显示(步骤301)。接着,用户将检索式和检索频度等检索条件输入检索画面(步骤302),要求文件检索。这时,指定综合版本名,想进行与过去的检索有一致性的检索时,在指定该综合版本名的基础上要求文件检索(步骤303·是)。另一方面,想对最新的数据库进行文件检索时,在不指定综合版本名的情况下要求文件检索(步骤303·否)。前者的情况下,客户机终端将指定综合版本名的检索要求发送到综合检索服务器(步骤304),后者的情况下,客户机终端将未指定综合版本名的检索要求发送到综合检索服务器(步骤305)。
该检索条件发送后,等待从综合检索服务器发送来检索结果(步骤306·是)。
然后,如果客户机终端确认从综合检索服务器发送来了检索结果(步骤306·是),则显示检索结果(步骤307)。
在进行下一个检索时(步骤308·是),反复进行上述操作(步骤302~步骤307)。另一方面,如果不进行下一个检索(步骤308·否),用户关闭检索画面(步骤309)。从而,客户机终端的检索处理全部结束。
本发明根据附图所示的最佳实施例进行了说明,很明显本专业技术人员在不脱离本发明的精神的情况下可以容易地进行变更,这样的变更也包括在本发明的范围内。
Claims (14)
1.一种分布式文件检索方法,其特征在于它是通过对存储有多个文件的数据库进行文件检索的多个文件检索服务器和通信连接到所述文件检索服务器、对所述文件检索服务器进行检索指示的综合检索服务器以及连接到所述综合检索服务器而对所述综合检索服务器输出文件检索要求同时从所述综合检索服务器接收文件检索的结果的客户机进行文件检索的方法,
所述综合检索服务器根据来自客户机的文件检索要求制作检索条件并将其发送到所述文件检索服务器,
所述文件检索服务器根据来自所述综合检索服务器的检索条件由检索操作获得中间结果,并将基于所述中间结果生成的局部统计信息发送到所述综合检索服务器,
所述综合检索服务器对所述局部统计信息进行合计,生成全局统计信息并将其发送到所述文件检索服务器,
所述文件检索服务器根据所述全局统计信息计算记分,把符合各个检索条件的检索结果送回到所述综合检索服务器,
所述综合检索服务器合计来自所述文件检索服务器的检索结果,按照记分的升序重排,并将其发送到所述客户机。
2.如权利要求1所述的分布式文件检索方法,其特征在于,所述文件检索服务器自己保持由检索操作获得的中间结果。
3.如权利要求2所述的分布式文件检索方法,其特征在于,所述文件检索服务器在限定时间内等待所述综合检索服务器求出的全局统计信息发送过来,当过了所述限定时间,则中止所述检索要求的处理,并转移到别的检索要求的处理。
4.如权利要求3所述的分布式文件检索方法,其特征在于,所述文件检索服务器将ID分配给由检索操作获得的中间结果,并自己保持多个中间结果,将根据所述中间结果生成的局部统计信息与已分配给中间结果的ID一起发送给所述综合检索服务器。
5.如权利要求1所述的分布式文件检索方法,其特征在于,所述文件检索服务器在所述文件检索服务器中独立进行数据库的版本的更新,所述版本的更新不是每次更新都向所述综合检索服务器报告,而是在对其后的检索要求进行检索操作时,才将所述版本的版本信息和统计信息一起发送到所述综合检索服务器,
根据所述版本的信息,在所述综合检索服务器中自动生成将所述文件检索服务器的数据库的最新版本组合在一起的综合版本。
6.如权利要求5所述的分布式文件检索方法,其特征在于,所述文件检索服务器在进行数据库的版本的更新时,在所述文件检索服务器中装载了新的版本之后,在过了一定时间后将旧的版本卸载。
7.如权利要求5所述的分布式文件检索方法,其特征在于,当综合版本的个数超过所定的个数时,所述综合检索服务器根据所定的规则删除综合版本。
8.如权利要求5所述的分布式文件检索方法,其特征在于,在接收到所述检索要求时,数据库的版本已经卸载的情况下,所述文件检索服务器将传达数据库的版本已经卸载的卸载信息与统计信息一起发送到所述综合检索服务器,
所述综合检索服务器根据所述卸载信息删除相关的综合版本。
9.一种分布式文件检索装置,其特征在于,它包括:
对存储有多个文件的数据库进行文件检索的多个文件检索服务器;和
综合检索服务器,所述综合检索服务器通信连接所述文件检索服务器、并对所述文件检索服务器进行检索指示、从与所述综合检索服务器连接的客户机接收文件检索要求同时对所述客户机输出文件检索的结果,
所述综合检索服务器根据来自所述客户机的文件检索要求制作检索条件,并将其发送到所述文件检索服务器,
所述文件检索服务器包括:检索单元,对各所述数据库进行检索操作;保持单元,保持由所述检索操作的结果获得的中间结果;统计信息输出单元,根据中间结果生成并输出局部统计信息;记分计算单元,对检索的各文件赋予记分,
所述综合检索服务器包括:统计信息合计单元,对所述文件检索服务器发送的局部统计信息进行合计,生成全局统计信息;发送单元,将所述全局统计信息发送到所述文件检索服务器,
所述文件检索服务器根据所述全局统计信息由所述记分计算单元计算记分,把符合各个检索条件的检索结果送回到所述综合检索服务器,所述综合检索服务器合计来自所述文件检索服务器的检索结果,按照记分的升序重排,并将其发送到所述客户机。
10.如权利要求9所述的分布式文件检索装置,其特征在于,所述综合检索服务器还包括:根据上述统计信息合计单元合计的统计信息生成综合版本的单元。
11.如权利要求10所述的分布式文件检索装置,其特征在于,所述综合检索服务器还包括:进行所述综合版本的更新的综合版本更新单元;进行所述综合版本的管理的综合版本管理单元。
12.如权利要求9所述的分布式文件检索装置,其特征在于,所述文件检索服务器还包括:根据所述记分计算单元的记分计算结果、按照所定的规则进行检索结果重排的检索结果重排单元。
13.如权利要求11所述的分布式文件检索装置,其特征在于,所述文件检索服务器还包括:进行数据库版本的更新的版本更新单元;进行版本管理的版本管理单元,
所述版本管理单元在对所述检索要求进行检索操作时,将版本信息和统计信息一起发送到所述综合检索服务器,
所述综合检索服务器根据所述版本信息自动生成将所述文件检索服务器的数据库的最新版本组合在一起的综合版本。
14.如权利要求11所述的分布式文件检索装置,其特征在于,所述综合检索服务器在对所述文件检索服务器进行检索指示时,将综合版本信息一起发送。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP107629/01 | 2001-04-05 | ||
JP2001107629 | 2001-04-05 | ||
JP2002002669A JP3693958B2 (ja) | 2001-04-05 | 2002-01-09 | 分散型文書検索方法及び装置、並びに分散型文書検索プログラム及びそのプログラムを記録した記録媒体 |
JP2669/02 | 2002-01-09 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1379350A CN1379350A (zh) | 2002-11-13 |
CN100489842C true CN100489842C (zh) | 2009-05-20 |
Family
ID=26613163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB021060347A Expired - Fee Related CN100489842C (zh) | 2001-04-05 | 2002-04-05 | 分布式文件检索方法、装置、程序及记录该程序的记录介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20020161753A1 (zh) |
EP (1) | EP1248208A3 (zh) |
JP (1) | JP3693958B2 (zh) |
CN (1) | CN100489842C (zh) |
Families Citing this family (81)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7035880B1 (en) | 1999-07-14 | 2006-04-25 | Commvault Systems, Inc. | Modular backup and retrieval system used in conjunction with a storage area network |
US7395282B1 (en) | 1999-07-15 | 2008-07-01 | Commvault Systems, Inc. | Hierarchical backup and retrieval system |
US7389311B1 (en) | 1999-07-15 | 2008-06-17 | Commvault Systems, Inc. | Modular backup and retrieval system |
US7003641B2 (en) | 2000-01-31 | 2006-02-21 | Commvault Systems, Inc. | Logical view with granular access to exchange data managed by a modular data and storage management system |
US6658436B2 (en) | 2000-01-31 | 2003-12-02 | Commvault Systems, Inc. | Logical view and access to data managed by a modular data and storage management system |
US7155481B2 (en) | 2000-01-31 | 2006-12-26 | Commvault Systems, Inc. | Email attachment management in a computer system |
US7346493B2 (en) | 2003-03-25 | 2008-03-18 | Microsoft Corporation | Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system |
US7454569B2 (en) | 2003-06-25 | 2008-11-18 | Commvault Systems, Inc. | Hierarchical system and method for performing storage operations in a computer network |
CN100407636C (zh) * | 2003-10-14 | 2008-07-30 | 华为技术有限公司 | 一种提高通信设备可接入性的方法 |
US7529782B2 (en) | 2003-11-13 | 2009-05-05 | Commvault Systems, Inc. | System and method for performing a snapshot and for restoring data |
WO2005050381A2 (en) | 2003-11-13 | 2005-06-02 | Commvault Systems, Inc. | Systems and methods for performing storage operations using network attached storage |
US7765549B1 (en) * | 2004-06-30 | 2010-07-27 | Affiliated Computer Services, Inc. | Distributing batches of items in a workflow |
US7937393B2 (en) | 2005-11-28 | 2011-05-03 | Commvault Systems, Inc. | Systems and methods for classifying and transferring information in a storage network |
US20200257596A1 (en) | 2005-12-19 | 2020-08-13 | Commvault Systems, Inc. | Systems and methods of unified reconstruction in storage systems |
US7606844B2 (en) | 2005-12-19 | 2009-10-20 | Commvault Systems, Inc. | System and method for performing replication copy storage operations |
US7651593B2 (en) | 2005-12-19 | 2010-01-26 | Commvault Systems, Inc. | Systems and methods for performing data replication |
US7636743B2 (en) | 2005-12-19 | 2009-12-22 | Commvault Systems, Inc. | Pathname translation in a data replication system |
US7617262B2 (en) | 2005-12-19 | 2009-11-10 | Commvault Systems, Inc. | Systems and methods for monitoring application data in a data replication system |
US7962709B2 (en) | 2005-12-19 | 2011-06-14 | Commvault Systems, Inc. | Network redirector systems and methods for performing data replication |
US7661028B2 (en) | 2005-12-19 | 2010-02-09 | Commvault Systems, Inc. | Rolling cache configuration for a data replication system |
US8930496B2 (en) | 2005-12-19 | 2015-01-06 | Commvault Systems, Inc. | Systems and methods of unified reconstruction in storage systems |
US8655850B2 (en) | 2005-12-19 | 2014-02-18 | Commvault Systems, Inc. | Systems and methods for resynchronizing information |
US7725461B2 (en) * | 2006-03-14 | 2010-05-25 | International Business Machines Corporation | Management of statistical views in a database system |
US20070233679A1 (en) * | 2006-04-03 | 2007-10-04 | Microsoft Corporation | Learning a document ranking function using query-level error measurements |
US8726242B2 (en) | 2006-07-27 | 2014-05-13 | Commvault Systems, Inc. | Systems and methods for continuous data replication |
US7593934B2 (en) | 2006-07-28 | 2009-09-22 | Microsoft Corporation | Learning a document ranking using a loss function with a rank pair or a query parameter |
US7882077B2 (en) | 2006-10-17 | 2011-02-01 | Commvault Systems, Inc. | Method and system for offline indexing of content and classifying stored data |
US8370442B2 (en) | 2008-08-29 | 2013-02-05 | Commvault Systems, Inc. | Method and system for leveraging identified changes to a mail server |
US20080228771A1 (en) * | 2006-12-22 | 2008-09-18 | Commvault Systems, Inc. | Method and system for searching stored data |
US7593931B2 (en) * | 2007-01-12 | 2009-09-22 | International Business Machines Corporation | Apparatus, system, and method for performing fast approximate computation of statistics on query expressions |
US8290808B2 (en) | 2007-03-09 | 2012-10-16 | Commvault Systems, Inc. | System and method for automating customer-validated statement of work for a data storage environment |
US7836174B2 (en) | 2008-01-30 | 2010-11-16 | Commvault Systems, Inc. | Systems and methods for grid-based data scanning |
JP5135060B2 (ja) * | 2008-05-21 | 2013-01-30 | 日本電信電話株式会社 | 分散型情報検索システム、分散型情報検索方法、分散型情報検索プログラムおよびそのプログラムを記録した記録媒体 |
US8204859B2 (en) | 2008-12-10 | 2012-06-19 | Commvault Systems, Inc. | Systems and methods for managing replicated database data |
US9495382B2 (en) | 2008-12-10 | 2016-11-15 | Commvault Systems, Inc. | Systems and methods for performing discrete data replication |
US8442983B2 (en) | 2009-12-31 | 2013-05-14 | Commvault Systems, Inc. | Asynchronous methods of data classification using change journals and other data structures |
JP5483561B2 (ja) * | 2010-02-25 | 2014-05-07 | 楽天株式会社 | ストレージ装置、サーバ装置、ストレージシステム、データベース装置、データの提供方法、及び、プログラム |
US8504517B2 (en) | 2010-03-29 | 2013-08-06 | Commvault Systems, Inc. | Systems and methods for selective data replication |
US8352422B2 (en) | 2010-03-30 | 2013-01-08 | Commvault Systems, Inc. | Data restore systems and methods in a replication environment |
US8504515B2 (en) | 2010-03-30 | 2013-08-06 | Commvault Systems, Inc. | Stubbing systems and methods in a data replication environment |
US8725698B2 (en) | 2010-03-30 | 2014-05-13 | Commvault Systems, Inc. | Stub file prioritization in a data replication system |
WO2011128945A1 (en) | 2010-04-16 | 2011-10-20 | Hitachi, Ltd. | Integrated search server and integrated search method |
US8489656B2 (en) | 2010-05-28 | 2013-07-16 | Commvault Systems, Inc. | Systems and methods for performing data replication |
JP5656563B2 (ja) * | 2010-11-02 | 2015-01-21 | キヤノン株式会社 | 文書管理システム、文書管理システムの制御方法、プログラム |
US9021198B1 (en) | 2011-01-20 | 2015-04-28 | Commvault Systems, Inc. | System and method for sharing SAN storage |
US8719264B2 (en) | 2011-03-31 | 2014-05-06 | Commvault Systems, Inc. | Creating secondary copies of data based on searches for content |
US8706756B2 (en) * | 2011-05-11 | 2014-04-22 | Futurewei Technologies, Inc. | Method, system and apparatus of hybrid federated search |
US8914382B2 (en) * | 2011-10-03 | 2014-12-16 | Yahoo! Inc. | System and method for generation of a dynamic social page |
US9298715B2 (en) | 2012-03-07 | 2016-03-29 | Commvault Systems, Inc. | Data storage system utilizing proxy device for storage operations |
US9471578B2 (en) | 2012-03-07 | 2016-10-18 | Commvault Systems, Inc. | Data storage system utilizing proxy device for storage operations |
US8595235B1 (en) * | 2012-03-28 | 2013-11-26 | Emc Corporation | Method and system for using OCR data for grouping and classifying documents |
US9396540B1 (en) | 2012-03-28 | 2016-07-19 | Emc Corporation | Method and system for identifying anchors for fields using optical character recognition data |
US8832108B1 (en) * | 2012-03-28 | 2014-09-09 | Emc Corporation | Method and system for classifying documents that have different scales |
US8843494B1 (en) * | 2012-03-28 | 2014-09-23 | Emc Corporation | Method and system for using keywords to merge document clusters |
US9069768B1 (en) * | 2012-03-28 | 2015-06-30 | Emc Corporation | Method and system for creating subgroups of documents using optical character recognition data |
US9342537B2 (en) | 2012-04-23 | 2016-05-17 | Commvault Systems, Inc. | Integrated snapshot interface for a data storage system |
US8892523B2 (en) | 2012-06-08 | 2014-11-18 | Commvault Systems, Inc. | Auto summarization of content |
US9886346B2 (en) | 2013-01-11 | 2018-02-06 | Commvault Systems, Inc. | Single snapshot for multiple agents |
US9430491B2 (en) | 2013-01-11 | 2016-08-30 | Commvault Systems, Inc. | Request-based data synchronization management |
KR101496179B1 (ko) * | 2013-05-24 | 2015-02-26 | 삼성에스디에스 주식회사 | 데이터 부재 태깅 기반의 정보 검색 시스템 및 방법 |
US9632874B2 (en) | 2014-01-24 | 2017-04-25 | Commvault Systems, Inc. | Database application backup in single snapshot for multiple applications |
US9495251B2 (en) | 2014-01-24 | 2016-11-15 | Commvault Systems, Inc. | Snapshot readiness checking and reporting |
US9639426B2 (en) | 2014-01-24 | 2017-05-02 | Commvault Systems, Inc. | Single snapshot for multiple applications |
US9753812B2 (en) | 2014-01-24 | 2017-09-05 | Commvault Systems, Inc. | Generating mapping information for single snapshot for multiple applications |
US9774672B2 (en) | 2014-09-03 | 2017-09-26 | Commvault Systems, Inc. | Consolidated processing of storage-array commands by a snapshot-control media agent |
US10042716B2 (en) | 2014-09-03 | 2018-08-07 | Commvault Systems, Inc. | Consolidated processing of storage-array commands using a forwarder media agent in conjunction with a snapshot-control media agent |
US9648105B2 (en) | 2014-11-14 | 2017-05-09 | Commvault Systems, Inc. | Unified snapshot storage management, using an enhanced storage manager and enhanced media agents |
US9448731B2 (en) | 2014-11-14 | 2016-09-20 | Commvault Systems, Inc. | Unified snapshot storage management |
US10503753B2 (en) | 2016-03-10 | 2019-12-10 | Commvault Systems, Inc. | Snapshot replication operations based on incremental block change tracking |
CN106021527B (zh) * | 2016-05-24 | 2019-06-28 | 努比亚技术有限公司 | 一种数据处理方法及搜索服务器、同步服务器 |
US10540516B2 (en) | 2016-10-13 | 2020-01-21 | Commvault Systems, Inc. | Data protection within an unsecured storage environment |
US10389810B2 (en) | 2016-11-02 | 2019-08-20 | Commvault Systems, Inc. | Multi-threaded scanning of distributed file systems |
US10922189B2 (en) | 2016-11-02 | 2021-02-16 | Commvault Systems, Inc. | Historical network data-based scanning thread generation |
US10984041B2 (en) | 2017-05-11 | 2021-04-20 | Commvault Systems, Inc. | Natural language processing integrated with database and data storage management |
JP6556799B2 (ja) * | 2017-09-26 | 2019-08-07 | 株式会社東芝 | 検索装置、プログラム、データベースシステム、および検索方法 |
US10642886B2 (en) | 2018-02-14 | 2020-05-05 | Commvault Systems, Inc. | Targeted search of backup data using facial recognition |
US10732885B2 (en) | 2018-02-14 | 2020-08-04 | Commvault Systems, Inc. | Block-level live browsing and private writable snapshots using an ISCSI server |
US11159469B2 (en) | 2018-09-12 | 2021-10-26 | Commvault Systems, Inc. | Using machine learning to modify presentation of mailbox objects |
US11042318B2 (en) | 2019-07-29 | 2021-06-22 | Commvault Systems, Inc. | Block-level data replication |
US11494417B2 (en) | 2020-08-07 | 2022-11-08 | Commvault Systems, Inc. | Automated email classification in an information management system |
US11809285B2 (en) | 2022-02-09 | 2023-11-07 | Commvault Systems, Inc. | Protecting a management database of a data storage management system to meet a recovery point objective (RPO) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5659732A (en) * | 1995-05-17 | 1997-08-19 | Infoseek Corporation | Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents |
US5826261A (en) * | 1996-05-10 | 1998-10-20 | Spencer; Graham | System and method for querying multiple, distributed databases by selective sharing of local relative significance information for terms related to the query |
US6163782A (en) * | 1997-11-19 | 2000-12-19 | At&T Corp. | Efficient and effective distributed information management |
WO2000029971A2 (en) * | 1998-11-13 | 2000-05-25 | The Chase Manhattan Bank | A system and method for managing information retrievals from distributed archives |
EP1006458A1 (en) * | 1998-12-01 | 2000-06-07 | BRITISH TELECOMMUNICATIONS public limited company | Methods and apparatus for information retrieval |
CA2296285A1 (en) * | 1999-02-03 | 2000-08-03 | At&T Corp. | Information access system and method for providing a personal portal |
EP1074925B8 (en) * | 1999-08-06 | 2011-09-14 | Ricoh Company, Ltd. | Document management system, information processing apparatus, document management method and computer-readable recording medium |
-
2002
- 2002-01-09 JP JP2002002669A patent/JP3693958B2/ja not_active Expired - Fee Related
- 2002-03-26 EP EP02006903A patent/EP1248208A3/en not_active Withdrawn
- 2002-04-04 US US10/115,261 patent/US20020161753A1/en not_active Abandoned
- 2002-04-05 CN CNB021060347A patent/CN100489842C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1379350A (zh) | 2002-11-13 |
EP1248208A3 (en) | 2004-12-15 |
JP3693958B2 (ja) | 2005-09-14 |
US20020161753A1 (en) | 2002-10-31 |
JP2002366547A (ja) | 2002-12-20 |
EP1248208A2 (en) | 2002-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100489842C (zh) | 分布式文件检索方法、装置、程序及记录该程序的记录介质 | |
JP4318741B2 (ja) | データベースシステム、データベース検索方法及び記録媒体 | |
US8954531B2 (en) | Intelligent messaging label results related to a character stream | |
US8782075B2 (en) | Query handling in databases with replicated data | |
US20080243789A1 (en) | Groupware system with improved contact data handling | |
US9195745B2 (en) | Dynamic query master agent for query execution | |
US5414837A (en) | System for determining and returning frequenly requested information by an alternate path in a distributed database | |
JP5320204B2 (ja) | 情報端末装置、情報検索方法、および情報検索プログラム | |
CA2433377A1 (en) | Computing frequent value statistics in a partitioned relational database | |
JP3183236B2 (ja) | 検索システム及び検索システムを生成するプログラムを記録したコンピュータが読み取り可能な記録媒体 | |
AU2002351296B2 (en) | System and method for processing a request using multiple database units | |
US8572041B2 (en) | Representing records | |
JPH09146804A (ja) | データ整合装置 | |
CN105989193A (zh) | 数据库系统 | |
JP3248530B2 (ja) | 検索システム及び検索システムを生成するプログラムを記録したコンピュータが読み取り可能な記録媒体 | |
JP2000222434A (ja) | 結合検索方法 | |
US8244746B2 (en) | Parallel linking system and parallel linking method | |
JP2002342379A (ja) | 文書の人気度順位付け方法、順位付けシステム、順位付けプログラムおよびそのプログラムを記録した記録媒体 | |
JP2003030243A (ja) | 画像配信システム及び情報処理装置及びそれらの方法 | |
JP2002024238A (ja) | 情報処理装置の動作確認情報提供システム、その情報提供方法およびそのプログラムを記録した記録媒体 | |
CN114020830A (zh) | 排队数据归集处理方法、系统、装置及计算机可读介质 | |
CN117235176A (zh) | 一种电视媒资同步方法、装置、设备及介质 | |
CN113886702A (zh) | 一种基于动态缓存机制的混合云搜索引擎及搜索方法 | |
JP2000035967A (ja) | データベース検索システム及び記録媒体 | |
JP2004310623A (ja) | データ検索装置及び方法並びにデータ検索プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090520 Termination date: 20140405 |