DE69933187T2 - Dokumentensuchverfahren und Dienst - Google Patents

Dokumentensuchverfahren und Dienst Download PDF

Info

Publication number
DE69933187T2
DE69933187T2 DE69933187T DE69933187T DE69933187T2 DE 69933187 T2 DE69933187 T2 DE 69933187T2 DE 69933187 T DE69933187 T DE 69933187T DE 69933187 T DE69933187 T DE 69933187T DE 69933187 T2 DE69933187 T2 DE 69933187T2
Authority
DE
Germany
Prior art keywords
search
document
documents
server
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69933187T
Other languages
English (en)
Other versions
DE69933187D1 (de
Inventor
Ltd. Intell. Prop. Group Makoto Hitachi Chiyoda-ku Iwayama
Hitachi Shingo Chiyoda-ku Nishioka
Hitachi Yoshiki Chiyoda-ku Niwa
Hitachi Akihiko Chiyoda-ku Takano
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of DE69933187D1 publication Critical patent/DE69933187D1/de
Application granted granted Critical
Publication of DE69933187T2 publication Critical patent/DE69933187T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Description

  • Hintergrund der Erfindung
  • Diese Erfindung bezieht sich auf ein Dokumentensuchverfahren, welches zwischen mehreren Dokumentdatenbanken wechselt und Beziehungen zwischen mehreren Dokumentdatenbanken bildet.
  • Da immer mehr Informationen über Dokumente in elektronische Formate konvertiert werden, erwächst ein größerer Bedarf, verschiedene Arten von Dokumentdatenbanken gleichzeitig zu durchsuchen. Beispielsweise möchten Nutzer oft Verzeichnisse einsehen, die sich auf Zeitungsartikel beziehen, für die sich interessieren können.
  • In der Vergangenheit war es möglich, eine unabhängige Suche durch den Wechsel zwischen mehreren Dokumentdatenbanken durchzuführen, aber es gab keine Möglichkeit, die Bedeutung eines Dokumentensatzes in anderen Datenbanken zu einem Dokumentensatz in einer bestimmten Datenbank zu überprüfen.
  • In Voorhees et al.: „Learning Collection Fusion Strategies", SIGIR '95, Seattle, WA, 1995, Seiten 172-179, ISBN 0-89791-714-6 wird ein Verfahren dargestellt, in dem die Suche auf dieselbe Datenbank beschränkt wird, so dass es möglich ist, andere Dokumentensätze innerhalb dieser Datenbank zu suchen. In diesem Fall wird eine ausreichende Suchgeschwindigkeit oft dadurch erreicht, dass die Bedeutung zwischen Dokumenten vor der Suche berechnet wird. Selbst mit verschiedenen Datenbanken ist es möglich, mehrere Dokumentdatenbanken gleichzeitig zu durchsuchen, falls solch eine Berechnung im Voraus ausgeführt wird. Da jedoch der Berechnungsaufwand mit der Anzahl an Datenbanken aufgrund der wachsenden Anzahl an Kombinationen wächst, ist dieses Verfahren nicht realistisch.
  • Es ist ebenso möglich, erst den Satz Schlüsseldokumente auf Seite des Nutzers zu analysieren, um eine Suchanfrage zu erstellen und dann in anderen Dokumentdatenbanken unter Verwendung dieser Anfrage zu suchen. In diesem Fall muss jedoch die Nutzerseite alle Informationen über den Satz Schlüsseldokumente erhalten, wobei die Datenmenge riesig wird, wenn sich die Dokumentdatenbanken in einem Netzwerk befinden.
  • In Velez B. et al.: „Fast and effective query refinement", Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, 27. Juli 1997, Seiten 6-15, wird eine Abfrageverfeinerungstechnik für ein Dokumentensuchverfahren gezeigt, welches automatisch Begriffe vorschlägt, die semantisch mit dem Informationsbedarf des Nutzers in Beziehung stehen. Diese Literaturstelle nennt jedoch nicht die Verwendung mehrerer Dokumentdatenbanken und zeigt somit nicht, dass die Suchergebnisse von einer Dokumentdatenbank als Anfrage zur Suche in einer anderen Datenbank verwendet werden.
  • Zusammenfassung der Erfindung
  • Es ist daher eine Aufgabe der Erfindung, die der bestehenden Technologie innewohnenden Probleme dadurch zu lösen, dass einem Benutzer ermöglicht wird, einen beliebigen Satz von Dokumenten in einer beliebigen Dokumentendatenbank anzugeben und effizient Dokumentensätze innerhalb irgendeiner bestimmten Datenbank zu suchen, die zu diesem Dokumentensatz in Bezug stehen, während der Netzwerkverkehr reduziert wird.
  • Die oben beschriebene Aufgabe wird durch ein Dokumentensuchverfahren entsprechend Anspruch 1 gelöst. Die abhängigen Ansprüche beziehen sich auf bevorzugte Ausführungsformen.
  • Im Falle einer großen Suchanfrage, wie z. B. in dem Fall eines Satzes von Schlüsseldokumenten, ist es schneller, anstelle der Verwendung aller Informationen in der Suchanfrage, eine Suche nur mit Schlagwörtern der Sucheingabe als Zusammenfassung durchzuführen, wobei auch die Netzwerklast reduziert wird. Im Sinne dieser Beschreibung bedeutet „Zusammenfassung" „Satz von Schlagwörtern für einen Dokumentensatz".
  • Die Dokumentdatenbanken befinden sich auf Servern in einem Netzwerk, die ein Modul zum Erstellen einer Zusammenfassung durch Auswählen von Schlagwörtern für einen Dokumentensatz innerhalb der Dokumentdatenbank, und ein Modul zum Durchführen einer Suche mittels einer beliebigen Zusammenfassung enthalten. Ein Nutzer, der eine Suche durchführt, gibt einen Dokumentensatz über einen Client an einen Server, in dem eine Quelldatenbank gespeichert ist, und erhält eine Zusammenfassung.
  • Als Nächstes wird die Zusammenfassung an einen Server gesendet, auf dem sich die zu durchsuchende Zieldatenbank befindet, und ein Suchergebnis wird empfangen.
  • Als Suchschnittstelle des Clients wird als Erstes ein Anzeigebereich für einen Dokumentensatz angegeben, in dem der benötigte Satz von Schlüsseldokumenten angegeben werden kann und auch die zu durchsuchende Datenbank ausgewählt werden kann. In dem Client wählt der Nutzer dann einen interessanten Dokumentensatz aus den in dem Anzeigebereich angezeigten Dokumentensätzen, und falls notwendig, wechselt er die zu durchsuchende Dokumentdatenbank.
  • Diese und weitere Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung werden in Anbetracht der folgenden detaillierten Beschreibung der bevorzugten Ausführungsformen in Verbindung mit den begleitenden Figuren deutlicher.
  • Kurze Beschreibung der Zeichnungen:
  • 1 stellt ein Diagramm dar, das ein Beispiel der Gesamtkonstruktion eines Systems zeigt, das das Verfahren zur Suche in mehreren Dokumentdatenbanken umsetzt.
  • 2 stellt ein Diagramm dar, das ein Beispiel des Aufbaus einer Suchassistenten-Schnittstelle in einem Client zeigt.
  • Beschreibung der bevorzugten Ausführungsformen
  • 1 zeigt eine typische, allgemeine Anordnung, wobei ein Client 11 einen beliebigen Schlüsseldokumentensatz in einer Dokumentdatenbank 131 eines Servers 13 spezifiziert, und einen Dokumentensatz mit einer hohen Relevanz (Ähnlichkeit) mit dem spezifizierten Schlüsseldokumentensatz von einer Dokumentdatenbank 141 eines anderen Servers 14 erhält. Hierbei befinden sich die Quell- und Zieldokumentdatenbanken 131, 141 auf Servern an verschiedenen Orten auf die entsprechend über ein Netzwerk 12 zugegriffen werden kann.
  • Als Erstes spezifiziert der Client 11 einen Schlüsseldokumentensatz in der Quelldokumentendatenbank 131 entsprechend der Nutzeranforderung und sendet diese Information als eine Satz der einen Dokumentenbezeichner, z. B. eine ID, die jedem Dokument zugeordnet ist, die der Server 13 verstehen kann, über das Netzwerk 12 an den Server 13. Der Dokumentensatz wird in einem Fenster zum Anzeigen der Suchergebnisse P1, das später beschrieben wird, spezifiziert.
  • Der Server 13 identifiziert einen Dokumentensatz, der von dem Client gesendet wurde. Eine Zusammenfassung des Dokumentensatzes wird dann für den gesuchten Dokumentensatz durch ein Zusammenfassungserzeugungsmodul 132 angefertigt, und wird dann zurück an den Client 11 über das Netzwerk 12 gesendet. Hierbei bedeutet die Bezeichnung „Zusammenfassung" ein Satz Schlagwörter, der sich auf einen Dokumentensatz bezieht. Das Zusammenfassungserzeugungsmodul kann durch irgendeine der bekannten Verfahren wie z. B. in der japanischen Offenlegungsschrift Nr. Hei 9-62693, „Method of Document Classification by Probability Model" beschrieben, konstruiert werden.
  • In einem Beispiel werden als Erstes die Wortdichten durch Aufteilen in Wörter all der Dokumente in dem Dokumentensatz, für die eine Zusammenfassung erstellt werden soll, zusammen gezählt. Im Allgemeinen, da der Grad, mit dem ein gegebener Dokumentensatz durch bestimmte Wörter beschrieben wird, höher ist für die Wörter, die öfter innerhalb desselben auftreten, werden Wörter in der Zusammenfassung umso häufiger mit aufgenommen, je höher ihr Auftreten in dem Dokumentensatz ist. Allgemeine Wörter jedoch, die oft in allen Dokumenten vorkommen, wie z. B. „do", usw. sind nicht für die Zusammenfassung geeignet. Daher werden gewöhnlich Wörter zur Einbeziehung in die Zusammenfassung unter Berücksichtigung ihres Vorkommens in der Dokumentdatenbank ausgewählt, zu der der Dokumentensatz gehört. Im Besonderen sind Schlagwörter wünschenswert die eine hohe Vorkommensfrequenz in einem bestimmten Dokumentensatz, aber eine niedrige Vorkommensfrequenz in der gesamten Dokumentdatenbank haben, d. h. sie sind geeignet für eine Zusammenfassung, die den Dokumentensatz charakterisiert. Somit werden Wörter für die Zusammenfassung durch Berechnen ihrer Gewichtung aus geeigneten Parametern unter Verwendung der Aufkommensfrequenz in dem Dokumentensatz und der Aufkommensfrequenz in der Dokumentdatenbank, und der Annahme von Wörtern mit einer Gewichtung gleich oder größer als ein bestimmter Schwellenwert berechnet.
  • Je höher die ist die Gewichtung ist, umso höher ist die Relevanz des Wortes zu einem gegebenen Dokument, und je geringer die Gewichtung ist, umso geringer ist die Relevanz des Wortes zu dem Dokument.
  • Der Server 13 gibt an den Client über das Netzwerk 12 einen Satz Wörter zurück, die eine Gewichtung haben, die durch das oben beschriebene Verfahren berechnet wurde. Diese Wörter werden als „Schlagwörter" in 2 angezeigt.
  • Als Nächstes evaluieren oder verarbeiten Nutzer an dem Client 11 die Zusammenfassung (Zusammenfassung des Schlüsseldokumentensatzes) von dem Server 13, und der Client 11 überträgt diese an den Zielserver 14 über das Netzwerk 12.
  • In der Evaluierung oder Verarbeitung, die durch Nutzer an dem Client durchgeführt wird, entfernen Nutzer beispielsweise Wörter von der Zusammenfassung, die nicht als relevant angesehen werden, oder ersetzen Nutzer beispielsweise Wörter in der Zusammenfassung.
  • Unter Verwendung des Suchmoduls 143 berechnet der Server 14 die Relevanz der Zusammenfassung des Schlüsseldokumentensatzes, die von dem Client an die Zieldokumentdatenbank 141 gesendet wurde, und liefert hoch relevante Dokumentenbezeichner mit hoher Relevanz mit einer Relevanzgewichtung an den Client 11 zurück. Das Suchmodul hier kann durch eine aus dem Stand der Technik bekannte Schlüsselwortsuche implementiert werden. Insbesondere, da die Zusammenfassung des Dokumentensatzes als Satz bestehend aus Wörtern mit Gewichtung eingegeben wird, können diese Wörter als gewichtete Eingabeschlüsselwörter betrachtet werden und eine ODER-Schlüsselwortsuche kann durchgeführt werden. In diesem Fall kann die Gewichtung (Relevanz) des Dokuments, das das Suchergebnis darstellt, berechnet werden. Dies wird dadurch erreicht, dass die Wörter, die in der Zusammenfassung und im zu suchenden Dokument auftreten, herangezogen werden, eine Gesamtgewichtung aus ihrer Gewichtung in der Zusammenfassung und ihrer Gewichtung in dem zu suchenden Dokument berechnet wird (z. B. Produkt aus den zwei Gewichtungen) und dann aufaddieren der Gewichtungen aller Wörter (z. B. Berechnung einer Gesamtsumme), um die Relevanz zu erhalten.
  • Unter Verwendung des obigen Verfahrens kann der Client 11 einen Dokumentensatz aus der Dokumentendatenbank 141 erhalten, der sich auf einen beliebigen Schlüsseldokumentensatz in der Dokumentdatenbank 131 bezieht. Das charakterisierende Merkmal dieses Verfahrens ist, dass der Netzwerkverkehr durch Überlassen der Verarbeitung (Erzeugung der Zusammenfassung) des originale, zu suchenden Dokumentensatzes der Serverseite überlassen wird. Es wird erkannt werden, dass die Verkehrsmenge wesentlich geringer ist als in dem Fall, in dem der Client alle Informationen der zu suchenden Dokumente empfangen und verarbeiten muss. Das Suchassistentenmodul 112 des Clients muss dann im Grunde genommen nur die Zusammenfassung des Dokumentensatzes von dem Quellserver an den Zielserver senden und nahezu die gesamte in der Suche enthaltene Verarbeitung kann den beiden Servern überlassen werden. Vielmehr muss die Serverseite nur ein Zusammenfassungserzeugungsmodul und ein Suchmodul für die in Frage kommende Dokumentendatenbank, aufweisen und es ist daher vollkommen unnötig, Informationen in anderen Dokumentdatenbanken zu berücksichtigen.
  • In der vorangegangenen Beschreibung wurde ein Verfahren beschrieben, in dem die Dokumentdatenbank 131 die Quelldatenbank und die Dokumentdatenbank 141 die Zieldatenbank war, aber das gleiche Verfahren kann angewendet werden, wenn die Dokumentdatenbank 141 die Quelldatenbank und die Dokumentdatenbank 131 die Zieldatenbank ist. In diesem Fall erhält der Client eine Zusammenfassung des Schlüsseldokumentensatzes von einem Zusammenfassungserzeugungsmodul 142 des Servers 14, überträgt dieses an den zu durchsuchen Server 13, und erhält relevante Dokumente in der Dokumentdatenbank 131 von dem Suchmodul 133 des Servers 13. Wenn das Obige verallgemeinert wird, und ein Server mit einem Zusammenfassungserzeugungsmodul und einem Suchmodul für eine neue Datenbank bereitgestellt wird, kann diese Dokumentdatenbank als Quelldatenbank oder Zieldatenbank für alle Dokumentdatenbanken, die zu dem Netzwerk verbunden sind, allein durch Verbinden des Servers zu dem Netzwerk funktionieren.
  • In 1 befinden sich das Zusammenfassungserzeugungsmodul und das Suchmodul (132, 133 und 142, 143) entsprechend auf verschiedenen Servern (13, 14), aber die Ausführungsform dieser Erfindung ist nicht auf diese bestimmte Anordnung beschränkt. Beispielsweise können das Zusammenfassungserzeugungsmodul und das Suchmodul in einem Server verschieden von der Dokumentdatenbank installiert sein, und ein Zusammenfassungserzeugungsmodul und ein Suchmodul können durch diesen Server für mehrere Datenbanken zur Verfügung gestellt werden.
  • Schließlich zeigt 2 eine Ausführungsform, die den Client betrifft. 111 ist ein Beispiel einer Suchassistentenschnittstelle, die in dem Client installiert ist. Dies ist grundsätzlich die gleiche Schnittstelle wie die Schnittstelle, die durch den Erfinder der vorliegenden Erfindung in der japanischen Offenlegungsschrift Hei 11-85786 „Document search support method and document search support service" (entspricht US Patentanmeldung S.N. 09/145,155, angemeldet am 09/01/98 durch Nishioka et al.) oder der japanischen Offenlegungsschrift Hei 10-74210, „Document search method and device, and document search service using the saure" (entspricht US Patentanmeldung S.N. 08/888,017, eingereicht 07/03/97 by Niwa et al.) vorgeschlagen wurde. E1 ist ein Fenster zur Eingabe einer Suchanfrage, wobei der Nutzer eine Suchanfrage durch die Eingabe einer Abfolge von Schlüsselwörtern oder in Form eines Satzes eingeben kann. M1 ist ein Fenster zur Auswahl einer Dokumentdatenbank, wobei der Nutzer einen bestimmten Teil auf der rechten Seite mit einer Maus herunterziehen kann, um so eine Liste von Dokumentdatenbanken anzuzeigen und einige gewünschte Dokumentdatenbank auszuwählen. B1 ist ein Suchknopf, der eine Suche startet. Demnach gibt der Nutzer eine beliebige Suchanfrage in das Fenster E1 ein, wählt eine zu durchsuchende Dokumentdatenbank in dem Fenster M1 aus, und führt eine gewöhnliche Suche durch die Eingabe von Schlüsselwörtern in das Fenster E1, die sich auf die in Fenster M1 gewählte Dokumentdatenbank beziehen, durch Drücken des Knopfes B1 aus. Diese Suche wird durch Unterstützung durch das in 1 gezeigte Suchassistentenmodul 112 durchgeführt, aber da Details des Suchverfahrens in der vorangegangenen Anmeldung beschrieben wurden, werden sie hier nicht wiederholt.
  • P1 ist ein Fenster zur Anzeige eines Suchergebnisses. In dem oberen Teil ist ein Feld angezeigt, das die gesamte Anzahl der Dokumente anzeigt, die als Ergebnis des Suchprozesses erhalten wurden und eine Anzahl der Dokumente, die durch den Nutzer wie nachfolgend beschrieben ausgewählt wurden. Darunter ist ein Feld für den Nutzer vorgesehen, um ausgewählt/nicht ausgewählt (P13) anzugeben, und ein Dokumententitelteil, der die Relevanz (P12) der Suchanfrage und Titel (P11) der Dokumente, in Form einer Liste dargestellt. Dieses Anzeigefenster hat eine Scrollfunktion, so dass durch Scrollen der User einen Teil sehen kann, der zur einer bestimmten Zeit nicht in der Anzeige dargestellt werden kann. In einem Ausgewählt-/Nicht-ausgewählt-Feld werden Dokumente bei jedem Mausklick entweder ausgewählt oder abgewählt. Wenn Dokumente durch Klicken angewählt werden, wird eine Zusammenfassung der korrespondierenden Dokumente als grafische Darstellung eines Satzes von Wörtern mit Gewichtung in einem Zusammenfassungsanzeigefenster P2 dargestellt. Das Zusammenfassungsanzeigefenster P2 hat auch ein Feld in seinem oberen Teil, in dem die Gesamtzahl der Schlagwörter und Anzahl der Schlagwörter, die durch den Nutzer angewählt wurden, dargestellt wird. Dokumententitel werden gewöhnlich entsprechend ihrer Relevanz sortiert.
  • Das Fenster P1 zum Anzeigen der Suchergebnisse in dem Diagramm zeigt, dass eine Gesamtzahl von 22 Dokumenten als Ergebnis der Suche erhalten wurde, und dass 3 Dokumente durch den Nutzer aufgrund ihres Titels als interessante Dokumente ausgewählt wurden. Den ausgewählten Dokumenten wird ein Haken durch Klicken zugeordnet. In dem Zusammenfassungsanzeigefenster P2 werden 5 Schlagwörter entsprechend den ausgewählten Dokumenten angezeigt.
  • Obwohl in dieser Ausführung ausgelassen, können umgekehrt auch Dokumente für die die Schlagwörter die in dem Zusammenfassungsanzeigefenster P2 als repräsentativ ausgewählt wurden in dem Fenster P1 angezeigt werden. Daher kann der Nutzer eine fortschrittlichere Suche durch Erzeugen einer Zusammenfassung, die seinen Präferenzen entspricht, durchführen. Dies wird en detail in der oben aufgeführten japanischen Patentoffenlegungsschrift Hei 11-085786 beschrieben.
  • Somit kann der Nutzer Dokumente anwählen/abwählen, während er sich auf die Titel und die Schlagwörter der ausgewählten Dokumente bezieht, und er kann mehrere ihn interessierende Dokumente auswählen.
  • Dementsprechend kann der Nutzer, wenn er in der Nutzung anderer Dokumentdaten für den Dokumentensatz entsprechend des Suchergebnisses interessiert ist, die Dokumentdatenbank im Fenster M1 wechseln und den Knopf B1 drücken, um so eine neue Suche zu beginnen.
  • Somit sendet der Client einen Bezeichner der mehreren, ausgewählten Dokumente an den Server, wo die Quelldokumentendatenbank gespeichert ist (z. B. der Server 13), erhält eine Zusammenfassung dieser mehreren Dokumente, sendet diese Zusammenfassung an den Server, auf dem die Zieldokumentendatenbank gespeichert ist (z. B. Server 14) und erhält ein Suchergebnis von dem Zielserver (z. B. Server 14). Das neue Suchergebnis wird im Fenster P1 angezeigt. Mit anderen Worten wird in diesem Fall P1 mit dem neuerlich gesuchten Dokumentensatz aktualisiert.
  • Um ein erneutes Suchergebnis mit einem vorherigen Suchergebnis zu vergleichen, kann der Nutzer den Zurückknopf B2 drücken, um das vorherige Suchergebnis in dem Fenster P1 wieder anzuzeigen, und um zu der Anzeige des Fensters P1 in dem Zustand zurückzukehren, in dem es sich vor Durchführung der Suche befand. Ebenso kann das Fenster P1 zu dem neuen Suchergebnis durch Drücken des Vorwärtsknopfes B3 vorgeblättert werden.
  • Da der Nutzer andere Dokumentdatenbanken entsprechend einem Suchergebnis zu jedem Zeitpunkt der Suche durchsuchen kann, kann der Nutzer durch Wiederholen des Suchzykluses frei von einer Datenbank zu einer anderen Datenbank wechseln. Natürlich ist es auch möglich, diesen Zyklus innerhalb der gleichen Dokumentdatenbank, d. h. ohne Wechsel der Dokumentdatenbank zu wiederholen.
  • Entsprechend dieser Erfindung kann der Nutzer eine zu durchsuchende Dokumentdatenbank frei bestimmen und die Suche ohne Berücksichtigung des Ortes oder des Aufbaus jeder Dokumentdatenbank verbessern. Ferner, da ein Server, auf dem eine Dokumentendatenbank sich befindet, modularisiert werden kann, kann der Server als Quelldatenbank oder Zieldatenbank bezüglich allen anderen, zu einem Netzwerk verbundenen Datenbanken einfach durch Verbinden eines Servers mit einem Zusammenfassungserzeugungsmodul und einem Suchmodul mit dem Netzwerk fungieren, falls gewünscht wird eine neue Dokumentdatenbank zu durchsuchen.

Claims (7)

  1. Ein Dokumentensuchverfahren, bei dem Server (13, 14) mit Datenbanken (131, 141) und Programme zum Manipulieren der Datenbanken (131, 141) über ein Netzwerk (12) verteilt sind und ein Client (11), der mit den Servern (13, 14) verbunden ist, eine Dokumentensuche durchführt, wobei das Verfahren eine Funktion aufweist, um aus einer ausgewählten Dokumentendatenbank Dokumentensätze mit hoher Bedeutung entsprechend der Bedeutung zu einer Sucheingabe zu suchen, wobei die Eingabe aus einem Satz Schlüsselwörter, Teilen eines Dokuments oder jedem gewünschten Satz von Dokumenten besteht, wobei das Suchverfahren eine Funktion zum Wechseln zwischen verschiedenen Dokumentendatenbanken (131, 141) aufweist, und wobei die Suchergebnisse aus einer Quelldokumentendatenbank (131) durch einen Nutzer, der eine Suche durchführt als Anfrage zur Suche in einer Zieldokumentendatenbank (141) verwendet werden können, wobei der Client (11) – einen Satz von Dokumenten in einer Suchanfrage an den Server (13) übermittelt, in dem die Quelldokumentendatenbank (131) gespeichert ist, – von dem Server (13) eine Zusammenfassung erhält, die nur Schlagwörter bezüglich des gesendeten Satzes von Dokumenten enthält, – eine Suchanfrage entsprechend der Zusammenfassung an einen anderen, durch den Nutzer ausgewählten, Server (14) sendet, in dem die Zieldokumentendatenbank (141) gespeichert ist, und – von dem anderen Server (14) ein Suchergebnis empfängt.
  2. Ein Dokumentensuchverfahren wie in Anspruch 1 definiert, wobei eine Schnittstelle vorgesehen ist, in der ein Satz von Dokumenten von dem Suchergebnis einer Dokumentendatenbank (131) ausgewählt oder abgewählt werden kann, und eine aus dem Suchergebnis ausgewählter Satz von Dokumenten als Anfrage, um eine Suche in einer anderen Datenbank (141) durchzuführen, verwendet werden kann.
  3. Ein Dokumentensuchverfahren wie in Anspruch 1 definiert, wobei eine Zusammenfassung, die nur Schlagwörter enthält, als Suchanfrage zur Durchführung einer Suche verwendet wird.
  4. Ein Dokumentensuchverfahren wie in Anspruch 1 definiert, wobei der Server eine Zusammenfassung aus Schlagwörtern erzeugt, die für einen Satz von Dokumenten, die von dem Client (11) gesendet wurde, relevant sind und diese an den Client (11) übermittelt, und einen Satz von Dokumenten mit einer hohen Relevanz zu irgendeiner durch den Client (11) gesendeten Zusammenfassung sucht und an den Client (11) übermittelt.
  5. Ein Dokumentensuchverfahren wie in Anspruch 1 definiert, wobei der Client (11) eine Schnittstelle (111) hat, um einen Satz von Dokumenten als Suchanfrage und eine zu durchsuchende Dokumentendatenbank anzugeben, der Satz von Dokumenten in der Suchanfrage an einen durch den Nutzer bestimmten Server (13) gesendet wird, eine Zusammenfassung des Satzes von Dokumenten von diesem Server (13) empfangen wird, die empfangene Zusammenfassung an einen Server (14) gesendet wird, der eine andere Dokumentendatenbank (114) enthält, und Suchergebnisse von dem letzten Server (14) empfangen und angezeigt werden.
  6. Ein Dokumentensuchverfahren wie in Anspruch 2 definiert, wobei eine Zusammenfassung, die nur Schlagwörter enthält, als Suchanfrage zur Durchführung einer Suche verwendet wird.
  7. Ein Dokumentensuchverfahren wie in Anspruch 2 definiert, wobei Server (13, 14), die Dokumentendatenbanken (131, 141) und Programme zum Manipulieren der Datenbanken enthalten, über ein Netzwerk (12) verteilt sind, wobei ein Client (11) einen Satz von Dokumenten in einer Suchanfrage an einen Server (13) übermittelt, in dem eine ausgewählte Dokumentendatenbank (131) gespeichert ist, eine Zusammenfassung empfängt, die nur Schlagwörter in Bezug auf die gesendete Dokumentenanfrage enthält, eine Suchanfrage entsprechend der Zusammenfassung, die die Evaluierung der Zusammenfassung durch einen Nutzer angibt an einen Server (14) sendet, in dem eine andere Dokumentendatenbank (141) gespeichert ist, und ein Suchergebnis empfängt.
DE69933187T 1998-11-19 1999-11-16 Dokumentensuchverfahren und Dienst Expired - Fee Related DE69933187T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP32894098A JP3760057B2 (ja) 1998-11-19 1998-11-19 複数文書データベースを対象とした文書検索方法および文書検索サービス
JP32894098 1998-11-19

Publications (2)

Publication Number Publication Date
DE69933187D1 DE69933187D1 (de) 2006-10-26
DE69933187T2 true DE69933187T2 (de) 2007-09-13

Family

ID=18215809

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69933187T Expired - Fee Related DE69933187T2 (de) 1998-11-19 1999-11-16 Dokumentensuchverfahren und Dienst

Country Status (4)

Country Link
US (2) US6584460B1 (de)
EP (1) EP1003111B1 (de)
JP (1) JP3760057B2 (de)
DE (1) DE69933187T2 (de)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7272604B1 (en) * 1999-09-03 2007-09-18 Atle Hedloy Method, system and computer readable medium for addressing handling from an operating system
US7720833B1 (en) 2000-02-02 2010-05-18 Ebay Inc. Method and system for automatically updating search results on an online auction site
JP2001265768A (ja) * 2000-03-16 2001-09-28 Fuji Xerox Co Ltd 文書統合管理装置および文書統合管理方法
JP2002189754A (ja) * 2000-12-21 2002-07-05 Ricoh Co Ltd 文書検索装置及び文書検索方法
JP2002222210A (ja) * 2001-01-25 2002-08-09 Hitachi Ltd 文書検索システム、文書検索方法及び検索サーバ
US6925457B2 (en) 2001-07-27 2005-08-02 Metatomix, Inc. Methods and apparatus for querying a relational data store using schema-less queries
US7890517B2 (en) * 2001-05-15 2011-02-15 Metatomix, Inc. Appliance for enterprise information integration and enterprise resource interoperability platform and methods
US7058637B2 (en) * 2001-05-15 2006-06-06 Metatomix, Inc. Methods and apparatus for enterprise application integration
JP4025517B2 (ja) 2001-05-31 2007-12-19 株式会社日立製作所 文書検索システムおよびサーバ
JP2003029911A (ja) * 2001-07-11 2003-01-31 Sony Corp 情報処理装置および情報処理方法、記録媒体、並びにプログラム
US7146409B1 (en) * 2001-07-24 2006-12-05 Brightplanet Corporation System and method for efficient control and capture of dynamic database content
US6609124B2 (en) * 2001-08-13 2003-08-19 International Business Machines Corporation Hub for strategic intelligence
US20030074351A1 (en) * 2001-10-01 2003-04-17 Van Stegeren Eric D.F.D. System and method for generating a work set of patents or other documents
JP3878518B2 (ja) * 2002-07-08 2007-02-07 松下電器産業株式会社 データ検索装置
US9396473B2 (en) * 2002-11-27 2016-07-19 Accenture Global Services Limited Searching within a contact center portal
JP2004310561A (ja) * 2003-04-09 2004-11-04 Hitachi Ltd 情報検索方法、情報検索システム及び検索サーバ
EP1690210A2 (de) * 2003-07-07 2006-08-16 Metatomix, Inc. Beobachtungs-, üebrwachungs- und echtzeit-ereignis-plattform
US20050044076A1 (en) * 2003-08-18 2005-02-24 Yuh-Cherng Wu Information retrieval from multiple sources
JP2005352878A (ja) * 2004-06-11 2005-12-22 Hitachi Ltd 文書検索システム、検索サーバ、及び検索クライアント
US7533074B2 (en) 2004-07-23 2009-05-12 Sap Ag Modifiable knowledge base in a mobile device
JP2006127523A (ja) * 2005-10-27 2006-05-18 Hitachi Ltd 文書情報表示システム
US7908260B1 (en) 2006-12-29 2011-03-15 BrightPlanet Corporation II, Inc. Source editing, internationalization, advanced configuration wizard, and summary page selection for information automation systems
JP5154832B2 (ja) 2007-04-27 2013-02-27 株式会社日立製作所 文書検索システム及び文書検索方法
US10481878B2 (en) * 2008-10-09 2019-11-19 Objectstore, Inc. User interface apparatus and methods
US8495062B2 (en) * 2009-07-24 2013-07-23 Avaya Inc. System and method for generating search terms
EP2354971A1 (de) * 2010-01-29 2011-08-10 E-Therapeutics plc Dokumentanalysesystem
US8560536B2 (en) * 2010-03-11 2013-10-15 Yahoo! Inc. Methods, systems, and/or apparatuses for use in searching for information using computer platforms
US20130260849A1 (en) * 2012-03-28 2013-10-03 Microsoft Corporation Deriving word-commonness for word-games
US10235989B2 (en) * 2016-03-24 2019-03-19 Oracle International Corporation Sonification of words and phrases by text mining based on frequency of occurrence
JP6737887B2 (ja) * 2017-07-24 2020-08-12 マイセレブス カンパニーリミテッド 関心分野別趣向検索案内システム
US20190026282A1 (en) 2017-07-24 2019-01-24 Mycelebs Co., Ltd. Method and apparatus for providing information by using degree of association between reserved word and attribute language
JP7341090B2 (ja) 2020-03-17 2023-09-08 株式会社日立製作所 文献検索システム及び方法

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6474210A (en) * 1987-09-16 1989-03-20 Hitachi Chemical Co Ltd Polymerizable resin composition for decorative laminate
JP2893910B2 (ja) * 1990-09-28 1999-05-24 富士通株式会社 文章読解支援装置
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5911138A (en) * 1993-06-04 1999-06-08 International Business Machines Corporation Database search facility having improved user interface
CA2175187A1 (en) * 1993-10-28 1995-05-04 William K. Thomson Database search summary with user determined characteristics
US5590319A (en) * 1993-12-15 1996-12-31 Information Builders, Inc. Query processor for parallel processing in homogenous and heterogenous databases
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
JP2900832B2 (ja) 1995-04-14 1999-06-02 富士ゼロックス株式会社 情報検索装置
US5659732A (en) * 1995-05-17 1997-08-19 Infoseek Corporation Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents
US5675710A (en) * 1995-06-07 1997-10-07 Lucent Technologies, Inc. Method and apparatus for training a text classifier
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
JPH0962693A (ja) 1995-08-24 1997-03-07 Hitachi Ltd 確率モデルによる文書分類方法
US5873076A (en) * 1995-09-15 1999-02-16 Infonautics Corporation Architecture for processing search queries, retrieving documents identified thereby, and method for using same
JP3422350B2 (ja) * 1996-02-09 2003-06-30 日本電信電話株式会社 追加検索語候補提示方法、文書検索方法およびそれらの装置
US5926811A (en) * 1996-03-15 1999-07-20 Lexis-Nexis Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
US5913215A (en) * 1996-04-09 1999-06-15 Seymour I. Rubinstein Browse by prompted keyword phrases with an improved method for obtaining an initial document set
US5859972A (en) * 1996-05-10 1999-01-12 The Board Of Trustees Of The University Of Illinois Multiple server repository and multiple server remote application virtual client computer
US5826261A (en) * 1996-05-10 1998-10-20 Spencer; Graham System and method for querying multiple, distributed databases by selective sharing of local relative significance information for terms related to the query
US6457004B1 (en) * 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
JP3643470B2 (ja) 1997-09-05 2005-04-27 株式会社日立製作所 文書検索システムおよび文書検索支援方法
JP3614618B2 (ja) 1996-07-05 2005-01-26 株式会社日立製作所 文献検索支援方法及び装置およびこれを用いた文献検索サービス
US5987460A (en) * 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
US5870740A (en) * 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US5987446A (en) * 1996-11-12 1999-11-16 U.S. West, Inc. Searching large collections of text using multiple search engines concurrently
JPH10254887A (ja) 1997-03-10 1998-09-25 Toshiba Corp データベースシステム
JPH10269237A (ja) * 1997-03-27 1998-10-09 Hitachi Ltd 文書閲覧システム
US5987454A (en) * 1997-06-09 1999-11-16 Hobbs; Allen Method and apparatus for selectively augmenting retrieved text, numbers, maps, charts, still pictures and/or graphics, moving pictures and/or graphics and audio information from a network resource
US5899995A (en) * 1997-06-30 1999-05-04 Intel Corporation Method and apparatus for automatically organizing information
JP3607462B2 (ja) * 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
US6108665A (en) * 1997-07-03 2000-08-22 The Psychological Corporation System and method for optimizing behaviorial health care collection
US5983216A (en) * 1997-09-12 1999-11-09 Infoseek Corporation Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections
US6018733A (en) * 1997-09-12 2000-01-25 Infoseek Corporation Methods for iteratively and interactively performing collection selection in full text searches
US5845278A (en) * 1997-09-12 1998-12-01 Inioseek Corporation Method for automatically selecting collections to search in full text searches
US6442540B2 (en) * 1997-09-29 2002-08-27 Kabushiki Kaisha Toshiba Information retrieval apparatus and information retrieval method
US6163782A (en) * 1997-11-19 2000-12-19 At&T Corp. Efficient and effective distributed information management
US6078917A (en) * 1997-12-18 2000-06-20 International Business Machines Corporation System for searching internet using automatic relevance feedback
US6421675B1 (en) * 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US6263342B1 (en) * 1998-04-01 2001-07-17 International Business Machines Corp. Federated searching of heterogeneous datastores using a federated datastore object
US6334131B2 (en) * 1998-08-29 2001-12-25 International Business Machines Corporation Method for cataloging, filtering, and relevance ranking frame-based hierarchical information structures
US6480843B2 (en) * 1998-11-03 2002-11-12 Nec Usa, Inc. Supporting web-query expansion efficiently using multi-granularity indexing and query processing
US6457009B1 (en) * 1998-11-09 2002-09-24 Denison W. Bollay Method of searching multiples internet resident databases using search fields in a generic form
US6347313B1 (en) * 1999-03-01 2002-02-12 Hewlett-Packard Company Information embedding based on user relevance feedback for object retrieval
US6745177B2 (en) * 1999-04-09 2004-06-01 Metro One Telecommunications, Inc. Method and system for retrieving data from multiple data sources using a search routing database
US6321228B1 (en) * 1999-08-31 2001-11-20 Powercast Media, Inc. Internet search system for retrieving selected results from a previous search
US6704722B2 (en) * 1999-11-17 2004-03-09 Xerox Corporation Systems and methods for performing crawl searches and index searches
US6883001B2 (en) * 2000-05-26 2005-04-19 Fujitsu Limited Document information search apparatus and method and recording medium storing document information search program therein

Also Published As

Publication number Publication date
DE69933187D1 (de) 2006-10-26
EP1003111A1 (de) 2000-05-24
US7693910B2 (en) 2010-04-06
JP2000155758A (ja) 2000-06-06
US6584460B1 (en) 2003-06-24
US20020078030A1 (en) 2002-06-20
JP3760057B2 (ja) 2006-03-29
EP1003111B1 (de) 2006-09-13

Similar Documents

Publication Publication Date Title
DE69933187T2 (de) Dokumentensuchverfahren und Dienst
DE602004003361T2 (de) System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen
DE3901485C2 (de) Verfahren und Vorrichtung zur Durchführung des Verfahrens zur Wiedergewinnung von Dokumenten
DE60129652T2 (de) Bildwiederauffindungssystem und Methode mit semantischer und eigenschaftenbasierter Relevanzrückmeldung
DE60121231T2 (de) Datenverarbeitungsverfahren
DE69432575T2 (de) Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung
DE112007000053T5 (de) System und Verfahren zur intelligenten Informationsgewinnung und -verarbeitung
DE10134899A1 (de) Themenbezogenes System und Verfahren zur Klassifizierung von Dokumentationseinheiten
DE19624696A1 (de) Wiederauffinden von Dokumenten über Netzwerke
DE60030735T2 (de) Voraussage der realisierbarkeit eines verbindungsweges
DE202017107393U1 (de) Vorhersagen eines Suchmaschinen-Einordnungssignalwerts
DE69719641T2 (de) Ein Verfahren, um Informationen auf Bildschirmgeräten in verschiedenen Grössen zu präsentieren
DE102007037646A1 (de) System und Verfahren zum Indizieren, Durchsuchen und zur Datenwiedergewinnung von Datenbanken
DE112007000051T5 (de) Dreiteiliges-Modell-basiertes Verfahren zur Informationsgewinnung und -verarbeitung
DE10131193A1 (de) Sitzungshistorien-basierte altersgerichtete natürlichsprachliche Dokumentensuche
DE102017122363A1 (de) Einstufen von Suchergebnisdokumenten
DE10034694A1 (de) Verfahren zum Vergleichen von Suchprofilen
DE19849855C1 (de) Verfahren zur automatischen Generierung einer textlichen Äußerung aus einer Bedeutungsrepräsentation durch ein Computersystem
EP1008067A1 (de) Verfahren und system zur rechnergestützten ermittlung einer relevanz eines elektronischen dokuments für ein vorgebbares suchprofil
DE10057634C2 (de) Verfahren zur Verarbeitung von Text in einer Rechnereinheit und Rechnereinheit
DE102012219878A1 (de) Intranetsuche, Suchmaschine und Datenstationseinrichtung
DE102021203300A1 (de) Computerimplementiertes Verfahren für Schlüsselwortsuche in einem Wissensgraphen
WO2005116867A1 (de) Verfahren und system zur automatisierten erzeugung von computergestützten steuerungs- und analysevorrichtungen
DE112020002860T5 (de) Techniken zum ermitteln von segmenten von informationsbereichen durch aktive anpassung an umfeldkontexte
Heyer et al. Aiding Web Searches by Statistical Classification Tools

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee