CN1839384A - 数据集比较与净变化处理 - Google Patents

数据集比较与净变化处理 Download PDF

Info

Publication number
CN1839384A
CN1839384A CNA2004800087616A CN200480008761A CN1839384A CN 1839384 A CN1839384 A CN 1839384A CN A2004800087616 A CNA2004800087616 A CN A2004800087616A CN 200480008761 A CN200480008761 A CN 200480008761A CN 1839384 A CN1839384 A CN 1839384A
Authority
CN
China
Prior art keywords
record
data set
data
computer
enforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004800087616A
Other languages
English (en)
Inventor
杰弗里·J.·乔纳斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1839384A publication Critical patent/CN1839384A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/273Asynchronous replication or reconciliation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99951File or database maintenance
    • Y10S707/99952Coherency, e.g. same view to multiple users
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99951File or database maintenance
    • Y10S707/99952Coherency, e.g. same view to multiple users
    • Y10S707/99953Recoverability

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Computer And Data Communications (AREA)

Abstract

用于在保存永久键的同时利用算法比较(32)和分析(34)第一数据集和通过计算机所接收的第二数据集的方法、程序和系统。

Description

数据集比较与净变化处理
相关申请的交叉参照
联盟赞助或开发
技术领域
本发明一般性地涉及两个记录、数据集或批次之间的比较,和任何添加、修改和/或删除的有效确定,尤其涉及用于当保存永久键(persistent key)的同时比较和分析第一数据集与计算机所接收的第二数据集的系统、方法和软件。
背景技术
数据库和数据仓库是基于计算机的数据结构,这种结构被设计为允许对通常从一个或多个源接收的记录进行存储和查询。记录一般与一些实体相对应,例如个人、组织和财产这样的实体。在一定的情况下,数据库系统将面临这样一种情况:新的数据集极可基本上是以前递交给系统的数据集的重复。而且,当与先前递交的数据集相比较时,新的数据集可能包含一定量的,即使是很少量的添加、修改或删除。处理大量冗余的数据集滥用有价值的系统资源,并产生显著的可伸缩性问题。
例如,以前递交的数据集可能包含特定地理区域中的所有住宅电话列表。此后,也许按月或半年地,系统接收新的数据集,该新数据集包括该特定地理区域的所有住宅电话列表或部分住宅电话列表的较新集合。最少地处理这种重复性很高的新数据集将不识别从较新集合中删除的记录,并需要有意接收者处理比所需更多的数据。
本发明旨在识别或赋给对应于每个记录、能够便于数据集的有意接收者有效地处理和识别每个记录的永久键。例如,住宅电话列表不含有每个记录的永久键。因此,当前系统中进行的任何比较基于整个记录或记录中数据,例如姓、名、电话号码和/或地址的某种组合。有时,数据集中的一个记录或许多记录可能不同于先前递交的数据集,例如当邮局分割邮政编码时。在这种情形下,通过允许有意接收者基于永久键更新受影响的记录,以使初始识别受影响记录所需的处理最小化,永久键利于有意接收者进行更有效的处理。
不幸的是,当前的系统不具有在维护永久键的同时,比较两个数据集和确定两个数据集间的添加、删除或修改的有效方式。这包含产生代表这种添加、删除或修改的子集的日志以便进一步使用各自的永久键进行检查、分析和/或报告的有效方式,但不限于此。
提供本发明以解决这些和其它问题。
发明内容
本发明的目的在于提供一种用于处理数据以比较两个数据集的方法、程序和系统。通过可以与网络中的一个或多个其它计算机相连的计算机来实现本发明。
在一个实施例中,该方法、程序和系统包括步骤:接收第一数据集和第二数据集,每个数据集包括至少一个记录,其中每个记录反映多个实体中的至少一个实体。在这一点上,多于一个的记录可反映相同实体(例如,表示特定的人的项)。该方法、程序和系统进一步包括利用算法执行下列操作的步骤:(a)将第二数据集与第一数据集的至少一部分相比较;(b)针对第二数据集中的每个记录识别或赋给永久键(也许向反映相同实体的记录赋给相同永久键);(c)建立数据库或文件(即,日志)以包含任何记录:(i)在第二数据集中的下述记录:(1)第一数据集中不存在的记录(也许具有表示添加的“添加”指令和所识别或赋给的永久键),(2)包含对第一数据集中的至少一个记录的至少一个变化的记录(也许具有表示修改的“修改”指令和所识别或赋给的永久键),和/或(3)也许不包含对第一数据集中至少一个记录的至少一个变化,但是将多个实体中的相同实体反映为第一数据集中具有日期的记录的记录(也许具有“无变化”指令,表示在第二数据集中递交第一数据集中的相同记录);和/或(ii)在第一数据集中存在,但在第二数据集中不存在的记录,也许:(1)具有表示删除的“删除”指令和所识别的永久键,和(2)仅在第二数据集不是第一数据集的至少一部分的递增的情况下(例如,只有最近月的变化,而不是整个数据集)。
第一和第二数据集中所含有的数据优选地表示多个实体。然而,在某些情形下,每个数据集可包含涉及单个(即,相同)实体的一个或多个记录。这些实体可以是个人、财产、组织或其它能够通过标识数据来表示的标识项。
利用算法的步骤可包含:在将第二数据集与第一数据集的至少一部分进行比较之前的下列步骤的至少一个:(a)建立第二数据集的新部分,(b)修改第二数据集的至少一部分,和/或(c)为了有效地进行比较而组织第二数据集,包含但不限于:(i)对第二数据集进行排序,(ii)利用数据库结构(例如,带索引的数据库),和/或(iii)利用存储器阵列。进一步考虑的是,修改第二数据集的至少一部分的步骤可包含去掉或替换满足用户定义准则的第二数据集的部分,例如去掉或替换记录中所含有的被识别为不适合的字符。
进一步考虑的是,利用算法的步骤进一步包括:(a)在将第二数据集与第一数据集的至少一部分进行比较之前,为了有效地进行比较而组织第一数据集的至少一部分,包含但不限于:(i)对第一数据集进行排序,(ii)使用数据库结构(例如,带索引的数据库),和/或(iii)使用存储器阵列,和/或(b)修改第一数据集以反映第二数据集(具有所识别或赋给的永久键)。以这种方式,第一数据集可以反映最近已知的数据集。
还进一步考虑的是,利用算法将第二数据集与第一数据集的至少一部分进行比较的步骤包含确定(a)第二数据集中的至少一个记录是否:(i)在第一数据集中不存在,或(ii)包含对至少一个记录的至少一个变化,该至少一个记录在第一数据集的至少一部分中,被确定为反映多个实体中一个相同实体,或确定(b)第一数据集的至少一部分是否在第二数据集中不存在。
还进一步考虑的是,利用算法识别或赋给永久键的步骤包含:当确定第二数据集中的至少一个记录反映多个实体中一个相同实体(例如,同一个人)时,将前面所识别或赋给第一数据集的至少一部分中的记录的永久键,赋给第二数据集的至少一个记录。
在第二个实施例中,该方法、程序和系统包括步骤:(a)接收具有第一记录的第一数据集,(b)将永久键赋给第一记录,(c)接收具有第二记录的第二数据集,(d)将第二记录与第一记录进行比较,和(e)在日志中记录涉及第二记录与第一记录的比较的项。进一步考虑的是,第二个实施例进一步包括步骤:(a)如果第二记录与第一记录匹配(例如,反映相同的实体,但不必含有相同的数据),则将与赋给第一记录的永久键相同的永久键赋给第二记录,和/或(b)如果第二记录与第一记录不匹配,则赋给与赋给第一记录的永久键不同的永久键。
进一步考虑的是,在日志中记录项的步骤包括:(a)如果第二记录与第一记录匹配并且包含对第一记录所含的信息的变化,则在日志中记录改变的第二记录项(也许具有“修改”指令),(b)如果第二记录与第一记录匹配并且不包含对第一记录所含的信息的变化,则记录该永久键和日期(反映第一记录与第二记录相同)(也许具有“无变化”指令),和/或(c)如果第二记录与第一记录不匹配,则在日志中用“添加”指令记录第二记录。
进一步考虑的是,第二个实施例进一步包括如果第一记录与第二记录不匹配并且第二数据集不是第一数据集的增量数据集,则用“删除”指令在日志中记录第一记录的步骤。
进一步考虑的是:(a)第一数据集包含多个第一记录,(b)每个第一记录表示多个实体中的一个实体,(c)第二数据集包括多个第二记录,和/或(d)第二个实施例进一步包括步骤:(i)在第二记录与第一记录进行比较之前,修改第二数据集(例如,产生新数据和/或替换存在的数据),和/或(ii)修改第一数据集以反映第二数据集(用所赋给的永久键)。
进一步考虑的是,第二个实施例进一步包括步骤:(a)在将第二记录与第一记录进行比较之前,为了有效地进行比较而组织第一数据集,和/或(b)在将第二记录与第一记录进行比较之前,为了有效地进行比较而组织第二数据集。
将参照下列附图和其详细说明书讨论本发明的这些、其它方面和属性。
附图说明
图1是本发明的系统的功能方框图;
图2是图1中处理算法模块的流程图。
具体实施方式
虽然本发明具有多种不同形式的实施例,然而在附图中只示出本发明的具体实施例,并在这里对其进行详细地描述,其中应当理解,所公布的内容应被认为只是本发明的原理的示例,其并不旨在将本发明限制于所例举的具体实施例。
在图1-2中图解了用于处理数据的数据处理系统10。系统10包含至少一个常规计算机12,它具有处理器14和存储器16。存储器16既用于存储操作系统10的可执行软件,又用于存储数据集和作为随机访问存储器。然而,在任何其它计算机可读介质,例如CD、DVD或软盘上可以存储或提供该软件。此外,可以整个地,或部分地将该数据集存储在计算机12的数据库或存储器中。计算机12可以从公共信道源18接收数个输入,这些输入可以由一个或多个源发出。
系统被配置成从源18接收数据集。数据集包括一个或多个记录,这些记录表示一个或多个实体。而这些实体可以是个人、组织、财产、蛋白质、化学或有机化合物、生物或原子结构、或其它能够被标识数据所表示的项。
系统10利用算法20处理来自源18的第一数据集22和第二数据集24。算法20被存储在存储器16中,并由处理器14处理或实现。
第一数据集可表示最新已知的数据集,其中每个记录具有永久键,该键在与第二数据集进行任何比较之前被识别或赋给。永久键是唯一的数字或字母数字标识符,至少可用于区分表示特定实体的一个或多个记录与表示不同实体的其它记录。
如图2所图解的,算法20接收第一数据集22(也许通过加载具有以前识别或赋给的永久键的最近已知数据集)和第二数据集24,并建立第二数据集的新部分(例如,增强和/或补充第二数据集)和/或按照用户定义的准则修改第二数据集,例如用另一个诸如“空格”字符的已知字符代替被确定为坏的或不合适的字符。然后,为了有效地进行比较28,组织第一数据集,并且为了有效地进行比较30,组织第二数据集。通过将第二数据集中的第一记录与第一数据集32中的记录进行比较,将第二数据集与第一数据集的所有或预定部分进行比较。
如果第一数据集中的记录(“第一记录”)与第二数据集34中的记录(“第二记录”)匹配(例如,反映相同的实体,但不必含有相同的数据),则算法20将已经赋给的已匹配的第一记录的相同永久键,赋给第二记录,并确定是否在第二记录引入第一记录38中没有反映出的变化。如果第二记录引入了第一记录38中没有反映出的变化(“改变的第二记录”),则改变的第二记录被记录在单独的文件(例如平面文件或数据库,此后称为“日志”)中,用来通过“修改”指令(directive)标识改变、无改变、添加和删除,且根据指令42通过用改变的第二记录(带有永久键,也许带有日期/时间标记)替换第一记录,来更新第一数据集。然后算法20确定是否还有另外的未加比较的记录44。
如果第二记录没有引入变化,而且与第一记录相同(“相同的记录”),则算法20可在日志中记录“无变化”指令(带有永久键),并记录表示第二数据集46中递交该相同记录的日期。然后算法20确定是否还有另外的未加比较的记录44。
如果第二记录与第一记录48不匹配,则赋给第二记录新的永久键50,并用“添加”指令(“添加记录”)52将该第二记录记录在日志中。然后基于该指令42,通过将具有永久键的添加记录直接或间接地添加到第一数据集中(例如直接添加到第一数据集,加入到稍后能够并入第一数据集的单独文件或数据库中,和/或通过利用存储器阵列),使第一数据集得到更新。
如果第一记录与第二记录不匹配,并且第二数据集中没有该第一记录(“不匹配的记录”)54,则算法20一般将会通过从源发出的标识第二数据集为增量或非增量的指令来确定第二数据集是否仅仅是第一数据集56的增量数据集。如果第二数据集不是增量数据集,则不匹配的记录是:(a)用“删除”指令58在日志中记录的记录(带有永久键),和(b)基于指令42,通过去掉或标记为从第一数据集中删除不匹配的记录,使第一数据集得到更新。然后算法20确定是否还有任何另外的未加比较的记录44。
如果还有另外的未加比较的记录,则算法20将第二数据集的下一个记录与第一数据集60进行比较,并重复该过程。如果没有另外未加比较的记录,则算法20存储更新过的数据集和日志62。
根据终端用户的选择,日志能够产生(也许为另外的处理或分析)报告、文件和/或标识以下的数据子集:(a)所有改变的第二记录,这些记录反映了修改第一数据集中的某些记录的记录,(b)所有相同的记录,这些记录反映保持未改变的记录,但具有与第二数据集相对应的较新日期,(c)所有添加记录,这些记录反映被添加到第一数据集中的记录,和/或(d)所有未匹配的记录,这些记录反映要从第一数据集中删除的记录。
通过前述能够明白,可在不偏离本发明的实质和范围的前提下进行许多变化和修改。应当理解的是,任何针对这里图解的具体装置的限制均是非本意的,也不应是必然的。当然,试图通过所附权利要求书将所有这样的修改涵盖在保护范围内。

Claims (66)

1.一种处理数据的方法,包括步骤:
接收第一数据集和第二数据集,每个数据集包括反映多个实体中的至少一个实体的至少一个记录;
以及
利用算法:
将第二数据集与第一数据集的至少一部分进行比较;
对第二数据集的每个记录,识别其永久键或者赋给其永久键;以及
建立数据库或者文件,以包含反映下列中的至少一个的至少一个记录:
第二数据集中的至少一个记录,其被确定为不存在于第一数据集的至少一部分中;
第二数据集中的至少一个记录,其被确定为包含对至少一个记录的至少一个变化,该后者的至少一个记录在第一数据集的至少一部分的至少一个记录中,反映多个实体中一个相同实体;
第一数据集的至少一部分中的至少一个记录,其被确定为不存在于第二数据集中。
2.如权利要求1所述的方法,其中多个实体中的一个实体是人、个人财产、不动产、组织、化学化合物、有机化合物、蛋白质、生物价值和原子结构中的至少一个。
3.如权利要求1所述的方法,其中运用算法的步骤包含下列中的至少一个:
建立第二数据集的新部分;
修改第二数据集的至少一部分;
在将第二数据集与第一数据集的至少一部分进行比较之前,为了有效地进行比较而组织第二数据集。
4.如权利要求3所述的方法,其中修改第二数据集的至少一部分的步骤包含以下步骤之一:去掉第二数据集中满足用户定义的准则的至少一部分,和替换满足用户定义准则的第二数据集的至少一部分。
5.如权利要求3所述的方法,其中为了有效地进行比较而组织第二数据集的步骤包含对第二数据集进行排序。
6.如权利要求3所述的方法,其中为了进行有效地比较而组织第二数据集的步骤包含利用数据库结构。
7.如权利要求3所述的方法,其中为了有效地进行比较而组织第二数据集的步骤包含利用存储器阵列。
8.如权利要求1所述的方法,其中利用算法的步骤包含:在将第二数据集与第一数据集的至少一部分进行比较之前,为了有效地进行比较而组织第一数据集的至少一部分。
9.如权利要求1所述的方法,其中利用算法的步骤进一步包括修改第一数据集以反映第二数据集。
10.如权利要求1所述的方法,其中利用算法来比较第二数据集和第一数据集的至少一部分的步骤包含确定第二数据集中的至少一个记录的至少一个记录是否:
不在第一数据集中;
包含对至少一个记录的至少一个变化,该至少一个记录在第一数据集的至少一部分中,被确定为反映多个实体中一个相同实体;以及
第一数据集的至少一部分不在第二数据集中。
11.如权利要求1所述的方法,其中利用算法识别永久键或者赋给永久键的步骤包含:当确定第二数据集中的至少一个记录反映多个实体中一个相同实体时,将前面所识别或赋给第一数据集的至少一部分中的记录的永久键,赋给第二数据集的至少一个记录。
12.如权利要求1所述的方法,其中利用算法建立数据库和文件中的一个的步骤进一步包含:
第二数据集中的至少一个记录,其不包含对反映多个实体中一个相同实体的第一数据集的至少一部分的至少一个记录中的至少一个记录的变化;和
日期。
13.如权利要求12所述的方法,其中利用算法建立数据库和文件中的一个以包含至少一个记录的步骤包含无变化指令,该至少一个记录包括第二数据集的至少一个记录,它不包含对反映多个实体中一个相同实体的第一数据集的至少一部分的至少一个记录中的至少一个记录的变化。
14.如权利要求1所述的方法,其中利用算法建立数据库和文件中的一个以包含至少一个记录的步骤包含添加指令,该至少一个记录包括第二数据集中的至少一个记录,它被确定为不存在于第一数据集的至少一部分中。
15.如权利要求1所述的方法,其中利用算法建立数据库和文件中的一个以包含至少一个记录的步骤包含修改指令,该至少一个记录包括第二数据集中的至少一个记录,它被确定为包含对反映多个实体中一个相同实体的第一数据集的至少一部分的至少一个记录中的至少一个记录的变化。
16.如权利要求1所述的方法,其中利用算法建立数据库和文件中的一个以包含至少一个记录的步骤包含删除指令,该至少一个记录包括第一数据集的至少一部分的至少一个记录,它被确定为不存在于第二数据集中。
17.如权利要求16所述的方法,其中利用算法建立数据库和文件中的一个以包含至少一个记录的步骤只有当第二数据集不被确定为第一数据集的至少一部分的增量数据集时才执行,该至少一个记录包括第一数据集的至少一部分中的至少一个记录,它被确定为不存在于第二数据集中。
18.一种通过计算机处理数据的方法,包括步骤:
接收具有第一记录的第一数据集;
将永久键赋给第一记录;
接收具有第二记录的第二数据集;
将第二记录与第一记录进行比较;
在日志中记录涉及第二记录与第一记录的比较的项。
19.如权利要求18所述的方法,进一步包括如果第二记录与第一记录匹配,则将与赋给第一记录的永久键相同的永久键赋给第二记录的步骤。
20.如权利要求18所述的方法,进一步包括如果第二记录与第一记录不匹配,则赋给与赋给第一记录的永久键不同的永久键。
21.如权利要求18所述的方法,其中在日志中记录项的步骤包含如果第二记录与第一记录匹配并且包含对含在第一记录中的信息的变化,则在日志中记录改变的第二记录项。
22.如权利要求21所述的方法,其中在日志中记录项的步骤包含如果第二记录与第一记录匹配并且包含对第一记录所含的信息的变化,则在日志中记录“修改”指令。
23.如权利要求18所述的方法,其中在日志中记录项的步骤包含如果第二记录与第一记录匹配并且不包含对第一记录所含的信息的变化,则记录该永久键和日期。
24.如权利要求23所述的方法,其中在日志中记录项的步骤包含如果第二记录与第一记录匹配并且不包含对第一记录中所含的信息的变化,则在日志中记录“无变化”指令。
25.如权利要求18所述的方法,其中在日志中记录项的步骤包含如果第二记录与第一记录不匹配,则在日志中用“添加”指令记录第二记录。
26.如权利要求18所述的方法,其中在日志中记录项的步骤包含如果第一记录与第二记录不匹配并且第二数据集不是第一数据集的增量数据集,则用“删除”指令在日志中记录第一记录。
27.如权利要求18所述的方法,其中第一数据集包含多个第一记录。
28.如权利要求18所述的方法,其中第二数据集包含多个二个记录。
29.如权利要求18所述的方法,其中第一记录表示多个实体中的一个实体。
30.如权利要求18所述的方法,进一步包括在将第二记录与第一记录进行比较之前,修改第二数据集的步骤。
31.如权利要求18所述的方法,进一步包括在将第二记录与第一记录进行比较之前,为了有效地进行比较而组织第二数据集的步骤。
32.如权利要求18所述的方法,进一步包括在将第二记录与第一记录进行比较之前,为了有效地进行比较而组织第一数据集的步骤。
33.如权利要求18所述的方法,进一步包括修改第一数据集以反映第二数据集的步骤。
34.对于用于处理数据的系统和含有执行该方法的计算机可执行的程序指令的计算机可读存储介质,该方法包括步骤:
接收第一数据集和第二数据集,每个数据集包括反映多个实体中的至少一个实体的至少一个记录;
以及
利用算法:
将第二数据集与第一数据集的至少一部分进行比较;
对第二数据集的每个记录,识别其永久键或者赋给其永久键;以及
建立数据库或者文件,以包含反映下列中的至少一个的至少一个记录:
第二数据集中的至少一个记录,其被确定为不存在于第一数据集的至少一部分中;
第二数据集中的至少一个记录,其被确定为包含对至少一个记录的至少一个变化,该后者的至少一个记录在第一数据集的至少一部分的至少一个记录中,反映多个实体中一个相同实体;
第一数据集的至少一部分中的至少一个记录,其被确定为不存在于第二数据集中。
35.用于执行权利要求34所述的方法的计算机可读介质,其中多个实体中的一个实体是人、个人财产、不动产、组织、化学化合物、有机化合物、蛋白质、生物价值和原子结构中的至少一个。
36.用于执行权利要求34所述的方法的计算机可读介质,其中运用算法的步骤包含下列中的至少一个:
建立第二数据集的新部分;
修改第二数据集的至少一部分;
在将第二数据集与第一数据集的至少一部分进行比较之前,为了有效地进行比较而组织第二数据集。
37.用于执行权利要求36所述的方法的计算机可读介质,其中修改第二数据集的至少一部分的步骤包含以下步骤之一:去掉第二数据集中满足用户定义的准则的至少一部分,和替换满足用户定义准则的第二数据集的至少一部分。
38.用于执行权利要求36所述的方法的计算机可读介质,其中为了有效地进行比较而组织第二数据集的步骤包含对第二数据集进行排序。
39.用于执行权利要求36所述的方法的计算机可读介质,其中为了进行有效地比较而组织第二数据集的步骤包含利用数据库结构。
40.用于执行权利要求36所述的方法的计算机可读介质,其中为了有效地进行比较而组织第二数据集的步骤包含利用存储器阵列。
41.用于执行权利要求34所述的方法的计算机可读介质,其中利用算法的步骤包含:在将第二数据集与第一数据集的至少一部分进行比较之前,为了有效地进行比较而组织第一数据集的至少一部分。
42.用于执行权利要求34所述的方法的计算机可读介质,其中利用算法的步骤进一步包括修改第一数据集以反映第二数据集。
43.用于执行权利要求34所述的方法的计算机可读介质,其中利用算法来比较第二数据集和第一数据集的至少一部分的步骤包含确定第二数据集中的至少一个记录的至少一个记录是否:
不在第一数据集中;
包含对至少一个记录的至少一个变化,该至少一个记录在第一数据集的至少一部分中,被确定为反映多个实体中一个相同实体;以及
第一数据集的至少一部分不在第二数据集中。
44.用于执行权利要求34所述的方法的计算机可读介质,其中利用算法识别永久键或者赋给永久键的步骤包含:当确定第二数据集中的至少一个记录反映多个实体中一个相同实体时,将前面所识别或赋给第一数据集的至少一部分中的记录的永久键,赋给第二数据集的至少一个记录。
45.用于执行权利要求34所述的方法的计算机可读介质,其中利用算法建立数据库和文件中的一个的步骤进一步包含:
第二数据集中的至少一个记录,其不包含对反映多个实体中一个相同实体的第一数据集的至少一部分的至少一个记录中的至少一个记录的变化;和
日期。
46.用于执行权利要求45所述的方法的计算机可读介质,其中利用算法建立数据库和文件中的一个以包含至少一个记录的步骤包含无变化指令,该至少一个记录包括第二数据集的至少一个记录,它不包含对反映多个实体中一个相同实体的第一数据集的至少一部分的至少一个记录中的至少一个记录的变化。
47.用于执行权利要求34所述的方法的计算机可读介质,其中利用算法建立数据库和文件中的一个以包含至少一个记录的步骤包含添加指令,该至少一个记录包括第二数据集中的至少一个记录,它被确定为不存在于第一数据集的至少一部分中。
48.用于执行权利要求34所述的方法的计算机可读介质,其中利用算法建立数据库和文件中的一个以包含至少一个记录的步骤包含修改指令,该至少一个记录包括第二数据集中的至少一个记录,它被确定为包含对反映多个实体中一个相同实体的第一数据集的至少一部分的至少一个记录中的至少一个记录的变化。
49.用于执行权利要求34所述的方法的计算机可读介质,其中利用算法建立数据库和文件中的一个以包含至少一个记录的步骤包含删除指令,该至少一个记录包括第一数据集的至少一部分的至少一个记录,它被确定为不存在于第二数据集中。
50.用于执行权利要求49中方法的计算机可读介质,其中利用算法建立数据库和文件中的一个以包含至少一个记录的步骤只有当第二数据集不被确定为第一数据集的至少一部分的增量数据集时才执行,该至少一个记录包括第一数据集的至少一部分中的至少一个记录,它被确定为不存在于第二数据集中。
51.对于用于处理数据的系统和含有执行该方法的计算机可执行的程序指令的计算机可读存储介质,该方法包括步骤:
接收具有第一记录的第一数据集;
将永久键赋给第一记录;
接收具有第二记录的第二数据集;
将第二记录与第一记录进行比较;
在日志中记录涉及第二记录与第一记录的比较的项。
52.用于执行权利要求51所述的方法的计算机可读介质,进一步包括如果第二记录与第一记录匹配,则将与赋给第一记录的永久键相同的永久键赋给第二记录的步骤。
53.用于执行权利要求51所述的方法的计算机可读介质,进一步包括如果第二记录与第一记录不匹配,则赋给与赋给第一记录的永久键不同的永久键。
54.用于执行权利要求51所述的方法的计算机可读介质,其中在日志中记录项的步骤包含如果第二记录与第一记录匹配并且包含对含在第一记录中的信息的变化,则在日志中记录改变的第二记录项。
55.用于执行权利要求54所述的方法的计算机可读介质,其中在日志中记录项的步骤包含如果第二记录与第一记录匹配并且包含对第一记录所含的信息的变化,则在日志中记录“修改”指令。
56.用于执行权利要求51所述的方法的计算机可读介质,其中在日志中记录项的步骤包含如果第二记录与第一记录匹配并且不包含对第一记录所含的信息的变化,则记录该永久键和日期。
57.用于执行权利要求56所述的方法的计算机可读介质,其中在日志中记录项的步骤包含如果第二记录与第一记录匹配并且不包含对第一记录中所含的信息的变化,则在日志中记录“无变化”指令。
58.用于执行权利要求51所述的方法的计算机可读介质,其中在日志中记录项的步骤包含如果第二记录与第一记录不匹配,则在日志中用“添加”指令记录第二记录。
59.用于执行权利要求51所述的方法的计算机可读介质,其中在日志中记录项的步骤包含如果第一记录与第二记录不匹配并且第二数据集不是第一数据集的增量数据集,则用“删除”指令在日志中记录第一记录。
60.用于执行权利要求51所述的方法的计算机可读介质,其中第一数据集包含多个第一记录。
61.用于执行权利要求51所述的方法的计算机可读介质,其中第二数据集包含多个第二记录。
62.用于执行权利要求51所述的方法的计算机可读介质,其中第一记录表示多个实体中的一个实体。
63.用于执行权利要求51所述的方法的计算机可读介质,进一步包括在将第二记录与第一记录进行比较之前,修改第二数据集的步骤。
64.用于执行权利要求51所述的方法的计算机可读介质,进一步包括在将第二记录与第一记录进行比较之前,为了有效地进行比较而组织第二数据集的步骤。
65.用于执行权利要求51所述的方法的计算机可读介质,进一步包括在将第二记录与第一记录进行比较之前,为了有效地进行比较而组织第一数据集的步骤。
66.用于执行权利要求51所述的方法的计算机可读介质,进一步包括修改第一数据集以反映第二数据集的步骤。
CNA2004800087616A 2003-02-07 2004-02-06 数据集比较与净变化处理 Pending CN1839384A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/361,069 2003-02-07
US10/361,069 US7200602B2 (en) 2003-02-07 2003-02-07 Data set comparison and net change processing

Publications (1)

Publication Number Publication Date
CN1839384A true CN1839384A (zh) 2006-09-27

Family

ID=32849597

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004800087616A Pending CN1839384A (zh) 2003-02-07 2004-02-06 数据集比较与净变化处理

Country Status (4)

Country Link
US (1) US7200602B2 (zh)
EP (1) EP1609079A4 (zh)
CN (1) CN1839384A (zh)
WO (1) WO2004072788A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183384B (zh) * 2006-11-13 2010-12-29 国际商业机器公司 处理数据的方法和装置
US7900052B2 (en) 2002-11-06 2011-03-01 International Business Machines Corporation Confidential data sharing and anonymous entity resolution

Families Citing this family (99)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001270169A1 (en) 2000-06-30 2002-01-14 Plurimus Corporation Method and system for monitoring online computer network behavior and creating online behavior profiles
GB2367917A (en) * 2000-10-12 2002-04-17 Qas Systems Ltd Retrieving data representing a postal address from a database of postal addresses using a trie structure
WO2003025695A2 (en) 2001-09-20 2003-03-27 Hitwise Pty. Ltd Method and system for characterization of online behavior
IL162746A0 (en) * 2001-12-28 2005-11-20 Jeffrey James Jonas Real time data warehousing
US9710852B1 (en) 2002-05-30 2017-07-18 Consumerinfo.Com, Inc. Credit report timeline user interface
US9400589B1 (en) 2002-05-30 2016-07-26 Consumerinfo.Com, Inc. Circular rotational interface for display of consumer credit information
US8620937B2 (en) * 2002-12-27 2013-12-31 International Business Machines Corporation Real time data warehousing
WO2004061668A1 (en) * 2002-12-31 2004-07-22 International Business Machines Corporation Authorized anonymous authentication
US7200602B2 (en) * 2003-02-07 2007-04-03 International Business Machines Corporation Data set comparison and net change processing
US7451113B1 (en) * 2003-03-21 2008-11-11 Mighty Net, Inc. Card management system and method
US7962757B2 (en) * 2003-03-24 2011-06-14 International Business Machines Corporation Secure coordinate identification method, system and program
US20040223486A1 (en) * 2003-05-07 2004-11-11 Jan Pachl Communication path analysis
US8732004B1 (en) 2004-09-22 2014-05-20 Experian Information Solutions, Inc. Automated analysis of data to generate prospect notifications based on trigger events
US20060074982A1 (en) * 2004-09-23 2006-04-06 Spodaryk Joseph M Method for comparing tabular data
US7844961B2 (en) * 2004-12-22 2010-11-30 Sap Ag Automatic field linking
US8175889B1 (en) * 2005-04-06 2012-05-08 Experian Information Solutions, Inc. Systems and methods for tracking changes of address based on service disconnect/connect data
US7908242B1 (en) 2005-04-11 2011-03-15 Experian Information Solutions, Inc. Systems and methods for optimizing database queries
US20070203876A1 (en) * 2006-02-28 2007-08-30 Hoopes John M Method of evaluating and tracking records
EP2074572A4 (en) 2006-08-17 2011-02-23 Experian Inf Solutions Inc SYSTEM AND METHOD FOR PROVIDING A BRAND FOR A USED VEHICLE
US8036979B1 (en) 2006-10-05 2011-10-11 Experian Information Solutions, Inc. System and method for generating a finance attribute from tradeline data
US20080086485A1 (en) * 2006-10-06 2008-04-10 Paper Thomas M Process and system for tracking, combining and reporting on data from multiple organizations
US8606626B1 (en) 2007-01-31 2013-12-10 Experian Information Solutions, Inc. Systems and methods for providing a direct marketing campaign planning environment
US8606666B1 (en) 2007-01-31 2013-12-10 Experian Information Solutions, Inc. System and method for providing an aggregation tool
US8285656B1 (en) 2007-03-30 2012-10-09 Consumerinfo.Com, Inc. Systems and methods for data verification
WO2008127288A1 (en) 2007-04-12 2008-10-23 Experian Information Solutions, Inc. Systems and methods for determining thin-file records and determining thin-file risk levels
US20080294540A1 (en) 2007-05-25 2008-11-27 Celka Christopher J System and method for automated detection of never-pay data sets
US8301574B2 (en) * 2007-09-17 2012-10-30 Experian Marketing Solutions, Inc. Multimedia engagement study
US9690820B1 (en) 2007-09-27 2017-06-27 Experian Information Solutions, Inc. Database system for triggering event notifications based on updates to database records
US20090089190A1 (en) * 2007-09-27 2009-04-02 Girulat Jr Rollin M Systems and methods for monitoring financial activities of consumers
US8127986B1 (en) 2007-12-14 2012-03-06 Consumerinfo.Com, Inc. Card registry systems and methods
US9990674B1 (en) 2007-12-14 2018-06-05 Consumerinfo.Com, Inc. Card registry systems and methods
US20090164623A1 (en) * 2007-12-20 2009-06-25 Akon Dey Methods and systems for tracking event loss
US7853493B2 (en) * 2008-06-18 2010-12-14 Consumerinfo.Com, Inc. Personal finance integration system and method
US8312033B1 (en) 2008-06-26 2012-11-13 Experian Marketing Solutions, Inc. Systems and methods for providing an integrated identifier
US7991689B1 (en) 2008-07-23 2011-08-02 Experian Information Solutions, Inc. Systems and methods for detecting bust out fraud using credit data
US9256904B1 (en) 2008-08-14 2016-02-09 Experian Information Solutions, Inc. Multi-bureau credit file freeze and unfreeze
US8595101B1 (en) 2008-09-08 2013-11-26 Exerian Information Solutions, Inc. Systems and methods for managing consumer accounts using data migration
US9022129B2 (en) 2008-10-24 2015-05-05 Exxonmobil Upstream Research Company Tracking geologic object and detecting geologic anomalies in exploration seismic data volume
US8060424B2 (en) 2008-11-05 2011-11-15 Consumerinfo.Com, Inc. On-line method and system for monitoring and reporting unused available credit
WO2010132492A2 (en) 2009-05-11 2010-11-18 Experian Marketing Solutions, Inc. Systems and methods for providing anonymized user profile data
US20100332292A1 (en) 2009-06-30 2010-12-30 Experian Information Solutions, Inc. System and method for evaluating vehicle purchase loyalty
US8364518B1 (en) 2009-07-08 2013-01-29 Experian Ltd. Systems and methods for forecasting household economics
US20110137760A1 (en) * 2009-12-03 2011-06-09 Rudie Todd C Method, system, and computer program product for customer linking and identification capability for institutions
US9652802B1 (en) 2010-03-24 2017-05-16 Consumerinfo.Com, Inc. Indirect monitoring and reporting of a user's credit data
US8725613B1 (en) 2010-04-27 2014-05-13 Experian Information Solutions, Inc. Systems and methods for early account score and notification
US9152727B1 (en) 2010-08-23 2015-10-06 Experian Marketing Solutions, Inc. Systems and methods for processing consumer information for targeted marketing applications
US8639616B1 (en) 2010-10-01 2014-01-28 Experian Information Solutions, Inc. Business to contact linkage system
US8688649B2 (en) 2010-10-12 2014-04-01 Clinicomp International, Inc. Scalable computer arrangement and method
US8782217B1 (en) 2010-11-10 2014-07-15 Safetyweb, Inc. Online identity management
US8484186B1 (en) 2010-11-12 2013-07-09 Consumerinfo.Com, Inc. Personalized people finder
US9147042B1 (en) 2010-11-22 2015-09-29 Experian Information Solutions, Inc. Systems and methods for data verification
EP2659393A4 (en) * 2010-12-29 2015-08-19 Nokia Technologies Oy METHOD, APPARATUS, SYSTEM AND COMPUTER PROGRAM PRODUCT FOR MANAGING DATA IN A DATABASE
US8898269B2 (en) * 2011-03-14 2014-11-25 International Business Machines Corporation Reconciling network management data
US9607336B1 (en) 2011-06-16 2017-03-28 Consumerinfo.Com, Inc. Providing credit inquiry alerts
US9483606B1 (en) 2011-07-08 2016-11-01 Consumerinfo.Com, Inc. Lifescore
EP2732422A4 (en) 2011-07-12 2014-12-24 Experian Inf Solutions Inc SYSTEMS AND METHOD FOR A LARGE-RANGE CREDIT DATA PROCESSING ARCHITECTURE
US9106691B1 (en) 2011-09-16 2015-08-11 Consumerinfo.Com, Inc. Systems and methods of identity protection and management
US8738516B1 (en) 2011-10-13 2014-05-27 Consumerinfo.Com, Inc. Debt services candidate locator
US11030562B1 (en) 2011-10-31 2021-06-08 Consumerinfo.Com, Inc. Pre-data breach monitoring
US9128862B2 (en) 2012-02-23 2015-09-08 International Business Machines Corporation Efficient checksums for shared nothing clustered filesystems
US9853959B1 (en) 2012-05-07 2017-12-26 Consumerinfo.Com, Inc. Storage and maintenance of personal data
US9654541B1 (en) 2012-11-12 2017-05-16 Consumerinfo.Com, Inc. Aggregating user web browsing data
US9916621B1 (en) 2012-11-30 2018-03-13 Consumerinfo.Com, Inc. Presentation of credit score factors
US10255598B1 (en) 2012-12-06 2019-04-09 Consumerinfo.Com, Inc. Credit card account data extraction
US9697263B1 (en) 2013-03-04 2017-07-04 Experian Information Solutions, Inc. Consumer data request fulfillment system
US9432278B2 (en) * 2013-03-07 2016-08-30 Microsoft Technology Licensing, Llc Simulation of interactions between network endpoints
US8972400B1 (en) 2013-03-11 2015-03-03 Consumerinfo.Com, Inc. Profile data management
US9406085B1 (en) 2013-03-14 2016-08-02 Consumerinfo.Com, Inc. System and methods for credit dispute processing, resolution, and reporting
US10102570B1 (en) 2013-03-14 2018-10-16 Consumerinfo.Com, Inc. Account vulnerability alerts
US9870589B1 (en) 2013-03-14 2018-01-16 Consumerinfo.Com, Inc. Credit utilization tracking and reporting
US9633322B1 (en) 2013-03-15 2017-04-25 Consumerinfo.Com, Inc. Adjustment of knowledge-based authentication
US10664936B2 (en) 2013-03-15 2020-05-26 Csidentity Corporation Authentication systems and methods for on-demand products
US10685398B1 (en) 2013-04-23 2020-06-16 Consumerinfo.Com, Inc. Presenting credit score information
US9721147B1 (en) 2013-05-23 2017-08-01 Consumerinfo.Com, Inc. Digital identity
US9443268B1 (en) 2013-08-16 2016-09-13 Consumerinfo.Com, Inc. Bill payment and reporting
US10325314B1 (en) 2013-11-15 2019-06-18 Consumerinfo.Com, Inc. Payment reporting systems
US10102536B1 (en) 2013-11-15 2018-10-16 Experian Information Solutions, Inc. Micro-geographic aggregation system
US9477737B1 (en) 2013-11-20 2016-10-25 Consumerinfo.Com, Inc. Systems and user interfaces for dynamic access of multiple remote databases and synchronization of data based on user rules
US9529851B1 (en) 2013-12-02 2016-12-27 Experian Information Solutions, Inc. Server architecture for electronic data quality processing
US10262362B1 (en) 2014-02-14 2019-04-16 Experian Information Solutions, Inc. Automatic generation of code for attributes
US10929858B1 (en) * 2014-03-14 2021-02-23 Walmart Apollo, Llc Systems and methods for managing customer data
USD760256S1 (en) 2014-03-25 2016-06-28 Consumerinfo.Com, Inc. Display screen or portion thereof with graphical user interface
USD759690S1 (en) 2014-03-25 2016-06-21 Consumerinfo.Com, Inc. Display screen or portion thereof with graphical user interface
USD759689S1 (en) 2014-03-25 2016-06-21 Consumerinfo.Com, Inc. Display screen or portion thereof with graphical user interface
US9892457B1 (en) 2014-04-16 2018-02-13 Consumerinfo.Com, Inc. Providing credit data in search results
US10373240B1 (en) 2014-04-25 2019-08-06 Csidentity Corporation Systems, methods and computer-program products for eligibility verification
US9576030B1 (en) 2014-05-07 2017-02-21 Consumerinfo.Com, Inc. Keeping up with the joneses
CN104268295B (zh) * 2014-10-24 2018-07-06 迈普通信技术股份有限公司 一种数据查询方法及装置
US10242019B1 (en) 2014-12-19 2019-03-26 Experian Information Solutions, Inc. User behavior segmentation using latent topic detection
WO2018039377A1 (en) 2016-08-24 2018-03-01 Experian Information Solutions, Inc. Disambiguation and authentication of device users
WO2018144612A1 (en) 2017-01-31 2018-08-09 Experian Information Solutions, Inc. Massive scale heterogeneous data ingestion and user resolution
US10911234B2 (en) 2018-06-22 2021-02-02 Experian Information Solutions, Inc. System and method for a token gateway environment
US20200074541A1 (en) 2018-09-05 2020-03-05 Consumerinfo.Com, Inc. Generation of data structures based on categories of matched data items
US10963434B1 (en) 2018-09-07 2021-03-30 Experian Information Solutions, Inc. Data architecture for supporting multiple search models
US11449047B2 (en) * 2018-09-28 2022-09-20 Rockwell Automation Technologies, Inc. Systems and methods for retraining a model a target variable in a tiered framework
US11315179B1 (en) 2018-11-16 2022-04-26 Consumerinfo.Com, Inc. Methods and apparatuses for customized card recommendations
US11238656B1 (en) 2019-02-22 2022-02-01 Consumerinfo.Com, Inc. System and method for an augmented reality experience via an artificial intelligence bot
US11941065B1 (en) 2019-09-13 2024-03-26 Experian Information Solutions, Inc. Single identifier platform for storing entity data
US11880377B1 (en) 2021-03-26 2024-01-23 Experian Information Solutions, Inc. Systems and methods for entity resolution

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1261167A (en) * 1917-10-25 1918-04-02 Robert C Russell Index.
US5010478A (en) * 1986-04-11 1991-04-23 Deran Roger L Entity-attribute value database system with inverse attribute for selectively relating two different entities
US5345587A (en) * 1988-09-14 1994-09-06 Digital Equipment Corporation Extensible entity management system including a dispatching kernel and modules which independently interpret and execute commands
AU7697091A (en) * 1990-04-16 1991-11-11 X-Cal Corporation Pressure-sensitive, adhesive-backed substrates and method for producing same
US5555409A (en) * 1990-12-04 1996-09-10 Applied Technical Sysytem, Inc. Data management systems and methods including creation of composite views of data
US5560006A (en) * 1991-05-15 1996-09-24 Automated Technology Associates, Inc. Entity-relation database
US5229764A (en) * 1991-06-20 1993-07-20 Matchett Noel D Continuous biometric authentication matrix
EP0581421B1 (en) * 1992-07-20 2003-01-15 Compaq Computer Corporation Method and system for certificate based alias detection
US5403639A (en) * 1992-09-02 1995-04-04 Storage Technology Corporation File server having snapshot application data groups
US5454101A (en) * 1992-09-15 1995-09-26 Universal Firmware Industries, Ltd. Data storage system with set lists which contain elements associated with parents for defining a logical hierarchy and general record pointers identifying specific data sets
US5764977A (en) * 1994-03-30 1998-06-09 Siemens Stromberg-Carlson Distributed database architecture and distributed database management system for open network evolution
JPH0863382A (ja) * 1994-08-19 1996-03-08 Fujitsu Ltd 分散システムにおけるデータ整合性確認方法及びデータ整合性確認装置
US5675785A (en) 1994-10-04 1997-10-07 Hewlett-Packard Company Data warehouse which is accessed by a user using a schema of virtual tables
US5873093A (en) * 1994-12-07 1999-02-16 Next Software, Inc. Method and apparatus for mapping objects to a data source
US5799309A (en) * 1994-12-29 1998-08-25 International Business Machines Corporation Generating an optimized set of relational queries fetching data in an object-relational database
JPH08305662A (ja) * 1995-05-02 1996-11-22 Fujitsu Ltd クライアント認証システムおよび方法
US5659731A (en) * 1995-06-19 1997-08-19 Dun & Bradstreet, Inc. Method for rating a match for a given entity found in a list of entities
US5758343A (en) * 1995-12-08 1998-05-26 Ncr Corporation Apparatus and method for integrating multiple delegate directory service agents
US6035300A (en) * 1995-12-15 2000-03-07 International Business Machines Corporation Method and apparatus for generating a user interface from the entity/attribute/relationship model of a database
US5991733A (en) * 1996-03-22 1999-11-23 Hartford Fire Insurance Company Method and computerized system for managing insurance receivable accounts
US5878416A (en) * 1996-06-14 1999-03-02 Electronic Data Systems Corporation Automated system and method for matching an item of business property to a recipient
US6052693A (en) * 1996-07-02 2000-04-18 Harlequin Group Plc System for assembling large databases through information extracted from text sources
US5819263A (en) * 1996-07-19 1998-10-06 American Express Financial Corporation Financial planning system incorporating relationship and group management
US5781911A (en) * 1996-09-10 1998-07-14 D2K, Incorporated Integrated system and method of data warehousing and delivery
US6076167A (en) * 1996-12-04 2000-06-13 Dew Engineering And Development Limited Method and system for improving security in network applications
US5845285A (en) * 1997-01-07 1998-12-01 Klein; Laurence C. Computer system and method of data analysis
JP4268690B2 (ja) * 1997-03-26 2009-05-27 ソニー株式会社 認証システムおよび方法、並びに認証方法
EP0976069B1 (en) * 1997-04-16 2003-01-29 BRITISH TELECOMMUNICATIONS public limited company Data summariser
CN1204515C (zh) * 1997-04-22 2005-06-01 格雷格·赫瑟林顿 自由格式数据处理的方法和设备
US5794246A (en) * 1997-04-30 1998-08-11 Informatica Corporation Method for incremental aggregation of dynamically increasing database data sets
US6032158A (en) * 1997-05-02 2000-02-29 Informatica Corporation Apparatus and method for capturing and propagating changes from an operational database to data marts
US5991765A (en) * 1997-05-06 1999-11-23 Birdstep Technology As System and method for storing and manipulating data in an information handling system
US5991408A (en) * 1997-05-16 1999-11-23 Veridicom, Inc. Identification and security using biometric measurements
JP3547069B2 (ja) * 1997-05-22 2004-07-28 日本電信電話株式会社 情報関連づけ装置およびその方法
US5991758A (en) * 1997-06-06 1999-11-23 Madison Information Technologies, Inc. System and method for indexing information about entities from different information sources
US6122757A (en) * 1997-06-27 2000-09-19 Agilent Technologies, Inc Code generating system for improved pattern matching in a protocol analyzer
US6092199A (en) * 1997-07-07 2000-07-18 International Business Machines Corporation Dynamic creation of a user account in a client following authentication from a non-native server domain
US6073140A (en) * 1997-07-29 2000-06-06 Acxiom Corporation Method and system for the creation, enhancement and update of remote data using persistent keys
US5995973A (en) * 1997-08-29 1999-11-30 International Business Machines Corporation Storing relationship tables identifying object relationships
US6067541A (en) 1997-09-17 2000-05-23 Microsoft Corporation Monitoring document changes in a file system of documents with the document change information stored in a persistent log
US6044378A (en) * 1997-09-29 2000-03-28 International Business Machines Corporation Method and system for a federated digital library by managing links
US6357004B1 (en) * 1997-09-30 2002-03-12 Intel Corporation System and method for ensuring integrity throughout post-processing
US6014670A (en) * 1997-11-07 2000-01-11 Informatica Corporation Apparatus and method for performing data transformations in data warehousing
US6339775B1 (en) * 1997-11-07 2002-01-15 Informatica Corporation Apparatus and method for performing data transformations in data warehousing
US6035306A (en) * 1997-11-24 2000-03-07 Terascape Software Inc. Method for improving performance of large databases
US6041410A (en) * 1997-12-22 2000-03-21 Trw Inc. Personal identification fob
US5933831A (en) * 1998-01-09 1999-08-03 Lsi Logic Corporation Viewing entity relationship diagrams using hyperlinks
US6418450B2 (en) * 1998-01-26 2002-07-09 International Business Machines Corporation Data warehouse programs architecture
US6049805A (en) * 1998-02-24 2000-04-11 Microsoft Corporation Dynamic event mechanism for objects with associational relationships
GB2336007B (en) * 1998-04-01 2003-01-29 Mitel Corp Agent-based data mining and warehousing
US6167517A (en) * 1998-04-09 2000-12-26 Oracle Corporation Trusted biometric client authentication
US6160903A (en) * 1998-04-24 2000-12-12 Dew Engineering And Development Limited Method of providing secure user access
US6684334B1 (en) * 1998-05-27 2004-01-27 Trusted Security Solutions, Inc. Secure establishment of cryptographic keys using persistent key component
US6189016B1 (en) * 1998-06-12 2001-02-13 Microsoft Corporation Journaling ordered changes in a storage volume
US6208990B1 (en) * 1998-07-15 2001-03-27 Informatica Corporation Method and architecture for automated optimization of ETL throughput in data warehousing applications
US6185557B1 (en) * 1998-07-31 2001-02-06 Unisys Corporation Merge join process
US6810405B1 (en) * 1998-08-18 2004-10-26 Starfish Software, Inc. System and methods for synchronizing data between multiple datasets
US6819797B1 (en) * 1999-01-29 2004-11-16 International Business Machines Corporation Method and apparatus for classifying and querying temporal and spatial information in video
US6317834B1 (en) * 1999-01-29 2001-11-13 International Business Machines Corporation Biometric authentication system with encrypted models
US6249784B1 (en) * 1999-05-19 2001-06-19 Nanogen, Inc. System and method for searching and processing databases comprising named annotated text strings
US6697947B1 (en) * 1999-06-17 2004-02-24 International Business Machines Corporation Biometric based multi-party authentication
US6385604B1 (en) * 1999-08-04 2002-05-07 Hyperroll, Israel Limited Relational database management system having integrated non-relational multi-dimensional data store of aggregated data elements
EP1130512A3 (en) 2000-01-25 2004-04-07 FusionOne, Inc. Data transfer and synchronization system
US7930285B2 (en) * 2000-03-22 2011-04-19 Comscore, Inc. Systems for and methods of user demographic reporting usable for identifying users and collecting usage data
GB2366160B (en) * 2000-08-09 2004-03-17 Michaelhouse Man Ltd Information routing
US6690820B2 (en) * 2001-01-31 2004-02-10 Magic Earth, Inc. System and method for analyzing and imaging and enhanced three-dimensional volume data set using one or more attributes
US20030030733A1 (en) * 2001-08-08 2003-02-13 Seaman Mark D. System and method for synchronization of media data
US7370044B2 (en) * 2001-11-19 2008-05-06 Equifax, Inc. System and method for managing and updating information relating to economic entities
US7096213B2 (en) * 2002-04-08 2006-08-22 Oracle International Corporation Persistent key-value repository with a pluggable architecture to abstract physical storage
US6968338B1 (en) * 2002-08-29 2005-11-22 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Extensible database framework for management of unstructured and semi-structured documents
US7200602B2 (en) * 2003-02-07 2007-04-03 International Business Machines Corporation Data set comparison and net change processing

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7900052B2 (en) 2002-11-06 2011-03-01 International Business Machines Corporation Confidential data sharing and anonymous entity resolution
CN101183384B (zh) * 2006-11-13 2010-12-29 国际商业机器公司 处理数据的方法和装置
US8204831B2 (en) 2006-11-13 2012-06-19 International Business Machines Corporation Post-anonymous fuzzy comparisons without the use of pre-anonymization variants

Also Published As

Publication number Publication date
WO2004072788A3 (en) 2005-06-16
US7200602B2 (en) 2007-04-03
EP1609079A2 (en) 2005-12-28
US20040162802A1 (en) 2004-08-19
EP1609079A4 (en) 2007-01-17
WO2004072788A2 (en) 2004-08-26

Similar Documents

Publication Publication Date Title
CN1839384A (zh) 数据集比较与净变化处理
US5794246A (en) Method for incremental aggregation of dynamically increasing database data sets
US8706854B2 (en) System and method for organizing, managing and running enterprise-wide scans
US7117294B1 (en) Method and system for archiving and compacting data in a data storage array
US6973452B2 (en) Limiting scans of loosely ordered and/or grouped relations using nearly ordered maps
US20070005619A1 (en) Method and system for detecting tables to be modified
CN113342750B (zh) 一种文件的数据比对方法、装置、设备及存储介质
US7251650B2 (en) Method, system, and article of manufacture for processing updates to insert operations
CA2501205A1 (en) Data quality & integrity engine
KR101085735B1 (ko) 기초 테이블로부터 삭제된 행을 식별하는 컴퓨터 구현 방법, 기초 테이블에 삽입된 행을 식별하는 컴퓨터 구현 방법, 삭제된 행의 식별 시스템, 삽입된 행의 식별 시스템, 및 컴퓨터 판독가능 저장 매체
US10331848B2 (en) Method for managing complex genomic data workflows
US20070088766A1 (en) Method and system for capturing and storing multiple versions of data item definitions
CN101051947A (zh) 一种设备配置参数创建方法及基站单板配置系统
US7181481B2 (en) System and method for concurrently reorganizing logically related LOB table spaces
US8112458B1 (en) User segmentation user interface
CN110321388B (zh) 一种基于Greenplum的快速排序查询方法及系统
US20040243491A1 (en) Bill of material comparison system and method
US7882114B2 (en) Data processing method and data processing program
CN114461762A (zh) 档案变更识别方法、装置、设备及存储介质
CN1211745C (zh) 校验参照完整性中涉及的表空间的方法
EP1634196B1 (en) Data processing method and system for combining database tables
US7966333B1 (en) User segment population techniques
US7958090B2 (en) Method, system, and computer program product for implementing back up history cleanup operations for a database management system
CN114218455A (zh) 一种文件快速阅读方法、装置、设备及介质
US7996366B1 (en) Method and system for identifying stale directories

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20060927