CN101650717A - 一种节约数据库存储空间的方法和系统 - Google Patents

一种节约数据库存储空间的方法和系统 Download PDF

Info

Publication number
CN101650717A
CN101650717A CN200810147054A CN200810147054A CN101650717A CN 101650717 A CN101650717 A CN 101650717A CN 200810147054 A CN200810147054 A CN 200810147054A CN 200810147054 A CN200810147054 A CN 200810147054A CN 101650717 A CN101650717 A CN 101650717A
Authority
CN
China
Prior art keywords
standard attribute
commodity
module
attribute unit
spu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200810147054A
Other languages
English (en)
Other versions
CN101650717B (zh
Inventor
岳旭强
朱晨
靳科
魏虎
骆静峰
曹灵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN2008101470545A priority Critical patent/CN101650717B/zh
Priority to US12/462,081 priority patent/US8126850B2/en
Priority to PCT/US2009/004596 priority patent/WO2010019220A1/en
Priority to JP2011522984A priority patent/JP5721627B2/ja
Priority to EP09806959.4A priority patent/EP2316073A4/en
Publication of CN101650717A publication Critical patent/CN101650717A/zh
Priority to HK10107387.4A priority patent/HK1141103A1/xx
Priority to US13/352,170 priority patent/US8751458B2/en
Application granted granted Critical
Publication of CN101650717B publication Critical patent/CN101650717B/zh
Priority to US14/263,719 priority patent/US9471440B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions

Abstract

本发明公开了一种节约数据库存储空间的方法和系统,该方法包括以下步骤:从商品信息中,提取出标准属性单元,建立标准属性单元库;计算所述标准属性单元库中的标准属性单元,生成标准属性单元序列化文件,定期推送所述标准属性单元序列化文件;判断新发布商品和所述标准属性单元序列化文件中的标准属性单元是否匹配,如果是,绑定所述新发布商品和所述匹配的标准属性单元。在具体实现中,采用该方法能够有效地节约存储的空间,减少网络流量。

Description

一种节约数据库存储空间的方法和系统
技术领域
本发明涉及计算机网络技术领域,特别涉及一种节约数据库存储空间的方法和系统。
背景技术
随着计算机网络技术的发展,网上购物蓬勃发展,出现了很多购物类网站,人们只需在购物网站上注册,将商品信息传递到网上就可以足不出户的进行交易。
例如,目前购物网站淘宝网有1.8亿商品,当有卖家发布商品时,每件商品都对应了名称、图片、简介说明、价格区间和相关属性,因此,这些商品的数据存在大量的冗余。比如诺基亚的N73,现在是每个N73商品都会对应各自卖家发布的图片、简介说明、属性等内容。这就使得购物网的数据库需要大量的存储空间,现在购物网使用的多数是产品库,需要运营人工维护大量的产品。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
现有技术中使用的是产品库,需要运营人工维护大量的产品,不够灵活。每件商品都对应了名称、图片、简介说明、价格区间和相关属性,在这些商品的数据存在大量的冗余,对商品进行规范不方便;同时,随着网站的发展,产品数量迅速增长,增加了运营人员的困难。
发明内容
本发明实施例提供一种节约数据库存储空间的方法和系统,通过使用数据仓库的挖掘算法,对后台类目下同类属性商品聚合分析,提取出标准属性单元,减少数据库的存储空间和图片在网络上的传输流量,解决了运营困难的问题。
为达到上述目的,本发明实施例一方面提供了一种节约数据库存储空间的方法,包括以下步骤:
从商品信息中,提取出标准属性单元,建立标准属性单元库;
计算所述标准属性单元库中的标准属性单元,生成标准属性单元序列化文件,定期推送所述标准属性单元序列化文件;
判断新发布商品和所述标准属性单元序列化文件是否匹配,如果是,绑定所述新发布商品和所匹配到的标准属性单元。
本发明实施例另一方面提供了一种节约数据库存储空间的系统,包括:
数据库,用于存储商品信息和正式的标准属性单元;
标准属性单元服务器,用于缓存来自所述数据库和后台服务器的数据,包括来自所述数据库的正式的标准属性单元和商品属性及来自所述后台服务器的正式的标准属性单元,计算正式的标准属性单元,生成标准属性单元序列化文件;
后台服务器,用于根据来自所述标准属性单元服务器的商品信息,生成正式的标准属性单元;
前台服务器,用于接收来自所述标准属性单元服务器的标准属性单元序列化文件,匹配商品和所匹配到的标准属性单元。
与现有技术相比,本发明实施例具有以下优点:
本发明实施例通过引入标准属性单元表示商品的共同属性,如果所发布商品可以匹配到序列化文件中的标准属性单元,则绑定商品和匹配的序列化文件中的标准属性单元,这样既可以节约存储,便于规范商品;还可以通过使用标准属性单元的图片来节省图片存储的空间,减少存储开销及网络流量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一的一种节约数据库存储空间的方法流程图;
图2是本发明实施例二的一种节约数据库存储空间的方法流程图;
图3是本发明实施例三的一种节约数据库存储空间的方法流程图;
图4是本发明实施例四的一种节约数据库存储空间的方法流程图;
图5是本发明实施例五的一种节约数据库存储空间的系统结构图;
图6是本发明实施例五中数据库的具体结构图;
图7是本发明实施例五中标准属性单元服务器的具体结构图;
图8是本发明实施例五中后台服务器的具体结构图;
图9是本发明实施例五中前台服务器的具体结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例一提供了一种节约数据库存储空间的方法,如图1所示,包括以下步骤:
步骤S101,从商品信息中,提取出正式的SPU(Standard Property Unit,标准属性单元),建立SPU库。
利用搜索引擎从商品信息中搜索出商品的关键属性,根据搜索出的商品的关键属性,使用数据库的挖掘算法挖掘商品的共同属性,根据挖掘的商品的共同属性,聚合分析提取出具有商品共同属性的待审核的SPU,判断审核待审核的SPU是否为商品的共同属性,如果是,则生成正式的SPU,建立SPU库。
SPU,定义为后台标准类目叶子节点下一组共同属性的集合,具有名称、简介、图片(可以是多个)、价格、主属性、绑定属性,并能关联其它SPU。在众多商品中,服务器可以将具有某些相同属性的商品归类到一起,称为一个SPU,SPU以数据表的形式存储,数据表包含该SPU的SPU_ID,并通过类目ID字段外联到类目,表示该SPU所属类目,这样,可以找到一个类目下所有的SPU。SPU可以重复使用。
步骤S102,计算SPU库中的SPU,生成SPU序列化文件,按照设定的时间间隔,定期向前台推送SPU序列化文件。
其中,SPU序列化文件是数据库中数据的集合,包含后台类目、SPU和关联SPU等信息。例如手机诺基亚N73的SPU序列化文件中,后台类目为手机,在该类目下可以找到一个SPU,该SPU包含品牌为诺基亚,型号为N73,操作系统为***等信息,还可以找到关联SPU(如手机诺基亚N73的电池的SPU)。
生成SPU序列化文件,具体可以为:在后台类目中获取类目信息,根据得到的类目信息通过访问SPU库获取该类目下所有的SPU,所获取的SPU生成SPU序列化文件。
步骤S103,判断新发布商品和SPU序列化文件中的SPU是否匹配,如果是,绑定新发布商品和匹配的SPU。
具体的,绑定新发布商品和匹配的SPU为,建立新发布商品和上述的匹配的SPU之间的对应关系,并保存该对应关系,用于后续操作。
如果新发布商品可以匹配到序列化文件中的SPU,将匹配成功的SPU和该新发布的商品建立对应关系,未匹配成功的属性为商品的特有属性,保存在属性字段中。
通过本发明实施例的技术方案,使用数据库的挖掘算法,对后台类目下的同类属性商品提取聚合分析,把商品具有的相同特征抽取出来,引入SPU表示商品的共同属性,如果新发布商品匹配到序列化文件中的SPU,则绑定商品和匹配的序列化文件中的SPU,从而将网站中上亿的商品变成百万级别数量的SPU,这样既可以节约存储,便于规范商品;还可以通过使用SPU的图片来节省图片存储的空间,减少存储开销及网络流量。
本发明实施例二提供了一种节约数据库存储空间的方法,如图2所示,包括以下步骤:
步骤S201,利用搜索引擎搜索数据库中商品的关键属性。
搜索引擎搜索的是预先整理好的索引数据库。搜索引擎,指收集了上几千万到几十亿个商品属性并对商品属性中的每一个属性和属性值组合进行索引,建立索引数据库的全文搜索引擎。当查找某个主属性的时候,所有包含了该属性和属性值组合的商品属性都将作为搜索结果被搜出来。
步骤S202,根据步骤S201搜索出的商品的关键属性,使用数据库的挖掘算法,挖掘出商品的共同属性。
DM(Data Mining,数据挖掘)是从大型数据库的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的、潜在有用的信息,提取的知识表示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)等形式。这种定义把数据挖掘的对象定义为数据库,而更广义的说法是:数据挖掘是在一些事实或观察数据的集合中寻找模式的决策支持过程。数据挖掘的对象不仅是数据库,也可以是文件系统,或其他任何组织在一起的数据集合。数据挖掘的最终目的是发现人们不易察觉的、隐含的模式。一般说来,这些模式中最易于理解的是统计模型。其次是对数据的外围检测,对大规模数据集的模式识别、分类或聚类。最后是从理论和计算上解决在大多数数据库管理系统中存在的多维空间和大量的数据处理的问题。
搜索引擎搜索出数据库中商品的关键属性后,使用数据库的挖掘算法对数据库中商品的属性进一步挖掘,计算出商品的共同属性。这里所说的商品的共同属性是指大量数据中存在的规律性或不同特征属性值之间存在的[ifthen]规则。从大量数据中获取商品共同属性的有两个含义:首先,与科学发现有关。从观测客观世界的大量实验数据(往往是数值)中发现数据的整体结构特性和数据之间的函数关系,并根据统计特征推断客观世界中存在的规律性;其次,与商业数据等事实数据所构成的数据库中发现其中隐含的规则或规律性有关。第二类是将人工智能技术与数据库理论相融合的应用性研究课题。
步骤S203,根据步骤S202挖掘的商品的共同属性,对后台类目下同类属性商品聚合分析,提取出具有商品共同属性的待审核的SPU。
后台类目是指产品的类型,比如手机、mp3等。后台类目的结构包括后台标准类目表、产品相关属性、相关SPU。
步骤S204,审核待审核的SPU,提取出正式的SPU。步骤S203提取出的SPU有可能不是很准确,需要人工进行审核,判断待审核的SPU是否是商品具有的共同属性,如果是,则生成正式的SPU,放入SPU库中。
步骤S205,正式的SPU经过计算生成SPU序列化文件,在设定程序的控制下,定时向前台推送SPU序列化文件。
步骤S206,判断新发布商品和步骤S205定时推送的SPU序列化文件是否匹配。当卖家发布商品时,首先需要点选商品的属性,将卖家点选的属性和定时向前台推送的SPU序列化文件进行匹配,如果匹配成功,则将商品与匹配成功的SPU绑定,未匹配成功的属性为商品的特有属性,保存在属性字段中。
本发明实施例三还提供了一种节约数据库存储空间的方法,如图3所示,包括以下步骤:
步骤S301,利用搜索引擎自动搜索数据库中商品的关键属性。例如,搜索手机诺基亚N73,搜索引擎搜索到手机诺基亚N73的属性,包括:品牌:诺基亚;型号:N73;操作系统:***等。
步骤S302,根据步骤S301搜索出的商品的关键属性,使用数据库的挖掘算法,挖掘出商品的共同属性。例如,经过搜索得到了手机诺基亚N73的属性集合,应用数据库的挖掘算法计算搜索出的手机诺基亚N73的关键属性,提取出手机诺基亚N73的共同属性:品牌是诺基亚,型号是N73,存储卡是***,操作系统是***等。
步骤S303,根据步骤S302挖掘的商品的共同属性,对后台类目下同类属性商品聚合分析,提取出具有商品共同属性的待审核的SPU。后台类目为手机,根据数据库挖掘算法挖掘出的商品的共同属性,通过聚合分析等技术,提取出手机诺基亚N73的共同特征,生成待审核的SPU,手机诺基亚N73相关属性(如手机配件等)则生成手机诺基亚N73的待审核的相关SPU。
步骤S304,审核待审核的SPU,批准成正式的SPU。步骤S303提取出的SPU有可能不是很准确,需要人工进行审核,判断待审核的SPU是否是商品具有的共同属性,如果是,则生成正式的SPU,放入SPU库中。
步骤S305,正式的SPU经过计算生成SPU序列化文件,在设定程序的控制下,定时向前台推送SPU序列化文件。
步骤S306,判断新发布商品和步骤S305定时推送的SPU序列化文件是否匹配。当卖家发布商品时,首先需要点选商品的属性,将卖家点选的属性和定时推送的SPU序列化文件进行匹配,如果匹配成功,则将商品与匹配成功的SPU绑定,未匹配成功的属性为商品的特有属性,保存在属性字段中。卖家发布商品为手机诺基亚N73,将商品和手机诺基亚N73的SPU绑定,且手机诺基亚N73的SPU可以关联相关的SPU(如手机诺基亚N73的电池的SPU)。
本发明实施例四还提供了一种节约数据库存储空间的方法,如图4所示,包括以下步骤:
步骤S401,利用搜索引擎搜索数据库中商品的关键属性。例如,搜索手机诺基亚N73、手机诺基亚N72、手机诺基亚N76,搜索引擎搜索到手机诺基亚N73、手机诺基亚N72、手机诺基亚N76的属性,包括商品品牌、操作系统、存储卡类型、铃声类型、高级特性、像素等。
步骤S402,根据步骤S401搜索出的商品的关键属性,使用数据库的挖掘算法,挖掘出商品的共同属性。例如,经过搜索得到了手机诺基亚N73、手机诺基亚N72、手机诺基亚N76的属性集合,数据库的挖掘算法计算搜索出的属性,分别提取出机诺基亚N73、手机诺基亚N72、手机诺基亚N76的共同属性。
步骤S403,根据步骤S302挖掘的商品的共同属性,对后台类目下同类属性商品聚合分析,提取出具有商品共同属性的待审核的SPU。根据数据库挖掘算法挖掘出的商品的共同属性,通过提取聚合分析等技术,分别提取出手机诺基亚N73、手机诺基亚N72、手机诺基亚N76的共同特征,生成待审核的SPU,相关属性(如手机配件等)则分别生成手机诺基亚N73、手机诺基亚N72、手机诺基亚N76的待审核的相关SPU。
步骤S404,审核待审核的SPU,提取出正式的SPU。步骤S403提取出的SPU有可能不是很准确,需要人工进行审核,判断待审核的SPU是否是商品具有的共同属性,如果是,则生成正式的SPU,分别是手机诺基亚N73、手机诺基亚N72、手机诺基亚N76的SPU和手机诺基亚N73、手机诺基亚N72、手机诺基亚N76的相关SPU,放入SPU库。
步骤S405,步骤S404获得的正式的SPU为细粒度的SPU,都具有相同的属性,经过计算算出手机诺基亚N73、手机诺基亚N72、手机诺基亚N76的SPU的共同属性,得到手机诺基亚N系列的SPU,即细粒度的SPU组装成粗粒度的SPU。
步骤S406,正式的SPU经过计算生成SPU序列化文件,在设定程序的控制下,定时向前台推送SPU序列化文件。
步骤S407,判断新发布商品和步骤S305定时推送的SPU序列化文件是否匹配。当卖家发布商品时,首先需要点选商品的属性,将卖家点选的属性和定时推送的SPU序列化文件进行匹配,如果匹配成功,则将商品与匹配成功的SPU绑定,未匹配成功的属性为商品的特有属性,保存在属性字段中。
本发明实施例五提供了一节约数据库存储空间的系统,如图5所示,包括:DB(data base,数据库)510,SPU服务器520,后台服务器530,前台服务器540。
其中,DB510,用于存储商品信息和正式的SPU。
例如,在购物网站淘宝网上,卖家在发布商品时,每件商品都对应了名称、图片、简介说明、价格区间及相关属性等信息,这些信息都存储在DB510中。来自SPU服务器520的正式的SPU,也存储在DB510中。
DB510是依照某种数据模型组织起来并存放在二级存储器中的数据集合。这种数据集合具有如下特点:尽可能不重复,以最优方式为某个特定组织的多种应用服务,数据结构独立于使用的应用程序,对数据的增、删、改和检索由统一软件管理和控制。数据库是数据管理的高级阶段,由文件管理系统发展而来。
SPU服务器520,用于缓存来自DB510和后台服务器530的数据,包括来自DB510的正式的SPU和商品属性及来自后台服务器530的正式的SPU。其中,正式的SPU经过计算生成SPU序列化文件,在设定程序的控制下,定时向前台服务器540推送SPU序列化文件;发送商品属性到后台服务器530,接收经过后台服务器530的处理生成正式的SPU,发送给DB510。
后台服务器530,用于根据来自SPU服务器520的商品属性,经过程序自动生成待审核SPU,然后经过运营审核,生成正式SPU。后台服务器530使用搜索引擎搜索来自SPU服务器520的商品属性,提取出商品的关键属性,应用数据库挖掘算法挖掘出商品的共同属性,将共同属性聚合分析,得到具有商品共同属性的待审核的SPU,审核待审核的SPU是否为商品的共同属性,如果是,则生成正式的SPU,发送正式的SPU到SPU服务器520。
前台服务器540,用于接收SPU服务器520定时推送的SPU序列化文件,匹配商品和序列化文件中的SPU。前台服务器540接收并保存SPU服务器520定时推送的SPU序列化文件。当卖家发布商品时,首先需要点选商品的属性,将卖家点选的属性和前台服务器540存储的SPU序列化文件中的SPU进行匹配,如果匹配成功,则将商品与匹配成功的SPU绑定,未匹配成功的属性为商品的特有属性,保存在属性字段中。
其中,DB510结构如图6所示,具体包括:第一存储模块511,第二存储模块512。
第一存储模块511,用于存储来自SPU服务器520的具有商品共同属性的正式的SPU。
第二存储模块512,用于存储所有商品信息。
SPU服务器520结构如图7所示,具体包括:接收模块521,计算模块522,控制模块523,第一发送模块524,第二发送模块525。
接收模块521,用于接收来自DB510的正式的SPU和商品信息及来自第二发送模块525的正式的SPU,其中,来自DB510的正式的SPU发送给计算模块522,来自DB510的商品信息发送给第二发送模块525,来自第二发送模块525的正式的SPU发送给DB510。
计算模块522,用于根据来自接收模块521的正式的SPU计算得到SPU序列化文件,向第一发送模块524发送SPU序列化文件。
第一发送模块524,用于在控制模块523的控制下发送来自计算模块522的SPU序列化文件。
第二发送模块525,用于向后台服务器530发送商品信息及接收后台服务器530生成的正式的SPU。
控制模块523,用于通过设置传送SPU序列化文件的时间间隔,控制第一发送模块524定时传送SPU序列化文件。
后台服务器530,具体包括:获取模块531,搜索模块532,挖掘模块533,聚类模块534,运营模块535。
获取模块531,用于从DB510获取商品信息,并将商品信息传递给搜索模块532。
搜索模块532,用于搜索来自获取模块531的商品属性,获取商品的关键属性。
挖掘模块533,用于接收搜索模块532搜索的商品关键属性,使用数据库的挖掘算法进一步提取出商品的共同属性。
聚类模块534,用于聚类分析挖掘模块533提取的商品的共同属性,生成待审核的SPU。
运营模块535,用于接收聚类模块534生成的待审核的SPU,通过运营小二审核待审核的SPU,判断待审核的SPU是否具有商品的共同属性,如果是,生成正式的SPU,将正式的SPU发送给SPU服务器520。
前台服务器540,具体包括:接收模块541,判断模块542,绑定模块543,合并模块544。
接收模块541,用于接收来自SPU服务器520的SPU序列化文件和卖家发布商品时商品的信息,包括:所属类目,属性等。
判断模块542,用于判断来自接收模块541的卖家发布商品的属性和SPU序列化文件中的SPU是否匹配。
绑定模块543,根据判断模块542的判断结果,进行商品和SPU序列化文件的绑定,如果匹配成功,则将商品与匹配成功的SPU绑定。
合并模块544,用于当买家查看商品详情时,合并所述绑定模块543绑定的标准属性单元中的标准属性和商品的个性属性,展示给买家。
上述模块可以分布于一个装置,也可以分布于多个装置。上述模块可以合并为一个模块,也可以进一步拆分成多个子模块。
综上所述,通过本发明实施例的技术方案,引入SPU表示商品的共同属性,将网站中上亿的商品变成百万级别数量的SPU,既可以节约存储,便于规范商品;还可以通过使用SPU的图片来节省图片存储的空间,减少存储开销及网络流量。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必需的。
本领域技术人员可以理解实施例装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (9)

1、一种节约数据库存储空间的方法,其特征在于,包括:
从商品信息中,提取出标准属性单元,建立标准属性单元库;
计算所述标准属性单元库中的标准属性单元,生成标准属性单元序列化文件,定期推送所述标准属性单元序列化文件;
判断新发布商品和所述标准属性单元序列化文件中的标准属性单元是否匹配,如果是,绑定所述新发布商品和所述匹配的标准属性单元。
2、如权利要求1所述的方法,其特征在于,所述提取出标准属性单元具体包括:
利用搜索引擎从所述商品信息中搜索出商品的关键属性;
根据所述搜索出的商品的关键属性,使用数据库的挖掘算法挖掘商品的共同属性;
根据所述挖掘算法挖掘的商品的共同属性,聚合分析提取出具有商品共同属性的待审核的标准属性单元;
审核所述待审核的标准属性单元是否为商品的共同属性,如果是,则批准成正式的标准属性单元。
3、如权利要求2所述的方法,其特征在于,
所述待审核的标准属性单元包括商品的标准属性单元和相关属性的属性单元。
4、如权利要求2所述的方法,其特征在于,
所述正式的标准属性单元为细粒度标准属性单元和粗粒度标准属性单元,所述粗粒度标准属性单元由所述细粒度标准属性单元组装构成。
5、一种节约数据库存储空间的系统,其特征在于,包括:
数据库,用于存储商品信息和正式的标准属性单元;
标准属性单元服务器,用于缓存来自所述数据库和后台服务器的数据,包括来自所述数据库的正式的标准属性单元和商品属性及来自所述后台服务器的正式的标准属性单元,计算所述正式的标准属性单元,生成标准属性单元序列化文件;
后台服务器,用于根据来自所述标准属性单元服务器的商品属性,生成正式的标准属性单元;
前台服务器,用于接收来自所述标准属性单元服务器的标准属性单元序列化文件,匹配商品和所述匹配的标准属性单元。
6、如权利要求5所述的系统,其特征在于,所述数据库具体包括:
第一存储模块,用于存储来自所述标准属性单元服务器的具有商品共同属性的正式的标准属性单元;
第二存储模块,用于存储所述商品信息。
7、如权利要求5所述的系统,其特征在于,所述标准属性单元服务器具体包括:
接收模块,用于接收来自所述数据库的正式的标准属性单元和所述商品信息及来自第二发送模块的正式的标准属性单元,将来自所述数据库的正式的标准属性单元发送给计算模块,商品信息发送给所述第二发送模块,将来自所述第二发送模块的正式的标准属性单元发送给所述数据库;
计算模块,用于根据来自所述接收模块的正式的标准属性单元计算得到标准属性单元序列化文件,向第一发送模块发送所述标准属性单元序列化文件;
第一发送模块,用于在控制模块的控制下向所述前台服务器发送来自所述计算模块的标准属性单元序列化文件;
第二发送模块,用于向所述后台服务器发送所述商品信息及接收所述后台服务器生成的正式的标准属性单元;
控制模块,用于控制所述第一发送模块定时传送所述标准属性单元序列化文件。
8、如权利要求5所述的系统,其特征在于,所述后台服务器具体包括:
获取模块,用于从所述数据库获取商品信息,并将所述商品信息传递给搜索模块;
搜索模块,用于利用搜索引擎搜索来自所述获取模块的商品信息,获取商品的关键属性;
挖掘模块,用于接收所述搜索模块搜索的商品关键属性,使用数据库的挖掘算法进一步挖掘出商品的共同属性;
聚类模块,用于聚类分析所述挖掘模块挖掘的商品的共同属性,生成待审核的标准属性单元;
运营模块,用于接收所述聚类模块生成的待审核的标准属性单元,判断生成正式的标准属性单元,将所述正式的标准属性单元发送给所述标准属性单元服务器。
9、如权利要求5所述的系统,其特征在于,所述前台服务器具体包括:
接收模块,用于接收来自所述标准属性单元服务器的标准属性单元序列化文件和卖家发布商品时商品的信息;
判断模块,用于判断来自所述接收模块接收的卖家发布商品时商品的信息和所述标准属性单元序列化文件中的标准属性单元是否匹配;
绑定模块,用于根据所述判断模块的判断结果,绑定商品和匹配成功的标准属性单元;
合并模块:用于当买家查看商品详情时,合并所述绑定模块绑定的标准属性单元中的标准属性和商品的个性属性,展示给买家。
CN2008101470545A 2008-08-13 2008-08-13 一种节约数据库存储空间的方法和系统 Active CN101650717B (zh)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN2008101470545A CN101650717B (zh) 2008-08-13 2008-08-13 一种节约数据库存储空间的方法和系统
US12/462,081 US8126850B2 (en) 2008-08-13 2009-07-29 Method and system for saving database storage space
JP2011522984A JP5721627B2 (ja) 2008-08-13 2009-08-10 データベースストレージスペースを節約するための方法及びシステム
EP09806959.4A EP2316073A4 (en) 2008-08-13 2009-08-10 METHOD AND SYSTEM FOR SAVING MEMORY SPACE FOR A DATABASE
PCT/US2009/004596 WO2010019220A1 (en) 2008-08-13 2009-08-10 Method and system for saving database storage space
HK10107387.4A HK1141103A1 (en) 2008-08-13 2010-08-03 Method and system for saving storage space of database
US13/352,170 US8751458B2 (en) 2008-08-13 2012-01-17 Method and system for saving database storage space
US14/263,719 US9471440B2 (en) 2008-08-13 2014-04-28 Method and system for processing product properties

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101470545A CN101650717B (zh) 2008-08-13 2008-08-13 一种节约数据库存储空间的方法和系统

Publications (2)

Publication Number Publication Date
CN101650717A true CN101650717A (zh) 2010-02-17
CN101650717B CN101650717B (zh) 2013-07-31

Family

ID=41672956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101470545A Active CN101650717B (zh) 2008-08-13 2008-08-13 一种节约数据库存储空间的方法和系统

Country Status (6)

Country Link
US (3) US8126850B2 (zh)
EP (1) EP2316073A4 (zh)
JP (1) JP5721627B2 (zh)
CN (1) CN101650717B (zh)
HK (1) HK1141103A1 (zh)
WO (1) WO2010019220A1 (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375823A (zh) * 2010-08-13 2012-03-14 腾讯科技(深圳)有限公司 搜索结果聚合显示方法及系统
WO2012146136A1 (zh) * 2011-04-26 2012-11-01 北京百度网讯科技有限公司 信息搜索方法及系统
CN102890686A (zh) * 2011-07-21 2013-01-23 腾讯科技(深圳)有限公司 展示商品搜索结果的方法及系统
CN103559267A (zh) * 2013-11-04 2014-02-05 北京中搜网络技术股份有限公司 一种基于商品属性归一和聚类识别产品的方法
CN104090909A (zh) * 2014-06-09 2014-10-08 中国建设银行股份有限公司 针对不同电商平台的商品信息同步方法及装置
TWI486798B (zh) * 2010-04-23 2015-06-01 Alibaba Group Holding Ltd Method and device for classifying data
CN104778186A (zh) * 2014-01-15 2015-07-15 阿里巴巴集团控股有限公司 将商品对象挂载到标准产品单元的方法及系统
CN103559267B (zh) * 2013-11-04 2016-11-30 北京中搜网络技术股份有限公司 一种基于商品属性归一和聚类识别产品的方法
CN103235803B (zh) * 2013-04-17 2016-12-28 北京京东尚科信息技术有限公司 一种从文本中获取物品属性值的方法和装置
CN106910083A (zh) * 2015-12-23 2017-06-30 阿里巴巴集团控股有限公司 提供商品对象信息的方法及装置
CN107220266A (zh) * 2016-03-22 2017-09-29 阿里巴巴集团控股有限公司 一种创建业务数据库、业务数据存储和确定业务数据的方法及装置
CN108536798A (zh) * 2018-04-02 2018-09-14 携程旅游网络技术(上海)有限公司 订单级别的数据库数据的恢复方法及系统
CN109472668A (zh) * 2018-10-24 2019-03-15 广州市创乐信息技术有限公司 一种商品数据的处理方法、系统、服务器和存储介质
CN110019553A (zh) * 2017-12-21 2019-07-16 北京奇虎科技有限公司 推荐商品数据的处理方法、装置和计算机可读存储介质
CN110502504A (zh) * 2019-08-27 2019-11-26 云汉芯城(上海)互联网科技股份有限公司 产品单元库构建系统、方法、装置及计算机可读存储介质
CN112488797A (zh) * 2020-12-14 2021-03-12 政采云有限公司 一种商品自动挂靠spu的实现方法、装置、电子设备及介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8326661B2 (en) * 2008-06-26 2012-12-04 Alibaba Group Holding Limited Method and apparatus for providing data statistics
US9323807B2 (en) * 2010-11-03 2016-04-26 Sap Se Graphical manipulation of data objects
CN103377191B (zh) * 2012-04-12 2017-04-12 阿里巴巴集团控股有限公司 一种提供图片的相关信息的方法及装置
US10372834B2 (en) * 2016-01-15 2019-08-06 DISCUS Software Company Creating and using an integrated technical data package
CN110827104A (zh) * 2018-08-07 2020-02-21 北京京东尚科信息技术有限公司 向用户推荐商品的方法和装置

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7082426B2 (en) * 1993-06-18 2006-07-25 Cnet Networks, Inc. Content aggregation method and apparatus for an on-line product catalog
US6714933B2 (en) * 2000-05-09 2004-03-30 Cnet Networks, Inc. Content aggregation method and apparatus for on-line purchasing system
US6535880B1 (en) * 2000-05-09 2003-03-18 Cnet Networks, Inc. Automated on-line commerce method and apparatus utilizing a shopping server verifying product information on product selection
US5940807A (en) 1996-05-24 1999-08-17 Purcell; Daniel S. Automated and independently accessible inventory information exchange system
US6349309B1 (en) 1999-05-24 2002-02-19 International Business Machines Corporation System and method for detecting clusters of information with application to e-commerce
US6754666B1 (en) * 1999-08-19 2004-06-22 A2I, Inc. Efficient storage and access in a database management system
SE517340C2 (sv) * 2000-02-29 2002-05-28 Resource Man Tech Svenor Ab Metod och system för att lagra data i strukturelement
US20030217052A1 (en) * 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
US6708161B2 (en) 2000-09-26 2004-03-16 I2 Technologies Us, Inc. System and method for selective database indexing
CN1369840A (zh) * 2001-02-17 2002-09-18 富金精密工业(深圳)有限公司 跨数据库的信息整合方法及其系统结构
US7191184B2 (en) * 2001-05-02 2007-03-13 National Instruments Corporation Optimized storage for measurement data
US7349868B2 (en) * 2001-05-15 2008-03-25 I2 Technologies Us, Inc. Pre-qualifying sellers during the matching phase of an electronic commerce transaction
JP4140048B2 (ja) * 2001-08-20 2008-08-27 富士フイルム株式会社 画像管理装置、画像管理プログラム並びに画像管理方法
US7412404B1 (en) 2001-09-27 2008-08-12 I2 Technologies Us, Inc. Generating, updating, and managing multi-taxonomy environments
US7149744B1 (en) 2001-09-27 2006-12-12 I2 Technologies Us, Inc. Third party document storage and reuse
US7054841B1 (en) 2001-09-27 2006-05-30 I2 Technologies Us, Inc. Document storage and classification
US7171400B2 (en) 2001-10-04 2007-01-30 Sun Microsystems, Inc. Inheritance and relationship to directory information in an e-commerce application
US7454487B1 (en) * 2002-12-31 2008-11-18 Emc Corporation Methods and apparatus providing an extensible manageable entity model for a network
US7284012B2 (en) * 2003-01-24 2007-10-16 International Business Machines Corporation Multiple attribute object comparison based on quantitative distance measurement
US20040260571A1 (en) * 2003-02-15 2004-12-23 Kenneth Gillespie System broker and locate high value property
US7483891B2 (en) 2004-01-09 2009-01-27 Yahoo, Inc. Content presentation and management system associating base content and relevant additional content
US7254575B1 (en) * 2004-03-31 2007-08-07 Emc Corporation System and methods for implementing an adaptive object model
US7711679B2 (en) * 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7574409B2 (en) * 2004-11-04 2009-08-11 Vericept Corporation Method, apparatus, and system for clustering and classification
US20060100892A1 (en) 2004-11-05 2006-05-11 Manohar Ellanti System and method for neighborhood affinity based online environments
US7421699B2 (en) * 2004-12-08 2008-09-02 Sap Ag Service meta model for an enterprise service architecture
US7555486B2 (en) * 2005-01-20 2009-06-30 Pi Corporation Data storage and retrieval system with optimized categorization of information items based on category selection
US20070061359A1 (en) * 2005-09-15 2007-03-15 Emc Corporation Organizing managed content for efficient storage and management
US7747652B2 (en) * 2006-01-04 2010-06-29 Microsoft Corporation Structured data storage
US7953639B2 (en) * 2006-03-23 2011-05-31 Sap Ag Customized extensions of electronic database objects
US8055544B2 (en) 2006-06-02 2011-11-08 Cobalt Group, Inc. Source- and venue-specific inventory data processing and identification system
CN1862542A (zh) 2006-06-09 2006-11-15 无锡永中科技有限公司 共享对象属性的方法
US7587513B1 (en) * 2006-07-19 2009-09-08 Network General Technology Efficient storage of network and application data
CN100404462C (zh) * 2006-12-08 2008-07-23 清华大学 一种微米级片状钛酸钡晶体及其制备方法
US20080162512A1 (en) * 2006-12-29 2008-07-03 Sanjeet Mall Efficient storage and distribution system for non-transactional data
US7685167B2 (en) * 2007-01-30 2010-03-23 Bmc Software, Inc. Configuration management database reference instance
US7904462B1 (en) * 2007-11-07 2011-03-08 Amazon Technologies, Inc. Comparison engine for identifying documents describing similar subject matter
US8078651B2 (en) * 2008-01-24 2011-12-13 Oracle International Corporation Match rules to identify duplicate records in inbound data
US8838549B2 (en) * 2008-07-07 2014-09-16 Chandra Bodapati Detecting duplicate records

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI486798B (zh) * 2010-04-23 2015-06-01 Alibaba Group Holding Ltd Method and device for classifying data
CN102375823A (zh) * 2010-08-13 2012-03-14 腾讯科技(深圳)有限公司 搜索结果聚合显示方法及系统
WO2012146136A1 (zh) * 2011-04-26 2012-11-01 北京百度网讯科技有限公司 信息搜索方法及系统
CN102890686A (zh) * 2011-07-21 2013-01-23 腾讯科技(深圳)有限公司 展示商品搜索结果的方法及系统
CN103235803B (zh) * 2013-04-17 2016-12-28 北京京东尚科信息技术有限公司 一种从文本中获取物品属性值的方法和装置
CN103559267A (zh) * 2013-11-04 2014-02-05 北京中搜网络技术股份有限公司 一种基于商品属性归一和聚类识别产品的方法
CN103559267B (zh) * 2013-11-04 2016-11-30 北京中搜网络技术股份有限公司 一种基于商品属性归一和聚类识别产品的方法
CN104778186B (zh) * 2014-01-15 2018-06-22 阿里巴巴集团控股有限公司 将商品对象挂载到标准产品单元的方法及系统
CN104778186A (zh) * 2014-01-15 2015-07-15 阿里巴巴集团控股有限公司 将商品对象挂载到标准产品单元的方法及系统
CN104090909A (zh) * 2014-06-09 2014-10-08 中国建设银行股份有限公司 针对不同电商平台的商品信息同步方法及装置
CN106910083A (zh) * 2015-12-23 2017-06-30 阿里巴巴集团控股有限公司 提供商品对象信息的方法及装置
CN107220266A (zh) * 2016-03-22 2017-09-29 阿里巴巴集团控股有限公司 一种创建业务数据库、业务数据存储和确定业务数据的方法及装置
CN107220266B (zh) * 2016-03-22 2021-03-19 创新先进技术有限公司 一种创建业务数据库、业务数据存储和确定业务数据的方法及装置
CN110019553A (zh) * 2017-12-21 2019-07-16 北京奇虎科技有限公司 推荐商品数据的处理方法、装置和计算机可读存储介质
CN108536798A (zh) * 2018-04-02 2018-09-14 携程旅游网络技术(上海)有限公司 订单级别的数据库数据的恢复方法及系统
CN109472668A (zh) * 2018-10-24 2019-03-15 广州市创乐信息技术有限公司 一种商品数据的处理方法、系统、服务器和存储介质
CN110502504A (zh) * 2019-08-27 2019-11-26 云汉芯城(上海)互联网科技股份有限公司 产品单元库构建系统、方法、装置及计算机可读存储介质
CN112488797A (zh) * 2020-12-14 2021-03-12 政采云有限公司 一种商品自动挂靠spu的实现方法、装置、电子设备及介质

Also Published As

Publication number Publication date
US9471440B2 (en) 2016-10-18
WO2010019220A1 (en) 2010-02-18
US20140324784A1 (en) 2014-10-30
JP2011530767A (ja) 2011-12-22
JP5721627B2 (ja) 2015-05-20
US20120124004A1 (en) 2012-05-17
US8126850B2 (en) 2012-02-28
US20100042657A1 (en) 2010-02-18
HK1141103A1 (en) 2010-10-29
CN101650717B (zh) 2013-07-31
US8751458B2 (en) 2014-06-10
EP2316073A4 (en) 2016-01-20
EP2316073A1 (en) 2011-05-04

Similar Documents

Publication Publication Date Title
CN101650717B (zh) 一种节约数据库存储空间的方法和系统
CN102402605B (zh) 用于搜索引擎索引的混合分布模型
CN102096717B (zh) 搜索方法及搜索引擎
JP5092165B2 (ja) データ構築方法とシステム
CN102193929B (zh) 利用词信息熵的搜索方法及其设备
CN101996195A (zh) 音频文件中语音信息的搜索方法、装置及设备
CN105446991A (zh) 数据存储方法、查询方法及设备
CN104375992A (zh) 一种地址匹配的方法和装置
CN105740337A (zh) 一种基于内容的发布订阅系统中的事件快速匹配方法
CN103368992A (zh) 一种信息推送方法及装置
CN101639831A (zh) 一种搜索方法、装置及系统
CN104063383A (zh) 信息推荐方法及装置
CN105956123A (zh) 基于局部更新软件的数据处理方法及装置
CN104516910A (zh) 在客户端服务器环境中推荐内容
Liu Study on application of apriori algorithm in data mining
CN102855309A (zh) 一种基于用户行为关联分析的信息推荐方法及装置
Roth et al. Event data warehousing for complex event processing
CN104951460A (zh) 基于关键词聚类的排名参量值确定方法及装置
CN112597284B (zh) 公司名称的匹配方法、装置、计算机设备及存储介质
CN103064908A (zh) 一种通过内存快速去重名单的方法
CN103198066A (zh) 一种基于词表的信息搜索方法及搜索系统
CN106021615A (zh) 题目搜索优化方法及装置
CN101963993B (zh) 一种数据库单表记录快速查找的方法
CN106484694A (zh) 基于分布式数据库的全文搜索方法及系统
CN102724290B (zh) 一种获取目标客户群的方法、设备及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1141103

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1141103

Country of ref document: HK