CN102625937A - 用于对视觉查询作出响应的体系结构 - Google Patents

用于对视觉查询作出响应的体系结构 Download PDF

Info

Publication number
CN102625937A
CN102625937A CN2010800451646A CN201080045164A CN102625937A CN 102625937 A CN102625937 A CN 102625937A CN 2010800451646 A CN2010800451646 A CN 2010800451646A CN 201080045164 A CN201080045164 A CN 201080045164A CN 102625937 A CN102625937 A CN 102625937A
Authority
CN
China
Prior art keywords
vision
search
search results
inquiry
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800451646A
Other languages
English (en)
Other versions
CN102625937B (zh
Inventor
戴维·彼得鲁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN102625937A publication Critical patent/CN102625937A/zh
Application granted granted Critical
Publication of CN102625937B publication Critical patent/CN102625937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Abstract

向视觉查询搜索系统提交视觉查询,诸如照片、截屏、扫描的图像、视频帧或由内容创作应用创建的图像。搜索系统通过将视觉查询发送给多个并行搜索系统来对视觉查询进行处理,多个并行搜索系统每一个实现不同的视觉查询搜索过程。这些并行搜索系统可以包括但不限于:光学字符识别(OCR)、面部识别、产品识别、条形码识别、对象或对象类别识别、命名实体识别和颜色识别。然后,将至少一个搜索结果发送给客户端系统。在一些实施例中,当视觉查询是包含文本元素和非文本元素的图像时,至少一个搜索结果包括关于文本元素的光学字符识别结果和关于非文本元素的至少一个图像匹配结果。

Description

用于对视觉查询作出响应的体系结构
技术领域
所公开的实施例一般地涉及包括用于处理视觉查询的多个并行搜索系统的服务器系统体系结构。
背景技术
基于文本或基于词语的搜索,其中用户将词或短语输入到搜索引擎中并且接收各种结果,是用于进行搜索的有用工具。然而,基于词语的查询要求用户能够输入相关词语。有时,用户可能希望知道关于图像的信息。例如,用户可能想要知道照片中的人的名字,或用户可能想要指定图片中的花或鸟的名称。因此,能够接收视觉查询并且提供搜索结果的系统将是期望的。
发明内容
根据一些实施例,存在在服务器系统处处理视觉查询的计算机实现的方法。从客户端系统接收视觉查询。通过将视觉查询发送给多个并行搜索系统以供同时处理来对视觉查询进行处理。多个搜索系统中的每一个实现多个视觉查询搜索过程中的不同视觉查询搜索过程。多个视觉查询搜索过程至少包括:光学字符识别(OCR)、面部识别以及不同于OCR和面部识别的第一按图像查询过程。从多个并行搜索系统中的一个或多个接收多个搜索结果。将多个搜索结果中的至少一个发送给客户端系统。
在一些实施例中,该方法进一步包括:当接收到的搜索结果中的至少两个满足预定义标准时,对满足预定义标准的接收到的搜索结果进行排名;以及将排名的搜索结果中的至少一个搜索结果发送给客户端系统。
在一些实施例中,第一按图像查询过程是产品识别、条形码识别、对象或对象类别识别、命名实体识别或颜色识别。
在一些实施例中,视觉查询是照片、截屏、扫描的图像或视频帧。客户端系统可以是移动设备、台式设备或其他设备。
在一些实施例中,从客户端系统执行的客户端应用,诸如搜索应用、用于浏览器应用的搜索引擎插件或用于浏览器应用的搜索引擎扩展,接收视觉查询。在一些实施例中,从客户端系统执行的内容创作应用接收视觉查询。
在一些实施例中,当视觉查询是包含文本元素和非文本元素的图像时,搜索结果包括关于文本元素的光学字符识别结果和关于非文本元素的至少一个图像匹配结果。
在一些实施例中,当视觉查询是包含文本元素和非文本元素的图像时,搜索结果包括交互式结果文档,其包括带有到光学字符识别过程所产生的搜索结果的链接的关于文本元素的第一视觉标识符,以及带有到图像匹配过程所产生的搜索结果的链接的关于非文本元素的第二视觉标识符。
在一些实施例中,该方法进一步包括:将多个搜索结果中的至少两个组合成复合搜索结果。
根据一些实施例,提供了用于处理视觉查询的搜索引擎系统。该系统包括用于执行程序的一个或多个中央处理单元和存储待由该一个或多个中央处理单元执行的一个或多个程序的存储器。该一个或多个程序包括用于执行下述的指令。从客户端系统接收视觉查询。通过将视觉查询发送给多个并行搜索系统以供同时处理来对视觉查询进行处理。多个搜索系统中的每一个实现多个视觉查询搜索过程中的不同视觉查询搜索过程。多个视觉查询搜索过程至少包括:光学字符识别(OCR)、面部识别以及不同于OCR和面部识别的第一按图像查询过程。从多个并行搜索系统中的一个或多个接收多个搜索结果。将多个搜索结果中的至少一个发送给客户端系统。这样的系统还可以包括用来执行上述另外选项的程序指令。
根据一些实施例,提供了用于处理视觉查询的计算机可读存储介质系统。该计算机可读存储介质存储被配置成由计算机执行的一个或多个程序,该一个或多个程序包括用于执行下述的指令。从客户端系统接收视觉查询。通过将视觉查询发送给多个并行搜索系统以供同时处理来对视觉查询进行处理。多个搜索系统中的每一个实现多个视觉查询搜索过程中的不同视觉查询搜索过程。多个视觉查询搜索过程至少包括:光学字符识别(OCR)、面部识别以及不同于OCR和面部识别的第一按图像查询过程。从多个并行搜索系统中的一个或多个接收多个搜索结果。将多个搜索结果中的至少一个发送给客户端系统。这样的计算机可读存储介质还可以包括用来执行上述的另外选项的程序指令。
附图说明
图1是图示包括视觉查询服务器系统的计算机网络的框图。
图2是图示与一些实施例一致的用于对视觉查询作出响应的过程的流程图。
图3是图示与一些实施例一致的用于用交互式结果文档对视觉查询作出响应的过程的流程图。
图4是图示与一些实施例一致的在客户端和视觉查询服务器系统之间的通信的流程图。
图5是图示与一些实施例一致的客户端系统的框图。
图6是图示与一些实施例一致的前端视觉查询处理服务器系统的框图。
图7是图示与一些实施例一致的利用来处理视觉查询的并行搜索系统中的通用搜索系统的框图。
图8是图示与一些实施例一致的利用来处理视觉查询的OCR搜索系统的框图。
图9是图示与一些实施例一致的利用来处理视觉查询的面部识别搜索系统的框图。
图10是图示与一些实施例一致的利用来处理视觉查询的图像到词语搜索系统的框图。
图11图示与一些实施例一致的具有示例性视觉查询的截屏的客户端系统。
图12A和12B每一个图示与一些实施例一致的具有带有边界框的交互式结果文档的截屏的客户端系统。
图13图示与一些实施例一致的具有按类型编码的交互式结果文档的截屏的客户端系统。
图14图示与一些实施例一致的具有带有标签的交互式结果文档的截屏的客户端系统。
图15图示与一些实施例一致的交互式结果文档和视觉查询与结果列表同时显示的截屏。
整个附图,相同的参考数字指代对应的部分。
具体实施方式
现将详细参考实施例,在附图中图示了所述实施例的示例。在下面的详细描述中,阐述了许多具体细节以提供对本发明的全面了解。然而,对本领域普通技术人员将是显而易见的是,在没有这些具体细节的情况下,可以实践本发明。在其他情况下,没有详细描述众所周知的方法、程序、组件、电路和网络,以免不必要地使实施例的方面模糊不清。
还将理解的是,尽管词语第一、第二等在此可以用于描述各种元素,这些元素不应当由这些词语限制。这些词语仅仅用于区分元素。例如,在不背离本发明的范围的情况下,第一联系人可以被称为第二联系人,以及类似地,第二联系人可以被称为第一联系人。第一联系人和第二联系人都是联系人,但是其不是同一联系人。
在此对本发明的描述中所使用的术语仅用于描述特定实施例的目的,并且并不意在是对本发明的限制。除非语境另外明确指示,如在本发明的描述和所附权利要求中所使用的,单数形式“一”、“一个”和“所述”还意在包括复数形式。还将理解的是,如在此所使用的词语“和/或”是指并且涵盖相关联的列出的项中的一个或多个的任何和所有可能组合。将进一步理解的是,词语“包括”当在本说明书中使用时指示陈述的特征、完整物、步骤、操作、元素和/或组件的存在,但是并不排除一个或多个其他特征、完整物、步骤、操作、元素、组件和/或其组群的存在或添加。
取决于语境,如在此所使用的,词语“如果”可以被解释成意为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测”可以被解释成意为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1是图示根据一些实施例的包括视觉查询服务器系统的计算机网络的框图。计算机网络100包括一个或多个客户端系统102和视觉查询服务器系统106。一个或多个通信网络104使这些组件互连。通信网络104可以是多种网络中的任何网络,包括局域网(LAN)、广域网(WAN)、无线网络、有线网络、因特网或这样的网络的组合。
客户端系统102包括用于接收视觉查询(例如,图11的视觉查询1102)的客户端应用108,其由客户端系统执行。视觉查询是作为查询提交给搜索引擎或搜索系统的图像。视觉查询的示例不受限制包括照片、扫描的文档和图像以及图画。在一些实施例中,客户端应用108选自由搜索应用、用于浏览器应用的搜索引擎插件和用于浏览器应用的搜索引擎扩展组成的集合。在一些实施例中,客户端应用108是“广泛的”搜索框,其允许用户将任何格式的图像拖放入该搜索框以被用作视觉查询。
客户端系统102将查询发送给视觉查询服务器系统106并且从视觉查询服务器系统106接收数据。客户端系统102可以是能够与视觉查询服务器系统106进行通信的任何计算机或其他设备。示例不受限制包括台式和笔记本式计算机、大型计算机、服务器计算机、诸如移动电话和个人数字助理的移动设备、网络终端以及机顶盒。
视觉查询服务器系统106包括前端视觉查询处理服务器110。前端服务器110从客户端102接收视觉查询,并且将该视觉查询发送给多个并行搜索系统112以供同时处理。搜索系统112每一个实现不同的视觉查询搜索过程,并且必要时访问其对应的数据库114以通过其不同的搜索过程对视觉查询进行处理。例如,人脸识别搜索系统112-A将访问面部图像数据库114-A以查找与图像查询的面部匹配。如将参考图9更详细说明的,如果视觉查询包含人脸,则面部识别搜索系统112-A将返回来自面部图像数据库114-A的一个或多个搜索结果(例如,名字、匹配的人脸等)。在另一个示例中,光学字符识别(OCR)搜索系统112-B将视觉查询中的任何可识别的文本转换成文本以作为一个或多个搜索结果返回。在光学字符识别(OCR)搜索系统112-B中,如将参考图8更详细说明的,可以访问OCR数据库114-B以识别特定字体或文本图案。
可以使用任何数量的并行搜索系统112。一些示例包括面部识别搜索系统112-A、OCR搜索系统112-B、图像到词语搜索系统112-C(其可以识别对象或对象类别)、产品识别搜索系统(其可以被配置成识别诸如书籍封面和CD的二维图像,以及还可以被配置成识别诸如家具的三维图像)、条形码识别搜索系统(其识别一维和二维式样条形码)、命名实体识别搜索系统、地标识别(其可以被配置成识别如同埃菲尔铁塔的特定著名地标,以及还可以被配置成识别诸如广告牌的特定图像的语料库)、由客户端系统102中的GPS接收器或移动电话网络提供的地理位置信息辅助的地点识别、颜色识别搜索系统以及类似的图像搜索系统(其搜索并标识与视觉查询类似的图像)。更多的搜索系统可以被添加为在图1中由系统112-N所表示的、另外的并行搜索系统。除OCR搜索系统外,所有搜索系统在此被共同定义为执行图像匹配过程的搜索系统。包括OCR搜索系统的所有搜索系统被统称为按图像查询搜索系统。在一些实施例中,视觉查询服务器系统106包括面部识别搜索系统112-A、OCR搜索系统112-B和至少一个其他的按图像查询搜索系统112。
并行搜索系统112每一个分别对视觉搜索查询进行处理,并且将其结果返回给前端服务器系统110。在一些实施例中,前端服务器100可以对搜索结果执行一个或多个分析,诸如以下的一个或多个:将结果聚合成复合文档、选择结果的子集来显示以及对结果进行排名,如将参考图6更详细说明的。前端服务器110将搜索结果通信给客户端系统102。
客户端系统102向用户展示一个或多个搜索结果。结果可以在显示器上、通过音频扬声器或用于向用户通信信息的任何其他装置来展示。用户可以以多种方式与搜索结果进行交互。在一些实施例中,用户的选择、注释和与搜索结果的其他交互被传送给视觉查询服务器系统106,并且与视觉查询一起被记录在查询和注释数据库116中。查询和注释数据库中的信息可以用于改进视觉查询结果。在一些实施例中,将来自查询和注释数据库116的信息周期性推送到并行搜索系统112,其将信息的任何相关部分合并入其各自的单独数据库114。
计算机网络100可选地包括用于响应于词语查询而执行搜索的词语查询服务器系统118。相对于包含图像的视觉查询,词语查询是包含一个或多个词语的查询。词语查询服务器系统118可以用于生成对视觉查询服务器系统106中的各自搜索引擎所产生的信息进行补充的搜索结果。从词语查询服务器系统118返回的结果可以包括任何格式。词语查询服务器系统118可以包括文本文档、图像、视频等。虽然词语查询服务器系统118在图1中被示出为独立系统,可选地,视觉查询服务器系统106可以包括词语查询服务器系统118。
在下面参考图2-4中的流程图提供了关于视觉查询服务器系统106的操作的另外信息。
图2是图示根据本发明的某些实施例的用于对视觉查询作出响应的视觉查询服务器系统方法的流程图。在图2中所示的操作中的每一个可以对应于存储在计算机存储器或计算机可读存储介质中的指令。
视觉查询服务器系统从客户端系统接收视觉查询(202)。客户端系统例如可以是台式计算设备、移动设备或另一个类似设备(204),如参考图1所说明的。在图11中示出了在示例客户端系统上的示例视觉查询。
视觉查询是任何适当格式的图像文档。例如,视觉查询可以是照片、截屏、扫描的图像或帧或多个视频帧的序列(206)。在一些实施例中,视觉查询是内容创作程序(图5的736)所产生的图画。如此,在一些实施例中,用户“绘制”视觉查询,而在其他实施例中,用户扫描或拍摄视觉查询。一些视觉查询使用诸如Acrobat的图像生成应用、照片编辑程序、绘图程序或图像编辑程序来创建。例如,视觉查询可以来自:用户在其移动电话上拍摄其朋友的照片,然后将该照片作为视觉查询提交给服务器系统。视觉查询还可以来自:用户对杂志页面进行扫描,或获得在台式计算机上的网页的截屏,然后将扫描或截屏作为视觉查询提交给服务器系统。在一些实施例中,视觉查询通过浏览器应用的搜索引擎扩展、通过用于浏览器应用的插件或通过客户端系统102执行的搜索应用被提交给服务器系统106。视觉查询还可以由(客户端系统执行的)支持或生成可以由客户端系统传送给位于远程的服务器的图像的其他应用程序提交。
视觉查询可以是文本和非文本元素的组合(208)。例如,查询可以是包含图像和文本,诸如一个人站在路标旁边,的杂志页面的扫描。视觉查询可以包括无论是由嵌入在客户端系统中的照相机拍摄的还是通过客户端系统扫描或接收的文档获得的、人的脸的图像。视觉查询还可以是仅包含文本的文档的扫描。视觉查询还可以是多个不同主题的图像,诸如森林中的数只鸟、人和物体(例如,汽车、公园长凳等)、人和动物(例如,宠物、农场动物、蝴蝶等)。视觉查询可以具有两个或多个不同的元素。例如,视觉查询可以包括在产品包装上的条形码和产品图像或产品名称。例如,视觉查询可以是包括书籍标题、封面艺术和条形码的书籍封面的图片。如在下面更详细论述的,在一些情况下,一个视觉查询将产生与该视觉查询的不同部分相对应的两个或多个不同的搜索结果。
服务器系统如下对视觉查询进行处理。前端服务器系统将视觉查询发送给多个并行搜索系统以供同时处理(210)。每一个搜索系统实现不同的视觉查询搜索过程,即独立搜索系统通过其自身处理方案对视觉查询进行处理。
在一些实施例中,视觉查询被发送给其以供处理的搜索系统中的一个是光学字符识别(OCR)搜索系统。在一些实施例中,视觉查询被发送给其以供处理的搜索系统中的一个是面部识别搜索系统。在一些实施例中,运行不同的视觉查询搜索过程的多个搜索系统至少包括:光学字符识别(OCR)、面部识别以及不同于OCR和面部识别的另一个按图像查询过程(212)。另一个按图像查询过程选自包括但不限于以下的过程集:产品识别、条形码识别、对象或对象类别识别、命名实体识别以及颜色识别(212)。
在一些实施例中,命名实体识别作为OCR搜索系统的后期过程发生,其中对OCR的文本结果分析著名的人、场所、对象等,然后在词语查询服务器系统(图1的118)中搜索被标识为是命名实体的词语。在其他实施例中,著名的地标、标志、人、专辑封面、商标等的图像由图像到词语搜索系统识别。在其他实施例中,利用与图像到词语搜索系统分离的不同命名实体按图像查询过程。对象或对象类别识别系统识别如同“汽车”的通用结果类型。在一些实施例中,该系统还识别产品品牌、特定产品型号等,以及提供更具体的描述,如同“保时捷”。搜索系统中的部分可以是特定于特殊用户的搜索系统。例如,颜色识别和面部识别的特定版本可以是由盲人使用的特殊搜索系统。
前端服务器系统从并行搜索系统接收结果(214)。在一些实施例中,结果附有搜索分值。对于一些视觉查询,搜索系统中的部分不会找到相关结果。例如,如果视觉查询是花的图片,则面部识别搜索系统和条形码搜索系统不会找到任何相关结果。在一些实施例中,如果没有相关结果被找到,则从该搜索系统接收空或零搜索分值(216)。在一些实施例中,如果前端服务器在预定义时段(例如,0.2、0.5、1、2或5秒)之后没有从搜索系统接收到结果,则其将仿佛该超时服务器产生了空搜索分值般对所接收到的结果进行处理,以及将对从其他搜索系统接收到的结果进行处理。
可选地,当所接收到的搜索结果中的至少两个满足预定义标准时,对其进行排名(218)。在一些实施例中,预定义标准中的一个排除无效结果。预定义标准是结果不是无效的。在一些实施例中,预定义标准中的一个排除具有落在预定义最小分值之下的(例如,关于相关性因素的)数字分值的结果。可选地,对多个搜索结果进行过滤(220)。在一些实施例中,仅在结果的总数超过预定义阈值的情况下,对结果进行过滤。在一些实施例中,除落在预定义最小分值之下的结果被排除之外,对所有结果进行排名。对于一些视觉查询,对结果的内容进行过滤。例如,如果结果中的部分包含私人信息或个人保护的信息,则滤除这些结果。
可选地,视觉查询服务器系统创建复合搜索结果(222)。其一个实施例是:如参考图3说明的,当多于一个搜索系统结果被嵌入在交互式结果文档中时。词语查询服务器系统(图1的118)可以用来自词语搜索的结果来扩充来自并行搜索系统中的一个的结果,其中另外结果被链接到文档或信息源、或包含可能与视觉查询相关的另外信息的文本和/或图像。因此,例如,复合搜索结果可以包含OCR结果和到OCR文档中的命名实体的链接(224)。
在一些实施例中,OCR搜索系统(图1的112-B)或前端视觉查询处理服务器(图1的110)识别文本中的可能相关的词。例如,其可以识别诸如名人或地点的命名实体。将命名实体作为查询词语提交给词语查询服务器系统(图1的118)。在一些实施例中,将词语查询服务器系统所产生的词语查询结果作为“链接”嵌入在视觉查询结果中。在一些实施例中,将词语查询结果作为独立链接返回。例如,如果书籍封面的图片是视觉查询,则可能的是,对象识别搜索系统将为该书籍产生较高评分的命中。如此,将在词语查询服务器系统118上运行关于该书籍的标题的词语查询,以及将词语查询结果与视觉查询结果一起返回。在一些实施例中,在加标签组中展示词语查询结果以将其与视觉查询结果进行区分。可以分别搜索结果,或可以使用搜索查询中的所有识别的命名实体来执行搜索以产生特别相关的另外搜索结果。例如,如果视觉查询是扫描的关于巴黎的旅游小册子,则返回的结果可以包括到词语查询服务器系统118的用于发起对词语查询“巴黎圣母院”的搜索的链接。类似地,复合搜索结果包括来自关于所识别的著名图像的文本搜索的结果。例如,在同一旅游小册子情况下,还可以示出到关于在小册子中被示出为图片的著名目的地,如同“埃菲尔铁塔”和“卢浮宫”,的词语查询结果的活链接(即使词语“埃菲尔铁塔”和“卢浮宫”在小册子本身中没有出现)。
视觉查询服务器系统然后将至少一个结果发送给客户端系统(226)。典型地,如果视觉查询处理服务器从多个搜索系统中的至少部分接收多个搜索结果,则其然后将多个搜索结果中的至少一个发送给客户端系统。对于一些视觉查询,仅仅一个搜索系统会返回相关结果。例如,在仅包含文本的图像的视觉查询中,仅仅OCR服务器的结果可能是相关的。对于一些视觉查询,来自一个搜索系统的仅仅一个结果可能是相关的。例如,仅仅与扫描的条形码有关的产品可能是相关的。在这些情况下,前端视觉处理服务器将仅仅返回相关搜索结果。对于一些视觉查询,将多个搜索结果发送给客户端系统,以及该多个搜索结果包括来自并行搜索系统中的多于一个的搜索结果(228)。这可以在多于一个不同图像在视觉查询中时发生。例如,如果视觉查询是人骑马的图片,则可以与关于该马的对象识别结果一起显示关于该人的面部识别的结果。在一些实施例中,使经由图像搜索系统的关于特定查询的所有结果聚组并且一起展示。例如,在标题“面部识别结果”下显示最高N个面部识别结果,以及在标题“对象识别结果”下一起显示最高N个对象识别结果。替选地,如下所述,可以使来自特定图像搜索系统的搜索结果按图像区域聚组。例如,如果视觉查询包括两个人脸,则其两者均产生面部识别结果,将关于每一个人脸的结果展示为不同组。对于一些视觉查询(例如,包括文本和一个或多个对象两者的图像的视觉查询),搜索结果可以包括OCR结果和一个或多个图像匹配结果两者(230)。
在一些实施例中,用户可能希望了解更多关于特定搜索结果的信息。例如,如果视觉查询是海豚的图片,并且“图像到词语”搜索系统返回以下词语“水”、“海豚”、“蓝色”和“鳍状肢”,则用户可能希望运行对“鳍状肢”的基于文本的查询词语搜索。当用户希望运行对词语查询的搜索(例如,如通过用户点击或选择搜索结果中的对应链接所指示的)时,对查询词语服务器系统(图1的118)进行访问,以及运行对所选择的词语的搜索。在客户端系统上独立或结合视觉查询结果显示对应的搜索词语结果(232)。在一些实施例中,前端视觉查询处理服务器(图1的110)自动(即除初始视觉查询外,没有接收任何用户命令)为视觉查询选择一个或多个最高潜在的文本结果,在词语查询服务器系统118上运行那些文本结果,然后将那些词语查询结果与视觉查询结果一起返回给客户端系统,作为将至少一个搜索结果返回给客户端系统的一部分(232)。在上面的示例中,如果“鳍状肢”是海豚的视觉查询图片的第一词语结果,则前端服务器针对“鳍状肢”运行词语查询,并且将那些词语查询结果与视觉查询结果一起返回给客户端系统。该实施例,其中认为可能被用户选择的词语结果在将来自视觉查询的搜索结果发送给用户之前被自动执行,节省了用户时间。在一些实施例中,如上所述,将这些结果显示为复合搜索结果(222)。在其他实施例中,替代复合搜索结果或除复合搜索结果外,所述结果是搜索结果列表的一部分。
图3是图示用于用交互式结果文档对视觉查询作出响应的过程的流程图。在上面参考图2描述了前三个操作(202、210、214)。从自并行搜索系统接收(214)的搜索结果,创建交互式结果文档(302)。
现将详细描述创建交互式结果文档(302)。对于一些视觉查询,交互式结果文档包括视觉查询的各个子部分的一个或多个视觉标识符。每一个视觉标识符具有到搜索结果中的至少一个的至少一个用户可选择的链接。视觉标识符标识视觉查询的相应子部分。对于一些视觉查询,交互式结果文档仅仅具有带有到一个或多个结果的一个用户可选择的链接的一个视觉标识符。在一些实施例中,到搜索结果中的一个或多个的相应用户可选择的链接具有激活区域,以及激活区域对应于与对应的视觉标识符相关联的视觉查询的子部分。
在一些实施例中,视觉标识符是边界框(304)。在一些实施例中,如图12A中所示,边界框围绕视觉查询的子部分。边界框不必是正方形或长方形框形状,而是可以是任何式样的形状,包括圆形的、椭圆形的、(例如,与视觉查询中的对象、实体或视觉查询的区域)等角的、不规则的或任何其他形状,如图12B中所示。对于一些视觉查询,边界框勾勒出视觉查询的子部分中的可标识的实体的边界(306)。在一些实施例中,每一个边界框包括到一个或多个搜索结果的用户可选择的链接,其中用户可选择的链接具有与边界框所环绕的视觉查询的子部分相对应的激活区域。当在边界框内的空间(用户可选择的链接的激活区域)被用户选择时,返回与勾勒出的子部分中的图像相对应的搜索结果。
在一些实施例中,如图14中所示,视觉标识符是标签(307)。在一些实施例中,标签包括与视觉查询的相应子部分中的图像相关联的至少一个词语。对每一个标签进行格式化以在交互式结果文档中在相应子部分上或靠近相应子部分展示。在一些实施例中,标签是彩色编码的。
在一些实施例中,对每一个相应的视觉标识符进行格式化,以按照在视觉查询的相应子部分中的所识别的实体的类型、以在视觉上不同的方式展示。例如,如图13中所示,围绕产品、人、商标和两个文本区域的边界框每一个用不同的交叉影线图案来展示,表示不同颜色透明边界框。在一些实施例中,对视觉标识符进行格式化,来以在视觉上不同的方式展示,诸如重叠的颜色、重叠的图案、标签背景颜色、标签背景图案、标签字体颜色以及边界颜色。
在一些实施例中,交互式结果文档中的用户可选择的链接是到包含与视觉查询的对应子部分有关的一个或多个结果的文档或对象的链接(308)。在一些实施例中,至少一个搜索结果包括与视觉查询的对应子部分有关的数据。如此,当用户选择与相应子部分相关联的可选择的链接时,该用户被指引到与视觉查询的相应子部分中的所识别的实体相对应的搜索结果。
例如,如果视觉查询是条形码的照片,则可能有这样的照片部分,其是条形码附于之上的包装的不相关部分。交互式结果文档可以包括仅围绕条形码的边界框。当用户在勾勒出的条形码边界框内进行选择时,显示条形码搜索结果。条形码搜索结果可以包括一个结果,与该条形码相对应的产品名称,或条形码结果可以包括数个结果,诸如其中能够购买、评论等该产品的多种地点。
在一些实施例中,当与相应视觉标识符相对应的视觉查询的子部分包含包括一个或多个词语的文本时,与该相应视觉标识符相对应的搜索结果包括来自对文本中的词语的至少一个的词语查询搜索的结果。在一些实施例中,当与相应视觉标识符相对应的视觉查询的子部分包含人的脸,其中为该脸找到满足预定义可靠性(或其他)标准的至少一个匹配(即搜索结果)时,与该相应视觉标识符相对应的搜索结果包括以下的一个或多个:名字、称呼、联系信息、帐户信息、地址信息、与其脸包含在可选择的子部分中的人相关联的相关移动设备的当前位置、其脸包含在可选择的子部分中的人的其他图像以及该人的脸的潜在图像匹配。在一些实施例中,当与相应视觉标识符相对应的视觉查询的子部分包含产品,其中为该产品找到满足预定义可靠性(或其他)标准的至少一个匹配(即搜索结果)时,与该相应视觉标识符相对应的搜索结果包括以下的一个或多个:产品信息、产品评论、发起对产品的购买的选项、发起对产品的出价的选项、类似产品列表以及相关产品列表。
可选地,交互式结果文档中的相应用户可选择的链接包括锚文本,其在文档中显示,而不必激活链接。锚文本提供与当链接被激活时所获取的信息有关的信息,诸如关键词或词语。可以将锚文本显示为标签(307)的一部分、或在边界框(304)的一部分中显示、或显示为当用户将光标悬停在用户可选择的链接上达诸如1秒的预确定时段时所显示的另外信息。
可选地,交互式结果文档中的相应用户可选择的链接是到搜索引擎的链接,其用于搜索与基于文本的查询(在此有时称为词语查询)相对应的信息或文档。该链接的激活促使搜索引擎执行搜索,其中查询和搜索引擎由该链接指定(例如,搜索引擎由该链接中的URL指定,以及基于文本的搜索查询由该链接的URL参数指定),同时结果被返回给客户端系统。可选地,在该示例中的链接可以包括指定搜索查询中的文本或词语的锚文本。
在一些实施例中,响应于视觉查询而产生的交互式结果文档可以包括与来自同一搜索系统的结果相对应的多个链接。例如,视觉查询可以是一群人的图像或图片。交互式结果文档可以包括围绕每一个人的边界框,其当被激活时为人群中的每一个脸从面部识别搜索系统返回结果。对于一些视觉查询,交互式结果文档中的多个链接对应于来自多于一个搜索系统的搜索结果(310)。例如,如果人和狗的图片作为视觉查询被提交,则交互式结果文档中的边界框可以分别勾勒出该人和狗。当(在交互式结果文档中)该人被选择时,返回来自面部识别搜索系统的搜索结果,以及当(在交互式结果文档中)该狗被选择时,返回来自图像到词语搜索系统的结果。对于一些视觉查询,交互式结果文档包含OCR结果和图像匹配结果(312)。例如,如果一个人站在标志旁边的图片作为视觉查询被提交,则交互式结果文档可以包括用于该人和用于该标志中的文本的视觉标识符。类似地,如果杂志的扫描被用作视觉查询,则交互式结果文档可以包括用于页面上的广告中的照片或商标的视觉标识符以及用于同样在该页面上的文章的文本的视觉标识符。
在创建了交互式结果文档之后,将其发送给客户端系统(314)。在一些实施例中,如在上面参考图2所论述的,结合来自一个或多个并行搜索系统的搜索结果列表发送交互式结果文档(例如,图15的文档1200)。在一些实施例中,如图15中所示,在客户端系统处在来自一个或多个并行搜索系统的搜索结果列表之上或邻近所述搜索结果列表显示交互式结果文档(315)。
可选地,用户将通过选择结果文档中的视觉标识符来与结果文档进行交互。服务器系统从客户端系统接收关于交互式结果文档中的视觉标识符的用户选择的信息(316)。如上所述,在一些实施例中,通过选择边界框内的激活区域来激活链接。在其他实施例中,通过视觉查询的子部分的视觉标识符的用户选择来激活链接,所述视觉标识符不是边界框。在一些实施例中,链接的视觉标识符是热按钮、位于子部分附近的标签、文本中加下划线的词、或视觉查询中的对象或主题的其他表示。
在将搜索结果列表与交互式结果文档一起展示(315)的实施例中,当用户选择用户可选择的链接(316)时,标识搜索结果列表中的与所选择的链接相对应的搜索结果。在一些实施例中,光标将跳转或自动移动到与所选择的链接相对应的第一结果。在客户端102的显示器太小而不能显示交互式结果文档和整个搜索结果列表两者的一些实施例中,选择交互式结果文档中的链接促使搜索结果列表滚动或跳转,以显示与所选择的链接相对应的至少第一结果。在一些其他实施例中,响应于对交互式结果文档中的链接的用户选择,对结果列表重新排序,使得在结果列表的顶部显示与该链接相对应的第一结果。
在一些实施例中,当用户选择用户可选择的链接(316)时,视觉查询服务器系统将与视觉查询的对应子部分有关的结果的至少子集发送给客户端以向用户显示(318)。在一些实施例中,用户可以同时选择多个视觉标识符,并且将同时接收关于所有所选择的视觉标识符的结果子集。在其他实施例中,在对用户可选择的链接中的任何链接的用户选择之前,将对应于用户可选择的链接的搜索结果预载到客户端上,以响应于对交互式结果文档中的一个或多个链接的用户选择而几乎即刻向用户提供搜索结果。
图4是图示在客户端和视觉查询服务器系统之间的通信的流程图。客户端102从用户/查询者接收视觉查询(402)。在一些实施例中,可以仅从已注册或“选择加入”到视觉查询系统的用户接受视觉查询。在一些实施例中,仅为已注册面部识别视觉查询系统的用户执行对面部识别匹配的搜索,而为任何人执行其他类型的视觉查询,不管其是否已“选择加入”到面部识别部分。
如上所述,视觉查询的格式可以采取许多形式。视觉查询将可能包含位于视觉查询文档的子部分中的一个或多个主题。对于一些视觉查询,客户端系统102对视觉查询执行类型识别预处理(404)。在一些实施例中,客户端系统102在该预处理系统中搜索特定可识别的模式。例如,对于一些视觉查询,客户端可以识别颜色。对于一些视觉查询,客户端可以识别特定子部分可能包含文本(因为该区域由以淡色空间等环绕的较小暗色字符组成)。客户端可以包含任何数量的预处理类型识别器或类型识别模块。在一些实施例中,客户端将具有用于识别条形码的类型识别模块(条形码识别406)。可以通过识别长方形区域中的独特条纹图案来那么做。在一些实施例中,客户端将具有用于识别视觉查询的特定主题或子部分可能包含人脸的类型识别模块(人脸检测408)。
在一些实施例中,将所识别的“类型”返回给用户以供验证。例如,客户端系统102可以返回陈述“在你的视觉查询中找到了条形码,你对接收条形码查询结果感兴趣吗?”的消息。在一些实施例中,消息甚至可以指示类型在其中被找到的视觉查询的子部分。在一些实施例中,该展示类似于参考图3所论述的交互式结果文档。例如,其可以勾勒出视觉查询的子部分,并且指示该子部分可能包含人脸,以及询问用户其是否对接收面部识别结果感兴趣。
在客户端102执行视觉查询的可选预处理之后,客户端将该视觉查询发送给视觉查询服务器系统106,具体发送给前端视觉查询处理服务器110。在一些实施例中,如果预处理产生了相关结果,即如果类型识别模块中的一个产生了高于某一阈值的结果,指示查询或查询的子部分可能是特定类型(人脸、文本、条形码等)的,则客户端将向前传递关于预处理的结果的信息。例如,客户端可以指示人脸识别模块对视觉查询的特定子部分包含人脸有75%的把握。更一般地,预处理结果,如果有的话,包括一个或多个主题类型值(例如,条形码、人脸、文本等)。可选地,发送给视觉查询服务器系统的预处理结果包括以下的一个或多个:对于预处理结果中的每一个主题类型值,识别与该主题类型值相对应的视觉查询的子部分的信息,以及对于预处理结果中的每一个主题类型值,指示对该主题类型值和/或视觉查询的对应子部分的标识的置信水平的置信值。
前端服务器110从客户端系统接收视觉查询(202)。所接收到的视觉查询可以包含上述预处理信息。如上所述,前端服务器将视觉查询发送给多个并行搜索系统(210)。如果前端服务器110接收了关于子部分包含了某一类型的主题的可能性的预处理信息,则前端服务器可以将该信息向前传递给并行搜索系统中的一个或多个。例如,其可以传递特定子部分可能是人脸的信息,使得面部识别搜索系统112-A能够首先对视觉查询的该分部进行处理。类似地,发送(特定子部分可能是人脸的)相同信息可以由其他并行搜索系统使用来忽略该子部分或首先对其他子部分进行分析。在一些实施例中,前端服务器不会将预处理信息传递给并行搜索系统,而是替代地使用该信息来扩充其对从并行搜索系统接收的结果进行处理的方式。
如参考图2所说明的,对于一些视觉查询,前端服务器110从并行搜索系统接收多个搜索结果(214)。前端服务器然后可以执行多种排名和过滤,并且可以创建交互式搜索结果文档,如参考图2和3说明的。如果前端服务器110接收了关于子部分包含了某一类型的主题的可能性的预处理信息,则其可以通过给予匹配经预处理所识别的主题类型的那些结果偏好来进行过滤和排序。如果用户指示了请求特定类型的结果,则前端服务器将在处理结果时考虑用户的请求。例如,如果用户仅请求了条形码信息,则前端服务器可以滤除所有其他结果,或前端服务器将在列出其他结果之前列出与所请求的类型有关的所有结果。如果交互式视觉查询文档被返回,则服务器可以对与用户指示了感兴趣的结果类型相关联的链接进行预搜索,而仅仅提供用于执行对在交互式结果文档中所指示的其他主题的相关搜索的链接。然后,前端服务器110将搜索结果发送给客户端系统(226)。
客户端102从服务器系统接收结果(412)。当适当时,这些结果将包括匹配在预处理阶段中找到的结果类型的结果。例如,在一些实施例中,其将包括一个或多个条形码结果(414)或一个或多个面部识别结果(416)。如果客户端的预处理模块已指示了特定类型的结果是可能的,并且该结果被找到,则将突出列出该类型的所找到的结果。
可选地,用户将对结果中的一个或多个进行选择或注释(418)。用户可以选择一个搜索结果、可以选择特定类型的搜索结果、和/或可以选择交互式结果文档的一部分(420)。对结果的选择是所返回的结果与查询相关的隐式反馈。这样的反馈信息可以在未来的查询处理操作中被利用。注释提供也能够在未来的查询处理操作中被利用的、关于所返回的结果的显示反馈。注释采取以下形式:对所返回的结果的部分的校正(如同对错误OCR化的词的校正)或独立注释(自由形式或结构化的)。
用户的对一个搜索结果的选择,一般从同一类型的数个结果选择“正确的”结果(例如,选择来自面部识别服务器的正确的结果),是被称为解释中的选择的过程。用户的对特定类型的搜索结果的选择,一般从数个不同类型的所返回的结果选择感兴趣的“类型”的结果(例如,选择杂志中的文章的经OCR化的文本,而不是关于同样在同一页面上的广告的视觉结果),是被称为对意图的消歧的过程。如参考图8详细说明的,用户可以类似地选择经OCR化的文档中的特定链接的词(诸如所识别的命名实体)。
替选地或另外地,用户可能希望对特定搜索结果进行注释。可以以自由形式风格或结构化格式完成该注释(422)。注释可以是对结果的描述或可以是对结果的评论。例如,其可以指示结果中的主题的名称,或其可以指示“这是本好书”或“这个产品在购买一年内损坏”。注释的另一个示例是围绕视觉查询的子部分的用户绘制的边界框和标识该边界框内的对象或主题的用户提供的文本。参考图5更详细说明了用户注释。
将搜索结果的用户选择和其他注释发送给服务器系统(424)。前端服务器110接收该选择和注释,并且对其进行进一步处理(426)。如果信息是对交互式结果文档中的对象、子区域或词语的选择,如适当,可以请求关于该选择的进一步信息。例如,如果选择是对一个视觉结果的,则将请求关于该视觉结果的更多信息。如果选择是(来自OCR服务器或来自图像到词语服务器的)词,则将对该词的文本搜索发送给词语查询服务器系统118。如果选择是来自面部图像识别搜索系统的人的,则将请求该人的简档。如果选择是关于交互式搜索结果文档的特定部分的,则将请求潜在的视觉查询结果。
参考图5说明的,如果服务器系统接收注释,则将该注释存储在查询和注释数据库116中。然后,将来自注释数据库116的信息周期性复制到并行服务器系统中的一个或多个的单独注释数据库,如在下面参考图7-10所论述的。
图5是图示与本发明的一个实施例一致的客户端系统102的框图。客户端系统102典型地包括一个或多个处理单元(CPU)702、一个或多个网络或其他通信接口704、存储器712以及用于使这些组件互连的一个或多个通信总线714。客户端系统102包括用户接口705。用户接口705包括显示设备706,以及可选地包括诸如键盘、鼠标或其他输入按钮的输入装置708。替选地或另外地,显示设备706包括触敏表面709,在这种情况下,显示器706/709是触敏显示器。在具有触敏显示器706/709的客户端系统中,物理键盘是可选的(例如,当需要键盘输入时,可以显示软键盘)。此外,一些客户端系统使用麦克风和语音识别来补充或替代键盘。可选地,客户端102包括GPS(全球定位卫星)接收器或用于确定客户端系统102的位置的其他位置检测装置707。在一些实施例中,提供了视觉查询搜索服务,其要求客户端系统102支持视觉查询服务器系统接收指示客户端系统102的位置的位置信息。
客户端系统102还包括图像捕捉设备710,诸如照相机或扫描仪。存储器712包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备;以及可以包括非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备或其他非易失性固态存储设备。存储器712可以可选地包括位于远离CPU 702的地方的一个或多个存储设备。存储器712或替选地存储器712内的非易失性存储器设备包括非暂时性计算机可读存储介质。在一些实施例中,存储器712或存储器712的计算机可读存储介质存储以下的程序、模块和数据结构、或其子集:
·操作系统716,其包括用于处理各种基本系统服务和用于执行依赖硬件的任务的程序;
·网络通信模块718,其被用于经由一个或多个通信网络接口704(有线的或无线的)和诸如因特网、其他广域网、局域网、城域网等等的一个或多个通信网络将客户端计算机102连接到其他计算机;
·图像捕捉模块720,其用于处理图像捕捉设备/照相机710所捕捉到的相应图像,其中该相应图像可以作为视觉查询(例如,由客户端应用模块)发送给视觉查询服务器系统;
·一个或多个客户端应用模块722,其用于处理按图像进行查询的各个方面,包括但不限于:按图像查询提交模块724,其用于将视觉查询提交给视觉查询服务器系统;可选地,感兴趣区域选择模块725,其检测对图像中的感兴趣区域的选择(诸如,在触敏显示器706/709上的手势),并且将该感兴趣区域准备为视觉查询;结果浏览器726,其用于显示视觉查询的结果;以及可选地,注释模块728,其带有:用于结构化注释文本输入的可选模块730,诸如以一种形式进行填充;或用于自由形式注释文本输入的可选模块732,其能够接受来自多种格式的注释;以及图像区域选择模块734(在此有时被称为结果选择模块),其允许用户选择图像的特定子部分以进行注释;
·可选的内容创作应用736,其允许用户通过创建或编辑图像,而不是仅仅经由图像捕捉设备710捕捉一个来创作视觉查询;可选地,一个或这样的应用736可以包括使用户能够选择图像的子部分以用作视觉查询的指令;
·可选的本地图像分析模块738,其在将视觉查询发送给视觉查询服务器系统之前对该视觉查询进行预处理。本地图像分析可以识别图像的特定类型或在图像内的子区域。可以由这样的模块738识别的图像类型的示例包括以下的一个或多个:面部类型(在视觉查询内识别的面部图像)、条形码类型(在视觉查询内识别的条形码)以及文本类型(在视觉查询内识别的文本);以及
·另外的可选客户端应用740,诸如电子邮件应用、电话应用、浏览器应用、地图应用、即时消息应用、社交网络应用等。在一些实施例中,当适当的可动作搜索结果被选择时,可以启动或访问与该可动作搜索结果相对应的应用。
可选地,允许用户选择图像的特定子部分以进行注释的图像区域选择模块734还允许用户选择搜索结果作为“正确的”命中,而不必对其进行进一步注释。例如,用户可以被展示有最高N个面部识别匹配,并且可以从该结果列表选择正确的人。对于一些搜索查询,将展示多于一种类型的结果,以及用户将选择一种类型的结果。例如,图像查询可以包括一个人站在树旁边,但是只有关于该人的结果对用户来说才是感兴趣的。因此,图像选择模块734允许用户指示哪种图像类型是“正确的”类型--即,其在接收中感兴趣的类型。用户还可能希望通过使用(用于以一种形式进行填充的)注释文本输入模块730或自由形式注释文本输入模块732来添加个人评注或描述性词,来对搜索结果进行注释。
在一些实施例中,可选的本地图像分析模块738是客户端应用(图1的108)的一部分。此外,在一些实施例中,可选的本地图像分析模块738包括用来执行本地图像分析以对视觉查询或其部分进行预处理或分类的一个或多个程序。例如,客户端应用722可以在将视觉查询提交给搜索引擎之前识别图像包含条形码、人脸或文本。在一些实施例中,当本地图像分析模块738检测到视觉查询包含特定类型的图像时,该模块询问用户其是否对对应类型的搜索结果感兴趣。例如,本地图像分析模块738可以基于人脸的一般特征(即,不用确定哪个人的脸)来检测人脸,并且在将查询发送给视觉查询服务器系统上之前向用户提供即时反馈。其可以返回如同“检测到人脸,你对获得这张人脸的面部识别匹配感兴趣吗?”的结果。这可以为视觉查询服务器系统(图1的106)节省时间。对于一些视觉查询,前端视觉查询处理服务器(图1的110)仅将视觉查询发送给与本地图像分析模块738所识别的图像类型相对应的搜索系统112。在其他实施例中,对搜索系统112的视觉查询可以将视觉查询发送给所有搜索系统112A-N,但是将对来自与本地图像分析模块738所识别的图像类型相对应的搜索系统112的结果进行排名。在一些实施例中,本地图像分析对视觉查询服务器系统的操作产生影响的方式取决于客户端系统的配置、或与用户或客户端系统相关联的配置或处理参数。此外,任何特定视觉查询的实际内容和由本地图像分析产生的结果可以促使不同视觉查询在客户端系统和视觉查询服务器系统任一或两者处被不同地处理。
在一些实施例中,以两个步骤执行条形码识别,其中对视觉查询是否包括条形码的分析在客户端系统上本地图像分析模块738处执行。然后,只有在客户端确定视觉查询可能包括条形码时,才将该视觉查询传递给条形码搜索系统。在其他实施例中,条形码搜索系统对每个视觉查询进行处理。
可选地,客户端系统102包括另外的客户端应用740。
图6是图示与本发明的一个实施例一致的前端视觉查询处理服务器系统110的框图。前端服务器110典型地包括一个或多个处理单元(CPU)802、一个或多个网络或其他通信接口804、存储器812以及用于使这些组件互连的一个或多个通信总线814。存储器812包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备;以及可以包括非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备或其他非易失性固态存储设备。存储器812可以可选地包括位于远离CPU 802的地方的一个或多个存储设备。存储器812或替选地存储器812内的非易失性存储器设备包括非暂时性计算机可读存储介质。在一些实施例中,存储器812或存储器812的计算机可读存储介质存储以下的程序、模块和数据结构、或其子集:
·操作系统816,其包括用于处理各种基本系统服务和用于执行依赖硬件的任务的程序;
·网络通信模块818,其被用于经由一个或多个通信网络接口804(有线的或无线的)和诸如因特网、其他广域网、局域网、城域网等等的一个或多个通信网络将前端服务器系统110连接到其他计算机;
·查询管理器820,其用于处理来自客户端系统102的进入的视觉查询,并且将其发送给两个或多个并行搜索系统;如在本文档中其他地方所描述的,在一些特殊情况下,视觉查询可以针对搜索系统中的仅仅一个,诸如当视觉查询包括客户端生成的指令(例如,“仅面部识别搜索”)时;
·结果过滤模块822,其用于可选地对来自一个或多个并行搜索系统的结果进行过滤,并且将最高或“相关”结果发送给客户端系统102以供展示;
·结果排名和格式化模块824,其用于可选地对来自一个或多个并行搜索系统的结果进行排名,以及用于对结果进行格式化以供展示;
·结果文档创建模块826,其在适当时被用来创建交互式搜索结果文档;模块826可以包括子模块,包括但不限于:边界框创建模块828和链接创建模块830;
·标签创建模块831,其用于创建为视觉查询的相应子部分的视觉标识符的标签;
·注释模块832,其用于从用户接收注释,并且将其发送给注释数据库116;
·可动作搜索结果模块838,其用于响应于视觉查询,生成一个或多个可动作搜索结果元素,每一个被配置成启动客户端侧动作;可动作搜索结果元素的示例是用来发起电话呼叫、发起电子邮件消息、在地图上标出地址、进行餐馆预定以及提供购买产品的选项的按钮;以及
·查询和注释数据库116,其包括数据库本身834和对数据库的索引836。
结果排名和格式化模块824对从一个或多个并行搜索系统(图1的112-A-112-N)返回的结果进行排名。如在上面已指出的,对于一些视觉查询,仅仅来自一个搜索系统的结果可能是相关的。在这样的情况下,仅仅对来自该一个搜索系统的相关搜索结果进行排名。对于一些视觉查询,数种类型的搜索结果可能是相关的。在这些情况下,在一些实施例中,结果排名和格式化模块824使来自具有最相关结果(例如,具有最高相关性分值的结果)的搜索系统的所有结果排名高于关于较不相关的搜索系统的结果。在其他实施例中,结果排名和格式化模块824使来自每一个相关搜索系统的最高结果排名高于剩余结果。在一些实施例中,结果排名和格式化模块824根据为搜索结果中的每一个计算的相关性分值对结果进行排名。对于一些视觉查询,除在并行视觉搜索系统上进行搜索外,执行扩充的文本查询。在一些实施例中,当文本查询同样被执行时,以在视觉上不同于视觉搜索系统结果的方式展示其结果。
结果排名和格式化模块824还对结果进行格式化。在一些实施例中,以列表格式展示结果。在一些实施例中,用交互式结果文档展示结果。在一些实施例中,展示交互式结果文档和结果列表两者。在一些实施例中,查询类型指示结果如何被展示。例如,如果在视觉查询中检测到多于一个可搜索的主题,则产生交互式结果文档,而如果仅仅检测到一个可搜索的主题,则将仅仅以列表格式显示结果。
结果文档创建模块826用于创建交互式搜索结果文档。交互式搜索结果文档可以具有一个或多个检测和搜索到的主题。边界框创建模块828创建围绕搜索到的主题中的一个或多个的边界框。边界框可以是长方形框,或可以勾勒出主题的形状。链接创建模块830创建到搜索结果的链接,所述搜索结果与其的在交互式搜索结果文档中的相应主题相关联。在一些实施例中,在边界框区域内点击激活链接创建模块所插入的对应链接。
查询和注释数据库116包含能够用来改进视觉查询结果的信息。在一些实施例中,用户可以在视觉查询结果已被展示之后对图像进行注释。此外,在一些实施例中,用户可以在将图像发送给视觉查询搜索系统之前对图像进行注释。预注释可以通过使结果集中、或与视觉查询搜索并行运行对注释的词的基于文本的搜索来帮助视觉查询处理。在一些实施例中,可以使图片的经注释的版本公开(例如,当用户例如通过将图像和注释指明为不是私人的来准许了公开时),以被返回为潜在图像匹配命中。例如,如果用户拍摄了花的图片,并且通过给出关于该花的详细属和种信息来对该图像进行注释,则该用户可能想要该图像向执行查找该花的视觉查询研究的任何人展示。在一些实施例中,将来自查询和注释数据库116的信息周期性推送到并行搜索系统112,其将信息的相关部分(如果有的话)合并到其各自的单独数据库114中。
图7是图示利用来处理视觉查询的并行搜索系统中的一个的框图,图7图示了与本发明的一个实施例一致的“通用”搜索系统112-N。该服务器系统是通用的,仅仅因为其表示视觉查询搜索服务器112-N中的任何一个。通用服务器系统112-N典型地包括一个或多个处理单元(CPU)502、一个或多个网络或其他通信接口504、存储器512以及用于使这些组件互连的一个或多个通信总线514。存储器512包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备;以及可以包括非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备或其他非易失性固态存储设备。存储器512可以可选地包括位于远离CPU 502的地方的一个或多个存储设备。存储器512或替选地存储器512内的非易失性存储器设备包括非暂时性计算机可读存储介质。在一些实施例中,存储器512或存储器512的计算机可读存储介质存储以下的程序、模块和数据结构、或其子集:
·操作系统516,其包括用于处理各种基本系统服务和用于执行依赖硬件的任务的程序;
·网络通信模块518,其被用于经由一个或多个通信网络接口504(有线的或无线的)和诸如因特网、其他广域网、局域网、城域网等等的一个或多个通信网络将通用服务器系统112-N连接到其他计算机;
·特定于特定服务器系统的搜索应用520,其例如可以是条形码搜索应用、颜色识别搜索应用、产品识别搜索应用和对象或对象类别搜索应用等;
·如果特定搜索应用利用索引,则可选的索引522;
·可选的图像数据库524,其用于存储与特定搜索应用相关的图像,其中所存储的图像数据,如果有的话,取决于搜索过程类型;
·可选的结果排名模块526(有时被称为相关性评分模块),其用于对来自搜索应用的结果进行排名,排名模块可以为来自搜索应用的每一个结果分配相关性分值,以及如果没有结果达到预定义的最小分值,则可以向前端视觉查询处理服务器返回指示来自该服务器系统的结果不相关的空或零值分值;以及
·注释模块528,其用于从注释数据库(图1的116)接收注释信息、确定注释信息中的任何信息是否与特定搜索应用相关,以及将注释信息的任何确定的相关部分合并入相应的注释数据库530。
图8是图示与本发明的一个实施例一致的利用来处理视觉查询的OCR搜索系统112-B的框图。OCR搜索系统112-B典型地包括一个或多个处理单元(CPU)602、一个或多个网络或其他通信接口604、存储器612以及用于使这些组件互连的一个或多个通信总线614。存储器612包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备;以及可以包括非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备或其他非易失性固态存储设备。存储器612可以可选地包括位于远离CPU 602的地方的一个或多个存储设备。存储器612或替选地存储器612内的非易失性存储器设备包括非暂时性计算机可读存储介质。在一些实施例中,存储器612或存储器612的计算机可读存储介质存储以下的程序、模块和数据结构、或其子集:
·操作系统616,其包括用于处理各种基本系统服务和用于执行依赖硬件的任务的程序;
·网络通信模块618,其被用于经由一个或多个通信网络接口604(有线的或无线的)和诸如因特网、其他广域网、局域网、城域网等等的一个或多个通信网络将OCR搜索系统112-B连接到其他计算机;
·光学字符识别(OCR)模块620,其试图识别视觉查询中的文本,并且将字母图像转换成字符;
·可选的OCR数据库114-B,其由OCR模块620利用来识别特定字体、文本图案以及对字母识别特有的其他特征;
·可选的拼写检查模块622,其通过针对词典检查经转换的词,并且对另外匹配词典词的词中的潜在错误转换的字母进行替换,来改进字母图像到字符的转换;
·可选的命名实体识别模块624,其搜索经转换的文本内的命名实体、将所识别的命名实体作为词语查询中的词语发送给词语查询服务器系统(图1的118)、以及将来自词语查询服务器系统的结果作为嵌入在经OCR化的文本中的链接与所识别的命名实体相关联地提供;
·可选的文本匹配应用632,其通过针对文本片段数据库检查经转换的片段(诸如经转换的句子和段落),并且对另外匹配文本匹配应用文本片段的经OCR化的文本片段中的潜在错误转换的字母进行替换,来改进字母图像到字符的转换,在一些实施例中,将文本匹配应用所找到的文本片段作为链接提供给用户(例如,如果用户扫描了纽约时报的一个页面,则文本匹配应用可以提供到纽约时报网站上的整个发表的文章的链接);
·结果排名和格式化模块626,其用于对经OCR化的结果进行格式化以供展示,以及对到命名实体的可选链接进行格式化,以及还可选地对来自文本匹配应用的任何相关结果进行排名;以及
·可选的注释模块628,其用于从注释数据库(图1的116)接收注释信息、确定注释信息中的任何信息是否与OCR搜索系统相关,以及将注释信息的任何确定的相关部分合并入相应的注释数据库630。
图9是图示与本发明的一个实施例一致的利用来处理视觉查询的面部识别搜索系统112-A的框图。面部识别搜索系统112-A典型地包括一个或多个处理单元(CPU)902、一个或多个网络或其他通信接口904、存储器912以及用于使这些组件互连的一个或多个通信总线914。存储器912包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备;以及可以包括非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备或其他非易失性固态存储设备。存储器912可以可选地包括位于远离CPU 902的地方的一个或多个存储设备。存储器912或替选地存储器912内的非易失性存储器设备包括非暂时性计算机可读存储介质。在一些实施例中,存储器912或存储器912的计算机可读存储介质存储以下的程序、模块和数据结构、或其子集:
·操作系统916,其包括用于处理各种基本系统服务和用于执行依赖硬件的任务的程序;
·网络通信模块918,其被用于经由一个或多个通信网络接口904(有线的或无线的)和诸如因特网、其他广域网、局域网、城域网等等的一个或多个通信网络将面部识别搜索系统112-A连接到其他计算机;
·面部识别搜索应用920,其用于在面部图像数据库114-A中搜索匹配在视觉查询中出现的人脸的面部图像,以及对社交网络数据库922搜索与在面部图像数据库114-A中找到的每一个匹配有关的信息;
·面部图像数据库114-A,其用于为多个用户存储一个或多个面部图像;可选地,面部图像数据库包括除用户外的人的面部图像,诸如家庭成员和用户认识的并已被标识为在包括在面部图像数据库114-A中的图像中出现的其他人;可选地,面部图像数据库包括从外部源获取的面部图像,所述外部源诸如在公共域合法的面部图像供应商;
·可选地,社交网络数据库922,其包含与社交网络的用户有关的信息,诸如名字、地址、职业、组成员、社交网络关系、移动设备的当前GPS位置、共享偏好、兴趣、年龄、家乡、个人统计、工作信息等,如参考图12A更详细论述的;
·结果排名和格式化模块924,其用于对来自面部图像数据库114-A的潜在面部匹配进行排名(例如,将相关性和/或匹配质量分值分配给所述潜在面部匹配),以及对结果进行格式化以供展示;在一些实施例中,对结果的排名或评分利用从前述社交网络数据库检索到的相关信息;在一些实施例中,搜索格式化的结果包括潜在图像匹配以及来自社交网络数据库的信息子集;以及
·注释模块926,其用于从注释数据库(图1的116)接收注释信息、确定注释信息中的任何信息是否与面部识别搜索系统相关,以及将注释信息的任何确定的相关部分存储入相应的注释数据库928中。
图10是图示与本发明的一个实施例一致的利用来处理视觉查询的图像到词语搜索系统112-C的框图。在一些实施例中,图像到词语搜索系统识别视觉查询中的对象(实例识别)。在其他实施例中,图像到词语搜索系统识别视觉查询中的对象类别(类型识别)。在一些实施例中,图像到词语系统识别对象和对象类别两者。图像到词语搜索系统为视觉查询中的图像返回潜在词语匹配。图像到词语搜索系统112-C典型地包括一个或多个处理单元(CPU)1002、一个或多个网络或其他通信接口1004、存储器1012以及用于使这些组件互连的一个或多个通信总线1014。存储器1012包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备;以及可以包括非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备或其他非易失性固态存储设备。存储器1012可以可选地包括位于远离CPU 1002的地方的一个或多个存储设备。存储器1012或替选地存储器1012内的非易失性存储器设备包括非暂时性计算机可读存储介质。在一些实施例中,存储器1012或存储器1012的计算机可读存储介质存储以下的程序、模块和数据结构、或其子集:
·操作系统1016,其包括用于处理各种基本系统服务和用于执行依赖硬件的任务的程序;
·网络通信模块1018,其被用于经由一个或多个通信网络接口1004(有线的或无线的)和诸如因特网、其他广域网、局域网、城域网等等的一个或多个通信网络将图像到词语搜索系统112-C连接到其他计算机;
·图像到词语搜索应用1020,其在图像搜索数据库114-C中搜索匹配视觉查询中的主题的图像;
·图像搜索数据库114-C,其能够被搜索应用1020搜索以找到类似于视觉查询的主题的图像;
·词语到图像反向索引1022,其存储用户在使用基于文本的查询搜索引擎1006来搜索图像时所使用的文本词语;
·结果排名和格式化模块1024,其用于对潜在图像匹配进行排名和/或对在词语到图像返向索引1022中标识的与潜在图像匹配相关联的词语进行排名;以及
·注释模块1026,其用于从注释数据库(图1的116)接收注释信息、确定注释信息中的任何信息是否与图像到词语搜索系统112-C相关,以及将注释信息的任何确定的相关部分存储入相应的注释数据库1028中。
更多地意在将图5-10作为可以在一组计算机系统中存在的各种特征的功能性描述,而不是作为在此描述的实施例的结构性示意。实际上,并且如本领域普通技术人员所认识到的,可以使分离示出的项相组合并且可以使一些项分离。例如,可以在单个服务器上实现在这些图中分离示出的一些项,并且可以通过一个或多个服务器来实现单个项。用来实现视觉查询处理的系统的实际数量以及在它们之间如何分配特征因实施方式的不同而不同。
在此描述的方法中的每一个可以由存储在非暂时性计算机可读存储介质中并且由一个或多个服务器或客户端的一个或多个处理器执行的指令控制。在上面标识的模块或程序(即,指令集)不必被实现为独立软件程序、例程或模块,因此,在各种实施例中,可以组合或另外重新安排这些模块的各种子集。在图5-10中所示的操作中的每一个可以对应于存储在计算机存储器或非暂时性计算机可读存储介质中的指令。
图11图示了带有示例性视觉查询1102的截屏的客户端系统102。在图11中所示的客户端系统102是移动设备,诸如蜂窝电话、便携式音乐播放器或便携式电子邮件设备。客户端系统102包括显示器706和一个或多个输入装置708,诸如在该附图中所示的按钮。在一些实施例中,显示器706是触敏显示器709。在具有触敏显示器709的实施例中,在显示器709上显示的软按钮可以可选地替代机电按钮708中的部分或全部。如在下面更详细说明的,触敏显示器在与视觉查询结果进行交互时也是有帮助的。客户端系统102还包括图像捕捉机制,诸如照相机710。
图11图示了视觉查询1102,其是在商店货架上的包装的照片或视频帧。在次描述的实施例中,视觉查询是在两维中的每一个中在像素上具有与视觉查询的大小相对应的分辨率的二维图像。在该示例中的视觉查询1102是三维对象的二维图像。视觉查询1102包括背景元素、产品包装1104以及包装上的多种类型的实体,包括人图像1106、商标图像1108、产品图像1110以及多种文本元素1112。
如参考图3说明的,视觉查询1102被发送给前端服务器110,其将视觉查询1102发送给多个并行搜索系统(112A-N)、接收结果以及创建交互式结果文档。
图12A和12B每一个图示了带有交互式结果文档1200的实施例的截屏的客户端系统102。交互式结果文档1200包括视觉查询1102的相应子部分的一个或多个视觉标识符1202,其每一个包括到搜索结果子集的用户可选择的链接。图12A和12B图示了带有为边界框1202(例如,边界框1202-1、1202-2、1202-3)的视觉标识符的交互式结果文档1200。在图12A和12B中所示的实施例中,用户通过轻击在由特定子部分的边界框1202勾勒出的空间内的激活区域来激活对与该特定子部分相对应的搜索结果的显示。例如,用户将通过轻击环绕人图像的边界框1306(图13)来激活与该人图像相对应的搜索结果。在其他实施例中,使用鼠标或键盘而不是触敏显示器来选择可选择的链接。在一些实施例中,当用户预览边界框1202时(即,当用户单击、轻击一次或将指针悬停在边界框上时),显示第一对应的搜索结果。当用户选择边界框时(即,当用户双击、轻击两次或使用另一个机制来指示选择时),用户激活对多个对应的搜索结果的显示。
在图12A和12B中,视觉标识符是环绕视觉查询的子部分的边界框1202。图12A图示了为正方形或长方形的边界框1202。图12B图示了勾勒出视觉查询的子部分中的可标识的实体的边界的边界框1202,诸如用于饮料瓶的边界框1202-3。在一些实施例中,各个边界框1202在其内包括更小的边界框1202。例如,在图12A和12B中,标识包装的边界框1202-1环绕标识商标的边界框1202-2和所有其他边界框1202。在包括文本的一些实施例中,还包括用于文本词语中的部分的活动热链接1204。图12B示出了示例,其中“Active Drink”和“UnitedStates”被显示为热链接1204。与这些词语相对应的搜索结果是从词语查询服务器系统118接收到的结果,而与边界框相对应的结果是来自按图像查询搜索系统的结果。
图13图示了带有按视觉查询中的所识别的实体的类型编码的交互式结果文档1200的截屏的客户端系统102。图11的视觉查询包含人图像1106、商标图像1108、产品图像1110和多种文本元素1112。如此,在图13中显示的交互式结果文档1200包括围绕人1306、标签1308、产品1310和两个文本区域1312的边界框1202。图13的边界框每一个用不同的交叉影线来展示,其表示不同颜色透明边界框1202。在一些实施例中,将边界框的视觉标识符(和/或交互式结果文档1200中的标签或其他视觉标识符)进行格式化来以在视觉上不同的方式展示,诸如重叠的颜色、重叠的图案、标签背景颜色、标签背景图案、标签字体颜色以及边界框边界颜色。参考图13中的边界框示出了用于特定识别的实体的类型编码,但是也可以将按类型编码应用于为标签的视觉标识符。
图14图示了具有带有标签1402的交互式结果文档1200的截屏的客户端设备102,标签1402是图11的视觉查询1102的相应子部分的视觉标识符。标签视觉标识符1402每一个包括到对应的搜索结果的子集的用户可选择的链接。在一些实施例中,通过在标签1402的区域内所显示的描述性文本来识别可选择的链接。一些实施例包括在一个标签1402内的多个链接。例如,在图14中,悬停在喝水的女人的图像上的标签包括到关于该女人的面部识别结果的链接和到关于该特定图片的图像识别结果(例如,使用相同图片的其他产品或广告的图像)的链接。
在图14中,标签1402被显示为带有文本的部分透明的区域,其位于交互式结果文档的其相应子部分上。在其他实施例中,将相应标签放置在靠近但是并不位于交互式结果文档的其相应子部分上。在一些实施例中,以与参考图13所论述的相同的方式按类型对标签进行编码。在一些实施例中,用户通过轻击在由标签1302的边缘或外围所勾勒出的空间内的激活区域来激活对与对应于标签1302的特定子部分相对应的搜索结果的显示。在上面参考图12A和12B的边界框所论述的相同预览和选择功能也适用于为标签1402的视觉标识符。
图15图示了交互式结果文档1200和原始视觉查询1102与结果列表1500同时显示的截屏。在一些实施例中,如图12-14中所示,交互式结果文档1200独自显示。在其他实施例中,如图15中所示,交互式结果文档1200与原始视觉查询同时显示。在一些实施例中,视觉查询结果列表1500与原始视觉查询1102和/或交互式结果文档1200一起同时显示。客户端系统的类型和在显示器706上的空间量可以确定结果列表1500是否与交互式结果文档1200同时显示。在一些实施例中,客户端系统102(响应于提交给视觉查询服务器系统的视觉查询)接收结果列表1500和交互式结果文档1200两者,但是当用户滚动到交互式结果文档1200下面时,仅仅显示结果列表1500。在这些实施例中的一些中,客户端系统102在不必再次查询服务器的情况下显示与用户选择的视觉标识符1202/1402相对应的结果,因为结果列表1500由客户端系统102响应于视觉查询而接收,然后被本地存储在客户端系统102处。
在一些实施例中,将结果列表1500组织成类别1502。每一个类别包含至少一个结果1503。在一些实施例中,使类别标题高亮以将其与结果1503进行区别。类别1502根据其计算的类别权重来排序。在一些实施例中,类别权重是在该类别中的最高N个结果的权重的组合。如此,首先显示可能产生了更相关结果的类别。在对于同一所识别的实体,返回多于一个类别1502(诸如图15中所示的面部图像识别匹配和图像匹配)的实施例中,首先显示的类别具有更高的类别权重。
如参考图3说明的,在一些实施例中,当交互式结果文档1200中的可选择的链接被客户端系统102的用户选择时,光标将自动移动到适当的类别1502或该类别中的第一结果1503。替选地,当交互式结果文档中的可选择的链接被客户端系统102的用户选择时,将结果列表1500进行重新排序,使得首先显示与所选择的链接相关的类别。这例如通过使可选择的链接编码有识别对应的搜索结果的信息,或通过对搜索结果进行编码以指示对应可选择的链接或指示对应的结果类别来完成。
在一些实施例中,搜索结果的类别对应于产生那些搜索结果的按图像查询搜索系统。例如,在图15中,类别中的部分是产品匹配1506、标志匹配1508、面部识别匹配1510、图像匹配1512。原始视觉查询1102和/或交互式结果文档1200可以类似地用诸如查询1504的类别标题显示。类似地,还可以将来自词语查询服务器所执行的任何词语搜索的结果显示为独立类别,诸如web结果1514。在其他实施例中,视觉查询中的多于一个实体将从同一按图像查询搜索系统产生结果。例如,视觉查询可以包括两个不同的人脸,其将从面部识别搜索系统返回不同结果。如此,在一些实施例中,类别1502按所识别的实体而不是搜索系统来划分。在一些实施例中,在所识别的实体类别头部1502中显示所识别的实体的图像,使得关于该所识别的实体的结果与关于另一个所识别的实体的结果是可区分的,即使两者结果由同一按图像查询搜索系统产生。例如,在图15中,产品匹配类别1506包括两个实体产品实体以及同样两个实体类别1502--盒装产品1516和瓶装产品1518,其中每一个具有多个对应的搜索结果1503。在一些实施例中,类别可以按所识别的实体和按图像查询系统的类型来划分。例如,在图15中,在产品匹配类别产品下有返回了相关结果的两个不同实体。
在一些实施例中,结果1503包括缩略图像。例如,如在图15中关于面部识别匹配结果所示的,与诸如图像中的人的名字的一些文本描述一起显示了关于“Actress X(女演员X)”和“Social Network FriendY(社交网络朋友Y)”的面部匹配的图片的较小版本(也称为缩略图像)。
为了说明目的,参考具体实施例描述了前面的描述。然而,在上面的说明性论述并不意在是穷尽的或将本发明限制在所公开的精确形式。根据上面的教导,许多修改和变形是可能的。为了最佳说明本发明的原理和其实际应用,选择并描述了实施例,从而使本领域技术人员能够以适于预期的特定用途的各种修改最佳利用本发明和各种实施例。

Claims (24)

1.一种处理视觉查询的计算机实现的方法,包括:
在具有一个或多个处理器和存储一个或多个程序以供所述一个或多个处理器执行的存储器的服务器系统处:
从客户端系统接收视觉查询;
通过将所述视觉查询发送给多个并行搜索系统以供同时处理来对所述视觉查询进行处理,其中所述多个搜索系统中的搜索系统实现多个视觉查询搜索过程中的相应视觉查询搜索过程,其中所述多个视觉查询搜索过程至少包括:光学字符识别(OCR)、面部识别以及不同于OCR和面部识别的第一按图像查询过程;
从所述多个并行搜索系统中的一个或多个接收多个搜索结果;以及
将所述多个搜索结果中的至少一个发送给所述客户端系统。
2.根据权利要求1所述的计算机实现的方法,包括:
当所接收到的搜索结果中的至少两个满足预定义标准时,对满足所述预定义标准的所接收到的搜索结果进行排名;以及
将所排名的搜索结果中的至少一个搜索结果发送给所述客户端系统。
3.根据权利要求1和2中的任何一个所述的计算机实现的方法,其中所述第一按图像查询过程选自由以下组成的集合:产品识别、条形码识别、地标识别、由地理位置信息辅助的地点识别、相似图像识别、对象或对象类别识别、命名实体识别以及颜色识别。
4.根据权利要求1、2和3中的任何一个所述的计算机实现的方法,其中所述视觉查询选自由以下组成的组:照片、截屏、扫描的图像、视频帧、多个视频帧。
5.根据权利要求1、2、3和4中的任何一个所述的计算机实现的方法,其中所述客户端系统选自由以下组成的组:移动设备和台式设备。
6.根据权利要求1、2、3、4和5中的任何一个所述的计算机实现的方法,其中,当所述视觉查询是包含文本元素和非文本元素的图像时,所述至少一个搜索结果包括关于所述文本元素的光学字符识别结果和关于所述非文本元素的至少一个图像匹配结果。
7.根据权利要求1、2、3、4和5中的任何一个所述的计算机实现的方法,其中,当所述视觉查询是包含文本元素和非文本元素的图像时,所述至少一个搜索结果包括交互式结果文档,所述交互式结果文档包括带有到光学字符识别过程所产生的搜索结果的链接的关于所述文本元素的第一视觉标识符,以及带有到图像匹配过程所产生的搜索结果的链接的关于所述非文本元素的第二视觉标识符。
8.根据权利要求1、2、3、4、5、6和7中的任何一个所述的计算机实现的方法,进一步包括:
将所述多个搜索结果中的至少两个组合成复合搜索结果。
9.一种用于处理视觉查询的搜索引擎系统,包括:
用于执行程序的一个或多个中央处理单元;
存储待由所述一个或多个中央处理单元执行的一个或多个程序的存储器;
所述一个或多个程序包括用于下述的指令:
从客户端系统接收视觉查询;
通过将所述视觉查询发送给多个并行搜索系统以供同时处理来对所述视觉查询进行处理,其中所述多个搜索系统中的搜索系统实现多个视觉查询搜索过程中的相应视觉查询搜索过程,其中所述多个视觉查询搜索过程至少包括:光学字符识别(OCR)、面部识别以及不同于OCR和面部识别的第一按图像查询过程;
从所述多个并行搜索系统中的一个或多个接收多个搜索结果;以及
将所述多个搜索结果中的至少一个发送给所述客户端系统。
10.根据权利要求9所述的系统,包括用于下述的指令:
当所接收到的搜索结果中的至少两个满足预定义标准时,对满足所述预定义标准的所接收到的搜索结果进行排名;以及
将所排名的搜索结果中的至少一个搜索结果发送给所述客户端系统。
11.根据权利要求9和10中的任何一个所述的系统,其中所述第一按图像查询过程选自由以下组成的集合:产品识别、条形码识别、地标识别、由地理位置信息辅助的地点识别、相似图像识别、对象或对象类别识别、命名实体识别以及颜色识别。
12.根据权利要求9、10和11中的任何一个所述的系统,其中所述视觉查询选自由以下组成的组:照片、截屏、扫描的图像、视频帧、多个视频帧。
13.根据权利要求9、10、11和12中的任何一个所述的系统,其中所述客户端系统选自由以下组成的组:移动设备和台式设备。
14.根据权利要求9、10、11、12和13中的任何一个所述的系统,其中,当所述视觉查询是包含文本元素和非文本元素的图像时,所述至少一个搜索结果包括关于所述文本元素的光学字符识别结果和关于所述非文本元素的至少一个图像匹配结果。
15.根据权利要求9、10、11、12和13中的任何一个所述的系统,其中,当所述视觉查询是包含文本元素和非文本元素的图像时,所述至少一个搜索结果包括交互式结果文档,所述交互式结果文档包括带有到光学字符识别过程所产生的搜索结果的链接的关于所述文本元素的第一视觉标识符,以及带有到图像匹配过程所产生的搜索结果的链接的关于所述非文本元素的第二视觉标识符。
16.根据权利要求9、10、11、12、13、14和15中的任何一个所述的系统,进一步包括用于下述的指令:
将所述多个搜索结果中的至少两个组合成复合搜索结果。
17.一种用于处理视觉查询的非暂时性计算机可读存储介质,存储被配置成由计算机执行的一个或多个程序,所述一个或多个程序包括用于下述的指令:
从客户端系统接收视觉查询;
通过将所述视觉查询发送给多个并行搜索系统以供同时处理来对所述视觉查询进行处理,其中所述多个搜索系统中的搜索系统实现多个视觉查询搜索过程中的相应视觉查询搜索过程,其中所述多个视觉查询搜索过程至少包括:光学字符识别(OCR)、面部识别以及不同于OCR和面部识别的第一按图像查询过程;
从所述多个并行搜索系统中的一个或多个接收多个搜索结果;以及
将所述多个搜索结果中的至少一个发送给所述客户端系统。
18.根据权利要求17所述的计算机可读存储介质,包括用于下述的指令:
当所接收到的搜索结果中的至少两个满足预定义标准时,对满足所述预定义标准的所接收到的搜索结果进行排名;以及
将所排名的搜索结果中的至少一个搜索结果发送给所述客户端系统。
19.根据权利要求17和18中的任何一个所述的计算机可读存储介质,其中所述第一按图像查询过程选自由以下组成的集合:产品识别、条形码识别、地标识别、由地理位置信息辅助的地点识别、相似图像识别、对象或对象类别识别、命名实体识别以及颜色识别。
20.根据权利要求17、18和19中的任何一个所述的计算机可读存储介质,其中所述视觉查询选自由以下组成的组:照片、截屏、扫描的图像、视频帧、多个视频帧。
21.根据权利要求17、18、19和20中的任何一个所述的计算机可读存储介质,其中所述客户端系统选自由以下组成的组:移动设备和台式设备。
22.根据权利要求17、18、19、20和21中的任何一个所述的计算机可读存储介质,其中,当所述视觉查询是包含文本元素和非文本元素的图像时,所述至少一个搜索结果包括关于所述文本元素的光学字符识别结果和关于所述非文本元素的至少一个图像匹配结果。
23.根据权利要求17、18、19、20和21中的任何一个所述的计算机可读存储介质,其中,当所述视觉查询是包含文本元素和非文本元素的图像时,所述至少一个搜索结果包括交互式结果文档,所述交互式结果文档包括带有到光学字符识别过程所产生的搜索结果的链接的关于所述文本元素的第一视觉标识符,以及带有到图像匹配过程所产生的搜索结果的链接的关于所述非文本元素的第二视觉标识符。
24.根据权利要求17、18、19、20、21、22和23中的任何一个所述的计算机可读存储介质,进一步包括用于下述的指令:
将所述多个搜索结果中的至少两个组合成复合搜索结果。
CN201080045164.6A 2009-08-07 2010-08-05 用于对视觉查询作出响应的体系结构 Active CN102625937B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US23239709P 2009-08-07 2009-08-07
US61/232,397 2009-08-07
US26611609P 2009-12-02 2009-12-02
US61/266,116 2009-12-02
US12/850,483 2010-08-04
US12/850,483 US9135277B2 (en) 2009-08-07 2010-08-04 Architecture for responding to a visual query
PCT/US2010/044603 WO2011017557A1 (en) 2009-08-07 2010-08-05 Architecture for responding to a visual query

Publications (2)

Publication Number Publication Date
CN102625937A true CN102625937A (zh) 2012-08-01
CN102625937B CN102625937B (zh) 2014-02-12

Family

ID=42752283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080045164.6A Active CN102625937B (zh) 2009-08-07 2010-08-05 用于对视觉查询作出响应的体系结构

Country Status (9)

Country Link
US (3) US9135277B2 (zh)
EP (1) EP2462520B1 (zh)
JP (3) JP2013501975A (zh)
KR (2) KR101667346B1 (zh)
CN (1) CN102625937B (zh)
AU (2) AU2010279333B2 (zh)
BR (1) BR112012002815B8 (zh)
CA (2) CA2771094C (zh)
WO (1) WO2011017557A1 (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902771A (zh) * 2012-09-27 2013-01-30 百度国际科技(深圳)有限公司 一种图片搜索方法、装置及服务器
CN102930263A (zh) * 2012-09-27 2013-02-13 百度国际科技(深圳)有限公司 一种信息处理方法及装置
CN104391938A (zh) * 2014-11-24 2015-03-04 黄金日 一种图片批量导入数据库的方法及系统
CN104424257A (zh) * 2013-08-28 2015-03-18 北大方正集团有限公司 信息检索装置和信息检索方法
CN104536995A (zh) * 2014-12-12 2015-04-22 北京奇虎科技有限公司 基于终端界面触控操作进行搜索的方法及系统
CN104572986A (zh) * 2015-01-04 2015-04-29 百度在线网络技术(北京)有限公司 信息搜索方法和装置
CN104615639A (zh) * 2014-11-28 2015-05-13 北京百度网讯科技有限公司 一种用于提供图片的呈现信息的方法和设备
CN105518678A (zh) * 2015-06-29 2016-04-20 北京旷视科技有限公司 搜索方法、搜索装置、用户设备和计算机程序产品
CN106485196A (zh) * 2015-08-28 2017-03-08 意法半导体股份有限公司 视觉搜索方法、对应的系统、设备和计算机程序产品
CN108021601A (zh) * 2016-10-28 2018-05-11 奥多比公司 使用数字画布来进行数字视觉媒体的空间语义搜索
CN108431829A (zh) * 2015-08-03 2018-08-21 奥兰德股份公司 用于在目录中搜索产品的系统和方法
CN108475335A (zh) * 2016-01-27 2018-08-31 霍尼韦尔国际公司 用于使用光学字符识别&智能字符识别的过程工业中的跳闸现场设备的事后检查分析的方法和工具
CN108897841A (zh) * 2018-06-27 2018-11-27 百度在线网络技术(北京)有限公司 全景图搜索方法、装置、设备、服务器及存储介质
CN109690528A (zh) * 2016-04-07 2019-04-26 里德爱思唯尔股份有限公司雷克萨斯尼克萨斯分公司 用于提供可视化结果列表的系统以及方法
CN109716327A (zh) * 2016-09-08 2019-05-03 Aiq私人股份有限公司 视觉搜索平台的视频摄取框架
CN110059223A (zh) * 2018-01-18 2019-07-26 奥誓公司 机内循环、图像到视频计算机视觉引导
CN110998565A (zh) * 2017-08-01 2020-04-10 三星电子株式会社 电子装置和用于控制该电子装置的方法
CN111247536A (zh) * 2017-10-27 2020-06-05 三星电子株式会社 用于搜索相关图像的电子装置及其控制方法
CN111295669A (zh) * 2017-06-16 2020-06-16 马克波尔公司 图像处理系统
CN111801680A (zh) * 2018-03-05 2020-10-20 A9.com股份有限公司 过程状态的视觉反馈
CN111819554A (zh) * 2017-12-29 2020-10-23 电子湾有限公司 计算机视觉和图像特征搜索
CN112766269A (zh) * 2021-03-04 2021-05-07 深圳康佳电子科技有限公司 一种图片文本检索方法、智能终端及存储介质
CN113168514A (zh) * 2018-11-25 2021-07-23 谷歌有限责任公司 查找和过滤视觉场景的元素
CN114969479A (zh) * 2021-04-21 2022-08-30 中移互联网有限公司 一种搜索方法、装置及存储介质

Families Citing this family (161)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090327235A1 (en) * 2008-06-27 2009-12-31 Google Inc. Presenting references with answers in forums
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US9135277B2 (en) 2009-08-07 2015-09-15 Google Inc. Architecture for responding to a visual query
EP2629211A1 (en) * 2009-08-21 2013-08-21 Mikko Kalervo Väänänen Method and means for data searching and language translation
US8121618B2 (en) 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US9197736B2 (en) 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US9176986B2 (en) 2009-12-02 2015-11-03 Google Inc. Generating a combination of a visual query and matching canonical document
US9405772B2 (en) 2009-12-02 2016-08-02 Google Inc. Actionable search results for street view visual queries
US9852156B2 (en) 2009-12-03 2017-12-26 Google Inc. Hybrid use of location sensor data and visual query to return local listings for visual query
US20110165917A1 (en) 2009-12-31 2011-07-07 Mary Elizabeth Taylor Methods and arrangements employing sensor-equipped smart phones
US8600173B2 (en) * 2010-01-27 2013-12-03 Dst Technologies, Inc. Contextualization of machine indeterminable information based on machine determinable information
WO2012050251A1 (ko) * 2010-10-14 2012-04-19 엘지전자 주식회사 이동 단말기 및 그 제어방법
US8861896B2 (en) * 2010-11-29 2014-10-14 Sap Se Method and system for image-based identification
US8995775B2 (en) * 2011-05-02 2015-03-31 Facebook, Inc. Reducing photo-tagging spam
JP5316582B2 (ja) * 2011-05-23 2013-10-16 コニカミノルタ株式会社 画像処理システム、画像処理装置、端末装置、および制御プログラム
EP2533141A1 (en) * 2011-06-07 2012-12-12 Amadeus S.A.S. A personal information display system and associated method
US9600499B2 (en) * 2011-06-23 2017-03-21 Cyber Ai Entertainment Inc. System for collecting interest graph by relevance search incorporating image recognition system
KR101814120B1 (ko) * 2011-08-26 2018-01-03 에스프린팅솔루션 주식회사 이미지를 전자문서에 삽입하는 방법 및 이를 수행하는 장치
CN103918247B (zh) 2011-09-23 2016-08-24 数字标记公司 基于背景环境的智能手机传感器逻辑
US8825671B1 (en) * 2011-10-05 2014-09-02 Google Inc. Referent determination from selected content
US9032316B1 (en) 2011-10-05 2015-05-12 Google Inc. Value-based presentation of user-selectable computing actions
US8890827B1 (en) 2011-10-05 2014-11-18 Google Inc. Selected content refinement mechanisms
US10013152B2 (en) 2011-10-05 2018-07-03 Google Llc Content selection disambiguation
WO2013052866A2 (en) 2011-10-05 2013-04-11 Google Inc. Semantic selection and purpose facilitation
US8930393B1 (en) 2011-10-05 2015-01-06 Google Inc. Referent based search suggestions
US8878785B1 (en) 2011-10-05 2014-11-04 Google Inc. Intent determination using geometric shape input
US8589410B2 (en) 2011-10-18 2013-11-19 Microsoft Corporation Visual search using multiple visual input modalities
EP2587745A1 (en) 2011-10-26 2013-05-01 Swisscom AG A method and system of obtaining contact information for a person or an entity
TWI451347B (zh) * 2011-11-17 2014-09-01 Univ Nat Chiao Tung 物品資料查詢系統及方法
US8891907B2 (en) 2011-12-06 2014-11-18 Google Inc. System and method of identifying visual objects
WO2013088994A1 (ja) * 2011-12-14 2013-06-20 日本電気株式会社 映像処理システム、映像処理方法、携帯端末用またはサーバ用の映像処理装置およびその制御方法と制御プログラム
JP2015062090A (ja) * 2011-12-15 2015-04-02 日本電気株式会社 映像処理システム、映像処理方法、携帯端末用またはサーバ用の映像処理装置およびその制御方法と制御プログラム
US10115127B2 (en) 2011-12-16 2018-10-30 Nec Corporation Information processing system, information processing method, communications terminals and control method and control program thereof
US10146795B2 (en) * 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US9165187B2 (en) 2012-01-12 2015-10-20 Kofax, Inc. Systems and methods for mobile image capture and processing
US8620021B2 (en) 2012-03-29 2013-12-31 Digimarc Corporation Image-related methods and arrangements
US8935246B2 (en) 2012-08-08 2015-01-13 Google Inc. Identifying textual terms in response to a visual query
US8868598B2 (en) * 2012-08-15 2014-10-21 Microsoft Corporation Smart user-centric information aggregation
US8990194B2 (en) * 2012-11-02 2015-03-24 Google Inc. Adjusting content delivery based on user submissions of photographs
US20140149257A1 (en) * 2012-11-28 2014-05-29 Jim S. Baca Customized Shopping
US9298712B2 (en) * 2012-12-13 2016-03-29 Microsoft Technology Licensing, Llc Content and object metadata based search in e-reader environment
CN105359166B (zh) * 2013-02-08 2018-11-09 埃莫蒂安特公司 收集用于表情识别的机器学习训练数据
US10235358B2 (en) * 2013-02-21 2019-03-19 Microsoft Technology Licensing, Llc Exploiting structured content for unsupervised natural language semantic parsing
US9208176B2 (en) * 2013-03-12 2015-12-08 International Business Machines Corporation Gesture-based image shape filtering
US9258597B1 (en) 2013-03-13 2016-02-09 Google Inc. System and method for obtaining information relating to video images
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US10127636B2 (en) 2013-09-27 2018-11-13 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US9247309B2 (en) 2013-03-14 2016-01-26 Google Inc. Methods, systems, and media for presenting mobile content corresponding to media content
US9705728B2 (en) 2013-03-15 2017-07-11 Google Inc. Methods, systems, and media for media transmission and management
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
US20140330814A1 (en) * 2013-05-03 2014-11-06 Tencent Technology (Shenzhen) Company Limited Method, client of retrieving information and computer storage medium
NZ630397A (en) * 2013-05-21 2017-06-30 Fmp Group (Australia) Pty Ltd Image recognition of vehicle parts
US10176500B1 (en) * 2013-05-29 2019-01-08 A9.Com, Inc. Content classification based on data recognition
US10533850B2 (en) 2013-07-12 2020-01-14 Magic Leap, Inc. Method and system for inserting recognized object data into a virtual world
GB201314642D0 (en) * 2013-08-15 2013-10-02 Summerfield Gideon Image Identification System and Method
CN103455590B (zh) * 2013-08-29 2017-05-31 百度在线网络技术(北京)有限公司 在触屏设备中进行检索的方法和装置
AU2014321165B2 (en) * 2013-09-11 2020-04-09 See-Out Pty Ltd Image searching method and apparatus
US10095833B2 (en) * 2013-09-22 2018-10-09 Ricoh Co., Ltd. Mobile information gateway for use by medical personnel
WO2015073920A1 (en) 2013-11-15 2015-05-21 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US9411825B2 (en) * 2013-12-31 2016-08-09 Streamoid Technologies Pvt. Ltd. Computer implemented system for handling text distracters in a visual search
US9456237B2 (en) 2013-12-31 2016-09-27 Google Inc. Methods, systems, and media for presenting supplemental information corresponding to on-demand media content
US10002191B2 (en) 2013-12-31 2018-06-19 Google Llc Methods, systems, and media for generating search results based on contextual information
US9491522B1 (en) 2013-12-31 2016-11-08 Google Inc. Methods, systems, and media for presenting supplemental content relating to media content on a content interface based on state information that indicates a subsequent visit to the content interface
US10248856B2 (en) 2014-01-14 2019-04-02 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US10024679B2 (en) 2014-01-14 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US9915545B2 (en) 2014-01-14 2018-03-13 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US10360907B2 (en) 2014-01-14 2019-07-23 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
KR101791518B1 (ko) 2014-01-23 2017-10-30 삼성전자주식회사 사용자 인증 방법 및 장치
US9832353B2 (en) 2014-01-31 2017-11-28 Digimarc Corporation Methods for encoding, decoding and interpreting auxiliary data in media signals
JP6208898B2 (ja) 2014-02-10 2017-10-04 ジーニー ゲゼルシャフト ミット ベシュレンクテル ハフツング 画像特徴式認識のためのシステムおよび方法
US9311639B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods, apparatus and arrangements for device to device communication
US9811592B1 (en) 2014-06-24 2017-11-07 Google Inc. Query modification based on textual resource context
US9830391B1 (en) 2014-06-24 2017-11-28 Google Inc. Query modification based on non-textual resource context
US9798708B1 (en) 2014-07-11 2017-10-24 Google Inc. Annotating relevant content in a screen capture image
KR101690528B1 (ko) * 2015-06-05 2016-12-28 오드컨셉 주식회사 검색 정보를 표시하는 방법, 장치 및 컴퓨터 프로그램
US10062099B2 (en) * 2014-07-25 2018-08-28 Hewlett Packard Enterprise Development Lp Product identification based on location associated with image of product
US10024667B2 (en) 2014-08-01 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable earpiece for providing social and environmental awareness
US9965559B2 (en) 2014-08-21 2018-05-08 Google Llc Providing automatic actions for mobile onscreen content
WO2016039273A1 (ja) * 2014-09-08 2016-03-17 日本電信電話株式会社 表示制御装置、表示制御方法および表示制御プログラム
US10024678B2 (en) 2014-09-17 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable clip for providing social and environmental awareness
US9922236B2 (en) * 2014-09-17 2018-03-20 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable eyeglasses for providing social and environmental awareness
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US11120478B2 (en) 2015-01-12 2021-09-14 Ebay Inc. Joint-based item recognition
US20160217157A1 (en) * 2015-01-23 2016-07-28 Ebay Inc. Recognition of items depicted in images
US10490102B2 (en) 2015-02-10 2019-11-26 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for braille assistance
US9586318B2 (en) 2015-02-27 2017-03-07 Toyota Motor Engineering & Manufacturing North America, Inc. Modular robot with smart device
US9811752B2 (en) 2015-03-10 2017-11-07 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable smart device and method for redundant object identification
US9760792B2 (en) 2015-03-20 2017-09-12 Netra, Inc. Object detection and classification
US9972216B2 (en) 2015-03-20 2018-05-15 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for storing and playback of information for blind users
US9922271B2 (en) 2015-03-20 2018-03-20 Netra, Inc. Object detection and classification
US9703541B2 (en) 2015-04-28 2017-07-11 Google Inc. Entity action suggestion on a mobile device
CN104794220A (zh) * 2015-04-28 2015-07-22 百度在线网络技术(北京)有限公司 信息搜索方法和信息搜索装置
US10062015B2 (en) 2015-06-25 2018-08-28 The Nielsen Company (Us), Llc Methods and apparatus for identifying objects depicted in a video using extracted video frames in combination with a reverse image search engine
US10628009B2 (en) 2015-06-26 2020-04-21 Rovi Guides, Inc. Systems and methods for automatic formatting of images for media assets based on user profile
MX2017011141A (es) * 2015-06-26 2018-01-18 Rovi Guides Inc Sistemas y metodos para el formateo automatico de imagenes para contenidos multimedia con base en el perfil de usuario.
US10769200B1 (en) * 2015-07-01 2020-09-08 A9.Com, Inc. Result re-ranking for object recognition
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
CN105069083B (zh) 2015-07-31 2019-03-08 小米科技有限责任公司 关联用户的确定方法及装置
US9898039B2 (en) 2015-08-03 2018-02-20 Toyota Motor Engineering & Manufacturing North America, Inc. Modular smart necklace
US10970646B2 (en) 2015-10-01 2021-04-06 Google Llc Action suggestions for user-selected content
US11055343B2 (en) 2015-10-05 2021-07-06 Pinterest, Inc. Dynamic search control invocation and visual search
US11609946B2 (en) * 2015-10-05 2023-03-21 Pinterest, Inc. Dynamic search input selection
JP6204957B2 (ja) * 2015-10-15 2017-09-27 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
US20180004845A1 (en) * 2015-10-16 2018-01-04 Carlos A. Munoz Web Based Information Search Method
US10178527B2 (en) 2015-10-22 2019-01-08 Google Llc Personalized entity repository
US10055390B2 (en) 2015-11-18 2018-08-21 Google Llc Simulated hyperlinks on a mobile device based on user intent and a centered selection of text
US20170185670A1 (en) * 2015-12-28 2017-06-29 Google Inc. Generating labels for images associated with a user
US9881236B2 (en) 2015-12-28 2018-01-30 Google Llc Organizing images associated with a user
US10043102B1 (en) 2016-01-20 2018-08-07 Palantir Technologies Inc. Database systems and user interfaces for dynamic and interactive mobile image analysis and identification
US10024680B2 (en) 2016-03-11 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Step based guidance system
US11003667B1 (en) 2016-05-27 2021-05-11 Google Llc Contextual information for a displayed resource
US9958275B2 (en) 2016-05-31 2018-05-01 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for wearable smart device communications
US10152521B2 (en) 2016-06-22 2018-12-11 Google Llc Resource recommendations for a displayed resource
US10353950B2 (en) * 2016-06-28 2019-07-16 Google Llc Visual recognition using user tap locations
US10802671B2 (en) 2016-07-11 2020-10-13 Google Llc Contextual information for a displayed resource that includes an image
US10561519B2 (en) 2016-07-20 2020-02-18 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable computing device having a curved back to reduce pressure on vertebrae
US10051108B2 (en) 2016-07-21 2018-08-14 Google Llc Contextual information for a notification
US10467300B1 (en) 2016-07-21 2019-11-05 Google Llc Topical resource recommendations for a displayed resource
US10489459B1 (en) 2016-07-21 2019-11-26 Google Llc Query recommendations for a displayed resource
CA3034661A1 (en) * 2016-09-06 2018-03-15 Walmart Apollo, Llc Product part picture picker
US10949605B2 (en) * 2016-09-13 2021-03-16 Bank Of America Corporation Interprogram communication with event handling for online enhancements
US10212113B2 (en) 2016-09-19 2019-02-19 Google Llc Uniform resource identifier and image sharing for contextual information display
US10535005B1 (en) 2016-10-26 2020-01-14 Google Llc Providing contextual actions for mobile onscreen content
US10432851B2 (en) 2016-10-28 2019-10-01 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable computing device for detecting photography
USD827143S1 (en) 2016-11-07 2018-08-28 Toyota Motor Engineering & Manufacturing North America, Inc. Blind aid device
US10012505B2 (en) 2016-11-11 2018-07-03 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable system for providing walking directions
US10521669B2 (en) 2016-11-14 2019-12-31 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for providing guidance or feedback to a user
US11237696B2 (en) 2016-12-19 2022-02-01 Google Llc Smart assist for repeated actions
US20180218237A1 (en) * 2017-01-30 2018-08-02 International Business Machines Corporation System, method and computer program product for creating a contact group using image analytics
US11449495B2 (en) * 2017-02-01 2022-09-20 United Parcel Service Of America, Inc. Indexable database profiles comprising multi-language encoding data and methods for generating the same
JP6807268B2 (ja) * 2017-04-18 2021-01-06 日本電信電話株式会社 画像認識エンジン連携装置およびプログラム
KR102368847B1 (ko) 2017-04-28 2022-03-02 삼성전자주식회사 객체에 대응하는 콘텐트를 출력하기 위한 방법 및 그 전자 장치
JP6353118B1 (ja) * 2017-05-10 2018-07-04 ヤフー株式会社 表示プログラム、情報提供装置、表示装置、表示方法、情報提供方法および情報提供プログラム
US11928482B2 (en) * 2017-06-13 2024-03-12 Google Llc Interaction with electronic chat interfaces
US10679068B2 (en) 2017-06-13 2020-06-09 Google Llc Media contextual information from buffered media data
US10652592B2 (en) 2017-07-02 2020-05-12 Comigo Ltd. Named entity disambiguation for providing TV content enrichment
KR102586170B1 (ko) * 2017-08-01 2023-10-10 삼성전자주식회사 전자 장치 및 이의 검색 결과 제공 방법
WO2019027240A1 (en) 2017-08-01 2019-02-07 Samsung Electronics Co., Ltd. ELECTRONIC DEVICE AND METHOD FOR PROVIDING A RESEARCH RESULT THEREOF
WO2019054999A1 (en) * 2017-09-13 2019-03-21 Google Llc EFFICIENT AUGMENTATION OF IMAGES WITH RELATED CONTENT
US11841735B2 (en) 2017-09-22 2023-12-12 Pinterest, Inc. Object based image search
US10942966B2 (en) 2017-09-22 2021-03-09 Pinterest, Inc. Textual and image based search
US11126653B2 (en) 2017-09-22 2021-09-21 Pinterest, Inc. Mixed type image based search results
US10803350B2 (en) 2017-11-30 2020-10-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
CN108270794B (zh) * 2018-02-06 2020-10-09 腾讯科技(深圳)有限公司 内容发布方法、装置及可读介质
KR102068535B1 (ko) * 2018-02-28 2020-01-21 엔에이치엔 주식회사 대화방 내 상담 메시지를 기초로 서비스를 예약하는 방법
JP6684846B2 (ja) * 2018-04-23 2020-04-22 株式会社ワコム 物品検索システム
US10810457B2 (en) * 2018-05-09 2020-10-20 Fuji Xerox Co., Ltd. System for searching documents and people based on detecting documents and people around a table
KR102544781B1 (ko) 2018-08-08 2023-06-19 삼성전자주식회사 우선 순위에 기반하여 상품과 관련된 정보를 제공하는 방법 및 그 전자 장치
US10699112B1 (en) * 2018-09-28 2020-06-30 Automation Anywhere, Inc. Identification of key segments in document images
JP6934855B2 (ja) * 2018-12-20 2021-09-15 ヤフー株式会社 制御プログラム
KR101982990B1 (ko) * 2018-12-27 2019-05-27 건국대학교 산학협력단 챗봇을 이용한 질의 응답 방법 및 장치
KR101982991B1 (ko) * 2018-12-28 2019-05-27 건국대학교 산학협력단 복수의 챗봇을 이용한 질의 응답 방법 및 장치
US11494884B2 (en) 2019-02-21 2022-11-08 Canon U.S.A., Inc. Method and system for evaluating image sharpness
KR102245774B1 (ko) 2019-11-06 2021-04-27 연세대학교 산학협력단 공정성 분류 네트워크를 이용한 시각 질의 응답 방법 및 장치
KR102368560B1 (ko) 2020-01-31 2022-02-25 연세대학교 산학협력단 선택적 잔여학습을 이용한 시각 질의 응답 방법 및 장치
KR102104246B1 (ko) * 2020-02-17 2020-04-24 주식회사 비에이템 화면 분할을 이용한 이미지 병렬 검색 시스템
CN111539438B (zh) * 2020-04-28 2024-01-12 北京百度网讯科技有限公司 文本内容的识别方法、装置及电子设备
US20220092105A1 (en) * 2020-09-18 2022-03-24 Google Llc Intelligent Systems and Methods for Visual Search Queries
CN112733779B (zh) 2021-01-19 2023-04-07 三星电子(中国)研发中心 一种基于人工智能的视频海报展示方法和系统
US20220300550A1 (en) * 2021-03-19 2022-09-22 Google Llc Visual Search via Free-Form Visual Feature Selection
US11835995B2 (en) * 2022-02-10 2023-12-05 Clarifai, Inc. Automatic unstructured knowledge cascade visual search

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060253491A1 (en) * 2005-05-09 2006-11-09 Gokturk Salih B System and method for enabling search and retrieval from image files based on recognized information
US20080267504A1 (en) * 2007-04-24 2008-10-30 Nokia Corporation Method, device and computer program product for integrating code-based and optical character recognition technologies into a mobile visual search
CN101375281A (zh) * 2006-01-31 2009-02-25 微软公司 使用用户反馈来改善搜索结果

Family Cites Families (216)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4888690A (en) 1985-01-11 1989-12-19 Wang Laboratories, Inc. Interactive error handling means in database management
US4899292A (en) * 1988-03-02 1990-02-06 Image Storage/Retrieval Systems, Inc. System for storing and retrieving text and associated graphics
CA2048306A1 (en) 1990-10-02 1992-04-03 Steven P. Miller Distributed configuration profile for computing system
US5649183A (en) 1992-12-08 1997-07-15 Microsoft Corporation Method for compressing full text indexes with document identifiers and location offsets
US5574898A (en) 1993-01-08 1996-11-12 Atria Software, Inc. Dynamic software version auditor which monitors a process to provide a list of objects that are accessed
US5544051A (en) 1993-09-17 1996-08-06 Digital Equipment Corporation Document management system using multiple threaded processes and having asynchronous repository responses and no busy cursor
JP2813728B2 (ja) * 1993-11-01 1998-10-22 インターナショナル・ビジネス・マシーンズ・コーポレイション ズーム/パン機能付パーソナル通信機
US5560005A (en) 1994-02-25 1996-09-24 Actamed Corp. Methods and systems for object-based relational distributed databases
US6216138B1 (en) * 1994-04-22 2001-04-10 Brooks Automation Inc. Computer interface system for automatically generating graphical representations of computer operations linked together according to functional relationships
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
US5764799A (en) * 1995-06-26 1998-06-09 Research Foundation Of State Of State Of New York OCR method and apparatus using image equivalents
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
WO1997008604A2 (en) 1995-08-16 1997-03-06 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5963940A (en) 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US5815415A (en) 1996-01-19 1998-09-29 Bentley Systems, Incorporated Computer system for portable persistent modeling
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5778378A (en) * 1996-04-30 1998-07-07 International Business Machines Corporation Object oriented information retrieval framework mechanism
US6014661A (en) * 1996-05-06 2000-01-11 Ivee Development Ab System and method for automatic analysis of data bases and for user-controlled dynamic querying
US6101515A (en) 1996-05-31 2000-08-08 Oracle Corporation Learning system for classification of terminology
JPH09330336A (ja) 1996-06-11 1997-12-22 Sony Corp 情報処理装置
US5870739A (en) * 1996-09-20 1999-02-09 Novell, Inc. Hybrid query apparatus and method
JP3099756B2 (ja) * 1996-10-31 2000-10-16 富士ゼロックス株式会社 文書処理装置、単語抽出装置及び単語抽出方法
US6480194B1 (en) 1996-11-12 2002-11-12 Silicon Graphics, Inc. Computer-related method, system, and program product for controlling data visualization in external dimension(s)
US6498921B1 (en) 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US5966126A (en) 1996-12-23 1999-10-12 Szabo; Andrew J. Graphic user interface for database system
US5946692A (en) 1997-05-08 1999-08-31 At & T Corp Compressed representation of a data base that permits AD HOC querying
CA2242158C (en) * 1997-07-01 2004-06-01 Hitachi, Ltd. Method and apparatus for searching and displaying structured document
US5987448A (en) * 1997-07-25 1999-11-16 Claritech Corporation Methodology for displaying search results using character recognition
US6188403B1 (en) * 1997-11-21 2001-02-13 Portola Dimensional Systems, Inc. User-friendly graphics generator using direct manipulation
US6105030A (en) 1998-02-27 2000-08-15 Oracle Corporation Method and apparatus for copying data that resides in a database
US6173287B1 (en) 1998-03-11 2001-01-09 Digital Equipment Corporation Technique for ranking multimedia annotations of interest
US6269188B1 (en) 1998-03-12 2001-07-31 Canon Kabushiki Kaisha Word grouping accuracy value generation
US6327574B1 (en) 1998-07-07 2001-12-04 Encirq Corporation Hierarchical models of consumer attributes for targeting content in a privacy-preserving manner
US6137907A (en) 1998-09-23 2000-10-24 Xerox Corporation Method and apparatus for pixel-level override of halftone detection within classification blocks to reduce rectangular artifacts
US6529900B1 (en) 1999-01-14 2003-03-04 International Business Machines Corporation Method and apparatus for data visualization
US6377943B1 (en) * 1999-01-20 2002-04-23 Oracle Corp. Initial ordering of tables for database queries
GB9903451D0 (en) 1999-02-16 1999-04-07 Hewlett Packard Co Similarity searching for documents
US6584464B1 (en) 1999-03-19 2003-06-24 Ask Jeeves, Inc. Grammar template query system
US6263328B1 (en) * 1999-04-09 2001-07-17 International Business Machines Corporation Object oriented query model and process for complex heterogeneous database queries
US20030195872A1 (en) 1999-04-12 2003-10-16 Paul Senn Web-based information content analyzer and information dimension dictionary
US6304864B1 (en) 1999-04-20 2001-10-16 Textwise Llc System for retrieving multimedia information from the internet using multiple evolving intelligent agents
US6629097B1 (en) 1999-04-28 2003-09-30 Douglas K. Keith Displaying implicit associations among items in loosely-structured data sets
JP2000331006A (ja) 1999-05-18 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置
US6721713B1 (en) * 1999-05-27 2004-04-13 Andersen Consulting Llp Business alliance identification in a web architecture framework
US6885990B1 (en) * 1999-05-31 2005-04-26 Nippon Telegraph And Telephone Company Speech recognition based on interactive information retrieval scheme using dialogue control to reduce user stress
US6408293B1 (en) * 1999-06-09 2002-06-18 International Business Machines Corporation Interactive framework for understanding user's perception of multimedia data
US6873982B1 (en) * 1999-07-16 2005-03-29 International Business Machines Corporation Ordering of database search results based on user feedback
US6341306B1 (en) * 1999-08-13 2002-01-22 Atomica Corporation Web-based information retrieval responsive to displayed word identified by a text-grabbing algorithm
CA2281331A1 (en) 1999-09-03 2001-03-03 Cognos Incorporated Database management system
JP4770875B2 (ja) 1999-09-27 2011-09-14 三菱電機株式会社 画像特徴データ生成装置、画像特徴判定装置および画像検索システム
US6105020A (en) 1999-10-11 2000-08-15 International Business Machines Corporation System and method for identifying and constructing star joins for execution by bitmap ANDing
US6850896B1 (en) * 1999-10-28 2005-02-01 Market-Touch Corporation Method and system for managing and providing sales data using world wide web
US6546388B1 (en) * 2000-01-14 2003-04-08 International Business Machines Corporation Metadata search results ranking system
US6606659B1 (en) 2000-01-28 2003-08-12 Websense, Inc. System and method for controlling access to internet sites
US20030120659A1 (en) * 2000-03-20 2003-06-26 Sridhar Mandayam Anandampillai Systems for developing websites and methods therefor
US6643641B1 (en) 2000-04-27 2003-11-04 Russell Snyder Web search engine with graphic snapshots
US7325201B2 (en) * 2000-05-18 2008-01-29 Endeca Technologies, Inc. System and method for manipulating content in a hierarchical data-driven search and navigation system
US7401131B2 (en) 2000-05-22 2008-07-15 Verizon Business Global Llc Method and system for implementing improved containers in a global ecosystem of interrelated services
US6754677B1 (en) * 2000-05-30 2004-06-22 Outlooksoft Corporation Method and system for facilitating information exchange
US7328349B2 (en) * 2001-12-14 2008-02-05 Bbn Technologies Corp. Hash-based systems and methods for detecting, preventing, and tracing network worms and viruses
US7640489B2 (en) * 2000-08-01 2009-12-29 Sun Microsystems, Inc. Methods and systems for inputting data into spreadsheet documents
US7100083B2 (en) 2000-08-04 2006-08-29 Sun Microsystems, Inc. Checks for product knowledge management
AU2001284369A1 (en) 2000-08-24 2002-03-04 Olive Software Inc. System and method for automatic preparation and searching of scanned documents
US20030217052A1 (en) 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
WO2002019228A1 (en) 2000-09-01 2002-03-07 Togethersoft Corporation Methods and systems for improving a workflow based on data mined from plans created from the workflow
US6832218B1 (en) 2000-09-22 2004-12-14 International Business Machines Corporation System and method for associating search results
US6823084B2 (en) * 2000-09-22 2004-11-23 Sri International Method and apparatus for portably recognizing text in an image sequence of scene imagery
US20020065815A1 (en) * 2000-10-04 2002-05-30 Xcelerix, Inc. Systems and methods for searching a database
US7016532B2 (en) 2000-11-06 2006-03-21 Evryx Technologies Image capture and identification system and process
US20020103920A1 (en) 2000-11-21 2002-08-01 Berkun Ken Alan Interpretive stream metadata extraction
US7013308B1 (en) * 2000-11-28 2006-03-14 Semscript Ltd. Knowledge storage and retrieval system and method
US6781599B2 (en) 2001-01-04 2004-08-24 At&T System and method for visualizing massive multi-digraphs
JP2002223105A (ja) * 2001-01-26 2002-08-09 Sanyo Electric Co Ltd 同軸共振器、並びにこれを用いた誘電体フィルタ及び誘電体デュプレクサ
JP4077608B2 (ja) 2001-02-27 2008-04-16 株式会社エヌ・ティ・ティ・ドコモ 特徴領域抽出方法およびその装置ならびに情報提供方法およびその装置
US6748398B2 (en) * 2001-03-30 2004-06-08 Microsoft Corporation Relevance maximizing, iteration minimizing, relevance-feedback, content-based image retrieval (CBIR)
US6920477B2 (en) * 2001-04-06 2005-07-19 President And Fellows Of Harvard College Distributed, compressed Bloom filter Web cache server
US7031955B1 (en) * 2001-04-27 2006-04-18 I2 Technologies Us, Inc. Optimization using a multi-dimensional data model
US6961723B2 (en) 2001-05-04 2005-11-01 Sun Microsystems, Inc. System and method for determining relevancy of query responses in a distributed network search mechanism
US7398201B2 (en) 2001-08-14 2008-07-08 Evri Inc. Method and system for enhanced data searching
US7403938B2 (en) * 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing
US7313617B2 (en) * 2001-09-28 2007-12-25 Dale Malik Methods and systems for a communications and information resource manager
JP2003150617A (ja) 2001-11-12 2003-05-23 Olympus Optical Co Ltd 画像処理装置およびプログラム
US6826572B2 (en) 2001-11-13 2004-11-30 Overture Services, Inc. System and method allowing advertisers to manage search listings in a pay for placement search system using grouping
JP3931214B2 (ja) * 2001-12-17 2007-06-13 日本アイ・ビー・エム株式会社 データ解析装置およびプログラム
US6988018B2 (en) * 2001-12-26 2006-01-17 Eames John D System and method for analyzing controlling forming sections of a paper machine in operation
US20030154071A1 (en) 2002-02-11 2003-08-14 Shreve Gregory M. Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents
US7343365B2 (en) 2002-02-20 2008-03-11 Microsoft Corporation Computer system architecture for automatic context associations
US6928436B2 (en) 2002-02-28 2005-08-09 Ilog Sa Interactive generation of graphical visualizations of large data structures
US7043521B2 (en) * 2002-03-21 2006-05-09 Rockwell Electronic Commerce Technologies, Llc Search agent for searching the internet
US20040030731A1 (en) * 2002-04-03 2004-02-12 Liviu Iftode System and method for accessing files in a network
US20030208665A1 (en) 2002-05-01 2003-11-06 Jih-Kwon Peir Reducing data speculation penalty with early cache hit/miss prediction
US7158983B2 (en) * 2002-09-23 2007-01-02 Battelle Memorial Institute Text analysis technique
DE10245900A1 (de) 2002-09-30 2004-04-08 Neven jun., Hartmut, Prof.Dr. Bildbasiertes Anfragesystem für Suchmaschinen für mobile Endgeräte mit eingebauter Kamera
US20040167887A1 (en) 2002-12-06 2004-08-26 Attensity Corporation Integration of structured data with relational facts from free text for data mining
US7181450B2 (en) * 2002-12-18 2007-02-20 International Business Machines Corporation Method, system, and program for use of metadata to create multidimensional cubes in a relational database
US7278111B2 (en) * 2002-12-26 2007-10-02 Yahoo! Inc. Systems and methods for selecting a date or range of dates
US7472110B2 (en) * 2003-01-29 2008-12-30 Microsoft Corporation System and method for employing social networks for information discovery
US7146538B2 (en) 2003-03-28 2006-12-05 Hewlett-Packard Development Company, L.P. Bus interface module
US7111025B2 (en) 2003-04-30 2006-09-19 International Business Machines Corporation Information retrieval system and method using index ANDing for improving performance
US7853508B2 (en) 2003-05-19 2010-12-14 Serena Software, Inc. Method and system for object-oriented management of multi-dimensional data
US7926103B2 (en) * 2003-06-05 2011-04-12 Hewlett-Packard Development Company, L.P. System and method for preventing replay attacks
US7836391B2 (en) 2003-06-10 2010-11-16 Google Inc. Document search engine including highlighting of confident results
US9026901B2 (en) 2003-06-20 2015-05-05 International Business Machines Corporation Viewing annotations across multiple applications
US8321470B2 (en) 2003-06-20 2012-11-27 International Business Machines Corporation Heterogeneous multi-level extendable indexing for general purpose annotation systems
US7162473B2 (en) 2003-06-26 2007-01-09 Microsoft Corporation Method and system for usage analyzer that determines user accessed sources, indexes data subsets, and associated metadata, processing implicit queries based on potential interest to users
US7274822B2 (en) * 2003-06-30 2007-09-25 Microsoft Corporation Face annotation for photo management
US7565425B2 (en) * 2003-07-02 2009-07-21 Amazon Technologies, Inc. Server architecture and methods for persistently storing and serving event data
US7814093B2 (en) * 2003-07-25 2010-10-12 Microsoft Corporation Method and system for building a report for execution against a data store
US7444515B2 (en) * 2003-08-14 2008-10-28 Washington University Method and apparatus for detecting predefined signatures in packet payload using Bloom filters
US7174328B2 (en) * 2003-09-02 2007-02-06 International Business Machines Corp. Selective path signatures for query processing over a hierarchical tagged data structure
US7409406B2 (en) * 2003-09-08 2008-08-05 International Business Machines Corporation Uniform search system and method for selectively sharing distributed access-controlled documents
US20050057566A1 (en) * 2003-09-11 2005-03-17 International Business Machines Corporation Rich graphic visualization generation from abstract data representation
US7236982B2 (en) * 2003-09-15 2007-06-26 Pic Web Services, Inc. Computer systems and methods for platform independent presentation design
US7496560B2 (en) * 2003-09-23 2009-02-24 Amazon Technologies, Inc. Personalized searchable library with highlighting capabilities
JP2005107978A (ja) 2003-09-30 2005-04-21 Nec Corp 撮影機能付き情報端末による情報検索装置、及び、情報検索方法
US7493322B2 (en) * 2003-10-15 2009-02-17 Xerox Corporation System and method for computing a measure of similarity between documents
US7620624B2 (en) * 2003-10-17 2009-11-17 Yahoo! Inc. Systems and methods for indexing content for fast and scalable retrieval
US20050083413A1 (en) * 2003-10-20 2005-04-21 Logicalis Method, system, apparatus, and machine-readable medium for use in connection with a server that uses images or audio for initiating remote function calls
US7415456B2 (en) * 2003-10-30 2008-08-19 Lucent Technologies Inc. Network support for caller identification based on biometric measurement
JP2005165461A (ja) 2003-11-28 2005-06-23 Nifty Corp 情報提供装置及び情報提供プログラム
US7872669B2 (en) * 2004-01-22 2011-01-18 Massachusetts Institute Of Technology Photo-based mobile deixis system and related techniques
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
JP4413633B2 (ja) 2004-01-29 2010-02-10 株式会社ゼータ・ブリッジ 情報検索システム、情報検索方法、情報検索装置、情報検索プログラム、画像認識装置、画像認識方法および画像認識プログラム、ならびに、販売システム
US20050187898A1 (en) 2004-02-05 2005-08-25 Nec Laboratories America, Inc. Data Lookup architecture
US7751805B2 (en) 2004-02-20 2010-07-06 Google Inc. Mobile image-based information retrieval system
US7451185B2 (en) 2004-02-27 2008-11-11 Fotomedia Technologies, Llc Method and system for providing links to resources related to a specified resource
US20050216464A1 (en) 2004-03-27 2005-09-29 Microsoft Corporation Automated authoring tool and method to facilitate inclusion of maps and other geographical data into travelogues
US20050219929A1 (en) 2004-03-30 2005-10-06 Navas Julio C Method and apparatus achieving memory and transmission overhead reductions in a content routing network
WO2005114476A1 (en) 2004-05-13 2005-12-01 Nevengineering, Inc. Mobile image-based information retrieval system
US20050268212A1 (en) 2004-05-28 2005-12-01 Michael Dagel System, apparatus, and method for desktop-based creation and publication of a periodic community newsletter
WO2006007229A1 (en) * 2004-06-17 2006-01-19 The Regents Of The University Of California Method and apparatus for retrieving and indexing hidden web pages
US8051207B2 (en) * 2004-06-25 2011-11-01 Citrix Systems, Inc. Inferring server state in s stateless communication protocol
US7493335B2 (en) * 2004-07-02 2009-02-17 Graphlogic Inc. Object process graph relational database interface
US20060020582A1 (en) * 2004-07-22 2006-01-26 International Business Machines Corporation Method and system for processing abstract derived entities defined in a data abstraction model
WO2006022977A2 (en) * 2004-07-23 2006-03-02 Digimarc Corporation Facial database methods and systems
US7890871B2 (en) * 2004-08-26 2011-02-15 Redlands Technology, Llc System and method for dynamically generating, maintaining, and growing an online social network
JP2006085379A (ja) 2004-09-15 2006-03-30 Canon Inc 情報処理装置及びその制御方法、プログラム
US8385589B2 (en) 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US8489583B2 (en) 2004-10-01 2013-07-16 Ricoh Company, Ltd. Techniques for retrieving documents using an image capture device
US7809763B2 (en) * 2004-10-15 2010-10-05 Oracle International Corporation Method(s) for updating database object metadata
US20060085386A1 (en) * 2004-10-19 2006-04-20 Microsoft Corporation Two pass calculation to optimize formula calculations for a spreadsheet
WO2006043319A1 (ja) 2004-10-20 2006-04-27 Fujitsu Limited 端末及びサーバ
US8320641B2 (en) 2004-10-28 2012-11-27 DigitalOptics Corporation Europe Limited Method and apparatus for red-eye detection using preview or other reference images
US20060149700A1 (en) * 2004-11-11 2006-07-06 Gladish Randolph J System and method for automatic geospatial web network generation via metadata transformation
US7464090B2 (en) 2006-01-27 2008-12-09 Google Inc. Object categorization for information extraction
US9451219B2 (en) 2004-12-31 2016-09-20 Nokia Technologies Oy Provision of target specific information
US20060150119A1 (en) * 2004-12-31 2006-07-06 France Telecom Method for interacting with automated information agents using conversational queries
JP4282612B2 (ja) 2005-01-19 2009-06-24 エルピーダメモリ株式会社 メモリ装置及びそのリフレッシュ方法
US20060173824A1 (en) 2005-02-01 2006-08-03 Metalincs Corporation Electronic communication analysis and visualization
US20070201749A1 (en) 2005-02-07 2007-08-30 Masaki Yamauchi Image Processing Device And Image Processing Method
JP4267584B2 (ja) 2005-02-28 2009-05-27 株式会社東芝 機器制御装置及びその方法
CA2599382A1 (en) * 2005-03-03 2006-09-14 Washington University Method and apparatus for performing biosequence similarity searching
US7587387B2 (en) 2005-03-31 2009-09-08 Google Inc. User interface for facts query engine with snippets from information sources that include query terms and answer terms
US7765231B2 (en) 2005-04-08 2010-07-27 Rathus Spencer A System and method for accessing electronic data via an image search engine
US7773822B2 (en) * 2005-05-02 2010-08-10 Colormax, Inc. Apparatus and methods for management of electronic images
US7760917B2 (en) * 2005-05-09 2010-07-20 Like.Com Computer-implemented method for performing similarity searches
US7783135B2 (en) * 2005-05-09 2010-08-24 Like.Com System and method for providing objectified image renderings using recognition information from images
US7945099B2 (en) * 2005-05-09 2011-05-17 Like.Com System and method for use of images with recognition analysis
US7519200B2 (en) 2005-05-09 2009-04-14 Like.Com System and method for enabling the use of captured images through recognition
US7809192B2 (en) 2005-05-09 2010-10-05 Like.Com System and method for recognizing objects from images and identifying relevancy amongst images and information
KR100754656B1 (ko) 2005-06-20 2007-09-03 삼성전자주식회사 이미지와 관련한 정보를 사용자에게 제공하는 방법 및시스템과 이를 위한 이동통신단말기
US20080005064A1 (en) * 2005-06-28 2008-01-03 Yahoo! Inc. Apparatus and method for content annotation and conditional annotation retrieval in a search context
US7702681B2 (en) * 2005-06-29 2010-04-20 Microsoft Corporation Query-by-image search and retrieval system
JP2007018166A (ja) 2005-07-06 2007-01-25 Nec Corp 情報検索装置、情報検索システム、情報検索方法及び情報検索プログラム
JP2007018456A (ja) 2005-07-11 2007-01-25 Nikon Corp 情報表示装置及び情報表示方法
US20070022085A1 (en) * 2005-07-22 2007-01-25 Parashuram Kulkarni Techniques for unsupervised web content discovery and automated query generation for crawling the hidden web
US8666928B2 (en) * 2005-08-01 2014-03-04 Evi Technologies Limited Knowledge repository
US7457825B2 (en) * 2005-09-21 2008-11-25 Microsoft Corporation Generating search requests from multimodal queries
US20090060289A1 (en) * 2005-09-28 2009-03-05 Alex Shah Digital Image Search System And Method
US7876978B2 (en) * 2005-10-13 2011-01-25 Penthera Technologies, Inc. Regions of interest in video frames
US20070098303A1 (en) * 2005-10-31 2007-05-03 Eastman Kodak Company Determining a particular person from a collection
US8849821B2 (en) * 2005-11-04 2014-09-30 Nokia Corporation Scalable visual search system simplifying access to network and device functionality
US7826665B2 (en) 2005-12-12 2010-11-02 Xerox Corporation Personal information retrieval using knowledge bases for optical character recognition correction
US7725477B2 (en) * 2005-12-19 2010-05-25 Microsoft Corporation Power filter for online listing service
US20070179965A1 (en) 2006-01-27 2007-08-02 Hogue Andrew W Designating data objects for analysis
US7555471B2 (en) 2006-01-27 2009-06-30 Google Inc. Data object visualization
US9336333B2 (en) 2006-02-13 2016-05-10 Linkedin Corporation Searching and reference checking within social networks
US7668405B2 (en) * 2006-04-07 2010-02-23 Eastman Kodak Company Forming connections between image collections
US7917514B2 (en) * 2006-06-28 2011-03-29 Microsoft Corporation Visual and multi-dimensional search
US9176984B2 (en) * 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US20080031506A1 (en) * 2006-08-07 2008-02-07 Anuradha Agatheeswaran Texture analysis for mammography computer aided diagnosis
US7934156B2 (en) * 2006-09-06 2011-04-26 Apple Inc. Deletion gestures on a portable multifunction device
JP2008071311A (ja) 2006-09-15 2008-03-27 Ricoh Co Ltd 画像検索装置、画像検索方法、画像検索プログラム、及び、情報記憶媒体
KR100865973B1 (ko) 2007-02-08 2008-10-30 (주)올라웍스 동영상에서 특정인을 검색하는 방법, 동영상에서 특정인에대한 저작권 보고서를 생성하는 방법 및 장치
US9058370B2 (en) 2007-02-27 2015-06-16 International Business Machines Corporation Method, system and program product for defining imports into and exports out from a database system using spread sheets by use of a control language
US8861898B2 (en) 2007-03-16 2014-10-14 Sony Corporation Content image search
CN104866469B (zh) * 2007-04-11 2018-10-02 谷歌有限责任公司 具有第二语言模式的输入法编辑器
US7917518B2 (en) * 2007-07-20 2011-03-29 Hewlett-Packard Development Company, L.P. Compositional balance and color driven content retrieval
US9591086B2 (en) * 2007-07-25 2017-03-07 Yahoo! Inc. Display of information in electronic communications
JP5207688B2 (ja) 2007-08-30 2013-06-12 キヤノン株式会社 画像処理装置および統合ドキュメント生成方法
US8145660B2 (en) 2007-10-05 2012-03-27 Fujitsu Limited Implementing an expanded search and providing expanded search results
KR101435140B1 (ko) * 2007-10-16 2014-09-02 삼성전자 주식회사 영상 표시 장치 및 방법
US9237213B2 (en) * 2007-11-20 2016-01-12 Yellowpages.Com Llc Methods and apparatuses to initiate telephone connections
US20090144056A1 (en) * 2007-11-29 2009-06-04 Netta Aizenbud-Reshef Method and computer program product for generating recognition error correction information
KR100969298B1 (ko) 2007-12-31 2010-07-09 인하대학교 산학협력단 얼굴인식을 통한 영상에서의 사람 상호관계 추론 방법
US20090237546A1 (en) 2008-03-24 2009-09-24 Sony Ericsson Mobile Communications Ab Mobile Device with Image Recognition Processing Capability
US8190604B2 (en) 2008-04-03 2012-05-29 Microsoft Corporation User intention modeling for interactive image retrieval
US8406531B2 (en) * 2008-05-15 2013-03-26 Yahoo! Inc. Data access based on content of image recorded by a mobile device
US20090299990A1 (en) 2008-05-30 2009-12-03 Vidya Setlur Method, apparatus and computer program product for providing correlations between information from heterogenous sources
JP5109836B2 (ja) * 2008-07-01 2012-12-26 株式会社ニコン 撮像装置
US8520979B2 (en) * 2008-08-19 2013-08-27 Digimarc Corporation Methods and systems for content processing
US8452794B2 (en) * 2009-02-11 2013-05-28 Microsoft Corporation Visual and textual query suggestion
US9087059B2 (en) * 2009-08-07 2015-07-21 Google Inc. User interface for presenting search results for multiple regions of a visual query
US8670597B2 (en) 2009-08-07 2014-03-11 Google Inc. Facial recognition with social network aiding
US9135277B2 (en) 2009-08-07 2015-09-15 Google Inc. Architecture for responding to a visual query
US8370358B2 (en) * 2009-09-18 2013-02-05 Microsoft Corporation Tagging content with metadata pre-filtered by context
US8977639B2 (en) 2009-12-02 2015-03-10 Google Inc. Actionable search results for visual queries
US20110128288A1 (en) 2009-12-02 2011-06-02 David Petrou Region of Interest Selector for Visual Queries
US8811742B2 (en) 2009-12-02 2014-08-19 Google Inc. Identifying matching canonical documents consistent with visual query structural information
US9176986B2 (en) 2009-12-02 2015-11-03 Google Inc. Generating a combination of a visual query and matching canonical document
US9405772B2 (en) * 2009-12-02 2016-08-02 Google Inc. Actionable search results for street view visual queries
US8805079B2 (en) * 2009-12-02 2014-08-12 Google Inc. Identifying matching canonical documents in response to a visual query and in accordance with geographic information
US9183224B2 (en) 2009-12-02 2015-11-10 Google Inc. Identifying matching canonical documents in response to a visual query
US9852156B2 (en) 2009-12-03 2017-12-26 Google Inc. Hybrid use of location sensor data and visual query to return local listings for visual query
US8189964B2 (en) * 2009-12-07 2012-05-29 Google Inc. Matching an approximately located query image against a reference image set
US8489589B2 (en) * 2010-02-05 2013-07-16 Microsoft Corporation Visual search reranking

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060253491A1 (en) * 2005-05-09 2006-11-09 Gokturk Salih B System and method for enabling search and retrieval from image files based on recognized information
CN101375281A (zh) * 2006-01-31 2009-02-25 微软公司 使用用户反馈来改善搜索结果
US20080267504A1 (en) * 2007-04-24 2008-10-30 Nokia Corporation Method, device and computer program product for integrating code-based and optical character recognition technologies into a mobile visual search

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930263A (zh) * 2012-09-27 2013-02-13 百度国际科技(深圳)有限公司 一种信息处理方法及装置
CN102902771A (zh) * 2012-09-27 2013-01-30 百度国际科技(深圳)有限公司 一种图片搜索方法、装置及服务器
CN104424257A (zh) * 2013-08-28 2015-03-18 北大方正集团有限公司 信息检索装置和信息检索方法
CN104391938B (zh) * 2014-11-24 2017-10-10 武汉海川云谷软件技术有限公司 一种实物资产管理中的图片批量导入数据库的方法及系统
CN104391938A (zh) * 2014-11-24 2015-03-04 黄金日 一种图片批量导入数据库的方法及系统
CN104615639A (zh) * 2014-11-28 2015-05-13 北京百度网讯科技有限公司 一种用于提供图片的呈现信息的方法和设备
CN104536995B (zh) * 2014-12-12 2016-05-11 北京奇虎科技有限公司 基于终端界面触控操作进行搜索的方法及系统
CN104536995A (zh) * 2014-12-12 2015-04-22 北京奇虎科技有限公司 基于终端界面触控操作进行搜索的方法及系统
CN104572986A (zh) * 2015-01-04 2015-04-29 百度在线网络技术(北京)有限公司 信息搜索方法和装置
CN105518678A (zh) * 2015-06-29 2016-04-20 北京旷视科技有限公司 搜索方法、搜索装置、用户设备和计算机程序产品
WO2017000109A1 (zh) * 2015-06-29 2017-01-05 北京旷视科技有限公司 搜索方法、搜索装置、用户设备和计算机程序产品
CN108431829A (zh) * 2015-08-03 2018-08-21 奥兰德股份公司 用于在目录中搜索产品的系统和方法
CN106485196A (zh) * 2015-08-28 2017-03-08 意法半导体股份有限公司 视觉搜索方法、对应的系统、设备和计算机程序产品
CN106485196B (zh) * 2015-08-28 2021-03-12 意法半导体股份有限公司 视觉搜索方法、对应的系统、设备和计算机程序产品
CN108475335B (zh) * 2016-01-27 2022-10-14 霍尼韦尔国际公司 用于使用光学字符识别、智能字符识别的过程工业中的跳闸现场设备的事后检查分析的方法
CN108475335A (zh) * 2016-01-27 2018-08-31 霍尼韦尔国际公司 用于使用光学字符识别&智能字符识别的过程工业中的跳闸现场设备的事后检查分析的方法和工具
CN109690528A (zh) * 2016-04-07 2019-04-26 里德爱思唯尔股份有限公司雷克萨斯尼克萨斯分公司 用于提供可视化结果列表的系统以及方法
CN109690528B (zh) * 2016-04-07 2023-07-14 里德爱思唯尔股份有限公司雷克萨斯尼克萨斯分公司 用于提供可视化结果列表的系统以及方法
CN109716327A (zh) * 2016-09-08 2019-05-03 Aiq私人股份有限公司 视觉搜索平台的视频摄取框架
CN109716327B (zh) * 2016-09-08 2023-08-11 吴树城 视觉搜索平台的视频摄取框架
CN108021601B (zh) * 2016-10-28 2023-12-05 奥多比公司 使用数字画布来进行数字视觉媒体的空间语义搜索
CN108021601A (zh) * 2016-10-28 2018-05-11 奥多比公司 使用数字画布来进行数字视觉媒体的空间语义搜索
CN111295669A (zh) * 2017-06-16 2020-06-16 马克波尔公司 图像处理系统
CN110998565A (zh) * 2017-08-01 2020-04-10 三星电子株式会社 电子装置和用于控制该电子装置的方法
CN111247536A (zh) * 2017-10-27 2020-06-05 三星电子株式会社 用于搜索相关图像的电子装置及其控制方法
CN111247536B (zh) * 2017-10-27 2023-11-10 三星电子株式会社 用于搜索相关图像的电子装置及其控制方法
CN111819554A (zh) * 2017-12-29 2020-10-23 电子湾有限公司 计算机视觉和图像特征搜索
CN110059223A (zh) * 2018-01-18 2019-07-26 奥誓公司 机内循环、图像到视频计算机视觉引导
CN110059223B (zh) * 2018-01-18 2023-04-07 维里逊专利及许可公司 用于机内循环、图像到视频计算机视觉引导的方法与装置
CN111801680A (zh) * 2018-03-05 2020-10-20 A9.com股份有限公司 过程状态的视觉反馈
CN108897841A (zh) * 2018-06-27 2018-11-27 百度在线网络技术(北京)有限公司 全景图搜索方法、装置、设备、服务器及存储介质
CN113168514A (zh) * 2018-11-25 2021-07-23 谷歌有限责任公司 查找和过滤视觉场景的元素
CN112766269A (zh) * 2021-03-04 2021-05-07 深圳康佳电子科技有限公司 一种图片文本检索方法、智能终端及存储介质
CN112766269B (zh) * 2021-03-04 2024-03-12 深圳康佳电子科技有限公司 一种图片文本检索方法、智能终端及存储介质
CN114969479A (zh) * 2021-04-21 2022-08-30 中移互联网有限公司 一种搜索方法、装置及存储介质
CN114969479B (zh) * 2021-04-21 2023-08-15 中移互联网有限公司 一种搜索方法、装置及存储介质

Also Published As

Publication number Publication date
JP2015064901A (ja) 2015-04-09
EP2462520B1 (en) 2014-07-02
JP5933677B2 (ja) 2016-06-15
US20110125735A1 (en) 2011-05-26
KR20120058538A (ko) 2012-06-07
AU2013205924B2 (en) 2015-12-24
BR112012002815B1 (pt) 2020-06-09
EP2462520A1 (en) 2012-06-13
US20190012334A1 (en) 2019-01-10
US9135277B2 (en) 2015-09-15
US10534808B2 (en) 2020-01-14
CA3068761C (en) 2022-09-13
AU2010279333A1 (en) 2012-03-15
CN102625937B (zh) 2014-02-12
KR20160092045A (ko) 2016-08-03
US20140164406A1 (en) 2014-06-12
CA3068761A1 (en) 2011-02-10
JP2013501975A (ja) 2013-01-17
JP2016139424A (ja) 2016-08-04
KR101725885B1 (ko) 2017-04-11
CA2771094C (en) 2020-03-24
BR112012002815B8 (pt) 2020-10-06
AU2013205924A1 (en) 2013-06-06
AU2010279333B2 (en) 2013-02-21
KR101667346B1 (ko) 2016-10-18
WO2011017557A1 (en) 2011-02-10
JP6148367B2 (ja) 2017-06-14
CA2771094A1 (en) 2011-02-10

Similar Documents

Publication Publication Date Title
CN102625937B (zh) 用于对视觉查询作出响应的体系结构
CN102667764A (zh) 用于为视觉查询的多个区域展示搜索结果的用户接口
CN102822817B (zh) 用于视觉查询的可采取动作的搜索结果
CN104021150B (zh) 带有社交网络辅助的面部识别
CN108959586B (zh) 响应于可视化查询标识文本词汇
US9087059B2 (en) User interface for presenting search results for multiple regions of a visual query
CN103493069A (zh) 响应于视觉查询识别匹配的规范文档
CN102770862A (zh) 混合使用位置传感器数据和视觉查询来返回视觉查询的本地收录
AU2016200659B2 (en) Architecture for responding to a visual query

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.

CP01 Change in the name or title of a patent holder