CN102087738B

CN102087738B - 用于为目标跟踪处理图像的系统和方法

Info

Publication number: CN102087738B
Application number: CN201010544355.9A
Authority: CN
Inventors: Z·马特; C·C·马莱斯; C·佩珀; J·柏托尔拉米; R·M·盖斯
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2009-11-05
Filing date: 2010-11-04
Publication date: 2015-08-19
Anticipated expiration: 2030-11-04
Also published as: US8988432B2; CN102087738A; US20110102438A1

Abstract

本发明描述了用于为目标跟踪处理图像的系统和方法。可由设备接收、观察或捕捉诸如场景的深度图像等的图像。然后可处理该图像。例如，可以对图像进行降采样，可以确定图像中的阴影、噪声和/或丢失部分，可以确定图像中可在由与图像相关联的捕捉设备所定义的范围之外的像素、可以检测图像中与地板相关联的一部分。另外，可以确定并扫描图像中的目标。随后可基于已处理的图像来呈现细化的图像。然后可处理细化的图像来例如跟踪用户。

Description

用于为目标跟踪处理图像的系统和方法

背景技术

诸如计算机游戏、多媒体应用程序等的许多计算应用程序使用控制命令来允许用户操纵游戏角色或应用程序的其他方面。通常这些控制命令是使用例如，控制器、遥控器、键盘、鼠标等来输入的。不幸的是，这些控制命令可能是难以学习的，由此造成了用户和这些游戏及应用程序之间的障碍。此外，这些控制命令可能与这些控制命令所用于的实际游戏动作或其他应用程序动作不同或者从其中进行抽象。例如，使得游戏角色旋转棒球拍的游戏控制命令可能不与旋转棒球拍的实际动作相对应。

发明内容

本文公开了可用于跟踪场景中的一个或多个用户的处理场景的图像的系统和方法。例如，可以接收或观察诸如场景的深度图像等的图像。随后可以处理该图像。例如，可以对该图像进行降采样，可以确定图像中的阴影、噪声、和/或丢失部分和/或可以估计与其相关联的值，可以确定可以在与图像相关联的捕捉设备所限定的范围之外的图像中的像素，和/或可以检测与诸如地板、墙等的平坦表面相关联的图像的一部分。另外，可以分析图像来判定目标是否可被包括在其中，且基于该判定，可以扫描目标。还可以通过例如从图像中的诸如非目标对象等的环境中分割目标以便可以创建诸如目标的二进制掩码等的掩码且可以移除或丢弃与该环境相关联的一个或多个像素来处理图像。

还可以基于已处理的图像来呈现细化的图像。根据一实施例，细化的图像可以是已移除和/或平滑了噪声、丢失部分、阴影等，已隔离了目标，已标识了诸如地板、墙等的平坦表面，或已在其上执行了任何其他合适的处理的图像。

在一实施例中，随后可以处理与目标相关联的细化的图像和/或诸如二进制掩码等掩码。例如，目标识别、分析和跟踪系统可处理与目标相关联的细化的图像和/或二进制掩码从而可以生成所捕捉的场景中的目标的模型，如骨架模型、网格模型等。

提供本概述以便以简化形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在用于限定所要求保护的主题的范围。此外，所要求保护的主题不限于解决在本发明的任一部分中提及的任何或所有缺点的实现。

附图说明

图1A和1B示出伴随用户玩游戏的目标识别、分析和跟踪系统的示例实施例。

图2示出可在目标识别、分析和跟踪系统中使用的捕捉设备的示例实施例。

图3示出可用于解释目标识别、分析和跟踪系统中的一个或多个姿势和/或动画化目标识别、分析和跟踪系统所显示的化身或屏幕上人物的计算环境的示例实施例。

图4示出可用于解释目标识别、分析和跟踪系统中的一个或多个姿势和/或动画化目标识别、分析和跟踪系统所显示的化身或屏幕上人物的计算环境的另一示例实施例。

图5描绘了用于处理场景的图像来跟踪可被包括在该场景中的目标的示例方法的流程图。

图6示出可被捕捉或观察的深度图像的示例实施例。

图7描绘了用于处理场景的图像来跟踪可被包括在该场景中的目标的示例方法的流程图。

图8示出可包括红外阴影的深度图像的示例实施例。

图9示出可包括一个或多个丢失部分或孔洞的深度图像的示例实施例。

图10示出可基于对可被捕捉或观察的图像的处理来呈现的细化的深度图像的示例实施例。

具体实施方式

图1A和1B示出伴随用户18玩拳击游戏的目标识别、分析和跟踪系统10的配置的示例实施例。在一示例实施例中，目标识别、分析和跟踪系统10可用于识别、分析和/或跟踪诸如用户18等的人类目标。

如图1A所示，目标识别、分析和跟踪系统10可包括计算环境12。计算环境12可以是计算机、游戏系统或控制台等等。根据一示例实施例，计算环境12可包括硬件组件和/或软件组件，从而使得计算环境12可用于执行诸如游戏应用程序、非游戏应用程序等的应用程序。在一实施例中，计算环境12可包括可执行各种指令的诸如标准化处理器、专用处理器、微处理器等的处理器，这些指令包括，例如，接收图像的指令、处理图像来确定场景的一个或多个特性的指令、基于场景的一个或多个特性来呈现细化的图像的指令、或任何其他合适的指令，这些将在下面更详细地描述。

如图1A所示，目标识别、分析和跟踪系统10还可包括捕捉设备20。捕捉设备20可以是，例如可用于在视觉上监视诸如用户18等的一个或多个用户从而可以捕捉、分析并跟踪一个或多个用户所执行的姿势和/或移动，来执行应用程序中的一个或多个控制命令或动作和/或动画化化身或屏幕上人物的照相机，如将在下面更详细地描述的。

根据一实施例，目标识别、分析和跟踪系统10可连接到可向诸如用户18等的用户提供应用程序视觉形象和/或音频的视听设备16，如电视机、监视器、高清电视机(HDTV)等。例如，计算环境12可包括可提供与游戏应用程序、非游戏应用程序等相关联的视听信号的诸如图形卡等的视频适配器和/或诸如声卡等的音频适配器。视听设备16可从计算环境12接收视听信号然后可向用户18输出与该视听信号相关联的游戏或应用程序视觉形象和/或音频。根据一实施例，视听设备16可经由例如，S-视频电缆、同轴电缆、HDMI电缆、DVI电缆、VGA电缆等连接到计算环境12。

如图1A和1B所示，目标识别、分析和跟踪系统10可用于识别、分析和/或跟踪诸如用户18等的人类目标。例如，可使用捕捉设备20来跟踪用户18，从而可以捕捉用户18的姿势和/或移动来动画化化身或屏幕上人物，和/或可将用户18的姿势和/或移动解释为可用于影响计算环境12所执行的应用程序的控制命令。因此，根据一实施例，用户18可移动他的或她的身体来控制应用程序和/或动画化化身或屏幕上人物。

如图1A和1B所示，在一示例实施例中，在计算环境12上执行的应用程序可以是用户18可能正在玩的拳击游戏。例如，计算环境12可使用视听设备16来向用户18提供拳击对手38的视觉表示。计算环境12还可使用视听设备16来提供用户18可用他的或她的移动来控制的玩家化身40的视觉表示。例如，如图1B所示，用户18可在物理空间中用拳猛击来使得玩家化身40在游戏空间中用拳猛击。因此，根据一示例实施例，目标识别、分析和跟踪系统10的计算环境12和捕捉设备20可用于识别和分析物理空间中用户18的重拳从而使得该重拳可被解释为对游戏空间中的玩家化身40的游戏控制和/或该重拳的运动可用于动画化游戏空间中的玩家化身40。

用户18的其他移动也可被解释为其他控制命令或动作，和/或用于动画化玩家化身，如上下快速摆动、闪避、滑步、封堵、用拳猛击或挥动各种不同的有力重拳的控制命令。此外，某些移动可被解释为可对应于除控制玩家化身40之外的动作的控制命令。例如，在一实施例中，玩家可使用移动来结束、暂停或保存游戏、选择级别、查看高分、与朋友交流等。根据另一实施例，玩家可使用移动来从主用户界面选择游戏或其他应用程序。因此，在示例实施例中，用户18的全范围运动可以用任何合适的方式来获得、使用并分析以与应用程序进行交互。

在示例实施例中，诸如用户18等的人类目标可具有对象。在这些实施例中，电子游戏的用户可手持对象从而可以使用玩家的运动和对象来调整和/或控制游戏的参数。例如，可以跟踪并利用玩家手持球拍的运动来控制电子运动游戏中的屏幕上球拍。在另一示例实施例中，可以跟踪并利用玩家手持对象的运动来控制电子格斗游戏中的屏幕上武器。

根据其他示例实施例，目标识别、分析和跟踪系统10还可用于将目标移动解释为游戏领域之外的操作系统和/或应用程序控制命令。例如，事实上操作系统和/或应用程序的任何可控方面可由诸如用户18等的目标的移动来控制。

图2示出可在目标识别、分析和跟踪系统10中使用的捕捉设备20的示例实施例。根据一示例实施例，捕捉设备20可被配置成捕捉包括深度图像的带有深度信息的视频，该深度图像可包括经由任何合适的技术，包括例如飞行时间、结构化光、立体图像等的深度值。根据一实施例，捕捉设备20可将深度信息组织为“Z层”，即可与Z轴正交的从深度照相机沿着其视线延伸的层。

如图2所示，捕捉设备20可包括图像照相机组件22。根据一示例实施例，图像照相机组件22可以是可捕捉场景的深度图像的深度照相机。深度图像可包括所捕捉的场景的二维(2-D)像素区域，其中2-D像素区域中的每一像素可表示诸如按照以厘米、毫米等为单位的所捕捉的场景中的对象离照相机的长度或距离等的深度值。

如图2所示，根据一示例实施例，图像照相机组件22可包括可用于捕捉场景的深度图像的IR光组件24、三维(3-D)照相机26、和RGB照相机28。例如，在飞行时间分析中，捕捉设备20的IR光组件24可将红外光发射到场景中，然后可使用传感器(未示出)，使用例如3-D照相机26和/或RGB照相机28，来检测来自场景中的一个或多个目标和对象的表面的反向散射光。在某些实施例中，可以使用脉冲式红外光从而可以测量出射光脉冲和相应的入射光脉冲之间的时间差并将其用于确定从捕捉设备20到场景中的目标或对象上的特定位置的物理距离。另外，在其他示例实施例中，可将出射光波的相位与入射光波的相位进行比较来确定相移。然后可以使用相移来确定从捕捉设备到对象或目标上的特定位置的距离。

根据另一示例实施例，可使用飞行时间分析，通过经由包括例如快门式光脉冲成像的各种技术来分析反射光束随时间的强度变化以间接地确定从捕捉设备20到目标或对象上的特定位置的物理距离。

在另一示例实施例中，捕捉设备20可使用结构化光来捕捉深度信息。在该分析中，图案化光(即，被显示为诸如网格图案或条纹图案等的已知图案的光)可经由例如IR光组件24被投影到场景上。在撞击到场景中的一个或多个目标或对象的表面时，作为响应，图案可变形。图案的这种变形可由例如3-D照相机26和/或RGB照相机28来捕捉，然后可被分析来确定从捕捉设备到目标或对象上的特定位置的物理距离。

根据另一实施例，捕捉设备20可包括两个或更多物理上分开的照相机，这些照相机可从不同角度查看场景来获得可被解析以生成深度信息的视觉立体数据。

捕捉设备20还可包括话筒30。话筒30可包括可接收声音并将其转换成电信号的变换器或传感器。根据一实施例，话筒30可用于减少目标识别、分析和跟踪系统10中的捕捉设备20和计算环境12之间的反馈。另外，话筒30可用于接收也可由用户提供的音频信号来控制可由计算环境12执行的诸如游戏应用程序、非游戏应用程序等的应用程序。

在一示例实施例中，捕捉设备20还可包括可与图像照相机组件22进行有效通信的处理器32。处理器32可包括可执行各种指令的标准化处理器、专用处理器、微处理器等，这些指令包括例如接收图像的指令、处理图像来确定场景的一个或多个特性的指令、基于场景的一个或多个特性来呈现细化的图像的指令、或任何其他合适的指令，这些将在下面更详细地描述。

捕捉设备20还可包括存储器组件34，存储器组件34可存储可由处理器32执行的指令、3-D照相机或RGB照相机所捕捉的图像或图像的帧、或任何其他合适的信息、图像等等。根据一示例实施例，存储器组件34可包括随机存取存储器(RAM)、只读存储器(ROM)、高速缓存、闪存、硬盘、或任何其他合适的存储组件。如图2所示，在一实施例中，存储器组件34可以是与图像捕捉组件22和处理器32进行通信的单独的组件。根据另一实施例，存储器组件34可被集成到处理器32和/或图像捕捉组件22中。

如图2所示，捕捉设备20可经由通信链路36与计算环境12进行通信。通信链路36可以是包括例如USB连接、火线连接、以太网电缆连接等的有线连接和/或诸如无线802.11b、802.11g、802.11a或802.11n等的无线连接。根据一实施例，计算环境12可经由通信链路36向捕捉设备20提供可用于确定例如何时捕捉场景的时钟。

另外，捕捉设备20可经由通信链路36向计算环境12提供深度信息和由例如3-D照相机26和/或RGB照相机28捕捉的图像，和/或可由捕捉设备20生成的骨架模型。计算环境12然后可使用该模型、深度信息、以及所捕捉的图像来例如控制诸如游戏或文字处理程序等的应用程序和/或动画化化身或屏幕上人物。例如，如图2所示，计算环境12可包括姿势库190。姿势库190可包括姿势过滤器集合，每一姿势过滤器包括关于骨架模型可执行(在用户移动时)的姿势的信息。可以将照相机26、28和捕捉设备20所捕捉的骨架模型形式的数据以及与其相关联的移动与姿势库190中的姿势过滤器进行比较来标识用户(如骨架模型所表示的)何时执行了一个或多个姿势。那些姿势可与应用程序的各种控制命令相关联。因此，计算环境12可使用姿势库190来解释骨架模型的移动并基于该移动来控制应用程序。

图3示出可用于解释目标识别、分析和跟踪系统中的一个或多个姿势和/或动画化目标识别、分析和跟踪系统所显示的化身或屏幕上的人物的计算环境的示例实施例。上面参考图1A-2所描述的诸如计算环境12等的计算环境可以是诸如游戏控制台等的多媒体控制台100。如图3所示，多媒体控制台100具有含有1级高速缓存102、2级高速缓存104和闪存ROM(只读存储器)106的中央处理单元(CPU)101。1级高速缓存102和2级高速缓存104临时存储数据并因此减少存储器访问周期数，从而改进处理速度和吞吐量。CPU 101可以设置成具有一个以上的核，以及附加的1级和2级高速缓存102和104。闪存ROM 106可存储在多媒体控制台100通电时在引导进程的初始化阶段加载的可执行代码。

图形处理单元(GPU)108和视频编码器/视频编解码器(编码器/解码器)114形成用于高速、高分辨率图形处理的视频处理流水线。数据经由总线从图形处理单元108输送到视频编码器/视频编解码器114。视频处理流水线将数据输出到A/V(音频/视频)端口140以传输到电视机或其它显示器。存储器控制器110连接到GPU 108以方便处理器访问各种类型的存储器112，诸如但不局限于RAM(随机存取存储器)。

多媒体控制台100包括较佳地在模块118上实现的I/O控制器120、系统管理控制器122、音频处理单元123、网络接口控制器124、第一USB主控制器126、第二USB控制器128和前面板I/O子部件130。USB控制器126和128用作外围控制器142(1)-142(2)、无线适配器148、和外置存储器设备146(例如闪存、外置CD/DVD ROM驱动器、可移动介质等)的主机。网络接口124和/或无线适配器148提供对网络(例如，因特网、家庭网络等)的访问并且可以是包括以太网卡、调制解调器、蓝牙模块、电缆调制解调器等的各种不同的有线和无线适配器组件中任何一种。

提供系统存储器143来存储在引导进程期间加载的应用程序数据。提供媒体驱动器144且其可包括DVD/CD驱动器、硬盘驱动器、或其它可移动媒体驱动器等。媒体驱动器144对于多媒体控制台100可以内置或外置。应用程序数据可经由媒体驱动器144访问，以由多媒体控制台100执行、回放等。媒体驱动器144经由诸如串行ATA总线或其它高速连接(例如IEEE 1394)等总线连接到I/O控制器120。

系统管理控制器122提供涉及确保多媒体控制台100的可用性的各种服务功能。音频处理单元123和音频编解码器132形成具有高保真度和立体声处理的对应的音频处理流水线。音频数据经由通信链路在音频处理单元123与音频编解码器132之间传输。音频处理流水线将数据输出到A/V端口140以供外置音频播放器或具有音频能力的设备再现。

前面板I/O子部件130支持暴露在多媒体控制台100的外表面上的电源按钮150和弹出按钮152以及任何LED(发光二极管)或其它指示器的功能。系统供电模块136向多媒体控制台100的组件供电。风扇138冷却多媒体控制台100内的电路。

CPU 101、GPU 108、存储器控制器110、和多媒体控制台100内的各个其它组件经由一条或多条总线互连，包括串行和并行总线、存储器总线、外围总线、和使用各种总线架构中任一种的处理器或局部总线。作为示例，这种架构可以包括外围部件互连(PCI)总线、PCI-快速总线等。

当多媒体控制台100通电时，应用程序数据可从系统存储器143加载到存储器112和/或高速缓存102、104中并在CPU 101上执行。应用程序可呈现在导航到多媒体控制台100上可用的不同媒体类型时提供一致的用户体验的图形用户界面。在操作中，媒体驱动器144中包含的应用程序和/或其它媒体可从媒体驱动器144启动或播放，以向多媒体控制台100提供附加功能。

多媒体控制台100可通过将该系统简单地连接到电视机或其它显示器而作为独立系统来操作。在该独立模式中，多媒体控制台100允许一个或多个用户与该系统交互、看电影、或听音乐。然而，随着通过网络接口124或无线适配器148可用的宽带连接的集成，多媒体控制台100还可作为较大网络社区中的参与者来操作。

当多媒体控制台100通电时，可以保留设定量的硬件资源以供多媒体控制台操作系统作系统使用。这些资源可以包括存储器保留(例如，16MB)、CPU和GPU周期(例如，5％)、网络带宽(例如，8kbs)等。因为这些资源是在系统引导时保留的，所以所保留的资源对应用程序而言是不存在的。

具体地，存储器保留较佳地足够大，以包含启动内核、并发系统应用程序和驱动程序。CPU保留较佳地为恒定，使得若所保留的CPU用量不被系统应用程序使用，则空闲线程将消耗任何未使用的周期。

对于GPU保留，通过使用GPU中断来显示由系统应用程序生成的轻量消息(例如，弹出窗口)，以调度代码来将弹出窗口呈现为覆盖图。覆盖图所需的存储器量取决于覆盖区域大小，并且覆盖图较佳地与屏幕分辨率成比例缩放。在并发系统应用程序使用完整用户界面的情况下，优选使用独立于应用程序分辨率的分辨率。定标器可用于设置该分辨率，从而无需改变频率，也就不会引起TV重新同步。

在多媒体控制台100引导且系统资源被保留之后，就执行并发系统应用程序来提供系统功能。系统功能被封装在一组在上述所保留的系统资源中执行的系统应用程序中。操作系统内核标识是系统应用程序线程而非游戏应用程序线程的线程。系统应用程序优选地被调度为在预定时间并以预定时间间隔在CPU101上运行，以便为应用程序提供一致的系统资源视图。进行调度是为了把由在控制台上运行的游戏应用程序所引起的高速缓存分裂最小化。

当并发系统应用程序需要音频时，则由于时间敏感性而异步调度音频处理给游戏应用程序。多媒体控制台应用程序管理器(如下所述)在系统应用程序活动时控制游戏应用程序的音频水平(例如，静音、衰减)。

输入设备(例如，控制器142(1)和142(2))由游戏应用程序和系统应用程序共享。输入设备不是所保留的资源，但却在系统应用程序和游戏应用程序之间切换以使其各自具有设备的焦点。应用程序管理器较佳地控制输入流的切换，而无需知晓游戏应用程序的知识，并且驱动程序维持有关焦点切换的状态信息。照相机26、28和捕捉设备20可为控制台100定义附加输入设备。

图4示出计算环境220的另一示例实施例，该计算环境可以是用于解释目标识别、分析和跟踪系统中的一个或多个姿势和/或动画化目标识别、分析和跟踪系统所显示的化身或屏幕上人物的图1A-2中示出的计算环境12。计算系统环境220只是合适的操作环境的一个示例，并且不旨在对所公开的主题的使用范围或功能提出任何限制。也不应该将计算环境220解释为对示例性操作环境220中示出的任一组件或其组合有任何依赖性或要求。在某些实施例中，所描绘的各种计算元素可包括被配置成实例化本公开的具体方面的电路。例如，本公开中使用的术语电路可包括被配置成执行固件或开关的功能的专用硬件组件。在其他示例实施例中，术语电路可包括由软件指令配置的实施可用于执行功能的逻辑的通用处理单元、存储器等。在电路包括硬件和软件的组合的示例实施例中，实现者可编写实施逻辑的源代码且该源代码可被编译成可由通用处理单元处理的机器可读代码。因为本领域技术人员可以明白现有技术已经进化到硬件、软件或硬件/软件的组合之间几乎没有差别的地步，因而选择硬件或是软件来实现具体功能是留给实现者的设计选择。更具体地，本领域技术人员可以明白软件进程可被变换成等价的硬件结构，而硬件结构本身可被变换成等价的软件进程。因此，对于硬件实现还是软件实现的选择是设计选择之一并留给实现者。

在图4中，计算环境220包括计算机241，计算机241通常包括各种计算机可读介质。计算机可读介质可以是能由计算机241访问的任何可用介质，而且包含易失性和非易失性介质、可移动和不可移动介质。系统存储器222包括易失性和/或非易失性存储器形式的计算机存储介质，如只读存储器(ROM)223和随机存取存储器(RAM)260。基本输入/输出系统224(BIOS)包括如在启动时帮助在计算机241内的元件之间传输信息的基本例程，它通常储存在ROM 223中。RAM 260通常包含处理单元259可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非限制，图4示出操作系统225、应用程序226、其他程序模块227和程序数据228。

计算机241也可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图4示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器238，从可移动、非易失性磁盘254中读取或向其写入的磁盘驱动器239，以及从诸如CD ROM或其他光学介质等可移动、非易失性光盘253中读取或向其写入的光盘驱动器240。可以在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动器238通常由诸如接口234等不可移动存储器接口连接至系统总线221，磁盘驱动器239和光盘驱动器240通常由诸如接口235等可移动存储器接口连接至系统总线221。

以上讨论并在图4中示出的驱动器及其相关联的计算机存储介质为计算机241提供了对计算机可读指令、数据结构、程序模块和其他数据的存储。在图4中，例如，硬盘驱动器238被示为存储操作系统258、应用程序257、其他程序模块256和程序数据255。注意，这些组件可以与操作系统225、应用程序226、其他程序模块227和程序数据228相同，也可以与它们不同。操作系统258、应用程序257、其他程序模块256和程序数据255在这里被标注了不同的标号是为了说明至少它们是不同的副本。用户可以通过输入设备，诸如键盘251和定点设备252(通常被称为鼠标、跟踪球或触摸垫)向计算机241输入命令和信息。其他输入设备(未示出)可以包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些和其他输入设备通常由耦合至系统总线的用户输入接口236连接至处理单元259，但也可以由其他接口和总线结构，诸如并行端口、游戏端口或通用串行总线(USB)连接。照相机26、28和捕捉设备20可为控制台100定义附加输入设备。监视器242或其他类型的显示设备也经由接口，诸如视频接口232连接至系统总线221。除监视器以外，计算机也可以包括其它外围输出设备，诸如扬声器244和打印机243，它们可以通过输出外围接口233连接。

计算机241可使用至一个或多个远程计算机，如远程计算机246的逻辑连接在网络化环境中操作。远程计算机246可以是个人计算机、服务器、路由器、网络PC、对等设备或其他常见网络节点，并且通常包括许多或所有以上关于计算机241所描述的元件，尽管在图4中仅示出了存储器存储设备247。图4中所示的逻辑连接包括局域网(LAN)245和广域网(WAN)249，但也可以包括其他网络。这样的联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。

当在LAN联网环境中使用时，计算机241通过网络接口或适配器237连接至LAN 245。当在WAN联网环境中使用时，计算机241通常包括调制解调器250或用于通过诸如因特网等WAN 249建立通信的其他装置。调制解调器250可以是内置或外置的，它可以经由用户输入接口236或其他适当的机制连接至系统总线221。在网络化环境中，关于计算机241所描述的程序模块或其部分可被储存在远程存储器存储设备中。作为示例而非限制，图4示出远程应用程序248驻留在存储器设备247上。可以理解，所示的网络连接是示例性的，且可以使用在计算机之间建立通信链路的其他手段。

图5描绘了用于处理场景的图像来跟踪可在该场景中的用户的示例方法300的流程图。示例方法300可使用例如，参考图1A-4所描述的目标识别、分析和跟踪系统10的捕捉设备20和/或计算环境12来实现。在一示例实施例中，示例方法300可采取可由例如参考图1A-4所描述的目标识别、分析和跟踪系统10的捕捉设备20和/或计算环境12执行的程序代码(即指令)的形式。

根据一实施例，在305处，可以接收图像，如深度图像、RGB图像、IR图像等。例如，目标识别、分析和跟踪系统可包括诸如参考图1A-2描述的捕捉设备20等的捕捉设备。捕捉设备可捕捉或观察可包括一个或多个目标的场景。在一示例实施例中，捕捉设备可以是被配置成使用诸如飞行时间分析、结构化光分析、立体视觉分析等的任何合适的技术来获得场景的诸如深度图像、RGB图像、IR图像等的图像的深度照相机。

在一实施例中，图像可包括多个观察到的像素，其中每一观察到的像素具有观察到的深度值、RGB信息、深度信息等。例如，图像可以是包括所捕捉的场景的二维(2-D)像素区域的深度图像，其中2-D像素区域中的每一像素可具有诸如以例如厘米、毫米等为单位的所捕捉的场景中的对象离捕捉设备的长度或距离之类的深度值。

图6示出可在305处被接收的深度图像400a的示例实施例。根据一示例实施例，深度图像400a可以是由例如参考图2所描述的捕捉设备20的3-D照相机26和/或RGB照相机28所捕捉的场景的图像或帧。如图6所示，深度图像400a可包括与例如诸如参考图1A和1B所描述的用户18等的用户对应的人类目标402a以及诸如所捕捉的场景中的墙、桌子、监视器等的一个或多个非人类目标404。如上所述，深度图像400a可包括多个观察到的像素，其中每一观察到的像素具有与其相关联的观察到的深度值。例如，深度图像400a可包括所捕捉的场景的二维(2-D)像素区域，其中2-D像素区域中的特定X值和Y值处的每一像素可具有诸如以例如厘米、毫米等为单位的所捕捉的场景中的目标或对象离捕捉设备的长度或距离之类的深度值。

在一实施例中，深度图像400a可被着色从而使得深度图像的像素的不同颜色对应于和/或从视觉上描绘了人类目标402a和非人类目标404离捕捉设备的不同距离。例如，与深度图像中最接近捕捉设备的目标相关联的像素可用红色和/或橙色阴影来着色，而与深度图像中较远的目标相关联的像素可用绿色和/或蓝色阴影来着色。

回头参考图5，在310处，可以处理图像。根据一实施例，目标识别、分析和跟踪系统可处理图像从而可以确定和/或定义与所捕捉的图像相关联的场景的一个或多个特性。例如，可以对图像进行降采样；可以估计阴影或遮挡区域；可以检测诸如深度值等的范围外信息；可以移除和/或平滑图像的一个或多个高变度/或高噪声部分；可以填充和/或重构诸如图像的深度值等的丢失部分和/或移除的信息；可以检测包括诸如地板、墙等的平坦表面的图像的部分；可以识别、扫描对象并将其与图像隔离；和/或可以对所接收的深度图像执行任何其他合适的处理，这些将在以下更详细地描述。

图7描绘了在图5中示出的在310处处理图像的示例方法的流程图。例如，如图5所示，在305处接收图像之后，可以在310处处理图像。为了在310处处理图像，可如图7所示那样在405处对图像进行降采样。例如，目标识别、分析和跟踪系统可对所接收的图像进行降采样，从而可以减小包括与其相关联的像素数量的图像大小，且可以过滤并从图像中移除一部分无效像素，如带有零深度值的像素、先前在310处由本文所描述的一个或多个处理技术标识为无效的像素等。例如，如上所述，图像可以是可包括所捕捉的场景的2-D像素区域的深度图像，其中每一像素具有与其相关联的X值、Y值和深度值(或Z值)。在一实施例中，深度图像可通过将2-D像素区域中的像素减少为更少的像素来降采样。例如，目标识别、分析和跟踪系统可选择可被组合来对图像进行降采样的降采样核，如包括2x2像素块、4x4像素块等的像素块。

目标识别、分析和跟踪系统然后可以使用降采样核来扫描图像从而可将深度图像分成与降采样核相关联的各个部分或块。然后可处理每一部分或块来为深度图像生成可表示每一部分或块的经降采样的核像素。例如，在一实施例中，目标识别、分析和跟踪系统可分析与降采样核相关联的部分或块中的每一像素。基于该分析，目标识别、分析和跟踪系统可为经降采样的核像素生成诸如X值、Y值或深度值等的一个或多个值。例如，目标识别、分析和跟踪系统可基于与包括在关联于降采样核的部分或块中的有效像素相关联的深度值来生成经降采样的核像素的深度值。根据示例实施例，为经降采样的核像素所生成的深度值可包括该部分或块中的有效像素或可具有有效、非零深度值的像素的最小深度值、该部分或块中的有效像素的最大深度值、该部分或块中的有效像素的深度值的模式、该部分或块中的有效像素的深度值的中间值、或基于该部分或块中的有效像素的深度值的任何其他合适的深度值。根据一实施例，如果与降采样核相关联的部分或块中的每一像素可以是无效的或可以具有诸如零深度值等的无效深度值，则目标识别、分析和跟踪系统可将诸如零深度值等的无效深度值分配给为该部分或块所生成的经降采样的核像素。

因此，根据一示例实施例，在405处，目标识别、分析和跟踪系统可对图像进行降采样，从而可以减小图像中的像素数量且可以基于包括在关联于降采样核的像素部分或像素块中的有效像素来过滤或从图像中移除一部分无效像素。

在410处，可以估计可在所接收的图像中的阴影和/或遮挡部分。例如，在410处，目标识别、分析和跟踪系统可标识图像中可与诸如红外阴影、立体阴影等的阴影或遮挡相关联的无效像素。为了标识可与阴影或遮挡相关联的无效像素，目标识别、分析和跟踪系统可水平地按从左到右或从右到左的方向从例如图像的顶部或底部开始扫描图像来标识或寻找图像中的无效像素。根据一示例实施例，如果无效像素的范围或组可通过扫描来标识，则目标识别、分析和跟踪系统可确定诸如可由基于第一有效像素和第二有效像素的无效像素所定义的X距离等的距离或区域，其中第一有效像素可与无效像素的范围或组的开始处的第一无效像素相邻，而第二有效像素可与无效像素的范围或组的结尾处的第二无效像素相邻，以此类推。目标识别、分析和跟踪系统然后基于例如，可定义无效像素的范围或组的开始和结尾的第一有效像素和第二有效像素来确定离捕捉设备最远的深度值和离捕捉设备最近的深度值。目标识别、分析和跟踪系统还可基于最远和最近的深度值来确定第一和第二有效像素之间的像素数量以及离捕捉设备的距离。根据一示例实施例，如果从最远深度值和最近深度值所确定的距离处的第一和第二有效像素之间的像素数量与对应于存储在例如目标识别、分析和跟踪系统中相同距离处的阴影或遮挡的预定像素数量匹配，这可取决于基于相邻有效像素、物理透镜、和/或捕捉设备的IR发射器偏移量的深度函数，则目标识别、分析和跟踪系统可以将无效像素的范围或组标识为阴影或遮挡。

因此，根据一实施例，目标识别、分析和跟踪系统可标识无效像素区域以及该区域离捕捉设备的近似距离。目标识别、分析和跟踪系统然后可将区域中的像素数量与对应于近似距离处的阴影或遮挡的预定像素数量进行比较。在一示例实施例中，如果区域中的像素数量与对应于该区域离捕捉设备的近似距离处的阴影或遮挡的预定像素数量匹配，则目标识别、分析和跟踪系统可将该区域标识为阴影或遮挡。

图8示出可包括红外阴影的深度图像400b的示例实施例。深度图像400b可包括与例如以上参考图1A和1B所描述的用户18相关联的人类目标402b。如图8所示，右手702和左手705可在人类目标402b的一部分的前方延伸。

根据一示例实施例，可在人类目标402b的一部分的前方延伸的右手702和左手705可生成相应的第一和第二红外阴影708和710。第一和第二红外阴影708和710可包括诸如以上参考图1A-2所描述的捕捉设备20等的捕捉设备所观察或捕捉的深度图像700的部分，其中身体部分可在场景上投射阴影。根据一示例实施例，捕捉设备可观察或捕捉无效深度值，如与深度图像中其中身体部分可在场景上投射阴影的部分相关联的像素的零深度值。

回头参考图7，在410处，在确定可与阴影或遮挡相关联的无效像素之后，可替换或填充诸如与诸如红外阴影708等的阴影或遮挡区域相关联的像素的深度值等的值。例如，目标识别、分析和跟踪系统可估计诸如阴影或遮挡区域的深度值等的一个或多个值，这些值可替换所接收的图像中的与阴影或遮挡区域相关联的无效像素的无效或丢失值。

根据一实施例，可基于相邻有效像素来估计与阴影或遮挡区域相关联的无效像素的值。例如，如果与关联于阴影或遮挡区域的无效像素相邻的一个或多个像素可具有有效深度值，则与阴影或遮挡区域相关联的无效像素的深度值可基于相邻像素的有效深度值来生成。因此，在一实施例中，目标识别、分析和跟踪系统可估计或内插与关联于阴影或遮挡区域的无效像素相邻的有效像素的深度值。目标识别、分析和跟踪系统还可为与阴影或遮挡区域相关联的无效像素分配可具有有效深度值的相邻像素之一的深度值。

根据一实施例，目标识别、分析和跟踪系统可标识并计算与阴影或遮挡区域相关联的每一无效像素的深度值，直到无效像素中的每一个可具有与其相关联的深度值。另外，在另一示例实施例中，目标识别、分析和跟踪系统可以不为与阴影或遮挡区域相关联的无效像素内插值，或者可以为与阴影或遮挡区域相关联的无效像素的部分或一部分内插值。例如，阴影或遮挡区域可包括第一数量的无效像素。如果第一数量的无效像素可比预定阈值的无效像素更多，则目标识别、分析和跟踪系统可确定阴影或遮挡区域可包括太多的像素以致于无法基于可具有有效深度值的相邻或邻近像素来正确地内插或估计每一无效像素的深度值。基于该判定，目标识别、分析和跟踪系统可以不为无效像素估计或内插值，或者目标识别、分析和跟踪系统可以只为部分无效像素估计或内插值。

另外，在另一示例实施例中，目标识别、分析和跟踪系统可基于先前帧的深度图像为与阴影或遮挡区域相关联的一个或多个无效像素计算深度值。如上所述，诸如以上参考图1A-2所描述的捕捉设备20等的捕捉设备可捕捉帧中的场景。每一帧可包括一深度图像。例如，目标识别、分析和跟踪系统可判定先前帧的相应像素是否具有有效深度值。基于该判定，目标识别、分析和跟踪系统可用先前帧的相应像素的深度值来替换当前深度图像中的无效像素的深度值。

在一示例实施例中，在415处可以确定图像中的噪声并将其从图像中移除。例如，在305处接收的图像可包括诸如图像中的一个或多个对象周围的模糊边等的噪声。诸如模糊边等的噪声可与图像中可具有诸如可能无法准确表示场景中的一个或多个对象的深度值等的一个或多个值的像素相关联。例如，如上所述，图像可包括人类目标和墙。人类目标的手臂可包括可具有近似1米的深度值的像素，而墙可具有近似2米的深度值。在一实施例中，手臂的边缘处的像素可包括噪声或者可以是模糊的，从而使得像素可具有例如1.5米或手臂和墙的深度值之间的任何其他合适的值的深度值。

在415处，目标识别、分析和跟踪系统可确定噪声且可平滑诸如这些像素的模糊深度值等的模糊值来移除图像中的噪声。根据一实施例，为了平滑与噪声相关联的模糊值，目标识别、分析和跟踪系统可选择一噪声窗口核。噪声核窗口可包括包含3x3像素块、5x5像素块等的像素块。根据一实施例，目标识别、分析和跟踪系统然后可基于该噪声窗口核来分析图像中的像素。例如，目标识别、分析和跟踪系统可基于噪声核来选择在例如图形的左上角、右上角、左下角、右下角等处开始的像素集。目标识别、分析和跟踪系统然后可以分析每一像素集中的像素来确定该像素是否可包括噪声。

例如，基于噪声核窗口，像素集可包括3x3像素块。目标识别、分析和跟踪系统然后可基于与3x3像素块中的中间像素相邻的有效像素来确定每一3x3像素块中的中间像素的噪声方差。根据一实施例，噪声方差可包括例如中间像素的深度值和与中间像素相邻的有效像素中的每一个的深度值之差。如果噪声方差可大于预定噪声方差阈值而小于最大方差阈值，则目标识别、分析和跟踪系统可确定中间像素的深度值可能是模糊的。目标识别、分析和跟踪系统然后可用基于与中间像素相邻的像素计算的平均深度值、基于与中间像素相邻的像素计算的模式深度值、基于与中间像素相邻的像素计算的中值深度值来替换可能模糊的中间像素的深度值。根据另一实施例，目标识别、分析和跟踪系统可用无效深度值来替换可能模糊的中间像素的深度值，和/或将中间像素标记为无效的、可能模糊的、可能对分割和/或泛色填充(flood fill)危险的、或可指示该中间像素可影响例如310处所描述的可在下游执行的一个或多个处理技术的任何其他合适的标志、值、标记等。

参考图7，在420处，可以检测图像中可在范围之外的一个或多个像素来处理315处的图像。例如，可被包括在目标识别、分析和跟踪系统中的诸如以上参考图1A-2所描述的捕捉设备20等的捕捉设备可具有有限深度范围。例如，捕捉设备可具有可为场景中的对象所捕捉或观察的最大距离和/或可为场景中的对象所捕捉或观察的最小距离。如果对象离捕捉设备的距离比最小距离更近或比最大距离更远，则可以将关联于离捕捉设备的距离比最小距离更近或比最大距离更远的对象的像素与图像中诸如无效深度值等的无效值相关联。

在一示例实施例中，目标识别、分析和跟踪系统可包括可具有与图像相同数量的像素的图像阵列。目标识别、分析和跟踪系统可使用图像阵列来检测无效像素是否可在深度范围之外。例如，目标识别、分析和跟踪系统可基于为每一帧的图像中的像素所观察的诸如深度值等的值来更新与图像阵列中的每一像素相关联的计数。根据一实施例，对于每一帧，如果像素可以是无效的或可包括诸如无效深度值等的无效值，则目标识别、分析和跟踪系统可递增与图像阵列中的像素相关联的计数。另外，对于每一帧，如果像素可以是有效的或可包括诸如有效深度值等的有效值，则目标识别、分析和跟踪系统可将与图像阵列中的像素相关联的计数重置或递减到零。在更新了图像阵列中的计数之后，目标识别、分析和跟踪系统可分析与图像阵列中的每一像素相关联的计数。如果基于该分析，计数可大于范围阈值，则目标识别、分析和跟踪系统可将图像中的像素标记为无穷大或可指示该像素可在捕捉设备的范围之外的任何其他值。

根据一实施例，然后可在425处填充图像中的丢失部分。例如，可被捕捉或观察的图像可包括一个或多个孔洞。这些孔洞可包括深度图像中这样的区域：在该区域中，例如捕捉设备可能由于例如光照条件、诸如图案、颜色等的材料性质等而不能确定目标或对象的深度值或到它们的距离。根据一示例实施例，目标识别、分析和跟踪系统可水平地和/或垂直地扫描图像来确定可与一个或多个孔洞相关联的无效深度值的跨度或区域。

图9示出诸如可包括一个或多个丢失部分或孔洞806的深度图像400c等的图像的示例实施例。如图9所示，部分或孔洞806可以是深度图像400c中可具有无效像素或空像素的区域，无效像素或空像素诸如不具有诸如深度值等的值的像素、先前被在310处描述的一个或多个处理技术标识为无效的像素，等等。如上所述，在一示例实施例中，诸如深度图像400c等的深度图像可被着色，从而使得深度图像的像素的不同颜色对应于和/或在视觉上描绘了诸如人类目标402c等的目标或对象离捕捉设备的不同距离。如图9所示，部分或孔洞806可被着色为黑色以在视觉上指示一个或多个无效或空像素。

回头参考图7，如果图像包括一个或多个丢失部分或孔洞，则目标识别、分析和跟踪系统可在425处为丢失部分或孔洞估计诸如深度值等的一个或多个值。根据一实施例，可以使用相邻像素或围绕孔洞的可具有有效深度值的像素来估计与孔洞相关联的无效像素的深度值。例如，目标识别、分析和跟踪系统可标识可定义丢失部分或孔洞边缘的最外部的无效像素。在标识最外部的无效像素之后，目标识别、分析和跟踪系统可判定与最外部的无效像素相邻的一个或多个像素是否可以是有效的或是否可具有非零深度值。如果与无效像素相邻的一个或多个像素可以是有效的，则无效像素的深度值可基于相邻像素的有效、非零的深度值来生成。例如，无效深度值可被分配一个或多个值，如与无效像素相邻的有效像素的深度值、诸如与无效像素相邻的有效像素的平均深度值等的平均值、诸如与无效像素相邻的有效像素的深度值等的值的线性内插、诸如与无效像素相邻的有效像素的深度值等的值的曲线内插等，从而使得丢失部分或孔洞中的无效像素的值可从丢失部分或孔洞的外边缘生长到其中心。

另外，目标识别、分析和跟踪系统可限制孔洞或丢失部分中可被估计或填充的无效像素的数量。例如，目标识别、分析和跟踪系统可生成孔洞严重性值，该值可包括无效像素的数量除以图像中所有像素数量的比率。目标识别、分析和跟踪系统然后可使用该孔洞严重性值来限制对其估计值的丢失部分或孔洞中的无效像素的数量从而可以减少图像中的渗色。例如，目标识别、分析和跟踪系统可限制可被执行来估计诸如图像的丢失部分或孔洞中的无效像素的深度值等的值的从外部边缘到中央的迭代的数量。

在430处，可以检测图像中可与地板、墙、或任何其他平坦表面相关联的一个或多个部分。例如，目标识别、分析和跟踪系统可在430处确定图像中的哪些像素可与地板相关联。根据示例实施例，目标识别、分析和跟踪系统可使用屏幕空间地板检测技术、逐像素分析、或可检测与地板相关联的像素的任何其他合适的技术或分析来确定与地板相关联的像素。

例如，在一实施例中，目标识别、分析和跟踪系统可标识诸如图像的下半部分等的图像的较低部分或区域来确定可与地板相关联的部分或像素。目标识别、分析和跟踪系统然后可分析诸如在305处所接收的图像的较低部分或区域中的像素的深度值等的值以及诸如先前通过一系列先前的帧所捕捉的所接收的图像的较低部分或区域中的像素的深度值等的值。在一实施例中，目标识别、分析和跟踪系统可逐行或在屏幕空间扫描行中扫描在305处所接收的图像以及先前所接收的图像的较低部分或区域，以将一个或多个行拟合到诸如深度值等的值。例如，目标识别、分析和跟踪系统可逐行或在屏幕空间扫描行中扫描在305处所接收的图像以及先前所接收的图像的较低部分或区域，以将第一行和第二行拟合到诸如深度值等的值。目标识别、分析和跟踪系统然后可扫描诸如从图像底部到图像的顶部的第一和第二行等的所拟合的行来判定该行是否可具有这样的斜率：该斜率可定义大于预定角度阈值的角度，或具有可大于预定角度阈值的变化斜率。当该行可具有可定义大于预定角度阈值的角度或具有可大于预定角度阈值的变化的斜率时，目标识别、分析和跟踪系统可停止扫描并可选择可具有小于阈值角度的角度或斜率变化的行以及与该行相关联的像素。目标识别、分析和跟踪系统随后可使地板平面拟合到像素的行从而可以标识图像中的地板。

因此，根据一示例实施例，目标识别、分析和跟踪系统可分析在430处可由图像的较低部分或区域中的像素的值所定义的行的一个或多个角度。如果角度可基本水平从而使得角度可在例如0-10度、0-15度、0-20度等的范围内，则目标识别、分析和跟踪系统可将与这些角度相关联的像素的行标识为地板的一部分。例如，如果诸如第一和第二行等的行的斜率在斜率阈值或预定范围以内，则目标识别、分析和跟踪系统可对第一和第二行的斜率求平均。目标识别、分析和跟踪系统然后可判定平均斜率是否可在捕捉设备的倾斜范围之内，从而使得当平均斜率可在该倾斜范围之外时与第一和第二行相关联的像素可不被标识为地板的一部分。

目标识别、分析和跟踪系统还可在430处确定图像中的哪些像素可与墙或其他平坦表面相关联。根据示例实施例，目标识别、分析和跟踪系统可使用屏幕空间检测技术、逐像素分析、或可检测与墙或其他平坦表面相关联的像素的任何其他合适的技术或分析来确定与墙或其他平坦表面相关联的像素。

在一示例实施例中，在435处，可以做出关于图像是否可包括目标的判定。例如，在435处，目标识别、分析和跟踪系统可判定图像是否包括诸如参考图6和8-9所描述的人类目标402a-c等的人类目标、沙发、桌子、椅子、或目标识别、分析和跟踪系统可以跟踪的任何其他对象等的目标。为了判定图像是否包括目标，根据一实施例，目标识别、分析和跟踪系统可对图像中的每一对象进行泛色填充。目标识别、分析和跟踪系统然后可将每一泛色填充的对象与图案进行比较来判定图像是否包括目标。

根据一实施例，为了进行泛色填充，可以选择图像上的预定点或区域来判定图像是否包括特定目标。例如，可以比较诸如图像的所选区域或点中的像素的深度值等的各种值来确定可定义目标或对象的边。根据一示例实施例，可以通过将与例如图像中的相邻或邻近的像素相关联的各种深度值进行比较来确定这些边。如果正被比较的各种深度值可大于预定边容差，则这些像素可定义一条边。在一实施例中，预定边容差可以是例如100毫米。如果表示1000毫米的深度值的像素可与表示1200毫米的深度值的相邻像素进行比较，则这些像素可定义目标的一条边，因为像素之间的长度或距离之差大于100mm的预定边容差。可基于所确定的边来对Z层的可能Z值进行泛色填充。例如，与所确定的边相关联的像素以及该边内的区域的像素可互相关联来定义可与图案进行比较的场景中的对象。

根据一示例实施例，图案可包括一个或多个数据结构，这些数据结构可具有可共同定义目标识别、分析和跟踪系统可能想要在场景的图像中隔离或标识的特定目标的维数的变量集。例如，在一实施例中，目标识别、分析和跟踪系统可能想要在图像中隔离或标识的特定目标可以是人类目标，从而使得图案可包括可具有可共同定义人类的典型身体的变量集的一个或多个数据结构。

可以将与泛色填充的对象相关联的值与图案中的值进行比较来判定目标是否是目标识别、分析和跟踪系统可能想要隔离或标识的目标以及目标中的哪些是目标识别、分析和跟踪系统可能想要隔离或标识的目标。在一实施例中，集合中的每一变量可基于目标识别、分析和跟踪系统可能想要隔离或标识的特定目标的部分或各部分的重要性来加权。例如，如果目标识别、分析和跟踪系统可能想要隔离或标识人类目标，则图案中的诸如头部和/或肩膀等的各种身体部位可具有与其相关联的可比诸如腿等的其他身体部位大的权重值。

基于该比较，目标识别、分析和跟踪系统可计算与图案中可匹配泛色填充的对象的变量的各部分相关联的值的加权和。如果和可大于匹配阈值，则目标识别、分析和跟踪系统可将对象标记或标识为诸如目标识别、分析和跟踪系统可能想要隔离或标识的特定目标等的目标。例如，目标识别、分析和跟踪系统可创建可具有大于匹配阈值的和的泛色填充的目标的位掩码。

在440处，如果图像可能不包括目标，则可在305处接收场景的新图像。例如，如果图像中所标识的每一对象的和可小于匹配阈值，则目标识别、分析和跟踪系统可提供该图像可能不包括目标的指示并且可在305处接收新图像。

根据一实施例，在440处，如果图像可包括目标，则可在445处扫描目标从而可以确定目标的一个或多个量度。例如，如果和可大于匹配阈值，则在435处，目标识别、分析和跟踪系统可将对象标记或标识为诸如目标识别、分析和跟踪系统可能想要标识的特定目标等的目标。目标随后可在445处被扫描从而可确定目标的一个或多个量度。例如，目标识别、分析和跟踪系统可从上到下和/或从左到右地扫描位掩码来确定目标的宽、高等。

根据一示例实施例，目标可包括人类目标。可以在445处为一个或多个身体部位扫描与人类目标相关联的位掩码来提供与诸如以上参考图1A和1B所描述的用户18等的用户的一个或多个身体部位相关联的诸如长、宽等的量度。为了为一个或多个身体部位扫描人类目标的位掩码，目标识别、分析和跟踪系统可确定人类目标的位掩码的顶部。目标识别、分析和跟踪系统然后可将位掩码的顶部与头部的顶部的位置相关联。在确定了头部的顶部之后，可以向下扫描位掩码继而确定目标的颈部的位置、人类目标的肩膀的位置，以此类推。

为了确定人类目标的颈部、肩膀等的位置，可以将例如被扫描的位置处的位掩码的宽度与关联于例如颈部、肩膀等的典型宽度的阈值进行比较。在替换实施例中，可以使用离位掩码中先前扫描的并与身体部位相关联的位置的距离来确定颈部、肩膀等的位置。

为了确定肩膀的位置，可将各个方位或位置处的位掩码的宽度与阈值肩膀值进行比较。例如，可以将各个方位或位置处的位掩码的X值处的两个最外部Y值之间的距离与例如人类肩膀之间的典型距离的阈值肩膀值进行比较。在另一实施例中，为了确定肩膀的位置，可从头部向下解析一特定距离的位掩码。例如，可与头部的顶部相关联的位掩码的顶部可具有与其相关联的X值。然后可以将所存储的与从头部的顶部到人类身体的肩膀的顶部的典型距离相关联的值加到头部的顶部的X值来确定肩膀的X值。

另外，根据一示例实施例，诸如腿、脚等的某些身体部位可基于例如其他身体部位的位置来计算。例如，如上所述，可以扫描诸如与人类目标相关联的位、像素等的信息来确定诸如头部、颈部、肩膀、臀部等的各个身体部位的位置。基于这些位置，随后可以为人类目标计算诸如腿、脚等的后续身体部位。

在一实施例中，在确定例如诸如身体部位等的部分的值后，可以创建可包括诸如与目标的位掩码的扫描相关联的部分的长度、宽度等的度量值的数据结构。在一实施例中，该数据结构可包括从多个深度图像平均的扫描结果。例如，如上所述，诸如以上参考图1A-2所描述的捕捉设备20等的捕捉设备可捕捉帧中的场景。每一帧可包括一图像。可以分析每一帧的图像来确定是否包括诸如人类目标等的目标。如果帧的图像包括目标，则可以在445处扫描与该帧相关联的图像的人类目标的位掩码。然后可以对为每一帧所确定的诸如身体部位等的部分的值求平均，从而使得该数据结构可包括诸如与每一帧的扫描相关联的身体部位等的部分的诸如长度、宽度等的平均度量值。

随后可以在450处从图像中分割目标。例如，目标识别、分析和跟踪系统可从包括图像中可以不是目标的背景和/或前景对象的环境中分割目标。为了从环境中分割目标，目标识别、分析和跟踪系统可移除或丢弃不可与深度图像中的目标相关联的像素。例如，在445处对人类目标的扫描期间，目标识别、分析和跟踪系统可基于为泛色填充的目标创建的位掩码来确定或标识可与目标相关联的像素。目标识别、分析和跟踪系统然后可基于不可与目标相关联的像素来确定或标识诸如非目标对象等的与环境相关联的像素。

在标识与目标和环境相关联的像素后，目标识别、分析和跟踪系统可构建深度历史或历史地图。目标识别、分析和跟踪系统可对带有与环境相关联的值的每一帧更新深度历史或历史地图。根据一示例实施例，深度历史或历史可被更新来包括经过一系列帧所观察的图像中的环境的最大值、最小值、中间值、平均值、标准差值、等等。

在一实施例中，目标识别、分析和跟踪系统可随后对目标进行泛色填充且可移除或丢弃与环境相关联的像素以从环境中分割目标。例如，目标识别、分析和跟踪系统可选择与目标的矩心或中心的位置相关联的点和/或可围绕矩心或中心的位置处的预定点。目标识别、分析和跟踪系统然后可在每一帧中对这些点进行泛色填充。基于该泛色填充，目标识别、分析和跟踪系统可创建目标的二进制掩码。目标识别、分析和跟踪系统还可基于深度历史或历史地图，通过为与环境相关联的像素分配例如无效深度值来移除或丢弃它们。

根据另一实施例，目标识别、分析和跟踪系统可在450处判定目标是否正在运动或移动并可移除或丢弃与环境相关联的像素以从环境中分割目标。例如，目标识别、分析和跟踪系统可包括诸如场景的基准图像等基准平面，该基准平面可包括例如诸如每一像素的非运动深度值等的非运动信息。根据一实施例，非运动信息平面可包括与场景中的每一像素相关联的移动平均值。移动平均值可包括例如通过一系列先前所接收的帧所确定的像素的平均深度值。根据一实施例，目标识别、分析和跟踪系统可将诸如场景中的对象中的每一像素的深度值等的值与包括在基准平面中的每一对应的像素的移动平均值进行比较。基于该比较，目标识别、分析和跟踪系统可将像素标识为移动。例如，在一实施例中，如果像素的深度值可小于基准平面中对应的像素的移动平均值从而使得像素可在移动平均值前方，则像素可被标识为移动。另外，例如，如果像素的深度值和基准平面中的对应像素的移动平均值之差可大于运动阈值，则该体素可由目标识别、分析和跟踪系统标识为移动。

目标识别、分析和跟踪系统然后基于移动像素的百分比为每一所标识的对象计算前景分数。在一实施例中，目标识别、分析和跟踪系统可以用可被标识为移动的对象中的体素像素的数量除以包括在对象中的像素总数来计算前景分数。根据一实施例，目标识别、分析和跟踪系统可为可具有可超过分数阈值的前景分数的目标创建二进制掩码。基于深度历史或历史地图，目标识别、分析和跟踪系统还可通过为与环境相关联的像素分配例如诸如如上所述的零深度值等的无效深度值来移除或丢弃它们。

回头参考图5，在310处使用例如以上参考图7所描述的方法处理图像之后，目标识别、分析和跟踪系统可在315处呈现细化的图像。根据一实施例，细化的图像可以是已移除和/或平滑了噪声、丢失部分、阴影的，已隔离了目标的，已标识了地板等的图像。因此，在一示例实施例中，在310处使用以上参考图7所描述的处理的示例方法的至少一部分来处理图像之后，细化的图像可以是在305处接收的图像。

图10示出可基于对可被捕捉或观察的图像的处理而呈现的细化的图像406的示例实施例。如图10所示，在310处使用以上参考图7所描述的处理的示例方法的至少一部分来处理深度图像400c之后，细化406可以是图9中示出的深度图像400c。

回头参考图5，可以在320处处理与目标相关联的细化的图像和/或二进制掩码。在一实施例中，目标识别、分析和跟踪系统可在330处处理与目标相关联的细化的图像和/或二进制掩码，从而可以生成目标的模型，如骨架模型、网格模型等。根据一示例实施例，可以跟踪该模型、可以呈现与该模型相关联的化身、和/或可以控制在计算机环境上执行的一个或多个应用程序。

应该理解，此处所述的配置和/或方法在本质上是示例性的，且这些具体实施例或示例不被认为是限制性的。另外，此处所述的方法或过程可表示任何数量的处理策略中的一个或多个。由此，此处所述的方法或过程可按照所示步骤的顺序、按照其他顺序、并行地等来执行。同样，可以更改上述方法或所述过程所示的步骤的次序和/或按任何合适的次序来执行上述方法或所述过程所示的步骤。

本发明的主题包括各种方法、过程、系统和配置的所有新颖和非显而易见的组合和子组合、和此处所公开的其它特征、功能、动作、和/或特性、以及其任何和全部等效物。

Claims

1.一种用于处理场景的图像的方法，所述方法包括：

接收所述图像；

处理所述图像来确定所述场景的一个或多个特性，处理所述图像来确定所述场景的一个或多个特性包括判定所述图像是否包括阴影，包括：

标识所述图像的无效像素区域以及所述区域离捕捉设备的近似距离；以及

如果所述区域中的像素数量与所存储的对应于所述区域离捕捉设备的所述近似距离处的阴影的预定像素数量匹配，则将所述区域标识为阴影；以及

基于所述场景的一个或多个特性来呈现细化的图像。

2.如权利要求1所述的方法，其特征在于，处理所述图像来确定所述场景的一个或多个特性包括对所述图像进行降采样。

3.如权利要求1所述的方法，其特征在于，进一步包括为包括在所述图像中的与所述阴影相关联的像素估计一个或多个值。

4.如权利要求1所述的方法，其特征在于，处理所述图像来确定所述场景的一个或多个特性包括判定所述图像是否包括噪声；并移除所述图像中的噪声。

5.如权利要求1所述的方法，其特征在于，处理所述图像来确定所述场景的一个或多个特性包括检测所述图像中的一个或多个像素是否在捕捉设备所定义的范围之外，其中所述捕捉设备捕捉所述图像。

6.如权利要求1所述的方法，其特征在于，处理所述图像来确定所述场景的一个或多个特性包括判定所述图像是否包括丢失部分；以及为与所述丢失部分相关联的无效像素估计一个或多个值。

7.如权利要求1所述的方法，其特征在于，处理所述图像来确定所述场景的一个或多个特性包括检测与所述场景中的地板相关联的所述图像的一部分。

8.如权利要求1所述的方法，其特征在于，处理所述图像来确定所述场景的一个或多个特性包括：

判定所述图像是否包括目标；以及

如果基于所述判定所述图像包括所述目标，则扫描所述目标。

9.如权利要求8所述的方法，其特征在于，处理所述图像来确定所述场景的一个或多个特性包括从所述图像中分割所述目标。

10.一种用于处理场景的图像的方法，所述方法包括：

接收图像，其中所述图像包括多个像素；

处理所述图像，其中处理所述图像包括以下的至少一个：对所述图像进行降采样，判定所述图像是否包括阴影、噪声和丢失部分中的一个，判定所述图像是否包括目标，以及如果基于所述判定所述图像包括所述目标则扫描所述目标；以及

基于所处理的深度图像来呈现细化的图像；

其中判定所述图像是否包括阴影，包括：

如果所述区域中的像素数量与所存储的对应于所述区域离捕捉设备的所述近似距离处的阴影的预定像素数量匹配，则将所述区域标识为阴影。

11.如权利要求10所述的方法，其特征在于，处理所述图像还包括检测所述图像中的一个或多个像素是否在与所述图像相关联的捕捉设备所定义的范围之外。

12.如权利要求10所述的方法，其特征在于，确定所述图像中的一个或多个像素是否在与所述图像相关联的捕捉设备所定义的范围之外包括：提供图像阵列，其中所述图像阵列具有与所述图像中的像素总数相等的像素数量；如果与所述图像中对应的像素相关联的值是无效的，则递增与所述图像阵列中的像素相关联的计数；分析与所述图像阵列中的像素相关联的计数；以及如果基于所述分析，与所述图像阵列中的对应的像素相关联的所述计数大于范围阈值，则以无穷大值来标记所述图像中的像素。

13.如权利要求10所述的方法，其特征在于，处理所述图像还包括检测与所述场景中的地板相关联的所述图像的一部分。

14.如权利要求10所述的方法，其特征在于，检测与所述场景中的地板相关联的所述图像的一部分还包括标识所述图像的较低区域；以及分析所述较低区域以将与所述地板相关联的地板平面拟合到所述较低区域。

15.如权利要求10所述的方法，其特征在于，处理所述图像还包括从所述图像中分割所述目标。

16.如权利要求15所述的方法，其特征在于，从所述图像中分割所述目标包括创建所述目标的二进制掩码，以及丢弃包括在所述图像中的环境。

17.如权利要求10所述的方法，其特征在于，所述图像包括多个像素，以及对所述深度图像进行降采样包括减少所述多个像素的数量并过滤所述多个像素中的一个或多个无效像素。

18.如权利要求10所述的方法，其特征在于，判定所述图像是否包括阴影、噪声和丢失部分中的一个还包括为所述图像中与阴影、噪声和丢失部分中的一个相关联的像素估计一个或多个值。

19.如权利要求10所述的方法，其特征在于，扫描所述目标包括确定所述目标的一个或多个量度。

20.一种用于处理场景的图像的系统，所述系统包括：

捕捉设备，其中所述捕捉设备包括接收所述场景的深度图像的照相机组件，其中所述深度图像包括像素；以及

与所述捕捉设备有效通信的处理器，其中所述处理器对所述图像进行降采样；判定所述图像是否包括阴影、噪声和丢失部分中的一个；检测所述图像中的一个或多个像素是否在所述捕捉设备所定义的范围之外；检测与所述场景中的平坦表面相关联的所述图像的一部分；判定所述图像是否包括目标；如果基于所述判定所述深度图像包括所述目标则扫描所述目标；以及从所述图像中分割所述目标；

其中判定所述图像是否包括阴影，包括：

标识所述图像的无效像素区域以及所述区域离所述捕捉设备的近似距离；以及