在3d模型中结合视频元数据
2019-11-22

在3d模型中结合视频元数据

本发明公开涉及在3D模型中结合视频元数据。通过定位目标的质心并且确定其与视场环境内的地平面的交叉点,用3D模型来表示校准后的摄像机的2D数据馈送的视场内被检测并跟踪的移动目标。用于该目标的适当的基于3D网格的体积模型是通过使用作为质心与所确定的地平面交叉点的函数的、对应2D图像的反向投影来初始化的。目标的被跟踪运动路径的非线性动态性表示为不同局部线性模型的集合。目标的纹理投影到3D模型上,并通过学习最小化模型运动的图像再投影误差的不同局部线性模型的加权组合,目标的2D轨迹升级到3D运动,以便驱动3D模型。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言一诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言一诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络一一包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

xHc1,2,…,dW,…,mY,其中(t)是时间周期,(c)是用于每个不同局部模型(m)的混合系数。用于该目标路径的不同局部线性模型的个数是利用交叉验证方法与系统来优化或另外确定的,例如根据像赤池(Akaike)信息准则(AIC)或贝叶斯信息准则(BIC)之类的优化准则。一方面,优化可以提供所使用的局部线性模型的个数与它们各自的编码长度之间的折中。在106进行的3D模型的初始化可以包括识别检测到的目标的类型或行为,并且从多个模型中选择匹配检测到的目标类型和/或行为的动态性的适当模型。例如,再次参考图3,识别出检测到的目标207是人可能导致从多个其它目标模型,诸如机动车、卡车、狗等,中选择3D人模型214。适当类型的人模型还可以从多个人模型中选择,基于检测到目标的速度和/或位置动态性来选择行走的人模型,或者基于更快的运动速度选择跑步的人模型。有些实施例可以区分检测到目标的大小或其它属性,以便在不同模型之间选择,例如用于检测到的沿一条公路移动并且尺寸维度大于自行车目标但小于卡车目标的机动车目标的汽车3D模型。还有其它实施例可能预期或者另外聚焦到仅一种类型的目标,由此利用相同的模型或相同类型的模型填充2D视频数据中检测到的任何移动目标。因而,如果2D视频环境中预期或感兴趣的唯一移动目标是人(例如,装配区楼梯井),则检测到的任何移动目标都可以填充成人模型,从而忽略区分目标与其它目标类型的步骤。在110,2D目标的纹理被投影到3D模型上,并且通过学习最小化模型运动的图像再投影误差的局部线性模型的加权组合,该目标的2D轨迹被升级至3D运动,以便在基于动态网格的3D中驱动3D模型。在一种实施例中,为了使用最小二乘法,求解以上等式的混合系数(mn),其中给定该混合系数,可以把目标的2D运动或3D运动表示为基于2D或3D的模型的混合,而且世界中3D模型的位置(X)可以依照等式作为时间(t)的函数来更新:

图5是本发明一个实施例的计算机化实现的框图说明。图6是根据本发明一个实施例的物品的框图说明。

在另一种实施例中,一种制造物品具有计算机可读存储介质设备,计算机可读程序代码包含在该计算机可读存储介质设备中,计算机可读程序代码包括指令,所述指令在被计算机处理器执行时,使计算机处理器定位校准后的摄像机的2D数据馈送的视场环境中被检测和跟踪的运动目标的质心,其中摄像机被校准成把该摄像机放在摄像机视场环境的3D模型的空间高度、朝向与位置背景中。所述指令还使计算机处理器确定该质心与视场环境中的地平面的交叉点,以及通过使用作为质心和所确定的地平面交叉点的函数的、被跟踪目标的对应2D图像的反向投影来初始化适用于该环境的3D模型的空间背景中被跟踪目标的、基于3D网格的体积模型。此外,所述指令还使计算机处理器把2D图像数据中目标的被跟踪运动路径的非线性动态性表示为不同局部线性模型的集合;把2D目标的纹理投影到3D模型上;以及通过学习最小化模型运动的图像再投影误差的不同局部线性模型的加权组合,把目标的2D轨迹升级到3D运动,以便在基于动态网格的3D中驱动3D模型。

本发明的实施例还可以基于订阅、广告和/或费用执行本发明的过程步骤。即,服务提供商可以提供使用相同图像传感器的阵列的离散矩阵,以便从公共的曝光以不同的F制光圈获得多个不同的图像,如以上关于图1-6所描述的。因而,服务提供商可以为一个或多个消费者创建、维护和支持等执行本发明过程步骤的计算机基础设施,诸如网络计算机系统522、网络环境526和/或物品601(或者其部分)。反过来,服务提供商可以基于订阅和/或费用协定从消费者收费和/或服务提供商可以通过广告内容向一个或多个第三方的销售收费。服务可以包括以下一个或多个:(1)从计算机可读介质设备516、520或506在计算设备,诸如计算机/设备522/601,上安装程序代码;(2)把一个或多个计算设备添加到计算机基础设施;及(3)结合和/或修改计算机基础设施的一个或多个现有系统,使得计算机基础设施能够执行本发明的过程步骤。

在本发明的一种实施例中,一种通过3D模型表示2D视频数据中被跟踪目标的方法包括定位(localize)在校准后的摄像机的2D数据馈送的视场环境中被检测并且运动被跟踪的目标的质心。该摄像机被校准成把该摄像机放到摄像机视场环境的3D模型的空间高度、朝向与位置背景中。因而,确定质心与视场环境中的地平面的交叉点,并且通过使用作为质心和所确定的地平面交叉点的函数的、被跟踪目标的对应2D图像的反向投影(back-project1n)来初始化适用于该环境的3D模型的空间背景中被跟踪目标的、基于3D网格的体积模型(volumetricmodel)。将2D图像数据中目标的被跟踪运动路径的非线性动态性表示为不同局部线性模型的集合。2D目标的纹理被投影到3D模型上,而且目标的2D轨迹被升级到3D运动,以便在基于动态网格的3D中驱动3D模型,在一方面中这是通过学习最小化模型运动的图像再投影误差(re-project1nerror)的不同局部线性模型的加权组合进行的。

Xt=(c1*m1)+(c2*m2)+---+(cn*mn)图4说明了本发明一个实施例的实现。一个或多个摄像机402向视频分析系统404提供输入,其中视频分析系统404分析视频输入中的图像信息来识别并跟踪视频图像中的目标运动。将认识到,仅仅需要一个摄像机402就可以实践本发明的实施例;3D建模环境可以通过仅一个摄像机的校准来实现,而不像现有技术系统与方法中一般所需的那样需要多个摄像机或者来自其它传感器,诸如范围、图像和/或目标跟踪传感器,的数据。来自于分析的、指示可能的感兴趣目标运动与跟踪的结果406提供给判决408,以供对于感兴趣的物品或运动是否实际上被检测和跟踪进行审查和最终确定,例如,以供在浏览器或窗口界面或显示器中呈现给审计人员。在410,3D网格模型被初始化并且用于利用适当的3D模型,例如用于在人行道上检测到的目标人的行走的人3D模型或者用于检测到沿公路移动并且尺寸维度大于自行车目标且小于卡车目标的机动车目标的汽车3D模型,填充被跟踪目标,如以上关于图1至3—般性地讨论过的那样。因而,在412,通过使用2D目标的运动驱动基于3D体积的目标模型的运动,来自于摄像机馈送的目标到3D环境中的实时3D投影生成既现实又身临其境的并且是在3D背景下的AVE,其中基于3D体积的目标模型是利用投影到其上的2D目标的纹理呈现的。利用3D建模获得身临其境和现实的AVE会是一个在计算上具有挑战性的任务,而且本发明的实施例可以利用多种技术来为AVE模型提供实时反馈。有些实施例把图1的过程或系统的组成部分解耦合成离线过程与在线过程。例如,在108用于初始化后的3D模型的局部线性模型可以在离线阶段利用来自运动捕捉输入的训练数据而学习到,从而提供进一步的处理效率。因而,目标模型库可以在108在离线阶段构建,该库存储用于3D模型的不同的似是而非动态性的例子,而在运行时期间可以为匹配动态性模型执行简单的库查找(例如,一般性的机动车模型用于被跟踪的汽车,一般性的卡车模型用于被跟踪的确定为卡车的目标,等等)。以这种方式,由于在108发现3D模型动态性被简化成库查找,只留下在110的纹理投影和112的优化来确定要实时地在112在线计算的局部线性模型的适当加权组合,因此避免了与同时既计算适当的动态性又驱动3D模型关联的高计算成本。在112进行的优化是凸优化而且可以全局求解,而且可以通过基于图像再投影误差最小化过程或系统的目标函数快速完成,这对本领域技术人员将是显而易见的。

在104,被跟踪目标的质心被有效地定位而且确定该质心与图像中的地平面的交叉点。在106,在102处所确定的环境的3D模型的空间背景中初始化适用于被跟踪目标的、基于3D网格的体积模型。在106进行的初始化包括通过使用被跟踪目标的对应2D图像的反向投影来在环境的3D模型的空间背景中利用基于3D网格的体积模型填充被跟踪目标,其中所述反向投影是在104确定的质心与地平面交叉点数据的函数。反向投影是利用摄像机图像与3D世界模型之间的校准实现的。例如,参考图3,给定校准后的摄像机的已知位置(P)202,可以把其视场环境的2D图像206中一个人目标207的脚205的像素(x)204图像位置反向投影到3D网格模型211的脚209的3D位置(X)208,该3D模型被选择用于根据等式表示视场环境的3D世界模型210中的人207:

X=P—V其中,(P<)是三乘四摄像机矩阵的逆。因而,从一个图像反向投影人207的脚205允许我们把这个人放到世界中的3D位置,并且我们可以随后在那个3D位置放置3D模型211。在108,2D图像数据中目标的被跟踪运动路径的非线性动态性被表示为不同局部线性模型的集合。每个局部线性模型都编码一个小邻域内的非线性动态性。例如,2D目标路径可以根据等式建模为若干个基本模型的局部线性组合:

适用于与本发明实施例一起使用的基本3D网格模型是通过多种过程与系统从训练数据学习并构建的。模型可以是数据驱动的:例如,主成分分析(PCA)可以从在2D中收集到的跟踪数据来计算,以便确定数据驱动的模型。基本模型还可以从运动捕捉数据学习:在一个例子中,基本模型是通过收集来自多个个人的行走的运动捕捉数据的许多例子为行走的人目标学习的。普鲁克(Procrustes)对齐用于除去不同行走数据例子之间的平移、旋转与比例(scale)差异。然后,PCA计算恢复行走因子,其中第一主成分代表数据的均值(平均),而第二和之后的成分代表用于行走数据的变化的区分模式。如本领域技术人员将认识到的,基于网格或线框的3D几何模型可以通过目标的体素模型(voxelmodel)的线框变换来创建。分段后的训练数据目标可以用于通过重构过程与系统,例如通过空间-雕刻与体素着色方法,创建带纹理的体素3D模型。成像后的表面可以当成局部平面来对待,从而允许以假定的平面片反向投影图像。线框变换可以利用步进式(marching)立方体算法开始,然后是一阶邻域平滑与表面原始减少,以便获得低分辨率的线框模型。