从模拟到数字视频的转变为安全系统带来了人们期盼已久的好处,主要就是数字压缩技术可以传输和存储更多的图像数据。不过这使得价格有所上升。另外,数字视频要求部署更多的摄像机,这就需要更多的人来监视摄像机。通过视频的存储可以减少需要观看的工作量,因为在压缩中所用的运动向量和检测器可以用来滤除不重要的活动。然而,因为运动向量和检测器不提供所发生的相关信息,人们必须利用手动的方式来捕获视频,以确定是否有值得关注的可疑活动。
因此,出现了研发能够大大增加监控安全和视频监控的有效性的驱动力。视频内容分析,即众所周知的视频分析,指的是在一系列视频帧中识别大量的内容,并使能够在特定事件发生时发布告警,从而加速实时快速响应。此外,VCA自动搜索特定的内容,从而将人们从繁重的观看图像中解放出来。这还将减少视频监控所需的人员的数量,进而降低了成本。目前,VCA是一项新兴的技术,在未来几年,该技术将会持续发展,快速普及将是切实可行的。
一个确定性的事情是,要在巨量的视频像素数据中识别出感兴趣的目标,VCA需要大量的处理工作。此外,为了满足各种不同的应用,VCA系统应该能够可编程,可以接受不同的内容,并能够适应不断演进的算法。最新的视频处理器可以为压缩,VCA以及数字视频系统的其他需求提供优异的性能和编程灵活性。而对处理器形成补充的软件平台和工具也帮助设计时简化了安全监控产品的开发。随着VCA技术的发展,可以很容易地实现,因为所需的技术目前都已经出现了。
VCA工作流程
迄今为止,关于VCA还没有相关的国际标准,不过普通的工作流程可以被描述为:
1. 一个较长的序列被分割成可供分析的单独场景或短片。因为不同的场景具有不同的直方图,或不同的色彩频率分布,其直方图相对于前面有突变的帧时可以被视为场景改变;
2. 改变场景内的前景目标被检测为与背景分离;
3. 单独的前景目标被提取或者被分割,然后逐帧跟踪。跟踪包括检测目标的位置和速度,它可能不断变化或临时静止;
4. 当需要识别时,该目标的特征被提取,以进行分类;
5. 如果该事件某种程度上像关注的目标,则向管理软件和/或管理人员发布告警。
前景/背景检测
期望VCA能够检测出变化或者可疑的活动,相对于通常为静止或者不关注的背景,这些活动正在前景中变化。过去,对前景/背景检测的运算有限。而如今,高性能的数字信号处理器和视频处理器使得更复杂的检测算法的实现成为可能。通常,有两种方法可实现前景/背景检测:
1. 非自适应方法:仅利用少量的帧且不保持背景模型;
2. 自适应方法:保持随时间不断变化的背景模型。在自适应VCA算法中,利用来自上述流程的2-4步的反馈被送出,用来更新和维持背景模型,然后又被用作为第1步的输入。
非自适应监测
在最简单的非自适应方案中,从之前帧的各像素值中减去当前帧对应像素的数值,目的是确定绝对差值。然后将该像素绝对值与预定的门限进行比较,该门限来自图像生成器,代表对现场中的噪声进行补偿后的0电平。如果该绝对值超过了门限,则相应的像素属于前景。反之,则属于背景。如果多个前景像素连成整体则显示两个前后帧中的前景发生了改变。
图中1盖掉了背景,留下的仅是在当前帧中显示出运动车辆的前景像素,以及之前帧中的“重影”。
图1:基于三个图像帧的前景/背景检测
上述重影的存在意味着仅有两帧可用于简单运动检测,而不需要目标跟踪和识别。除了重影图像外,在前景中可能会误识别其他像素噪声。可以稍微增加一些运算量,即在算法中引入一个额外的帧来改进前景的图像质量。利用三个帧,确定当前帧和前一帧之间每个像素间的绝对差(图1A),然后再确定当前帧与下一帧的逐个像素的绝对差,于是,重影目标就会出现在不同的位置上(图1B)。如果两个绝对差都超过了门限,则相应的像素就属于前景。反之属于背景。1A和1B中的重影消失后,仅留下1C中的图像,即为前景。
利用三个图像帧,实现控制环境中的短期视频目标的跟踪和识别是可能的。即便如此,非自适应的解决方案也仅仅适用于高度监管的、场景中没有大变化的短期跟踪应用。当场景或背景变化时,需要用手动的方式重新初始化。否则,错误将随时间累积,导致不可信的结果。
自适应检测
由于非自适应解决方案的限制,在VCA应用中,目前正在实现自适应的前景/背景检测。自适应检测维持背景模型,通过对每两个视频帧中的数据进行混合使得该模型连续更新。自适应方案需要的处理量比非自适应方案要多,背景模型中的复杂度也变高。在基本的自适应方案中,算法从当前视频帧中按逐个像素减去背景模型,以便确定前景(这与非自适应算法中的减去后续帧的做法相反)。得到的结果被反馈到模型中,使之自适应即将发生的背景变化,而无需复位。该方案在目标在不断运动或者背景噪声长时间存在的许多视频监控场景中都很有效。
更复杂的前景/背景检测基于统计背景模型,在该模型中,指定帧中的每一个背景像素被建模成一个遵从高斯分布的随机变量。每个像素的均值和标准方差随时间变化,具体取决于每帧中的视频数据。例如,如果在场景中包括河岸和一条河,落到水面上的光线将会使河面像素产生比相对没有什么变化的河岸像素大得多的方差。通过与从背景模型中的相关像素的标准方差导出的门限比较来确定当前帧中的像素是前景还是背景。换句话说,若要指定某个像素为前景,如果随后有大的变化(河流),则该像素应该呈现一个与背景像素很大的差别,而如果背景像素的变化很小(河岸),则该差别会很小。
当场景中的不同区域的光条件或噪声电平不同时,该解决方案最有效,因为如果设置一个仅考虑高噪声电平的统一门限,当目标进入到低噪声区域(河岸)时就会消失。
目标跟踪/识别
在前景/背景检测之后,生成一个掩膜图(图1C)。由于存在环境噪声,单个目标的所有部分将不会关联在一起,故在将所有部分关联成整体之前,需要进行形态的扩展计算增强过程。扩展包括在掩膜图上加一个网格,计算网格中每个区域中的前景像素数量,然后计算每个区域中像素的剩余部分,该区域中的数量显示哪些分离的目标应该被关联到一起。
在扩展和分量关联后,为每个目标提供一个包围框,这是一个包括整个目标(因为它将出现在不同的帧中)的小矩形方块,从而产生了图2所示的分割。