基于内容的视频信息检索系统
汪志强
(江西财经大学信息管理学院 09信息管理与信息系统2班)
摘 要: 本文从基于内容的视频信息检索技术的发展历史出发,对基于内容的视频检索系统的技术要点及主要的功能模块进行了讨论和分析,并说明了当今技术存在的缺陷,最后提出了以后可能的商业应用的发展方向。
关键词: 基于内容的视频信息检索; 镜头边缘检测; 关键帧提取; 特征描述
伴随着信息时代的到来,计算机技术和网络技术的发展,海量的信息在全球被采集、传输、流通和应用。特别是数码照相机、数码摄像机等数字化产品的出现,让图像和视频进一步成为人们喜闻乐见的信息交流方式。据统计,人类获取的信息80%是通过视觉获取的, 而其中视频信息直观、生动,是人类生活中最有效的交流方式,而这对我们管理视觉信息的方法提出了更高的要求。例如,在公安部门查看犯罪现场的录像时,办案人员查找某些镜头来确认犯罪人员的出现和离开时间,在没有行之有效的视频信息检索方法的情况下,就需要有经验的办案人员到录像库逐一搜寻视频的拷贝,然后花上数小时人工来回浏览录像,查找和选定要用的特定镜头,工作效率很低。所以对于高效的视频检索系统,必须具备视频自动检索功能。
视觉信息有其自身的特点那就是数据量大,抽象程度低,所以视觉信息膨胀带来的问题也非常严重,也正是由于这种情况,很多视频信息因无有效的检索技术导致信息无法及时处理而浪费,特别是在竞争激烈的当今,如何有效的描述视觉信息、如何实现基于内容的信息检索成为各部门的研究热点。
在基于内容的信息检索中,基于内容的视频信息检索必将成为科研人员必须解决的问题之一。文献[1]介绍了基于内容的视频信息检索实现的基本方法,通过对非结构化的视频数据进行结构化分析和处理,采用视频分割技术,将连续的视频流划分为具有特定语义的视频片段———镜头,作为检索的基本单元,在此基础上进行代表帧的提取和动态特征的提取,形成描述镜头的特征索引:依据镜头组织和特征索引,采用视频聚类等方法研究镜头之间的关系,把内容相近的镜头组合起来,逐步缩小检索范围,直至查询到所需的视频数据,按照用户要求返回给用户。其中镜头检测技术、镜头聚类技术、视频数据库组织和索引技术、基于运动特征的视频检索技术、面向查询的特征提取和匹配技术及显示和交互技术是视频检索中的关键技术,如何处理好这些问题,直接关系到视频检索系统的性能,这也是当今的研究热点问题。
在当今的时代,视频检索系统在商业上渐渐得到青睐,正如新闻报道“视频搜索精准竞速 技术元年开启[2]”所阐述的那样,当今越来越需要准确的检索视频,我们将迎来一个新的技术元年。视频信息检索技术将在各个行业上得到运用,不管是安防还是破案又或者是广告的投放,这都将会是一个新的市场,随着视频信息检索技术的成长,“海量视频检索离安防监控还有多远?[3]”将不再遥远,正确的应用该技术,将为我们的安防提供更可靠的支持。新的广告投放方式“有趣的视链技术[4]”将变成主流,而与之对应的的新的营销方式“视链广告打开视频营销新空间 [5]”将改变大家以往的思维模式。可以这么说,当今的视频行业的发展,催出视频信息检索技术的发展,同时也将影响着该技术在商业上的运用,其产生的价值和展现出的市场前景,将值得期待。
下图是基于内容的视频检索系统的工作框架图[6]
图1
我们可以看出,用户使用可视化的界面操作,可选择三种不同的方式进行检索,如范例查询、文字查询、视觉浏览等。用户通过一个关键字或者关键内容的键入,系统根据此查找多维索引,通过在线的数据库的匹配,自动提取特征,这种特征可以使纹理、图像颜色、物体形状等等。然后通过在线的相似度匹配可以得到用户需要的信息。离线时,可以通过标引员进行手工的标引。其主要特点如下:
( 1) 基于内容的检索直接对视频数据库中的图像、视频、音频内容进行分析,抽取特征和语义。对视频信息的描述更加具体、客观和全面。利用这些内容特征建立索引进行检索准确率会大大提高。
( 2) 基于内容的视频信息检索为我们提供了更多的视频内在信息, 比如视频段的运动活动性、摄像机运动方式或者是关键帧的主颜色、纹理特征等重要信息, 并且这些信息都可以作为视频信息的特征值进行匹配查询。
( 3) 基于内容的视频信息检索为我们提供了多样灵活的检索方式。我们既可以上载一段关于日出的视频或是仅仅上载一幅有关日出的图像,来查找视频数据库中与日出相关的视频信息,也可以通过一幅手工画出的日出草图对视频数据库中的视频信息进行查询,这些查询方式在传统的检索系统中是无法想象的。
一、关键帧
关键帧是计算机动画术语,帧——就是动画中最小单位的单幅影像画面,相当于电影胶片上的每一格镜头。在动画软件的时间轴上帧表现为一格或一个标记。关键帧——相当于二维动画中的原画,指角色或者物体运动或变化中的关键动作所处的那一帧[7]。关键帧与关键帧之间的动画可以由软件来创建,叫做过渡帧或者中间帧在一组连续运动的镜头中,通过分析每个镜头的光流量,找到的变化最小的那个镜头。这便是关键帧。在视频信息中,人们常用关键帧来标识场景、故事等高层语义单元。
二、镜头
影视中所指的镜头,并非物理含义或者光学意义上的镜头,而是指承载影像、能够构成画面的镜头。镜头是比帧更高级的视频基本单元,镜头是组成整部影片的基本单位。若干个镜头构成一个段落或场面,若干个段落或场面构成一部影片。因此,镜头也是构成视觉语言的基本单位。它是叙事和表意的基础。在影视作品的前期拍摄中,镜头是指摄像机从启动到静止这期间不间断摄取的一段画面的总和;在后期编辑时,镜头是两个剪辑点间的一组画面;在完成片中,一个镜头是指从前一个光学转换到后一个光学转换之间的完整片段[8]。
三、切换
它是镜头间最常见的过渡方式, 表现为在相邻两帧间发生突变性的镜头转换。
四、视频段落
在时间上连续的镜头是相关的, 因为这一组镜头是一个情节。显然, 视频段落是一种比镜头具有更高抽象层次的结构。
基于内容的视频信息检索系统主要通过以下三种方式实现:
(1) 基于图象的方式:将视频资料进行镜头检测和关键帧提取后,用镜头的关键帧来代表镜头。通过对关键帧的特征提取( 如: 纹理、直方图等) 以及手工注释的方法来实现对视频信息的内容描述。在检索端通过对视频信息关键帧的匹配来实现对视频信息的检索。在前面提到的视链广告便是其中应用之一。
图2 视链技术的实现
(2) 基于视频的特有信息: 先将视频信息中包含的视频特有信息( 如: 主运动方向、运动矢量等) 提取出来, 然后用一定的算法对提取出的数值进行处理, 将得到的数据作为视频资料的内容描述。检索端通过对特征数据的匹配来实现视频信息的检索。
(3) 图象和视频的特有信息相结合: 具体思路就是将方法( 1) ( 2)有效的结合起来实现视频信息的检索。
视频信息检索就是对视频信息的处理和加工,而基于内容的视频信息检索系统的主要结构如下图所示。
我们可以看出,这个系统主要实现特征的发现,相似性比较,最后访问数据库得到用户所要的返回结果。而从对视频信息处理流程的角度,视频信息检索主要分成三个部分: 视频的预处理、镜头处理和视频描述,下面将针对这三个部分展开讨论。
视频预处理部分其实只包括一个功能:读入视频资料,但是这部分的功能也是很重要的。在当今的时代,由于监控设备行业的门槛比较低,所以各种公司并存,而每个公司所使用的录像存储格式又各不相同,用的播放器也是五花八门的,这就给读取视频带来一定的困难,这也是首先必须解决的问题,概括起来只有一句话: 载入各种格式的视频资料,并将视频资料上载到视频资料数据库中。这一部分存在着很大的技术障碍,必须解决视频的存储格式、编码问题。
视频资料的载入
基于内容的视频信息检索,首先要面对的是海量的信息量,这种海量不仅仅体现在其容量大得惊人,也同样体现在视频的格式编码不尽相同、良莠不齐。根据百度百科资料[9]显示光视频的大的编码分类就有多达9种,各种编码的方式也不同。为了能将如此多种类的视频资料读入到数据库中进行处理,预处理部分必须具备以下功能:
(1) 将模拟信号数字化,压缩数字化后的数据并进行存储。
(2) 对应于每一种格式的数字信号都要有相应的解码器进行解码。
(3) 为了对视频信号做进一步的处理, 例如存储、格式转换, 预处理模块要具有相应的编解码和转码功能。
在基于内容的视频信息检索系统中镜头处理是最重要的一部分,只有利用了视频资料所包含的特有的视频信息才能使检索系统得到更加符合人们需求的检索结果,而大部分视频特有信息正是在这部操作中被提取出来。镜头处理部分完成的功能是将视频资料分割成镜头并进行相应的处理,这部分包括: 镜头检测、关键帧提取和视频聚类。
4. 2. 1 镜头检测
正如我之前分析的,视频主要由一个个镜头连接而成。镜头实际上是一段时间的视频信号,在这段时间内,摄像机可以由各种运动及变焦等操作,但没有摄像机信号的中断,因此,一段镜头内的图像不会有大的变换。故而镜头既能反映出这段视频拍摄时的特征信息,也能反映后期制作中所加入的编辑信息,所以一般认为镜头是视频的基本物理单元。
首先要做的就是确定一个镜头的开始和结束,自动地实现镜头的分割,形成最基本的索引单元,我们称之为镜头的边界检测。在此之前我们需要了解,镜头之间的基本切换方式,这是对镜头进行边缘检测的首要条件,常见的切换方式有:突变(切变) 和渐变(如叠化、淡入、淡出等)。镜头边界检测方法可分为模板匹配法、直方图法、基于边缘的方法和基于模型的方法等。此外在面对不同的视频格式,如数字视频、模拟视频抑或压缩与非压缩视频时,又要考虑更多的因素,这里面也涉及了更多的技术。
4. 2. 2 提取关键帧
帧是构成镜头的基本部分,而关键帧又是一个镜头序列中包含这个镜头最重要信息的代表帧,其基本上能够代表这个镜头反映的所有的信息,进而我们可以将对镜头的检测和提取,变成对帧的处理,因为在对帧的处理技术,已趋于完善,各种理论也详尽。这样便巧妙的实现了转换。
随着而来的问题是,如果去确定一个镜头的关键帧,成为了一个难点。通常我们要求关键帧必须具备以下的几个条件:(1)关键帧必须能够准确完整地反映镜头的主要事件;(2)为了便于后期的数据处理,我们提取的关键帧数据量应尽量少且不宜太复杂。
在文献[10]中提及了几个关于关键帧的选取方法,其介绍了比较经典的有帧平均法和直方图平均法。这些方法对于提取关键帧有着可观的作用。
(1)帧平均法
其基本思想是从镜头中抽取所有帧在某个位置上像素值的平均值,然后将镜头中该点位置的像素值最接近平均值的帧作为关键帧
(2)直方图平均法
将镜头中所有帧的统计直方图取平均, 然后选取与该平均直方图最接近的帧作为关键帧。
但是不管是哪种方法,都存在着一定的缺点。
4. 2. 3 视频聚类
在对镜头进行分析后,我们主张进行视频的聚类。之所以进行视频的聚类,主要是基于以下的考虑。
首先,一段视频可能很大,包含了很多个镜头,如果单一的对每一个镜头都进行分析,那将会是很大的工作量,不仅如此,单一的处理镜头,也将会失去视频的时间性、运动性和连续性。但是如果将相似的镜头组织在一起,则是对视频信息的进一步抽象。用户可以通过视频聚类得到的结果对视频段进行快速的浏览,同时这也可以作为检索的结果反馈给用户这丰富了检索结果的形式,这对于用户来说是极大的便利。
其次,镜头聚类也是对视频数据的进一步压缩。虽然已经实现了利用镜头的关键帧来代表镜头,利用关键帧技术,实现对视频的处理,但是从图象访问的角度来看,数据量还是太大。假如一个故事场景可分成600~ 1500个镜头,那就是有600~1500个关键帧,如果一个连续剧有50集那至少也有3000~750000个关键帧。倘若我们再将这个连续剧的数字扩大到电视剧库,那也将会是一个庞大的数字,海量的关键帧,这对以后的视频描述和数据库处理都将是个难题。但是通过视频聚类可以实现,同属一个分类的关键帧实现聚类,缩小检索的范围,提高检索的效率。
在实现了视频片断被分割成独立的镜头以后,只是完成了对视频片断的初步加工。我们还无法对镜头和关键帧进行检索,原因是还没有为之设置一个匹配的标准,这个时候需要我们提取视频片断的特征值并将特征值按标准进行描述,之后我们才能实现对视频的检索。
4. 3. 1 提取特征值
镜头是视频检索的最小单位。视频分割成镜头后,就要对各个镜头进行特征提取,得到一个尽可能充分反映镜头内容的特征空间,这个特征空间将作为视频聚类和检索的依据。
视频数据的特征分为静态特征和动态特征
²
Ø
²
Ø
基于内容的视频检索系统能够使用户通过自己输入的视频特征来实现快速有效地浏览和播放视频文件,所以基于内容的视频检索系统有着极其巨大而且美好的应用前景。
当前也存在着一些问题急需解决:
(1)面向查询检索的特征提取与匹配[11]
目前,基于特征检索的视觉信息提取受限于多媒体对象的底层特征:如图像的颜色、形状、纹理等, 动态视频内容的查询大部分只集中在运动对象形状、运动轨迹等运动特征这一层次的查询上, 这种建立在低级特征基础上的模型主要存在两个问题:1)查询过程不够直观, 对于初次接触该系统的人来说很难使用这种系统。他们更希望能避免使用特征来描述内容, 而直接用语义层次的查询方式。2)特征本是缺乏语义的, 所以即使对特征测度的良好匹配也不能保证检索结果会如用户所期望的那样。由于上述的原因, 系统的操作及其输出都和用户的查询要求以及对系统的期望有相当大的距离。
(2)视频库的组织和索引
多媒体信息是非结构化的,对这些非结构化的数据要结构化才能有效地进行利用。使视频数据从线性的无组织状态转化成容易进行高层处理的有组织的数据,对实现基于内容的检索至关重要。而目前的索引结构模型通常都是停留在对镜头提取关键帧或注释镜头的方法上。
(3)确定一个客观的评价基于内容的视频检索系统的标准。
我们知道任何一个系统都需要一个详尽的标准,进行合理地规范,但是目前的发展情况来看,视频检索系统还未形成一个可靠、通用的标准。
(4)尽快实现视频描述的标准化、通用化、商品化
在该技术在发展之期,希望视频的描述能够实现标准化,通用化。并且利用该技术实现商业上的运用,如前文提到的视链技术,根据目前的情况了解,我们知道投入视链广告的企业并不多,这也说明了该项技术并不是特别的完善,还需要我们进一步的研究和改进。
参考文献:
[1]孙树生,黄焱.基于内容视频信息检索系统的分析研究[M] 电视技术,2006:85~85
[2]吕静.视频搜索精准竞速技术元年开启[DB/OL]. http://tech.qq.com/a/20120414/000080.htm
[3]陈薇荔.海量视频检索离安防监控还有多远[DB/OL]. http://www.cps.com.cn/secu/jsqy/2011/0929/2NMDAwMDI5MTQ2Ng.html
[4]北京商报社多媒体数字报刊[DB/OL]. http://www.bjbusiness.com.cn/site1/bjsb/html/2012-03/30/content_170510.htm?div=-1
[5]吴清华.视链广告打开视频营销新空间[DB/OL]. http://www.01ny.cn/article-175526-1.html
[6]胡吉明.浅析基于内容的视频信息检索技术[M] 图书馆研究,2004
[7]mini_smile.关键帧[EB/OL].http://baike.baidu.com/view/585654.htm
[8]luoyi529.镜头[EB/OL]. http://baike.baidu.com/view/163723.htm
[9]tingyu527.视频格式[EB/OL]. http://baike.baidu.com/view/2272.htm
[10]杨有山,张秀丽.基于内容的视频信息检索[M] 自然科学出版社,2004