视频检索技术(视频、摘要、智能分析

视频检索技术(视频、摘要、智能分析

2024-11-10 15:05

1、【摘要】视频检索把图像检索、模式识别、图像数据库技术等技术成果结合了起来,有着广阔的发展前景,并将在许多领域中道得到应用。本文概述了视频检索的发展历史和研究状况,给出当前视频检索领域主要的研究方法和策略, 介绍了基于DCT压缩域图像检索新方案。进一步结合视频检索自身的特点和难点,提出了今后视频检索研究的重点和方向。【关键词】视频检索;图像特征;DCT压缩域图像视频检索就是要从大量的视频数据中找到所需的视频片断。根据给出例子或是特征描述,系统就能够自动的找到所需的视频片断点,即实现基于内容的视频检索。根据提交视频内容的不同,视频检索一般分为镜头检索和片段检索。一般来说,片段的概念等价于场景

视频检索技术(视频、摘要、智能分析

2、的概念,也是由一连串语义相关的连续镜头构成,不同的是,片段可以是一段完整场景的部分或者全部。目前视频检索的多数研究还集中在镜头检索上。而片段检索方面的研究则刚刚开始。实际上,从用户的角度分析,他们对视频数据库的查询通常会是一个视频片段而很少会是单个的物理镜头。从信息量的角度分析,由几个镜头组成的视频片段有比单个镜头更多的语义,它可以表示用户感兴趣的事件,因此,查询的结果也比较有意义。例如在新闻中检索感兴趣的事件、电影中检索喜欢的情节、体育节目中检索喜爱的体育运动、电视台检索某条广告是否播出等。由于视频拍摄的多样性和后期编辑的复杂性,片段的相似性有多种可能。把片段检索分为这样两种类型:(1)精

3、确检索:要检索的片段与例子片段完全一样,具有同样的镜头和帧序列;(2)相似性检索:有这样两种情况:一种是对原视频进行了各种编辑,如插入删除帧(慢镜头快镜头)、插入删除镜头、交换帧镜头顺序等;另一种是不同拍摄的同类节目,如不同的足球比赛等。实际的视频节目一般都是这两种类型的综合,其中,相似性检索更为普遍。因此,一个好的片段检索算法,应该能够在合理的时间内同时进行这两种类型片段的检索。 1 视频检索的关键技术一个完整的视频检索系统的关键技术主要有:关键帧提取、图像特征提取、图像特征的相似性度量、查询方式、以及视频片段匹配等方法。 1.1 关键帧提取:关键帧是用于描述一个镜头的关键图像帧, 它反映

4、一个镜头的主要内容。关键帧的选取一方面必须能够反映镜头中的主要事件, 因而描述应尽可能地准确完全, 另一方面要便于检索。关键帧的选取方法很多, 比较经典的有帧平均法和直方图平均法。 1.2 图像特征提取:特征提取可以针对图像内容的底层物理特征进行提取,如颜色直方图、图像轮廓特征等。特征的表示方式有三种:数值信息、关系信息和文字信息。目前,多数系统采用的都是数值信息。 1.3 相似性度量:在镜头检索上,早期的工作主要是从镜头中提取关键帧,把镜头检索转化为图像检索。例如通常情况下,图像的特征向量可看作是多维空间中的一点,因此很自然的想法就是用特征空间中点与点之间的距离来代他们的匹配程度,距离度量是

5、一个比较常用的方法,此外还有相关计算、关联系数计算等。此外,目前研究的问题还在于怎样对视频中的时间信息充分进行利用。在片段检索上,研究方法可以分为两类:(1)把视频片段分为片段、帧两层考虑,片段的相似性利用组成它的帧的相似性来直接度量;(2)把视频片段分为片段、镜头、帧3层考虑, 片段的相似性通过组成它的镜头的相似性来度量,而镜头的相似性通过它的一个关键帧或所有帧的相似性来度量。方法(1)的缺点在于限制相似的片段必须遵守同样的时间顺序,同时这种基于每帧的比较,也使得检索速度比较慢。方法(2)的思想比较合理,但这种方法在已有的研究中并没有很好解决片段检索的问题。 1.4 查询方式:由于图像特征

6、本身的复杂性,对查询条件的表达也具有多样性,使用的特征不同,对查询的表达方式也不一样。目前查询方式基本上可归纳为以下几种:底层物理特征查询、自定义特征查询、局部图像查询和语义特征查询。 1.5 视频片断的匹配:由于同一镜头连续图像帧的相似性,使得经常出现同一样本图像的多个相似帧的出现,因而需要在查询到的一系列视频图像中,找出最佳的匹配图像序列。已经有研究提出了最优匹配法、最大匹配法和动态规划算法等。 2 检索性能的评价对于视频检索系统的评价并没有一个统一的标准,我们可以通过计算一些参数来衡量。如对于视频片断我们可以通过全查率和查准率来评价;对于使用某一个基准查出的K幅图像,又可以用正确检测数

7、、错误检测数、漏检数和正确淘汰数来表示。对于检索平台还有一个重要的参数检索效率来评价检索的响应时间。 3 基于DCT压缩域图像检索新方案现在我们用到的视频检索方案是基于非压缩域的,必须将压缩的视频数据解压后再进行比对,这样消耗了大量的实际,因而提出一种基于DCT压缩域图像检索方案,作为以后的进一步研究和改进方向。基于压缩域的图像检索技术,实际上是把图像的压缩技术与检索技术融合在一起,能够在不解码(或不完全解码)的情况下抽取到图像可用于比对的信息特征。对于这种信息特征的提取,可以利用DCT域的一些特征,主要包括颜色特征、轮廓特征和轮廓直方图等。我们目前采用的视频图像压缩格式是H.264/A

8、VC,它目前采用与MPEG-2主类相同的4:2:0采样结构。并且视频图像帧或场都可以划分为固定大小的宏块,宏块是解码的基本模块单元,通常是一个1616亮度像素和两个88彩色分量像素的长方型区域。所有宏块的亮度和色度采样在空间或时间上进行预测,对预测残余进行变换编码,为了实现变换编码,每个颜色分量的预测残余要再划分为更小的44块,每块进行DCT整数变换,变换系数被量化,最后是熵编码。所以经过熵解码后就可以得到DCT系数。把图像中所有1616帧内模式的宏块中的DCT直流系数按照块的空间位置关系重新组织在一起,就构成了DC 图。DC图是一幅图像的低频近似,虽然丢掉了图像的中高频信息,但仍然反映了图

9、像的主要内容,可以看作是整幅图像的缩图,因此可以根据DC 图直接进行图像检索。 4 国内外视频检索的发展现状目前,国内外已研发出了多个基于内容的视频检索系统,主要有: (1)深圳市久凌软件技术有限公司是中国领先的智能监控产品供应商旗舰产品视频浓缩、视频分类检索在国内尚无同类产品可以达到这个高度，公司同时提供视频监控整体解决方案，包括监控管理平台、智能视频监控网络云计算平台、图像信息核查录入系统。(2)QBIC系统:QBIC (Query By Image Content)是由IBM Almaden研究中心开发的,是“基于内容”检索系统的典型代表。QBIC系统允许使用例子图像、用户构建的草图和

10、图画及其选择的颜色和纹理模式、以及镜头和目标运动等图形信息,对大型图像和视频数据库进行查询。视频方面主要利用了颜色、纹理、形状、摄像机和对象运动来描述内容。 (3)VisualSeek系统:VisualSeek是美国哥伦比亚大学电子工程系与电信研究中心图像和高级电视实验室共同研究的、一种在互联网上使用的“基于内容”的检索系统。它实现了互联网上的“基于内容”的图像/视频检索系统,提供了一套供人们在Web上搜索和检索图像及视频的工具。 (4)VideoQ系统:VideoQ是哥伦比亚大学研究的一个项目,它扩充了传统的关键字和主题导航的查询方法,允许用户使用视觉特征和时空关系来检索视频。它有以下几个特

11、征:集成文本和视觉搜索方法;自动的视频对象分割和追踪;丰富的视觉特征库,包括颜色、纹理、形状和运动;通过WWW互联网交互查询和浏览。转贴 (5)TV-FI系统:TV-FI (Tsinghua Video Find It),是清华大学开发的视频节目管理系统。这个系统可以提供如下几个功能:视频数据入库、基于内容的浏览、检索等。TV-FI提供多种模式访问视频数据,包括基于关键字的查询、基于示例的查询、按视频结构进行浏览、以及按用户自己预先定义的类别进行浏览。 5 目前系统的主要问题以及研究趋势目前我们应用的系统中还存在一些问题,比如一些样本图像不容易被检索到,这主要是由于有现代电视在传播过程中的

12、非线性损失或是强度较大的干扰信号引起的。我们很难对有线电视的损失信号进行一个完美的补偿,这使得颜色直方图等一些对噪声很敏感的方法很难在我们的系统中得以应用。由于有线电视信号的这种特点,使得查全率和查准率这对矛盾更加突出。经过大量的测试我们发现,视频图像本身对于噪声的鲁棒性有所不同,这就要求我们进一步分析图像特点,尽量使用易检索图像作为检索样本,来权衡查全率和查准率这对矛盾。此外,现在对于视频检索系统的还有以下一些研究热点: (1)非压缩域的图像检索:为了提高效率,只对压缩视频信息不解压或只进行部分解压,或取图像的特征信息进行检索。 (2)基于语义的图像检索:为了使图像检索系统更加接近人对图像

以上就是本篇文章【视频检索技术(视频、摘要、智能分析】的全部内容了，欢迎阅览！文章地址：http://sjzytwl.xhstdz.com/quote/714.html
栏目首页相关文章动态同类文章热门文章网站地图返回首页物流园资讯移动站 http://mip.xhstdz.com/ , 查看更多