基于内容相关性的跨媒体检索方法
2019-11-26

基于内容相关性的跨媒体检索方法

本发明公开了一种基于内容相关性的跨媒体检索方法。采用典型相关性分析,同时分析不同模态媒体数据的内容特征;并通过子空间映射算法,将图像数据的视觉特征向量和音频数据的听觉特征向量同时映射到一个低维的同构子空间中;根据通用距离函数,度量不同模态媒体数据间的相关性大小;此外,结合相关反馈中的先验知识,修正多模态数据集在子空间中的拓扑结构,有效提高了系统的跨媒体检索效率。本发明突破了基于内容的多媒体检索技术对单模态的限制,解决了不同模态媒体数据在底层特征上的异构性问题,实现了相同模态之间和不同模态之间媒体对象的距离统一度量,并且能够借助用户交互过程,更准确、有效地进行跨媒体检索。

Description

基于内容相关性的跨媒体检索方法技术领域本发明涉及多媒体检索,尤其涉及一种基于内容相关性的跨媒体检索方法。背景技术基于内容的多媒体检索是计算机视觉和信息检索领域的研究热点,根据视觉、听觉或者几何等底层特征进行相似度匹配而实现检索。早在1976年,麦格克就已经揭示了人脑对外界信息的认知需要跨越和综合不同的感官信息,以形成整体性的理解。近期认知神经心理学方面的研究也进一步验证了人脑认知过程呈现出跨媒体的特性,来自视觉、听觉等不同感官的信息相互刺激、共同作用而产生认知结果。因此,目前迫切需要研究一种支持不同模态的跨媒体检索方法,突破传统基于内容的多媒体检索只作用于单模态数据的限制。基于内容的跨媒体检索技术是指通过对多媒体对象的底层特征进行分析,实现在检索过程中从一种模态到另一种模态的跨越,即用户提交一种模态的査询例子,系统返回与之相似的其他不同模态的多媒体对象,突破了单模态的图像检索、音频检索、三维图形检索等对单模态的限制。跨媒体检索是基于内容的多媒体分析与检索中一个新的研究领域,目前国际上还没有比较成熟的跨媒体检索算法和技术。90年代初期人们提出了基于内容的图像检索技术,从图像中提取底层的视觉特征,比如颜色、纹理、形状等底层视觉特征作为图像的索引。这种技术后来也被运用到视频检索和音频检索,其中针对不同媒体内容所采用的底层特征也不同,视频检索可能用到运动矢量特征,而音频检索会用到时域、频域、压縮域特征等。基于内容的多媒体检索方法早期有以QBIC、VideoQ等为代表的原型系统,但是由于缺少高层语义的支持,在准确率和效率上不能满足用户的要求;之后例子学习、融合分析和流形学习等方法被用來实现多媒体语义理解,以填补底层特征和高层语义之间的鸿沟;接着为了克服训练样本的不足,相关反馈机制常被使用,以结合用户的感知先验知识,例如:利用反馈信息修改查询向量使其向相关检索对象的分布中心移动、调整距离度量公式中各分量的权值等,近来一些机器学习方法也与相关反馈方法相结合。这些方法的使用,一定程度上縮小了语义鸿沟,提高了单模态检索的性能。然而,现有的多媒体检索系统都只能检索包含单一模态的多媒体数据库,或虽能处理多模态的媒体数据,却不支持跨媒体的检索,即根据一种模态的多媒体对象检索到其他模态的多媒体对象。由于图像的视觉特征与音频的听觉特征之间不但特征维数不同,而且表达不同的属性,无法直接度量相似性,这种异构性和不可比性同样存在于其他模态的多媒体数据之间。因此,上述单模态检索方法都不能直接用于跨媒体检索,因为与单模态检索不同,跨媒体检索的研究对象是不同模态、彼此异构的底层特征空间。—些研究者先后提出了类似跨媒体思想的研究,例如通过挖掘多模态特征进行视频数据库的索引和检索,对视频新闻所包含的转录文本和互联网页面所包含的文本进行分析,实现视频对象和互联网页面在文本特征上的相似匹配。但是,这些研究是针对特定模态媒体对象中不同的底层特征,例如:视频片断中包含的转录文本、颜色、纹理等,不能实现不lnj模态媒体数据间的灵活跨越。典型相关性分析(CanonicalCorrelationAnalysis)是一种统计分析方法,最早〗、V:川于经济、医学、气象等方面的数据分析。但是在多媒体数据分析与检索方面,典型相关性分析却很少被使用到,因为这种统计分析方法是分析两种不同变量场之间存在的相关性信息,而传统的单模态检索技术研究的是一种模态的单一特征空间。发明内容本发明为克服上述现有方法在检索模态上的限制,提供了一种基于内容相关性的跨媒体检索方法。基于内容相关性的跨媒体检索方法包括以下步骤-(1)从多媒体数据库采集不同模态的对象:图像和音频数据;(2)提取图像数据的视觉特征,以及音频数据的听觉特征,采用典型相关性分析提取得到的视觉和听觉特征之间的典型相关性;(3)采用同构子空间映射算法,将图像数据的视觉特征向量和音频数据的听觉特征向量同时映射到一个低维的同构子空间中,实现不同模态媒体数据的统一表达;(4)采用极坐标的方式定义通用距离函数,度量不同模态媒体数据间的相关性大小,并以此为依据进行跨媒体检索;(5)基于增量学习的相关反馈机制,用于提取用户交互中的先验知识,以修正多媒体数据集在同构子空间中的拓扑结构;(6)根据子空间映射过程中求取的基向量,或者通过相关反馈机制,将训练集以外的其他媒体对象准确定位到同构子空间中。所述的提取图像数据的视觉特征,以及音频数据的听觉特征,采用典型相关性分析提取得到的视觉和听觉特征之间的典型相关性:图像的底层视觉特征构成p维的图像特征矢量,音频的底层听觉特征构成q维音频特征矢量,采用典型相关性分析同时学习图像的视觉特征w和音频的听觉特征i^M),异构的特征矩阵义…w和y(""之间相关系数计算如下:CxxC砂C戸C>y7其中A和B为线性变换,按公式2把具有较多个变量的特征矩阵X和Y之间的相关化为较少组合变量L与M间的相关,A和B的数值分布确定X与Y的空间相关分布形式,A和B的数值大小确定所对应变量的重要程度。采用同构子空间映射算法,将图像数据的视觉特征向量和音频数据的听觉特征向量同时映射到一个低维的同构子空间中,实现不同模态媒体数据的统一表达:同构子空间映射算法在典型相关性分析的基础上,学习得到一个最优的低维子空间,最大程度地保留了原始特征向量xw和y(„,w之间相关性,算法步骤如下:输入:图像特征矩阵JT—,),音频特征矩阵y"m);输出:所有图像数据和音频数据在低维子空间中的向量表示丄(nxm)和M(„>«„);歩骤l:通过半监督学习的方式,用K平均聚类将数据库中所有的图像数据和音频数据划分为不同的语义类别;歩骤2:在公式3的约束下,使相关系数p-r(丄,A/)最优化,v(£)=""'.;r''a"/i=i;v(m)=wrM=Wra=i3采用拉格朗闩乘子法得到形式为A=A勤的方程c^v'cw=,求取该方程的特征根即得到矩阵A和B的解;步骤3:线性方法构造同构子空间,即分别用基向量A和B将图像特征向量和音频特征向量映射成m维坐标"xm)和xw。采用极坐标的方式定义通用距离函数,度量不同模态媒体数据间的相关性大小,并以此为依据进行跨媒体检索:图像和音频数据在m维于空间中用极坐标的形式定义特征向量》'=Oc,,',...,^',...,^'),(^'-a+6-i,(a,6e/?)),图像与图像之间、音频与音频之间、以及图像与音频数据之间的相似度用通用距离函数计算如下-«224CC4翻j,.',*')=j+l阜1-2x|jw1x|阜jxCoW*);y?汰-orc柳/a),W""y,/te【l,m】检索过程中用户通过人机接口提供査询例子图像,如果该例子在训练数据库中,则根据子空间映射结果找到査询例子在子空间中的ra维坐标,用通用距离函数计算与其他音频和图像数据间的距离,与査询图像例子最近的k个图像和k个音频作为査询结果返回给用户;同样,如果查询例子是一段音频,则按照上述步骤检索出相似的音频和图像对象。基于增量学习的相关反馈机制,用于提取用户交互中的先验知识,以修正多媒体数据集在同构子空间中的拓扑结构:系统可以在相关反馈过程中学习用户提供的感知先验知识,设Q表示图像训练集,A表示音频训练集,定义"修正因子<formula>formulaseeoriginaldocumentpage9</formula>用于修正不同模态媒体对象之间的相似度:<formula>formulaseeoriginaldocumentpage9</formula>修正因子初始化为零;当用户提交图像查询例子R,使用<formula>formulaseeoriginaldocumentpage9</formula>计算R在子空间中的k近邻图像集合d,使用<formula>formulaseeoriginaldocumentpage9</formula>血<formula>formulaseeoriginaldocumentpage9</formula>,力计算R在子空间中的k近邻音频集合C2,跨媒体检索的返回结果即C,和C2;在用户交互过程中,用户通过相关反馈在查询结果中标注正例P和负例<formula>formulaseeoriginaldocumentpage9</formula>,令<formula>formulaseeoriginaldocumentpage9</formula>并根据<formula>formulaseeoriginaldocumentpage9</formula>找到户在音频数据库A中的k-近邻r={,,,..",...,"},按距离的升序排列,然后以等差的方式,依次修改集合r中每个元素的r值<formula>formulaseeoriginaldocumentpage9</formula>V",eW,令=r,(r>0),并根据CC4fifa找到w在音频数据库A中的k-近邻//={//,,...,//,,...>},按距离的升序排列,然后以等差的方式,依次修改集合H中每个元素的y值:同样,当用户提交的是音频对象时,使用同样的方法更新修正因子".力,下一轮的检索过程按照新的相似度排列返回的结果。根据子空间映射过程中求取的基向量,或者通过相关反馈机制,将训练集以外的其他媒体对象准确定位到同构子空间中:当用户提交的査询例子不属于训练数据集时,使用特征提取程序提取例子图像的视觉特征向量V,分下列两种情况进行新媒体对象到同构子空间的映射:(1)如果已知新媒体对象表达的语义信息,则根据权利要求3所描述的训练得到的子空间基向量,用线性变换的方法将向量V映射到m维的同构子空间,与训练集中的其他多媒体对象计算通用距离;(2)如果新媒体对象表达的语义未知,采用基于内容的单模态检索,返回与查询例子相似的图像,用户标记反馈正例2-{21,...,《,},跨媒体检索系统用加权平均方法计算新媒体对象在m维同构子空间中的坐标尸(w(7)=尸os(a)A+...+尸cw(z,)/9/,(/9,+...+/?y=1)。本发明的有益效果:1)该方法突破了基于内容的多媒体检索只针对单模态的限制,提出一种全新的跨媒体检索方法。该方法同时分析两种不同模态的内容特征,挖掘特征之间在统计意义上的典型相关性;2)子空间映射方法不但解决了不同模态间的异构性问题,而且最大程度地在子空间中保持了多模态特征之间的相关性信息,这种相关性信息实际上是一种语义关联信息,因此该方法在实现特征降维的同时融合了语义;3)不同模态的媒体对象可以用同构的向量表示,在极坐标系下计算向量之间的相似度,即相同模态之间和不同模态之间的距离。附图说明图i是基于内容相关性的跨媒体检索方法的系统框架图;图2(a)是本发明的同构子空间中在相关反馈之前的多媒体数据集分布示意图-,图2(b)是本发明的同构子空间中在相关反馈之后的多媒体数据集分布示意图;图3(a)是本发明以"汽车"图像为检索例子采用同构子空间方法得到检索结果;图3(b)是本发明以"汽车"图像为检索例子直接采用内容特征得到的检索结果:图4(a)是本发明以"战争"图像为检索例子采用同构子空间方法得到的检索结果;图4(b)是本发明以"战争"图像为检索例子直接采用内容特征得到的检索结果。具体实施方式不同模态媒体对象的底层内容特征,如图像的视觉特征(颜色、纹理、形状等)与音频的听觉特征(时域特征、频域特征、时频特征等),不但特征维数异构,而且表达不同的属性,无法直接度量相似性。本发明可以同时分析异构的视觉特征与听觉特征,并以特征之间的典型相关性为依据,进行子空间映射,解决了跨媒体检索中的异构性与不可比性问题,而且子空间映射过程最大程度地保留了初始特征之间的相关性信息。本发明的基于内容相关性的跨媒体检索方法具体实施的技术方案及步骤如下:1.训练数据的选取和标注视觉特征和听觉特征之间的典型相关性学习,是建立在语义联系的基础上,用统计分析的方法,从底层特征中挖掘语义层次上的相互联系。训练数据的选取需要同时有图像数据和音频数据表达相似语义。例如,对于"狗"这个语义类别,选取表达"狗"外形特征的图片,以及表达"狗"叫声的音频片断作为训练数据。在己知语义类别个数,图像数据和音频数据的语义标注未知的情况下,采用半监督式学习,结合K平均聚类的方法对数据库中所有的图像和音频数据进行标注,并聚类到不同的语义类别,具体步骤如下:输入:未标注的图像数据集Q和音频数据集r,语义类别个数Z;输出:每个图像数据和每个音频数据所属的语义类别编号;步骤l:对于语义类别Z,随机标注5个图像例子A,计算A的聚类质心/0,:步骤2:以/Cfn为K平均聚类算法的初始输入,对整个图像数据集Q进行聚类,在相同聚类区域的图像例子被赋予相同的语义类别编号;步骤3:对音频数据集r也采用步骤1和歩骤2进行训练数据的标注。2.视觉和听觉特征的提取对于每一个语义类别中的图像数据,提取底层视觉特征,包括:HSV颜色直方图、颜色聚合矢量CCV和Tanmra方向度,为每幅图像构造p维的图像特征矢量^,整个语义类别中的图像数据集构成图像特征矩阵X…w;对于每一个语义类别中的音频数据,提取底层听觉特征,包括:质心(Centroicl)、衰减截至频率(Rolloff)、频谱流量(SpectralFlux)和均方根(RMS)这四个Mpeg压縮域特征,为每一段音频例子构造q维的音频特征矢量^,整个语义类别中的音频数据集构成音频特征矩阵>\,,",。如果音频数据的持续时间不同,提取的音频特征向量的维数也不同,本发明使用模糊聚类方法,在原始音频特征中提取相同数目的聚类质心作为音频索引。3.容纳多语义不同模态媒体数据的同构子空间映射在典型相关性分析的基础上,学习得到一个最优的低维子空间,最大程度地保留了原始特征向量,w和xv)之间相关性,算法步骤如下:输入:图像特征矩阵X("x,),音频特征矩阵y一,);输出:所有图像数据和音频数据在低维子空间中的向量表示丄^no和A/^w;步骤l:通过半监督学习的方式,用K-平均聚类将数据库中所有的图像数据和音频数据划分为不同的语义类别:歩骤2:在v(i^n-^Y'X4-l;v(W)==fl'卞'ra=l的约束下,使相关系数/>=最优化,采用拉格朗R乘子法得到形式为A-义勤的方程C^V'C一-"G^,求取该方程的特征根即得到矩阵A和B的解;歩骤3:线性方法构造同构子空间,即分别用基向量A和B将图像特征向量和音频特征向量映射成m维坐标—和xh。4.采用通用距离函数计算相似度当所有图像和音频数据的特征向量转换成低维子空间中的m维向量后,出现大量复数,为了计算各种模态媒体数据间的相似度,采用极坐标形式表达降维后的特征向量:x,'=(;c,V,..,a',...>;to'),(M'=a+"',(£aeJR))。因此,图像与图像之间、音频与音频之间、以及图像与音频数据之间的相似度用通用距离函数计算如下:CC4翻"',"=罕《((x汰f+|早f-2x1义"1x^1xCoy^t);检索过程中用户通过人机接口提供査询例子图像,如果该例子在训练数据库中,则根据子空间映射结果找到査询例子在子空间中的m维坐标,用通用距离函数计算与其他音频和图像数据间的距离,与査询图像例子最近的k个图像和k个音频作为査询结果返回给用户;同样,如果査询例子是一段音频,则按照上述步骤检索出相似的音频和图像对象。本发明支持单一模态的检索和跨媒体的检索,即用户提交一种模态的媒体对象作为査询,在检索结果中可以包含其他模态的媒体对象,并可以基于另一种模态对象引发新的查询。5.相关反馈通过基于内容的方法,学习视觉特征和听觉特征之间的典型相关性,从而在最大程度保持相关性不变的情况下实现子空间映射,解决特征异构性问题。但是由于底层内容与高层语义之间的鸿沟,使得学习结果与真实语义存在差异。通过用户相关反馈,在返回査询结果中标注正例和负例,从用户标注中学习语义信息,并修正学习得到的多媒体数据集在子空间中的拓扑结构。设Q表示图像训练集,A表示音频训练集,定义"修正因子"n,."-尸M(。,A)(a,eQ,6;e^),用于修正不同模态媒体对象之间的相似度:Q"o必(',^CC4必(w)+r("),修正因子初始化为零:当用户提交图像査询例子R,使用CC4必(/,y)计算R在子空间中的k近邻图像集合C,,使用CVo&(,,/)计算R在子空间中的k近邻音频集合C2,跨媒体检索的返回结果即C,和C2;在用户交互过程中,用户通过相关反馈在査询结果中标注正例P和负例N,,e尸,令,,w=>0),并根据cc^;r找到p,在音频数据库A中的k-近邻r={,,,..",...,w,按距离的升序排列,然后以等差的方式,依次修改集合r中每个元素的y值:=-r+y^,(d=r");V",eW,令/(",,,,)w,(oO),并根据CCW&找到",在音频数据库A中的k-近邻//={/11,...,/1—>},按距离的升序排列,然后以等差的方式,依次修改集合w中每个元素的y值:=yxA,(A-ww;同样,当用户提交的是音频对象时,使用同样的方法更新修正因子n,.力,下一轮的检索过程按照新的相似度排列返回的结果。6.新媒体对象的定位用户提交的单个多媒体对象,定义为新媒体对象。如果新媒体对象不在训练数据库屮,也可以通过子空间基向量,用线性的方法直接定位到训练得到的子空间中,或者通过简单的用户交互,准确定位到子空间中,同时保持在子空间中与周围的多媒体对象在语义上相似。首先使用特征提取程序提取例子图像的视觉特征向量v,分下列两种情况进行新媒体对象到同构子空间的映射:一方面,如果已知新媒体对象表达的语义信息,则根据训练得到的子空间基向量,用线性变换的方法将向量V映射到m维的同构子空间,与训练集中的其他多媒体对象计算通用距离。另一方面,如果新媒体对象表达的语义未知,采用基于内容的单模态检索,返回与査询例子相似的图像,用户标记反馈正例2=^,...,&},跨媒体检索系统用加权平均方法计算新媒体对象在m维同构子空间中的坐标=+...+/>OS(Z;)/?.;,(A+...+/3j=1)。实施例1如附图2所示,给出了一些训练数据集在低维同构子空间中拓扑结构的实例。下面结合本发明的方法详细说明该实例实施的具体步骤,如下:(1)收集7个语义(鸟类、狗、汽车、战争、老虎、松鼠、猴子)的图像数据和音频数据,作为训练数据集;(2)采用特征提取程序提取图像的HSV颜色直方图、颜色聚合矢量CCV和Tamura方向度特征,为每幅图像构造500维的视觉特征矢量,分别为7个语义类别构造70X500维的视觉特征矩阵;(3)采用特征提取程序提取音频的质心(Centroid)、衰减截至频率(Rolloff)、频谱流量(SpectralFlux)和均方根(RMS)这四个Mpeg压縮域特征;(4)音频例子的持续时间不同,提取出的特征向量长度也不同,采用模糊聚类方法,将不同维数的音频特征向量统一规格化成40维的向量,作为每段音频例子的索引,分别为7个语义类别构造70X40维的听觉特征矩阵;(5)在Matlab7.0环境下,用典型相关分析函数,分别学习7个语义类别的训练数据所对应的视觉和听觉特征矩阵之间的相关性。并用线性方法进行子空间映射,将70X500和70X40的特征矩阵分别变换成70X40和70X40的新特征矩阵;(6)根据CCWiswn-sg"S(lx汰f+^j2—2x^1xl融1xCos^)计算子空间中40维的图像特征向量和音频特征向量之间韶距离,返回与查询例子距离最近的20幅图像和20段音频;(7)在跨媒体检索过程中,用户可以通过人机界面进行交互,对跨媒体检索结果进行标法,系统自动学习用户提交的反馈正例和反馈负例,将提取的语义信息用来修正同构子空间中多媒体数据集的拓扑结构,即分别用m,力--r"^,(d,-WJfc)和mw"-乂xd2,(^"/"修正正例周围和负例周围多媒体对象的拓扑结构。图2以松鼠、鸟类和汽车为例,显示了在降维映射得到的同构子空间中,使用CCAdis度量出的媒体对象数据集的理论分布,以及经过相关反馈修正后,采用Crodis度量出的相应分布情况。在图2(a)中,与松鼠音频数据集之间CCAdis最小的图像数据集是鸟类的图像,经it相关反馈,"拉近"了松鼠音频与松鼠图像之间的Crodis距离,"推远"了松鼠音频与鸟类图像之间的Crodis距离,而松鼠图像内部的拓扑关系以及松鼠音频内部的拓扑关系基本保持不变,如图2(b)所示。可以看到,通过本发明所述的方法,可以较好地学习到图像和音频数据间的相关性,解决了不同模态媒体数据之间的异构性问题,有效实现了跨媒体的距离度量;并且通过相关反馈,学习到了用户交互过程中的语义信息,多媒体数据集在子空间中的分布更加符合高层语义之间的关系。实施例2如图4所示,给出了一个"战争"语义的检索实例。下面结合本发明的方法详细说明本实例实施的具体步骤,如下:(1)输入的是一幅"战争"语义的彩色图片作为查询例子,系统找到该幅图片对应的在同构子空间中的向量表示;(2)采用已有的数据格式转换方法将查询例子对应的子空间向量用极坐标的方式表示出來;(3)用通用距离函数计算这个査询例子与数据库中其他图像和音频之间的距离,返回甜10个最近的图像和前10个最近的音频例子;(4)另外直接使用查询例子的底层内容特征,而不进行子空间映射,与数据库中其他图像的内容特征进行匹配,即使用基于内容的单模态检索方法,返回前10个最相似的图像,与本发明中描述的方法得到的检索结果做比较。本实例的运行结果在附图4中显示,其中査询例子是一个反映"战争"语义的彩色爆炸图片,用本发明描述的方法,在同构子空间中匹配并返回的结果如图(a)所示,与之对比的(b)是直接使用底层视觉特征进行匹配返回的相似图像。即使使用彩色图像作为检索例子,也可以在前IO个检索结果中,返回与检索例子表达共同语义的黑白图片.可以看到,本发明的方法可以很好地理解彩色图像和黑白图像的共同语义,实现黑白图像与彩色图像的相互检索,有效解决了内容特征上差异较大的多媒体数据在相似度上的准确度量;而采用基于内容的单模态检索方法,只能返回与查询例子在视觉特征上相似的图片,,

基于内容相关性的跨媒体检索方法技术领域本发明涉及多媒体检索,尤其涉及一种基于内容相关性的跨媒体检索方法。背景技术基于内容的多媒体检索是计算机视觉和信息检索领域的研究热点,根据视觉、听觉或者几何等底层特征进行相似度匹配而实现检索。早在1976年,麦格克就已经揭示了人脑对外界信息的认知需要跨越和综合不同的感官信息,以形成整体性的理解。近期认知神经心理学方面的研究也进一步验证了人脑认知过程呈现出跨媒体的特性,来自视觉、听觉等不同感官的信息相互刺激、共同作用而产生认知结果。因此,目前迫切需要研究一种支持不同模态的跨媒体检索方法,突破传统基于内容的多媒体检索只作用于单模态数据的限制。基于内容的跨媒体检索技术是指通过对多媒体对象的底层特征进行分析,实现在检索过程中从一种模态到另一种模态的跨越,即用户提交一种模态的査询例子,系统返回与之相似的其他不同模态的多媒体对象,突破了单模态的图像检索、音频检索、三维图形检索等对单模态的限制。跨媒体检索是基于内容的多媒体分析与检索中一个新的研究领域,目前国际上还没有比较成熟的跨媒体检索算法和技术。90年代初期人们提出了基于内容的图像检索技术,从图像中提取底层的视觉特征,比如颜色、纹理、形状等底层视觉特征作为图像的索引。这种技术后来也被运用到视频检索和音频检索,其中针对不同媒体内容所采用的底层特征也不同,视频检索可能用到运动矢量特征,而音频检索会用到时域、频域、压縮域特征等。基于内容的多媒体检索方法早期有以QBIC、VideoQ等为代表的原型系统,但是由于缺少高层语义的支持,在准确率和效率上不能满足用户的要求;之后例子学习、融合分析和流形学习等方法被用來实现多媒体语义理解,以填补底层特征和高层语义之间的鸿沟;接着为了克服训练样本的不足,相关反馈机制常被使用,以结合用户的感知先验知识,例如:利用反馈信息修改查询向量使其向相关检索对象的分布中心移动、调整距离度量公式中各分量的权值等,近来一些机器学习方法也与相关反馈方法相结合。这些方法的使用,一定程度上縮小了语义鸿沟,提高了单模态检索的性能。然而,现有的多媒体检索系统都只能检索包含单一模态的多媒体数据库,或虽能处理多模态的媒体数据,却不支持跨媒体的检索,即根据一种模态的多媒体对象检索到其他模态的多媒体对象。由于图像的视觉特征与音频的听觉特征之间不但特征维数不同,而且表达不同的属性,无法直接度量相似性,这种异构性和不可比性同样存在于其他模态的多媒体数据之间。因此,上述单模态检索方法都不能直接用于跨媒体检索,因为与单模态检索不同,跨媒体检索的研究对象是不同模态、彼此异构的底层特征空间。—些研究者先后提出了类似跨媒体思想的研究,例如通过挖掘多模态特征进行视频数据库的索引和检索,对视频新闻所包含的转录文本和互联网页面所包含的文本进行分析,实现视频对象和互联网页面在文本特征上的相似匹配。但是,这些研究是针对特定模态媒体对象中不同的底层特征,例如:视频片断中包含的转录文本、颜色、纹理等,不能实现不lnj模态媒体数据间的灵活跨越。典型相关性分析(CanonicalCorrelationAnalysis)是一种统计分析方法,最早〗、V:川于经济、医学、气象等方面的数据分析。但是在多媒体数据分析与检索方面,典型相关性分析却很少被使用到,因为这种统计分析方法是分析两种不同变量场之间存在的相关性信息,而传统的单模态检索技术研究的是一种模态的单一特征空间。发明内容本发明为克服上述现有方法在检索模态上的限制,提供了一种基于内容相关性的跨媒体检索方法。基于内容相关性的跨媒体检索方法包括以下步骤-(1)从多媒体数据库采集不同模态的对象:图像和音频数据;(2)提取图像数据的视觉特征,以及音频数据的听觉特征,采用典型相关性分析提取得到的视觉和听觉特征之间的典型相关性;(3)采用同构子空间映射算法,将图像数据的视觉特征向量和音频数据的听觉特征向量同时映射到一个低维的同构子空间中,实现不同模态媒体数据的统一表达;(4)采用极坐标的方式定义通用距离函数,度量不同模态媒体数据间的相关性大小,并以此为依据进行跨媒体检索;(5)基于增量学习的相关反馈机制,用于提取用户交互中的先验知识,以修正多媒体数据集在同构子空间中的拓扑结构;(6)根据子空间映射过程中求取的基向量,或者通过相关反馈机制,将训练集以外的其他媒体对象准确定位到同构子空间中。所述的提取图像数据的视觉特征,以及音频数据的听觉特征,采用典型相关性分析提取得到的视觉和听觉特征之间的典型相关性:图像的底层视觉特征构成p维的图像特征矢量,音频的底层听觉特征构成q维音频特征矢量,采用典型相关性分析同时学习图像的视觉特征w和音频的听觉特征i^M),异构的特征矩阵义…w和y(""之间相关系数计算如下:CxxC砂C戸C>y7其中A和B为线性变换,按公式2把具有较多个变量的特征矩阵X和Y之间的相关化为较少组合变量L与M间的相关,A和B的数值分布确定X与Y的空间相关分布形式,A和B的数值大小确定所对应变量的重要程度。采用同构子空间映射算法,将图像数据的视觉特征向量和音频数据的听觉特征向量同时映射到一个低维的同构子空间中,实现不同模态媒体数据的统一表达:同构子空间映射算法在典型相关性分析的基础上,学习得到一个最优的低维子空间,最大程度地保留了原始特征向量xw和y(„,w之间相关性,算法步骤如下:输入:图像特征矩阵JT—,),音频特征矩阵y"m);输出:所有图像数据和音频数据在低维子空间中的向量表示丄(nxm)和M(„>«„);歩骤l:通过半监督学习的方式,用K平均聚类将数据库中所有的图像数据和音频数据划分为不同的语义类别;歩骤2:在公式3的约束下,使相关系数p-r(丄,A/)最优化,v(£)=""'.;r''a"/i=i;v(m)=wrM=Wra=i3采用拉格朗闩乘子法得到形式为A=A勤的方程c^v'cw=,求取该方程的特征根即得到矩阵A和B的解;步骤3:线性方法构造同构子空间,即分别用基向量A和B将图像特征向量和音频特征向量映射成m维坐标"xm)和xw。采用极坐标的方式定义通用距离函数,度量不同模态媒体数据间的相关性大小,并以此为依据进行跨媒体检索:图像和音频数据在m维于空间中用极坐标的形式定义特征向量》'=Oc,,',...,^',...,^'),(^'-a+6-i,(a,6e/?)),图像与图像之间、音频与音频之间、以及图像与音频数据之间的相似度用通用距离函数计算如下-«224CC4翻j,.',*')=j+l阜1-2x|jw1x|阜jxCoW*);y?汰-orc柳/a),W""y,/te【l,m】检索过程中用户通过人机接口提供査询例子图像,如果该例子在训练数据库中,则根据子空间映射结果找到査询例子在子空间中的ra维坐标,用通用距离函数计算与其他音频和图像数据间的距离,与査询图像例子最近的k个图像和k个音频作为査询结果返回给用户;同样,如果查询例子是一段音频,则按照上述步骤检索出相似的音频和图像对象。基于增量学习的相关反馈机制,用于提取用户交互中的先验知识,以修正多媒体数据集在同构子空间中的拓扑结构:系统可以在相关反馈过程中学习用户提供的感知先验知识,设Q表示图像训练集,A表示音频训练集,定义"修正因子<formula>formulaseeoriginaldocumentpage9</formula>用于修正不同模态媒体对象之间的相似度:<formula>formulaseeoriginaldocumentpage9</formula>修正因子初始化为零;当用户提交图像查询例子R,使用<formula>formulaseeoriginaldocumentpage9</formula>计算R在子空间中的k近邻图像集合d,使用<formula>formulaseeoriginaldocumentpage9</formula>血<formula>formulaseeoriginaldocumentpage9</formula>,力计算R在子空间中的k近邻音频集合C2,跨媒体检索的返回结果即C,和C2;在用户交互过程中,用户通过相关反馈在查询结果中标注正例P和负例<formula>formulaseeoriginaldocumentpage9</formula>,令<formula>formulaseeoriginaldocumentpage9</formula>并根据<formula>formulaseeoriginaldocumentpage9</formula>找到户在音频数据库A中的k-近邻r={,,,..",...,"},按距离的升序排列,然后以等差的方式,依次修改集合r中每个元素的r值<formula>formulaseeoriginaldocumentpage9</formula>V",eW,令=r,(r>0),并根据CC4fifa找到w在音频数据库A中的k-近邻//={//,,...,//,,...>},按距离的升序排列,然后以等差的方式,依次修改集合H中每个元素的y值:同样,当用户提交的是音频对象时,使用同样的方法更新修正因子".力,下一轮的检索过程按照新的相似度排列返回的结果。根据子空间映射过程中求取的基向量,或者通过相关反馈机制,将训练集以外的其他媒体对象准确定位到同构子空间中:当用户提交的査询例子不属于训练数据集时,使用特征提取程序提取例子图像的视觉特征向量V,分下列两种情况进行新媒体对象到同构子空间的映射:(1)如果已知新媒体对象表达的语义信息,则根据权利要求3所描述的训练得到的子空间基向量,用线性变换的方法将向量V映射到m维的同构子空间,与训练集中的其他多媒体对象计算通用距离;(2)如果新媒体对象表达的语义未知,采用基于内容的单模态检索,返回与查询例子相似的图像,用户标记反馈正例2-{21,...,《,},跨媒体检索系统用加权平均方法计算新媒体对象在m维同构子空间中的坐标尸(w(7)=尸os(a)A+...+尸cw(z,)/9/,(/9,+...+/?y=1)。本发明的有益效果:1)该方法突破了基于内容的多媒体检索只针对单模态的限制,提出一种全新的跨媒体检索方法。该方法同时分析两种不同模态的内容特征,挖掘特征之间在统计意义上的典型相关性;2)子空间映射方法不但解决了不同模态间的异构性问题,而且最大程度地在子空间中保持了多模态特征之间的相关性信息,这种相关性信息实际上是一种语义关联信息,因此该方法在实现特征降维的同时融合了语义;3)不同模态的媒体对象可以用同构的向量表示,在极坐标系下计算向量之间的相似度,即相同模态之间和不同模态之间的距离。附图说明图i是基于内容相关性的跨媒体检索方法的系统框架图;图2(a)是本发明的同构子空间中在相关反馈之前的多媒体数据集分布示意图-,图2(b)是本发明的同构子空间中在相关反馈之后的多媒体数据集分布示意图;图3(a)是本发明以"汽车"图像为检索例子采用同构子空间方法得到检索结果;图3(b)是本发明以"汽车"图像为检索例子直接采用内容特征得到的检索结果:图4(a)是本发明以"战争"图像为检索例子采用同构子空间方法得到的检索结果;图4(b)是本发明以"战争"图像为检索例子直接采用内容特征得到的检索结果。具体实施方式不同模态媒体对象的底层内容特征,如图像的视觉特征(颜色、纹理、形状等)与音频的听觉特征(时域特征、频域特征、时频特征等),不但特征维数异构,而且表达不同的属性,无法直接度量相似性。本发明可以同时分析异构的视觉特征与听觉特征,并以特征之间的典型相关性为依据,进行子空间映射,解决了跨媒体检索中的异构性与不可比性问题,而且子空间映射过程最大程度地保留了初始特征之间的相关性信息。本发明的基于内容相关性的跨媒体检索方法具体实施的技术方案及步骤如下:1.训练数据的选取和标注视觉特征和听觉特征之间的典型相关性学习,是建立在语义联系的基础上,用统计分析的方法,从底层特征中挖掘语义层次上的相互联系。训练数据的选取需要同时有图像数据和音频数据表达相似语义。例如,对于"狗"这个语义类别,选取表达"狗"外形特征的图片,以及表达"狗"叫声的音频片断作为训练数据。在己知语义类别个数,图像数据和音频数据的语义标注未知的情况下,采用半监督式学习,结合K平均聚类的方法对数据库中所有的图像和音频数据进行标注,并聚类到不同的语义类别,具体步骤如下:输入:未标注的图像数据集Q和音频数据集r,语义类别个数Z;输出:每个图像数据和每个音频数据所属的语义类别编号;步骤l:对于语义类别Z,随机标注5个图像例子A,计算A的聚类质心/0,:步骤2:以/Cfn为K平均聚类算法的初始输入,对整个图像数据集Q进行聚类,在相同聚类区域的图像例子被赋予相同的语义类别编号;步骤3:对音频数据集r也采用步骤1和歩骤2进行训练数据的标注。2.视觉和听觉特征的提取对于每一个语义类别中的图像数据,提取底层视觉特征,包括:HSV颜色直方图、颜色聚合矢量CCV和Tanmra方向度,为每幅图像构造p维的图像特征矢量^,整个语义类别中的图像数据集构成图像特征矩阵X…w;对于每一个语义类别中的音频数据,提取底层听觉特征,包括:质心(Centroicl)、衰减截至频率(Rolloff)、频谱流量(SpectralFlux)和均方根(RMS)这四个Mpeg压縮域特征,为每一段音频例子构造q维的音频特征矢量^,整个语义类别中的音频数据集构成音频特征矩阵>\,,",。如果音频数据的持续时间不同,提取的音频特征向量的维数也不同,本发明使用模糊聚类方法,在原始音频特征中提取相同数目的聚类质心作为音频索引。3.容纳多语义不同模态媒体数据的同构子空间映射在典型相关性分析的基础上,学习得到一个最优的低维子空间,最大程度地保留了原始特征向量,w和xv)之间相关性,算法步骤如下:输入:图像特征矩阵X("x,),音频特征矩阵y一,);输出:所有图像数据和音频数据在低维子空间中的向量表示丄^no和A/^w;步骤l:通过半监督学习的方式,用K-平均聚类将数据库中所有的图像数据和音频数据划分为不同的语义类别:歩骤2:在v(i^n-^Y'X4-l;v(W)==fl'卞'ra=l的约束下,使相关系数/>=最优化,采用拉格朗R乘子法得到形式为A-义勤的方程C^V'C一-"G^,求取该方程的特征根即得到矩阵A和B的解;歩骤3:线性方法构造同构子空间,即分别用基向量A和B将图像特征向量和音频特征向量映射成m维坐标—和xh。4.采用通用距离函数计算相似度当所有图像和音频数据的特征向量转换成低维子空间中的m维向量后,出现大量复数,为了计算各种模态媒体数据间的相似度,采用极坐标形式表达降维后的特征向量:x,'=(;c,V,..,a',...>;to'),(M'=a+"',(£aeJR))。因此,图像与图像之间、音频与音频之间、以及图像与音频数据之间的相似度用通用距离函数计算如下:CC4翻"',"=罕《((x汰f+|早f-2x1义"1x^1xCoy^t);检索过程中用户通过人机接口提供査询例子图像,如果该例子在训练数据库中,则根据子空间映射结果找到査询例子在子空间中的m维坐标,用通用距离函数计算与其他音频和图像数据间的距离,与査询图像例子最近的k个图像和k个音频作为査询结果返回给用户;同样,如果査询例子是一段音频,则按照上述步骤检索出相似的音频和图像对象。本发明支持单一模态的检索和跨媒体的检索,即用户提交一种模态的媒体对象作为査询,在检索结果中可以包含其他模态的媒体对象,并可以基于另一种模态对象引发新的查询。5.相关反馈通过基于内容的方法,学习视觉特征和听觉特征之间的典型相关性,从而在最大程度保持相关性不变的情况下实现子空间映射,解决特征异构性问题。但是由于底层内容与高层语义之间的鸿沟,使得学习结果与真实语义存在差异。通过用户相关反馈,在返回査询结果中标注正例和负例,从用户标注中学习语义信息,并修正学习得到的多媒体数据集在子空间中的拓扑结构。设Q表示图像训练集,A表示音频训练集,定义"修正因子"n,."-尸M(。,A)(a,eQ,6;e^),用于修正不同模态媒体对象之间的相似度:Q"o必(',^CC4必(w)+r("),修正因子初始化为零:当用户提交图像査询例子R,使用CC4必(/,y)计算R在子空间中的k近邻图像集合C,,使用CVo&(,,/)计算R在子空间中的k近邻音频集合C2,跨媒体检索的返回结果即C,和C2;在用户交互过程中,用户通过相关反馈在査询结果中标注正例P和负例N,,e尸,令,,w=>0),并根据cc^;r找到p,在音频数据库A中的k-近邻r={,,,..",...,w,按距离的升序排列,然后以等差的方式,依次修改集合r中每个元素的y值:=-r+y^,(d=r");V",eW,令/(",,,,)w,(oO),并根据CCW&找到",在音频数据库A中的k-近邻//={/11,...,/1—>},按距离的升序排列,然后以等差的方式,依次修改集合w中每个元素的y值:=yxA,(A-ww;同样,当用户提交的是音频对象时,使用同样的方法更新修正因子n,.力,下一轮的检索过程按照新的相似度排列返回的结果。6.新媒体对象的定位用户提交的单个多媒体对象,定义为新媒体对象。如果新媒体对象不在训练数据库屮,也可以通过子空间基向量,用线性的方法直接定位到训练得到的子空间中,或者通过简单的用户交互,准确定位到子空间中,同时保持在子空间中与周围的多媒体对象在语义上相似。首先使用特征提取程序提取例子图像的视觉特征向量v,分下列两种情况进行新媒体对象到同构子空间的映射:一方面,如果已知新媒体对象表达的语义信息,则根据训练得到的子空间基向量,用线性变换的方法将向量V映射到m维的同构子空间,与训练集中的其他多媒体对象计算通用距离。另一方面,如果新媒体对象表达的语义未知,采用基于内容的单模态检索,返回与査询例子相似的图像,用户标记反馈正例2=^,...,&},跨媒体检索系统用加权平均方法计算新媒体对象在m维同构子空间中的坐标=+...+/>OS(Z;)/?.;,(A+...+/3j=1)。实施例1如附图2所示,给出了一些训练数据集在低维同构子空间中拓扑结构的实例。下面结合本发明的方法详细说明该实例实施的具体步骤,如下:(1)收集7个语义(鸟类、狗、汽车、战争、老虎、松鼠、猴子)的图像数据和音频数据,作为训练数据集;(2)采用特征提取程序提取图像的HSV颜色直方图、颜色聚合矢量CCV和Tamura方向度特征,为每幅图像构造500维的视觉特征矢量,分别为7个语义类别构造70X500维的视觉特征矩阵;(3)采用特征提取程序提取音频的质心(Centroid)、衰减截至频率(Rolloff)、频谱流量(SpectralFlux)和均方根(RMS)这四个Mpeg压縮域特征;(4)音频例子的持续时间不同,提取出的特征向量长度也不同,采用模糊聚类方法,将不同维数的音频特征向量统一规格化成40维的向量,作为每段音频例子的索引,分别为7个语义类别构造70X40维的听觉特征矩阵;(5)在Matlab7.0环境下,用典型相关分析函数,分别学习7个语义类别的训练数据所对应的视觉和听觉特征矩阵之间的相关性。并用线性方法进行子空间映射,将70X500和70X40的特征矩阵分别变换成70X40和70X40的新特征矩阵;(6)根据CCWiswn-sg"S(lx汰f+^j2—2x^1xl融1xCos^)计算子空间中40维的图像特征向量和音频特征向量之间韶距离,返回与查询例子距离最近的20幅图像和20段音频;(7)在跨媒体检索过程中,用户可以通过人机界面进行交互,对跨媒体检索结果进行标法,系统自动学习用户提交的反馈正例和反馈负例,将提取的语义信息用来修正同构子空间中多媒体数据集的拓扑结构,即分别用m,力--r"^,(d,-WJfc)和mw"-乂xd2,(^"/"修正正例周围和负例周围多媒体对象的拓扑结构。图2以松鼠、鸟类和汽车为例,显示了在降维映射得到的同构子空间中,使用CCAdis度量出的媒体对象数据集的理论分布,以及经过相关反馈修正后,采用Crodis度量出的相应分布情况。在图2(a)中,与松鼠音频数据集之间CCAdis最小的图像数据集是鸟类的图像,经it相关反馈,"拉近"了松鼠音频与松鼠图像之间的Crodis距离,"推远"了松鼠音频与鸟类图像之间的Crodis距离,而松鼠图像内部的拓扑关系以及松鼠音频内部的拓扑关系基本保持不变,如图2(b)所示。可以看到,通过本发明所述的方法,可以较好地学习到图像和音频数据间的相关性,解决了不同模态媒体数据之间的异构性问题,有效实现了跨媒体的距离度量;并且通过相关反馈,学习到了用户交互过程中的语义信息,多媒体数据集在子空间中的分布更加符合高层语义之间的关系。实施例2如图4所示,给出了一个"战争"语义的检索实例。下面结合本发明的方法详细说明本实例实施的具体步骤,如下:(1)输入的是一幅"战争"语义的彩色图片作为查询例子,系统找到该幅图片对应的在同构子空间中的向量表示;(2)采用已有的数据格式转换方法将查询例子对应的子空间向量用极坐标的方式表示出來;(3)用通用距离函数计算这个査询例子与数据库中其他图像和音频之间的距离,返回甜10个最近的图像和前10个最近的音频例子;(4)另外直接使用查询例子的底层内容特征,而不进行子空间映射,与数据库中其他图像的内容特征进行匹配,即使用基于内容的单模态检索方法,返回前10个最相似的图像,与本发明中描述的方法得到的检索结果做比较。本实例的运行结果在附图4中显示,其中査询例子是一个反映"战争"语义的彩色爆炸图片,用本发明描述的方法,在同构子空间中匹配并返回的结果如图(a)所示,与之对比的(b)是直接使用底层视觉特征进行匹配返回的相似图像。即使使用彩色图像作为检索例子,也可以在前IO个检索结果中,返回与检索例子表达共同语义的黑白图片.可以看到,本发明的方法可以很好地理解彩色图像和黑白图像的共同语义,实现黑白图像与彩色图像的相互检索,有效解决了内容特征上差异较大的多媒体数据在相似度上的准确度量;而采用基于内容的单模态检索方法,只能返回与查询例子在视觉特征上相似的图片,,

Description