相关动态
ECCV 2024 | 北大提出图像检索新方法!支持输入草图/艺术画/低分辨率!
2024-11-10 18:14

点击下方卡片,关注“CVer”公众号

ECCV 2024 | 北大提出图像检索新方法!支持输入草图/艺术画/低分辨率!

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer111,小助手会拉你进群

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐

892020048141d39774d8ebd327aa727e.png

李昊 投稿转载自:量子位(QbitAI

从一大堆图片中精准找图,有新招了!论文已经中了ECCV 2024。

北京大学袁粒课题组,联合南洋理工大学实验室,清华自动化所提出了一种新的通用检索任务通用风格检索(Style-Diversified Retrieval)

850b10975b4f3517e027234b56e8038b.png

一句话,这种检索任务要求模型面对风格多样的查询条件时,依然能精准找图。

传统图片检索主要靠文本查询,查询方法单一不说,在使用其他检索方案的性能也一般。

而论文提出的新图像检索方法,能够根据多样化的查询风格(如草图、艺术画、低分辨率图像和文本等)来检索相应图像,甚至包括组合查询(草图+文本、艺术+文本等)。

b022cb018a1aff49d2b02b739f7f707c.png

同时,模型在与其他检索基线之间的性能比较中达到SOTA(最外围蓝色

88cd03628ae634bf668dba24a560c3e7.png

目前,论文已在arXiv公开,相关代码和数据集也已开源。

当前,图像检索的一大痛点是

让检索模型具备理解多样化用户查询向量的能力

通俗点说就是,不管用户用哪种方式检索查询,最后都能命中用户想要的图像。

为了实现这一点,团队进行了两项工作

  • 构建专有的检索数据集,包括多种类型的查询图片。

  • 提出即插即用的框架,使传统检索模型也能快速具有通用检索能力。

数据集构建

针对多种查询风格的图片文本检索任务,团队生成并构建了细粒度检索数据集DSR(Diverse-Style Retrieval Dataset)。

展开来说,数据集包括10,000张自然图片以及对应的四种检索风格(文本、草图、低分辨率、卡通艺术)。

93fc3119beca566e1462a8243f043889.png

其中的草图标注由FSCOCO数据集提供,卡通艺术图片和低分辨率图像由AnimateDiff生成。

同时,团队也采用ImageNet-X作为大尺寸粗粒度的多风格检索数据集。

ImageNet-X包括100万张带有各种风格标注的自然图片,相较于DSR,ImageNet-X数据集的图片更加简单,便于检索。

提出FreestyleRet框架

概括而言,FreestyleRet框架通过将图片风格提取并注入,有效解决了当前图片检索模型无法兼容不同类型的检索向量的问题。

在构建FreestyleRet框架时,团队主要考虑到两个问题

  • 如何有效地理解不同风格的查询向量的语义信息。

  • 如何有效利用现有的图文检索模型,实现优秀的扩展能力。

围绕这两个核心问题,团队设计三个模块来组成FreestyleRet框架

(1)基于格拉姆矩阵的风格提取模块用于显式提取未知查询向量的风格表征(2风格空间构建模块,通过对风格表征聚类从而构建检索的风格空间,并将聚类中心作为风格的一致性表征(3风格启发的提示微调模块,通过对检索模型的Transformer layer进行风格初始化的插值,实现对现有检索模型的多风格查询能力扩展。

ec4c06cfe0d744370ada7e750aa83a8b.png

风格提取与风格空间的构建

格拉姆矩阵被验证为有效的图像风格提取方案,在本论文中团队采用基于格拉姆矩阵的风格提取模块对不同类型的查询向量进行风格提取。

团队采用冻结的VGG轻量化网络对查询向量进行表征编码,并选取浅层卷积表征作为风格提取的基特征,具体公式如下

d28e7c72d01f970515f702b589f8faac.png

在得到查询向量对应的风格表征集合后,团队为查询向量集合构建整体的风格空间

具体来说,采用K-Means聚类算法,迭代式的计算四种不同风格的查询向量集合对应的聚类中心,然后再对每个风格表征计算其所属的风格中心,并根据新的风格表征集合重新调整聚类中心的位置。

当聚类中心位置不再发生变化即为迭代完毕,公式如下

b22d36aa2df734f351ba721ebf7e5dff.png264068b050a955cc5252b4daf6d73daa.png

在风格空间中,团队将不同查询向量风格对应的不同聚类中心作为风格空间的基向量。

而在推理过程中面对未知风格的查询向量,风格空间将计算查询向量在基向量上的投影,通过对基向量投影与基向量的加权求和,风格空间实现对未知风格的量化。

高效风格注入的提示微调模块

在图像文本检索领域,基于Transformer结构的ALBEF, CLIP, BLIP等基础检索模型受到广泛的使用,很多下游工作采用了这些基础检索模型的编码器模块

为了让FreestyleRet框架能够便捷且高效的适配这些基础检索模型,团队采用风格表征初始化的token对基础编码器的Transformer结构进行提示微调

具体来说,在encoder layer的每层都插入使用量化风格表征初始化的可学习token,从而实现风格向编码器注入的流程。

6c4a702f0619d9162c78e15d135c77fa.png

在定量实验角度,团队分析了基于FreestyleRet架构的BLIP和CLIP模型在DSR数据集以及ImageNet-X数据集的Recall@1, Recall@5性能。

实验证明,面对多种风格的查询向量时,FreestyleRet框架可以显著增强现有检索模型的泛化能力具有2-4%的提升

5a98b0e02f0d0b9762eed0d504835b06.png

而团队也进一步验证FreestyleRet框架对于多个不同风格的查询向量共同输入的性能共同输入的查询向量可以进一步提升模型的检索精度。

c28b5a52813db5a293642c6942c71102.png

通过对特征分布进行可视化,团队发现使用FreestyleRet结构的基础检索模型能够有效分离查询向量中的风格信息与语义信息,并实现语义角度的高维空间聚类。

df8e04080347eee3f698217f8ea04d14.png

团队也对实际的检索推理流程进行了示例的可视化,以验证模型的泛化性。

2868dd2d78884a938214d0b1f2b7fdd7.png

总之,模型在5种不同类型的检索向量上都取得了良好效果,而且还在多种检索向量共同检索的子任务上表现了良好的扩展性。

更多详情欢迎查阅原论文。

论文:https://arxiv.org/abs/2312.02428代码、数据集:https://github.com/CuriseJia/FreeStyleRet

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复何恺明即可下载本课程的所有566页课件PPT!赶紧学起来

ECCV 2024 论文和代码下载

CVPR 2024 论文和代码下载

Mamba、多模态和扩散模型交流群成立

 
 

    以上就是本篇文章【ECCV 2024 | 北大提出图像检索新方法!支持输入草图/艺术画/低分辨率!】的全部内容了,欢迎阅览 ! 文章地址:http://sjzytwl.xhstdz.com/news/4844.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://mip.xhstdz.com/ , 查看更多   
最新文章
电信卡怎么异地销户 销户流程是什么手机卡停机多久会被注销「电信卡怎么异地销户 销户流程是什么」
随着手机普及率越来越高,人们因为更工作、学习等各种原因更换手机号的频率也是越来越高,对于不用的手机号我们都需要进行销户,
梦金园去年净利同比降17.8%至1.89亿元 海外增700%
《科创板日报》3月29日讯(记者 徐赐豪)近期,黄金行情不断上涨,引发资本市场高度关注,黄金相关的企业也备受瞩目。昨晚公布其
怎么找回qq密码qq密码忘记了手机号也换了怎么办「怎么找回qq密码」
在日常的数字生活中,QQ作为我们常用的通讯工具之一,其账号安全显得尤为重要。然而,偶尔我们可能会遇到忘记密码的尴尬情况。别
大屏智能千元机 酷派5860价格欲破1100元酷派5860手机「大屏智能千元机 酷派5860价格欲破1100元」
(中关村在线手机频道行情报道)2012年3月6日,酷派5860(行货)在“ZOL商城”促销,最新报价为1181元,含发票。本款的配件为:
计步器怎么删掉手机自动计步器「计步器怎么删掉」
计步器作为现代智能设备的一部分,已经成为许多人日常健康管理的得力助手。然而,在某些情况下,用户可能需要删除计步器中的数据
三星今天上午宣布Note7爆炸原因 已导致损失超10亿美元手机爆炸「三星今天上午宣布Note7爆炸原因 已导致损失超10亿美元」
2016年8月, Galaxy Note 7智能手机在上市后,“引爆”了全球对于手机市场安全问题的关注,上百起电池燃烧事故让三星频繁陷入舆
CBA八强出炉!下半区比上半区惨烈,9-12最终排名确定!
在附加赛全部结束之后,八强的对阵已经全部出来了。其中上半区:广厦-青岛、辽宁-新疆。广厦和青岛的比赛,大家肯定都看好广厦。
财知道 | 爆卖上百万件!巴掌大的小东西,是年轻人的“到此一游”
或是四四方方、圆圆造型,或是形态各异,一块硬板刻着各式内容,再配上一块方寸大小的磁力贴片,曾被人吐槽“又土又贵”的冰箱贴
Z趋势:4G高速时代 机会与挑战并存4g手机价格「Z趋势:4G高速时代 机会与挑战并存」
2013年12月4日下午,工业和信息化部向中国联通、中国电信、中国移动正式发放了第四代移动通信业务牌照(即4G牌照),三家均获得T
华为手机工程模式怎么进入(华为手机工程模式怎么进入桌面)手机工程模式「华为手机工程模式怎么进入(华为手机工程模式怎么进入桌面)」
华为手机工程模式怎么进入相信很多小伙伴还不知道,现在让我们一起来看看吧!华为手机工程模式怎么进入(华为手机工程模式怎么进入