- Java锁的逻辑(结合对象头和ObjectMonitor)
- 还在用饼状图?来瞧瞧这些炫酷的百分比可视化新图形(附代码实现)⛵
- 自动注册实体类到EntityFrameworkCore上下文,并适配ABP及ABPVNext
- 基于Sklearn机器学习代码实战
大家好,我是 卷了又没卷,薛定谔的卷的AI算法工程师「陈城南」 ~ 担任某大厂的算法工程师,带来最新的前沿 AI知识和工具 ,欢迎 大家交流 ~ 。
继MetaAI 的 SAM后,OPPO 研究院发布识别一切模型(Recognize Anything Model,RAM):
项目链接: https://recognize-anything.github.io/ 。
Demo链接: https://huggingface.co/spaces/xinyu1205/Tag2Text 。
源码链接: https://github.com/xinyu1205/recognize-anything 。
论文链接: https://arxiv.org/pdf/2306.03514.pdf 。
无论是从论文内容、源码git或者Demo,都不难看出 RAM 其实是一个增强型的 Tag2Text ,RAM中提到的识别,本质上是 图片标记 任务(image tagging),而 Tag2Text 也是作者团队提出的可应用于 image tagging 任务的大模型预训练框架.
图片识别:给一个图片,旨在通过识别给定图像的多个标签来提供语义标签,可以理解为给出多个tags用来形容这个图,包括目标(object)、场景(scene)、属性(attribute)和行为(action),是一个多标签分类(multi-label classification).
分割一切模型(SAM)[12]的Zero Shot能力很强,但其 只有定位能力 (location), 没有识别能力 (SAM只能给出分割Mask,没法指定该Mask的类别)。因此 RAM旨在于提供强大的识别能力 (包含Zero Shot的识别能力)。作者也将RAM和定位模型(SAM、Grounding-DINO)进行了结合,具体在 Grounded-SAM 项目中,这样就能同时达到定位+识别了。下图是作者给出的SAM、RAM等模型的分别特点.
由于RAM的很大工作都是基于Tag2Text,所以在介绍RAM前我需要先介绍Tag2Text,了解Tag2Text论文的朋友可以直接看RAM.
Tag2Text是一种视觉语言预训练(Vision Language Pretrain, VLP)框架。在该框架中, 作者通过对视觉语言模型 (Vision-Language Models) 引入图片标记 (images tagging) 任务来指导模型学习更好的视觉-语言特征 。图片标记,类似于给一个图片打个多个与图片有关的label,有点像多label分类.
如上图所示,之前的Tagging方法(OSCAR [32]、VIVO [21]、VinVL [61])遵循的是基于检测器的范式。通过使用目标 tags 作为锚点来简化图片和文本之间的语义对其。这些方法通过一个检测器来提取图片特征,并送进多模态交互模块中进行学习。这种情况下检测器参数都是冻住的(如果梯度优化检测性能就会骤降),所以检测器不能优化,导致检测器性能会制约视觉-语言特征的学习.
作者提出了用 图片标记 来作为 视觉语音预训练的多任务 ,有两个关键问题: 数据 和 网络结构 .
引入了图片标记(image tagging)就需要构造图片中的tags 作为 label 用于训练。因为 image-text-pair数据很丰富,所以作者对image-text-pair进行自动化文本语义解析,从而从text中获取图片的tags。这样,图像tags能提供了图像和文本之间更好的桥梁,因为解析的标记类别更加多样化,同时比目标检测的object更丰富,有例如场景、属性、动作等.
从Text挖掘Tags来构建数据,包含2个关键:
解析获取Tags: 利用解析器[58]来识别Text中的实体(head+modifier)和关系,然后映射出tags:Head->目标(object)和场景(scene),modifier->attribute,relationship->action; 。
筛选有效Tags: 得到解析后的Tags集合,按照Tags的频率将其排序,只取前5000个最高频的进行人工筛序,最后保留了3429个tag类别作为需要的有效Tags; 。
如下图, 包含3个分支:Tagging, Generation, Alignment ,为不同的任务分支,训练后分别可以用于不同的子任务。比如下图右边的:多标签识别(就是tagging),Image Caption生成,Visual QA 和 Image-Text 检索,这几个子任务.
Image Tagging :用了Query2Label[35]中的多label分类transformer decoder(用法如下图,都是DETR的思路),同时为了避免解析的tags中有某些对应图片tag的缺失、正负样本的不平衡,使用了Asymmetirc Loss(ASL)[44].
Image-Tag-Text Generation :用了NLP中标准的transformer的encoder-decoder框架,tags/text 都经过 tokennizer + embeding matrix 映射为 embeding,然后 tags embeding(随机乱序,防止顺序影响学习)与 image embedding(features) 一起送入 encoder,再经过decoder解码。输出与text embedding进行loss计算。 相当于用 tag 指导 image 生成 text; 。
Image-Text Alignment: 用了BLIP[29] 中 Encoder 结构(如下),image embedding 与 text embeding送入encoder,用粗粒度的 Image-Text Contrastive(ITC) Loss 和 细粒度的 Image-Text Matching(ITM) Loss 分别进行监督.
如图,SAM结构上与 Tag2Text 相似,Tag2Text 有3个分支,tagging,generation 和 alignment; SAM 只保留了 Tagging 和 Generation 两个 ,其中 Tagging 分支用来多tags推理,完成识别任务;Generation用来做 image caption任务;Tag2Text 中的alignment是做 Visual-Language Features学习的,在这里被移除了.
Image Encoder 使用 Swin, 。
训练时,Tagging分支和Generation分支都用 解析的Tags作为label; 。
测试时,Tagging会输出Tags,用于Generation的Caption任务生成最终的Text; 。
综合起来,SAM在网络上基本和Tag2Text一致,多了一点区别在和图中的CLIP有关,具体在 开放词汇识别 这一节.
开放词汇识别 。
受[23, 28]的启发,作者把每个Tag进行prompt ensembling[22] 扩充,然后送入训好的CLIP Text Encoder得到其对应的文本标签查询(Textual label queries,其实就是 promopt + tag 的 embedding),作者认为这些 queries 比可学习的参数有更强的语义性和上下文信息。然后将这些Label Queris送进Tagging Decoder用image features进行Cross Attention.
不做Tag prompt扩充的话,tag太短了,送入模型得到的embedding会比较差; 。
另外作者还用CLIP的Image Encoder对SAM的图片feature进行蒸馏(因为CLIP的image和text特征是对齐的),这样SAM模型在没见过的类别也会有更好的特征生成.
所以综合来看,SAM和Tag2Text在网络框架上的区别,基本也就在这个CLIP的额外使用上.
在 Tag2Text 中作者利用 image-text-pair 的 text 进行解析,得到 tags,然后利用高频排序进行筛选,取了前5k的。频率越高越重要.
SAM中则进一步扩大了数据量,同时频率筛选扩大到top-10k。还有一系列扩大数据量的方法,直接翻译下摘要大家可以看看,数据这部分就不赘述了,细节大家看看原文吧:
标签系统:我们首先建立一个通用和统一的标签系统。我们结合了来自流行学术数据集(分类、检测和分割)以及商业标记产品(谷歌、微软、苹果)的类别。我们的标签系统是通过将所有公共标签与文本中的公共标签合并而获得的,从而覆盖了大多数公共标签,数量适中,为 6,449。剩余的开放词汇标签可以通过开放集识别来识别.
数据集:如何用标签系统自动标注大规模图像是另一个挑战[30]。从 CLIP [22] 和 ALIGN [11] 中汲取灵感,它们大规模利用公开可用的图像文本对来训练强大的视觉模型,我们采用类似的数据集进行图像标记。为了利用这些大规模图像文本数据进行标记,按照[9、10],我们解析文本并通过自动文本语义解析获得图像标签。这个过程使我们能够根据图像文本对获得各种各样的无注释图像标签.
数据引擎:然而,来自网络的图像文本对本质上是嘈杂的,通常包含缺失或不正确的标签。为了提高注释的质量,我们设计了一个标记数据引擎。在解决丢失的标签时,我们利用现有模型生成额外的标签。对于不正确的标签,我们首先定位与图像中不同标签对应的特定区域。随后,我们采用区域聚类技术来识别和消除同一类中的异常值。此外,我们过滤掉在整个图像及其相应区域之间表现出相反预测的标签,确保更清晰和更准确的注释.
因为RAM在分类、检测、分割等数据集都有覆盖,同时也有seen数据(训练数据中有的)和unseen数据(训练中没有的)的识别能力,所以作者做了一个图,体现不同识别方法的识别范围(Recognition Scope),RAM-unseen是红色,因为RAM有开集识别能力,所以是最大的.
PS:这都不是六边形战士了,直接画了个圆,这图太唬人了 。
PS+:我第一眼以为是 performance 比较,看论文才发现是 scope 比较; 。
除了数据、模型,作者还有一些模型效率上的优化.
最后看看实验部分,绿色为监督训练,蓝色是Zero-shot,黄色是无监督.
最后此篇关于识别一切模型RAM(RecognizeAnythingModel)及其前身Tag2Text论文解读的文章就讲到这里了,如果你想了解更多关于识别一切模型RAM(RecognizeAnythingModel)及其前身Tag2Text论文解读的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
我们与一位客户存在某种问题,该客户认为我们发送的 XML 文件中的两个版本的空标记之间存在语义差异(纯 XML 没有 HTML ..)。 他们期望: 我们发送: 我
我想计算文本中 pp/np/vp 的数量,但我不知道如何在 openNLP chunker 中识别 PP-tags/NP-tags/VP-tags?我已经尝试过这段代码,但它不起作用。 Chunker
从我正在阅读的代码的上下文来看,它看起来像 $("")创建一个标签,其中 $('')是一个搜索标签的选择器。这里发生了什么?实际上,我可能没有掌握第二个语法,但我确信我已经完成了 $('idName'
我正在使用 Builder::XmlMarkup 创建 xml。我想创建一个没有内容的标签,因为 api 强制我创建它。如果我使用博客 xml.tag do end 我得到了我想要的 但我希望它更短
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Using the XHTML closing slash (/) on normal tags? Are
默认情况下, someXmlWriter.WriteElementString("my-tag", someString); 产生 我环顾四周XmlWriterSettings强制作者生成 的可能选
如何修改tag-it ui插件https://github.com/aehlke/tag-it (版本 v2.0)因此它只允许选择 x 个标签,以及如何仅允许“availableTags-option
我能够解析这样的内容: value 通过: File inputFile = new File("input.xml"); DocumentBuilderFactory dbFactory = Doc
我不太确定如何编写这个查询,它可以在一个查询中完成。案例如下: 我需要选择标签名称列表,并为每个标签获取最近标记的专辑信息。这意味着,如果用户创建名为“Pamela Anderson”的专辑并将该专辑
这个问题在这里已经有了答案: Where should I put tags in HTML markup? (21 个回答) JavaScript at bottom/top of web pa
Django 2 by Example 中的教程,我不明白: step (2): Why is `Count('tags')` **not** counting the total number of
我是 jekyll 的新手,正在构建我的网站。 我有一个“帖子”布局,我希望与帖子相关的所有标签都出现在左栏中。我遇到的问题是,使用 {{ page.tags }} 会返回一个未以逗号分隔且看起来很乱
如何将一个目录下的所有hash tag重写为slash tag? ( Apache ) http://www.domain.com/company/index#about => http://www.
在查询 Flickr API 并检查返回的标签时,我注意到我收到了未在 Web 界面上显示的其他标签。例如对于此图像: http://www.flickr.com/photos/77060598@N0
我有类似 的东西我想得到这个: <1> <2> 但我只想在 中应用它标签而不是其他任何地方。 我已经有了这个: $txt = $this->input->post('
我想删除 xxx yyyy zzz 用 php。但是,首先,我想控制字符串是否以 开头并以 结尾 是否有用于此目的的函数? if(string begins with '' and ends wi
在我的模板中加载自定义标签时出现此错误。我访问了许多关于此的主题,并且确保确认我没有犯一些常见错误: 包含标签的文件在 templatetags 中文件夹。 此 templatetags文件夹包含 _
API doc中没有关于构造函数的文档。我想了解SvgElement.tag()的用途/用例。 最佳答案 SvgElement.tag(String tag)构造函数为对应的SvgElement值创建
$('*').data('tag', "tagged"); $('li[tag=tagged]').length 返回零... 最佳答案 $('*').data('tag', "tagged"); $
下面的代码出错了。我该如何解决这个问题? {% block header %} {% endblock %} 错误输出: TemplateSyntaxError : Invalid bloc
我是一名优秀的程序员,十分优秀!