LLaMA模型指令微调字节跳动多模态视频大模型Valley论文详解-6ren

LLaMA模型指令微调字节跳动多模态视频大模型Valley论文详解

转载作者：我是一只小鸟更新时间：2023-07-09 22:31:29

27

4

Valley: Video Assistant with Large Language model Enhanced abilitY 。

大家好，我是卷了又没卷，薛定谔的卷的AI算法工程师「陈城南」 ~ 担任某大厂的算法工程师，带来最新的前沿 AI知识和工具，包括AI相关技术、ChatGPT、AI绘图等，欢迎大家交流 ~.

近期基于LLaMA微调的模型有很多，Alpaca，Vicuna都是基于ChatGPT等数据进行文本场景指令微调，LLaVA也使用图文对数据进行了图文场景多模态能力的扩展（这几个模型往期文章都有涉及，不清楚/感兴趣的可以看）.

而本文提到的Valley则是字节发布的视频场景多模态指令微调LLaMA模型 .

其中这几个指令微调版本的模型都大差不差，主要还是数据与训练的差异。本文描述Valley当然对标的是其类似模型LLaVA，原文introduction部分翻译修改后如下:

在Valley中，我们遵循 LLaVA 的先预训练然后指令调整的流程，采用一个简单的投影模块作为视频、图像和语言模式之间的桥梁。我们采用 CLIP (Radford et al., 2021) 的 ViT-L/14 (Dosovitskiy et al., 2021) 作为视觉编码器（与LLaVA一致），然后提出一种时空池化操作来统一视频和图像输入的视觉编码（模型差异点）。通过更新投影模块进行预训练，以使统一的视觉嵌入与 LLM 保持一致，其中 Stable-Vicuna (Chiang et al., 2023) 由于其多语言能力而成为选择的 LLM。此外，我们引入了从各种视频任务中收集的多模态指令跟踪数据集，包括视频问答、长描述、随意关系推理和动作识别。经过指令微调，最终提出了我们的视频理解谷多模态基础模型。作为人工智能助手，我们预计Valley将在各种视频相关任务中得到广泛的应用，并帮助用户以类似于在现实世界中与人聊天的方式更好地理解和解释复杂的视频.

结合论文内容，我对Valley的贡献作了概括:

模型：基于LLaVA的方法，添加了时空池化模块应对视频（多帧）场景，将LLaVA从单图扩展为多图（动态长度），同时将LLaVA的Vicuna语言模型换为Stable-Vicuna模型。；
数据：搞了多模态的instruction-following数据集，聚焦于视频理解、比较多样的任务（包括multi-short captions，带时间戳的时间性描述、长视频的复杂陈述。同时使用了ChatGPT生成对话人和视频内容的对话，进一步增强数据集的质量和多样性。
开源：LLM时代，开源也是贡献~

感兴趣的可以通过相关工作来了解一下LLM的现状，以下为部分机翻:

现有的方法可以分为两种技术路线，一种是利用LLM作为调度器来调度现有的多模态模型，另一种是基于LLM来训练多模态模型。前者在接收到用户指令和各个基础模型的功能后，将LLM作为控制器逐步调用相应的模型，并整合各个模型的输出内容生成结果（Wu等，2023；Shen等，2023）。，2023；Yang 等人，2023）。例如，HuggingGPT（Shen et al., 2023）利用ChatGPT根据其功能描述在Hugging Face1中选择合适的模型并总结其执行结果。后者为法学硕士配备辅助模块，帮助他们通过端到端训练理解多模态内容（Li et al., 2023c; Zhu et al., 2023; Zhu et al., 2023; Zhu et al., 2023; Liu et al., 2023; Su 等人，2023；戴等人，2023）。例如，LLaVA (Liu et al., 2023) 和 MiniGPT-4 (Zhu et al., 2023) 通过投影层将 LLaMA (Touvron et al., 2023) 与视觉编码器连接起来，赋予其理解图像的能力。 Video-LLaMA (Zhang et al., 2023) 通过 Q-Former 为 LLaMA (Touvron et al., 2023) 提供视觉和音频信息，赋予其基于视频的对话能力.

方法部分

网络结构

在LLaVA（如上图）基础上进行了扩展，将其单图扩展为多图（视频），如下图:

多帧的处理通过时空池化模块，具体:

有T个图，每个图的特征为 Vcls + 256 个patch token；

在patch token上做时间维度的平均，即T个图平均，则剩余特征为 T个Vcls + 256个平均后的patch token，下图为patch token的平均；

因为patch token的时间平均会损失时间信息（保留空间信息），所以将Vcls token 拼接在patch token后面，最终得到 T+256个视觉Token的输入，下图的V平均就是patch token；

空间tokens：256 patch（平均），时序tokens：T个CLS Token；这两个Token最终会经过映射层（Projection）与Text tokens衔接在一起送给大模型；。

指令微调数据收集

作者基于MSRVTT(10k）、VATEX（22k）、AativityNet（10k）、VIOLIN（5.8k）共多个数据集构建了视频中心多模态指令数据，包含3种上下文类型，这些对应的问答对生成通过stable-vicuna生成，如下图。

参考LLaVA和VideoChat中生成Prompt的方式，作者也用了上面的3种上下文文本和Stable-Vicuna生成了指令微调数据，如下图。累积42k对话和 5.8k的问答对，其中对话数据涵盖基础视频内容描述（目标信息等）、时间内容理解。问答数据包含因果推理、字符识别和视频复杂内容理解.

训练

同LLaVA类似的两阶段训练方式，第一阶段通过预训练映射层来进行特征对齐；第二阶段再微调语言模型和映射层；。

映射层预训练

使用图文对、视频文本对两种数据进行预训练，其中图文对为LLaVA的595k CC3M数据，视频文本对为参考LLaVA过滤方法进行过滤的 702K WebVid2M 数据。两种类型数据的Prompt组织方式一致，均为:

如果输入单个图像，则帧数为1。图像-文本对和视频-文本对构建为单轮对话，使用各种问题询问视频内容，并使用相应的标题进行回答.

微调

不止上面提到的42k对话和5.8k的问答对，为了增强对视觉内容的强调，还从LLaVA中收集了150k的图片指令数据、以及VideoChat收集的11k视频指令.

实验部分

没有什么指标，给了几个case大家感受下性能就行。

Limitation

加入音频信息，构建音、画、文三种模态可感知的多模态模型；。
提供中文感知能力，构建更多的中文多模态数据来增强模型；。
存在LLM固有的幻觉问题（hallucination problem）需要解决。幻觉问题指大模型的输出是错误的、无意义的、输出与输入是明显不符合的（比如在摘要生成任务上）等情况，详细可参考:
1. GPT-4的“hallucination”（幻觉）相关对策
2. 对话大模型中的事实错误：ChatGPT 的缺陷文本任务_问题
3. Survey of Hallucination in Natural Language Generation arXiv:2202.03629v5

最后此篇关于LLaMA模型指令微调字节跳动多模态视频大模型Valley论文详解的文章就讲到这里了,如果你想了解更多关于LLaMA模型指令微调字节跳动多模态视频大模型Valley论文详解的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

27

4

0

文章推荐： Go并发模型—Goroutines

文章推荐：详解Django请求与响应：深入理解WebHttp交互的核心机制

文章推荐： UI自动化---微软UIAutomation

文章推荐： C#中IsNullOrEmpty和IsNullOrWhiteSpace的使用方法有什么区别？

Mysql - 微调 HAVING
有没有人对如何解决这个查询有任何想法？有一张客户表和一张许可证表。每个客户可以有多个在不同时间到期的许可证，一些已经过期，一些还没有。如果我想选择至少拥有一个有效许可证的所有客户，我会这样做: SE
tensorflow - 微调 Blenderbot
我一直在尝试微调 HuggingFace: Blendebot 的对话模型。我已经尝试过拥抱脸官方网站上给出的常规方法，它要求我们使用 trainer.train() 方法来完成。我也尝试过使用 .c
Javascript 微调 + 查找名称的精确匹配
是否有内置的 JavaScript 字符串方法可以帮助我微调这段代码以确保它只找到与名称完全匹配的内容？这是我的代码。 /*jshint multistr:true */ var text = "S
python - Wor2vec 微调
我需要微调我的 word2vec 模型。我有两个数据集，data1 和 data2。到目前为止我所做的是: model = gensim.models.Word2Vec( data1
iOS UIScrollView 微调
在苹果的应用程序中，我注意到滚动效果非常完美。一切都进展顺利，当你停下来时，它就停止了。您可以拥有一个巨大的图像并直接移动到任何位置，并且它会停留在那里。我想提供相同的 UE，但对于我的应用程序，如
tensorflow - Huggingface 微调——如何在预训练的基础上构建自定义模型
问题请帮助理解以下问题的原因以及如何构建 Keras 模型以在 huggingface 的预训练模型之上进行微调。目标在 TFDistilBertForSequenceClassificatio
r - 微调 R 的点阵包中的点图
我正在尝试为不同的数据集和不同的算法绘制一堆 ROC 区域。我有三个变量:“Scheme”指定使用的算法，“Dataset”是测试算法的数据集，以及“Area_under_ROC”。我在 R 中使
tensorflow - 微调 Keras 模型
我正在使用 CNN 进行面部表情识别。我使用 Keras 和 Tensorflow 作为后端。我的模型保存为 h5 格式。我想重新训练我的网络，并使用 VGG 模型微调我的模型。我如何使用 ker
cocoa - 微调 NSTextField 自动完成
我正在使用 NSControlTextEditingDelegate 自动完成内容在 NSSearchField 中输入我生成的自定义建议。complete: 消息发送到字段编辑器当文本更改时。现在
python - 微调 mnist 深度自动编码器模型
我为 mnist 数据集开发了一个 3 层深度自动编码器模型，因为我只是这个微调范例的初学者，所以我正在练习这个玩具数据集下面是代码 from keras import layers from k
c++ - 微调 == 运算符以匹配 double
在我的代码中有一个我正在计算的参数。在多次测试中，该参数应该为0。由于该参数是通过多次加减计算的，因此不完全为0，而是小于10^-10。目前我正在使用: double tol = pow(10,-10
android - 微调 onitemclicklistener 不工作
我的应用程序中有一个微调器，但在单击某个项目时它不起作用。我得到了值，但 if 条件不起作用。 spinner.setOnItemSelectedListener(new AdapterView.On
mysql - 微调 MySQL 服务器配置以获得更好的性能
我需要帮助调整我的 mysql 服务器以获得更好的性能。我有很多资源，但它仍然表现不佳。我打得最多的一张表只有350万条记录。我需要帮助关注更改哪些设置以获得更好的性能。像这样的简单查询 SELE
python - Keras VGG16 微调
在keras blog上有一个VGG16微调的例子，但我无法重现它。更准确地说，这里是用于在没有顶层的情况下初始化 VGG16 并卡住除最顶层以外的所有 block 的代码: WEIGHTS_PAT
android - 微调 Activity 不工作
我正在尝试创建一个 Activity RateCardActivity，其中有一个微调器。 RateCardActivity 的布局文件是 rate_card。我的 RateCardActivity
android - 微调 View ；选择器不工作
微调器 xml: 我试过使用 android:background=... 自己购买，使用 dropDownSelector，使用和不使用 listSelector=...; 使用和不使用 list
用于列出组成员的 Windows PowerShell 命令 - 微调
我精心制作了下面列出组成员的命令: gwmi win32_group -filter 'Name="Administrators"'|%{$_.GetRelated('Win32_UserAccoun
performance - 微调 HTML5 Phonegap 应用程序
已成功构建 HTML5 应用程序。以下库用于此: jquery.mobile-1.1.1.min.js jquery.mobile-1.1.1.min lawnchair.js 一切正常用 Phone
python - Keras:微调 Inception 时精度下降
我在使用 Keras 微调 Inception 模型时遇到问题。我已经成功地使用教程和文档生成了一个完全连接的顶层模型，该模型使用 Inception 中的瓶颈特征将我的数据集分类到正确的类别中，准
nlp - 微调 DistilBertForSequenceClassification : Is not learning, 为什么损失没有改变？权重没有更新？
我对 PyTorch 和 Huggingface-transformers 比较陌生，并在此 Kaggle-Dataset 上试验过 DistillBertForSequenceClassificat

首页

博学

6Ren·AI

商城