Visual Instruction Tuning

news/2025/4/19 4:12:43/文章来源:https://www.cnblogs.com/MTandHJ/p/18247519

目录
  • LLaVA
  • 代码

Liu H., Li C., Wu Q. and Lee Y. J. Visual Instruction Tuning. NeurIPS, 2023.

LLaVA.

LLaVA

  • LLaVA 希望用 LLM 推理模态特征, 想法很简单:

    1. 用 Vision Encoder 得到模态特征:

      \[\mathbf{Z}_v = g(\mathbf{X}_v). \]

    2. 用 Linear 投影:

      \[\mathbf{H}_v = \mathbf{W} \cdot \mathbf{Z}_v. \]

    3. \(\mathbf{H}_v\) 和指令 \(\mathbf{H}_q\) 凭借起来作为 LLM 的输入.
  • 训练的 Instruct 是这么构造的: \((\mathbf{X}_q^1, \mathbf{X}_a^1, \cdots, \mathbf{X}_q^T, \mathbf{X}_a^T)\), 对于每个图片都有 \(T\) 轮的对话数据 (question, answer). 然后

    \[\mathbf{X}_{instruct}^t = \left \{ \begin{array}{ll} \text{Randomly choose } [\mathbf{X}_q^1, \mathbf{X}_v] \text{ or } [\mathbf{X}_v, \mathbf{X}_q^1], & \text{the first trun } t = 1, \\ \mathbf{X}_q^t, & \text{the remaining turns } t > 1. \end{array} \right . \]

    即就第一次的时候加一个图片 (可以是图片在前, 也可以是指令在前, 这比较符合实际的使用习惯).

  • Pre-training: 预训练的时候固定 Vision encoder 和 LLM, 之训练 projecter:

    \[\min_{\mathbf{W}} \quad -\log p(\mathbf{X}_a, \mathbf{X}_v, \mathbf{X}_{instruct}). \]

  • Fine-tuning: 固定 Vision encoder, 微调 LLM 和 projecter, 在一些 QA 数据集上微调.

代码

[official-code]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/724702.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何从阿里云ECS迁移到AWS EC2?

随着云计算技术的迅速发展,众多跨国企业正在考虑将其工作负载迁移到AWS EC2,以获得更多的功能、灵活性和性能。在这个过程中,如何顺利迁移业务主机,并且保障迁移过程中业务的正常稳定访问,成为了一个具有挑战性的问题。九河云凭借丰富的多云迁移经验,借助AWS Application…

编程题目解析

编程题目解析 假设数据项定义如下: DATA1 DBHELLO!GOOD MORNING! DATA2 DB20DUP(?) 用串操作指令编写程序段,使其分别完成以下功能: (1)从左到右将DATA1中的字符串传送到DATA2中。 (2)传送完毕后,比较DATA1和DATA2中的内容是否相同:(3)把DATA1中的第3和第4字节装人AX。 (4)将A…

结组作业,第二次冲刺(3)

昨天完成了信箱功能,今天我们完成了公告功能,我们可以通过公告功能,把信息传递给用户,这也是很关键的功能,以下为今日部分代码:package com.work.controller;import java.util.Date; import java.util.List;import javax.servlet.http.HttpServletRequest; import javax.…

ASCII字符表和说明

ASCII,全称 American Standard Code for Information Interchange,即美国信息互换标准代码ASCII,全称 American Standard Code for Information Interchange,即美国信息互换标准代码,特点如下:一个字符用一个字节存储。 每个字节的最高位为 0,剩下的 7 位二进制数来对每…

构建vivo小游戏时出现npm install -g的解决方案

我通过Unity开发了一款游戏,我们使用Vivo官方的插件构建了webgl项目我们需要在vscode中使用node.js和npm进行打包成rpk文件,所以我们需要安装node和npm(现在下载node.js基本上都有集成了npm) PS:需要先下载Vivo的官方minigame插件,下载后可以使用npm run build调用该插件…

结组作业,第一次冲刺(10)

今天是第一次冲刺的最后一天,我们对第一阶段冲刺进行了总结,觉得我们做的这个项目还是比较容易上手的,都是之前学的增删改查,以及web页面的设计,我们的代码还不够好,还能做好多优化,尤其是对于用户登录安全的方面,以及用户长期使用的感受方面还有很多欠缺,希望第二阶段…

sort命令对文件内容排序

如下,有一个ip文件,需要对其进行排序处理,方便直观查看 解决办法:sort -n -t . -k1,1 -k2,2 -k3,3 -k4,4 ip.txt-n #表示按数值排序 -t . #表示以 . 号为分隔符,进行分段处理 -k1,1 -k2,2 -k3,3 -k4,4 #表示对ip地址以.号结尾进行4部分排序 ip.txt …

结组作业,第一次冲刺(9)

今天是第一次冲刺的第九天,昨天完成了个人中心的功能,今天做一些对项目的修饰 以下为今日部分代码<%@ page language="java" contentType="text/html; charset=utf-8"pageEncoding="utf-8"%> <%@taglib uri="http://java.sun.co…