国科网

2025-06-04 15:52:17  星期三
立足国科融媒,服务先进科技
基于LLaVA开源模型打造视频聊天助手

点赞

0
发布时间:2024年02月15日 浏览量:295次 所属栏目:人工智能 发布者:田佳恬

简介

大型语言模型已经证明自己是一项革命性的技术。目前,人们已经开发出了许多基于大型语言模型功能的应用程序,而且预计很快还会有更多的应用程序问世。大型语言模型最有趣的应用之一是将其部署为智能助手,它们能够帮助人类用户完成各种任务。

人们已经能够通过指令微调以及从人类的反馈中经强化学习训练出聊天模型,而且这些模型已经在遵循人类指令和执行指定任务方面表现出非常有前景的功能。然而,这些模型在仅凭语言指令执行任务方面表现出非常有限的适用性。

多模式会话模型旨在释放大型语言模型的力量,以解决需要将自然语言与其他模式相结合才能解决的问题。特别是,自从GPT-4V引入视觉功能以来,视觉语言模型受到了越来越多的关注。

通过图像理解增强GPT-4的自然语言功能,人们开发出了一款功能强大的聊天助手,可以帮助用户完成需要视觉和语言理解的任务。虽然GPT-4V的视觉能力令人印象深刻,但闭源模型限制了这项惊人技术的研究和实验潜力。幸运的是,已有一些开源模型以一种易于访问和透明的方式将视觉语言模型的力量带到了社区中。这些模型还延续了日益关注计算和内存效率的趋势,当然这也是开源大型语言模型已经出现的趋势。这是一个非常重要的特征,因为它促进了这些模型的广泛应用。

在本教程中,我将使用论文《可视化指令微调(Visual Instruction Tuning)》(https://arxiv.org/abs/2304.08485)中介绍的LLaVA(大型语言和视觉助手)模型来完成创建一个视觉聊天助手程序的过程。在讨论使用官方存储库(https://github.com/haotian-liu/LLaVA)中提供的代码实现视觉聊天助手的简单代码之前,我将首先简要介绍LLaVA模型及其改进。然后,我将展示一些我精心制作的示例,以展示该模型的功能和局限性。

LLaVA模型

LLaVA模型是在上述论文《可视化指令微调(Visual Instruction Tuning)》中引入的,然后在论文《基于可视化指令微调的基准改进(Improved Baselines with Visual Instruction Tuning)》(地址:https://arxiv.org/abs/2310.03744,也称为LLaVA-1.5模型)中得到进一步改进。其背后的思想是从图像中提取视觉嵌入,并通过将其馈送到大型语言模型,可将其视为来自语言标记的嵌入。直观地说,我们可以认为图像将会使用“单词”来描述——最初,这些单词是语言模型用来生成答案的。为了选择正确的“单词”,模型需要使用预先训练的CLIP视觉编码器来提取视觉嵌入,然后将它们投影到语言模型的单词嵌入空间中。后一种操作是用视觉语言连接器完成的,在第一篇论文《可视化指令微调》中,它最初被选择为一个简单的线性层,后来在论文《基于可视化指令微调的基准改进》中被一个更具表现力的多层感知器(MLP)所取代。该模型的体系结构如下所示:

LLaVA模型的体系架构图

其中,投影W是LLaVA模型中的简单线性层或者是LLaVA-1.5模型中的MLP。本图像来自论文《可视化指令微调》。

该方法的优点之一是,通过引入预先训练的视觉编码器和预先训练的语言模型,只有视觉语言连接器(这是一个轻量级模块)必须从头开始学习,其他部分则不需要。特别是,LLava模型的训练仅包括两个阶段:

  • 特征对齐的预训练:预训练的视觉编码器和语言模型都被冻结,并且只有视觉语言连接器的权重被更新。所有训练样本都由文本图像对组成,这些文本图像对被打包成单回合对话。该阶段旨在训练视觉语言连接器,使视觉编码器的嵌入与语言模型的文本嵌入对齐。
  • 使用视觉指令进行微调:在这个阶段,只有视觉编码器的权重被固定,而视觉语言连接器和语言模型被微调在一起。该模型在基于图像的指令执行任务后进行了微调。值得注意的是,这些数据中的一些是通过仅使用GPT4语言创建的,以便根据图像的标题和所描绘的实体的边界框的坐标创建指令跟随样本。

视觉聊天机器人的实现

使用官方存储库(https://github.com/haotian-liu/LLaVA)中提供的代码创建视觉聊天机器人是相当容易的。另外,存储库还提供了标准化的聊天模板,可用于以正确的格式解析输入。遵循训练中使用的正确格式对于模型生成的答案的质量至关重要。当然,选择恰当的模板取决于所使用的语言模型。基于预先训练的Vicuna语言模型的LLaVA-1.5模型的模板如下所示:

A chat between a curious user and an artificial intelligence assistant. The 
assistant gives helpful, detailed, and polite answers to the user's questions. 
USER: <im_start><image><im_end> User's prompt
ASSISTANT: Assistant answer
USER: Another prompt

分享说明:转发分享请注明出处。

    相关图讯
    网站简介  |   联系我们  |   广告服务  |   监督电话
    本网站由国科网运营维护 国科网讯(北京)技术有限公司版权所有  咨询电话:010-88516927
    地址:北京市海淀区阜石路甲69号院1号楼1层一单元114
    ICP备案号:京ICP备15066964号-8   违法和不良信息举报电话:010-67196565
    12300电信用户申诉受理中心   网络违法犯罪举报网站   中国互联网举报中心   12321网络不良与垃圾信息举报中心   12318全国文化市场举报网站
    代理域名注册服务机构:阿里巴巴云计算(北京)有限公司