多模态大语言模型(MLLMs)轻量化方法研究现状和展望

责任编辑:王鹤迦 2024.12.16 14:35 来源:中移智库

通信世界网消息(CWW)多模态大语言模型(MLLMs)在视觉问答、视觉理解与推理等任务中展现出卓越的性能,但多模态大语言模型庞大的模型规模和高昂的训练、推理成本限制了其在学术界和工业界的广泛应用。因此,研究高效且轻量化的多模态大语言模型,特别是在边缘计算场景中,潜力巨大。本文将全面介绍当前多模态大语言模型轻量化的方法及研究现状,并探讨其局限性及未来潜在的发展方向。

多模态大语言模型概述

什么是多模态大语言模型?

多模态大语言模型是一种创新性的人工智能模型,巧妙地融合了大语言模型与多模态处理能力。它能够理解和生成涵盖多种模态的数据,如文本、图像、视频、音频等,并通过多模态信息的融合实现更广泛、更复杂的任务。多模态大语言模型不仅具有强大的语言处理能力,还能通过对图像、视频或其他模态的理解,进行跨模态任务处理,比如视觉问答、视觉推理、多模态内容生成等。

为什么要轻量化?

多模态大语言模型的成功主要得益于缩放定律(scaling law),即资源投入越多,性能越高。然而,高资源需求限制了其开发和部署。例如,MiniGPT-v2模型[16]的训练耗时超800 GPU小时,LLaVA-1.5-Vicuna-13B[3]模型推理需 18.2T FLOPS和41.6G 内存,资源消耗巨大。目前,主流多模态大语言模型多由少数企业掌控,云端运行模式引发普及化和隐私保护担忧,同时,高算力需求也限制了边缘设备的应用,对公平访问和隐私保护构成挑战。鉴于此,轻量化多模态大语言模型的研究日益受到重视,旨在降低资源消耗、提高适用性,同时尽量减少性能损失。

多模态大语言模型轻量化方法研究现状

多模态大语言模型主要由三个核心模块组成:视觉编码器、预训练大语言模型、以及视觉-语言投影器,如图1所示。轻量化多模态大语言模型的优化措施主要集中在对上述三个模块的改进,并引入了视觉 token 压缩技术和高效的结构设计。

图1多模态大语言模型的轻量化架构 出自论文《Efficient Multimodal Large Language Models:A Survey》

三个核心模块优化

视觉编码器:负责接收和处理视觉输入。轻量化的多模态大语言模型通常选择使用预训练的视觉编码器模型(如 CLIP[4]),以便更好地对齐视觉与文本输入的特征空间。由于视觉编码器在多模态大语言模型总参数中的占比较小,其轻量化优化的效果不如语言模型显著,因此大部分轻量化多模态大语言模型通常仍沿用大规模多模态大语言模型中广泛采用的视觉编码器。

预训练大语言模型:大语言模型是多模态大语言模型的核心组件,用于管理多模态信号并执行推理。多模态大语言模型中获取小的大语言模型的方案一般分为两种:一是直接使用小的轻量化模型。轻量化的多模态大语言模型通常使用参数少于30亿的小型语言模型,如微软的phi2-2.7B模型[17]和谷歌的Gemma-2B模型[2]。Phi-2模型在特殊数据集上训练后,其性能可以匹配使用常规数据集训练的25倍大模型。Phi-3-mini模型[2]可以轻松地在现代手机上本地部署,且其质量与Mixtral 8x7B[18]模型和GPT-3.5等模型相当。二是使用模型压缩技术对大语言模型进行轻量化处理。一般常用的模型压缩方法包括:量化,剪枝,知识蒸馏,紧凑的架构设计,动态网络等,这些方法在传统的深度学习网络(如 CNN 和 RNN)中已有广泛应用,而在大语言模型的优化中也有了更深入的探索。每种方法的具体实施方案和效果因任务需求和硬件约束而异,在此不再逐一详细介绍。

视觉-语言投影器:是连接视觉与文本桥梁,其核心功能是将视觉特征块映射至文本特征空间。针对此模块的轻量化,包括四种:一是基于注意力。如BLIP2[7]引入了Q-Former,一个轻量级的Transformer,使用一组可学习的查询向量从冻结的视觉模型中提取视觉特征。二是基于CNN。如MobileVLMv2[8]提出的LDPv2,通过使用逐点卷积层、平均池化和带有跳跃连接的PEG模块,LDPv2减少了99.8%的参数,在效率上取得了更好的表现。三是基于Mamba。如VL-Mamba[9]在其视觉-语言投影器中实现了2D视觉选择性扫描(VSS)技术,促进了多种学习方法的融合。四是混合结构。如卷积抽象器通过使用卷积结构高效地建模局部上下文,有助于将视觉特征抽象为任意平方数的视觉token。

视觉token压缩

视觉token压缩旨在减少由大量token引起的计算量,当前已经成为多模态大语言模型轻量化的关键。通过以下几种关键技术来实现:

多视图输入:为了利用低分辨率视觉编码器处理高分辨率图像,一种常见的方法是输入高分辨率图像的低分辨率全局视图,和通过分割高分辨率图像获得局部视图。例如,LLaVA-UHD[5]提出了一种图像模块化策略,将原始分辨率图像划分为更小的可变大小切片,以实现高效且可扩展的编码。

token处理:长视觉token序列的处理技术对于高效的多模态大语言模型至关重要,其解决了保持细粒度细节和减少计算复杂度的双重挑战。例如LLaVA-PruMerge[10]和MADTP[19]提出了一种适应性视觉token减少方法,在保持相似模型性能的同时显著减少了视觉token的数量。

多尺度信息融合:利用多尺度图像信息对视觉特征提取至关重要。这种方法使模型能够捕捉较小尺度中的细粒度细节和较大尺度中的广阔背景。例如Mini-Gemini模型[11]包括两个编码器,一个用于高分辨率图像,另一个用于低分辨率视觉嵌入。它提出了块信息挖掘,通过低分辨率视觉嵌入作为查询,通过跨注意力从高分辨率候选中检索相关的视觉线索。

视频特定方法:视频理解还需要处理大量帧,这可能会突破大语言模型的上下文窗口处理能力,带来巨大计算负担。例如VideoLLaVA[15]基于LanguageBind[20]构建,将视觉表示统一到语言特征空间中,推动基础大语言模型向统一的语言-视觉大模型发展,同时避免了巨大的计算负担。

高效的结构

高效的结构是通过优化模型结构或算法设计,以更少的资源实现相近甚至更高的性能,是多模态大语言模型轻量化的关键探索方向。主要包括三个方向:专家混合模型(MoE)、Mamba 和推理加速。

专家混合模型:专家混合模型通过调节模型参数的总数来增强模型容量,同时保持激活参数不变,从而不会显著影响推理速度。MoE-LLaVA[12]提出了一种基于专家混合模型的稀疏M多模态大语言模型框架,能够有效增加参数数量,而不影响计算效率。

Mamba:Mamba[21]是一种新型的高效序列建模方法,专为高效处理信息密集型数据(如语言建模)而设计。Cobra[13]将Mamba语言模型融入视觉模态,并探索多模态融合方案,开发了一种高效多模态Mamba。实验显示,其性能与先进方法相当且速度更快,能克服视觉错觉和空间关系判断难题,在预测基准中性能媲美LLaVA,但参数仅用43%。

推理加速:在模型推理阶段,根据不同的任务特性,调整模型架构,加快推理速度。SPD[14]提出了通过仅使用语言模型进行的推测解码,以提高推理效率,通过将语言模型作为推测性解码模型,跳过了图像token及其相关处理组件的需求。

展望

多模态大语言模型的轻量化发展仍处于初期阶段,仍有很大的改进空间。

一是突破多模态信息处理的局限是关键。轻量化的多模态大语言模型在处理多模态信息时面临挑战,通常仅能接受单一图像,这限制了能够处理更多元模态标记的复杂模型的进一步拓展。而这类复杂模型对于对于理解长视频和分析包含图像与文本混合的长篇文档等应用场景有着极为关键的价值,可以创造出更为多功能和强大的系统。

二是输入输出模态扩展是未来发展的重点。当前主要的轻量化多模态大语言模型支持的是双输入模态-图像和文本,以及单一输出模态-文本,但现实世界中的模态远不止于此。未来,通过扩大高效多模态大语言模型的输入模态范围,以适应更多样化的输入类型,并增强其生成能力,将显著增强其多功能性,并拓宽其应用领域。

三是可在边缘部署的轻量化多模态大语言模型将推动机器人等智能设备发展。轻量化的多模态大语言模型将赋予终端设备更高效、更智能且多模态的处理能力,使智能设备得以与现实世界无缝互动。特别在机器人领域,轻量化多模态大语言模型将极大提升机器人对环境理解的准确性,增强任务执行的效率,并促进人机之间更加自然流畅的交流与协作。


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容