TinyLLaVA:机器学习领域的游戏规则改变者,较小的多模态框架的性能优于较大的模型
目前的研究重点是视觉语言学习的自回归LMM,以及如何通过将视觉信号视为条件信息来有效利用LMM。探索还包括使用视觉指令调整数据对LMM进行微调,以增强其零样本能力。小型LMM的开发是为了减少计算开销,当前的模型(如 Phi-2、TinyLlama 和 StableLM-2)在保持合理的计算预算的同时实现了令人印象深刻的性能。
来自中国北京航空航天大学和清华大学的研究人员推出了TinyLLaVA,这是一种利用小型LMM执行多模式任务的新颖框架。该框架包括一个视觉编码器、一个小型 LLM 解码器、一个中间连接器和定制的训练管道。TinyLLaVA 旨在实现多模态学习的高性能,同时最大限度地减少计算需求。
该框架训练了一系列小型LMM,其中最好的模型TinyLLaVA-3.1B优于现有的 7B模型,例如LLaVA-1.5和Qwen-VL。它将CLIP-Large和SigLIP等视觉编码器与小型LMM 相结合,以获得更好的性能。训练数据由两个不同的数据集LLaVA-1.5和ShareGPT4V组成,用于研究数据质量对LMM性能的影响。它允许在监督微调阶段调整LLM和视觉编码器的部分可学习参数。它还提供了模型选择、训练配方和数据对小型LMM性能贡献的统一分析。
实验揭示了重要的发现:采用更大的LLM 和SigLIP视觉编码器的模型变体表现出了卓越的性能。共享配方包括视觉编码器微调,增强了所有模型变体的有效性。在出色的结果中,具有3.1B参数的TinyLLaVA-share-Sig-Phi变体在综合基准测试中优于较大的7B参数LLaVA-1.5模型,展示了使用合适的数据和训练方法进行优化时较小LMM 的潜力。
总之,TinyLLaVA代表了多模式学习向前迈出的重要一步。通过利用小规模的LLM,该框架提供了一种更易于访问和更有效的方法来集成语言和视觉信息。这一发展增强了我们对多模式系统的理解,并为其在现实场景中的应用开辟了新的可能性。TinyLLaVA的成功凸显了创新解决方案在提升人工智能能力方面的重要性。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved