摘要:本文介绍了MM1.5,这是一种新的多模态大型语言模型(MLLM)系列,旨在增强文本丰富的图像理解、视觉指代与定位以及多图像推理的能力。基于MM1架构,MM1.5采用以数据为中心的模型训练方法,系统地探索各种数据混合对整个模型训练生命周期的影响。这包括高质量的OCR数据和合成标题用于持续预训练,以及优化的视觉指令调优数据混合用于监督微调。本文的模型参数范围从10亿到300亿,涵盖了密集型和专家混合(MoE)变体,证明了精心的数据策划和训练策略即使在小规模(10亿和30亿参数)下也能产生强大的性能。此外,本文还介绍了两个专门的变体:MM1.5-Video,旨在实现视频理解,和MM1.5-UI,专为移动用户界面理解而设计。通过广泛的实证研究和消融实验,本文提供了对训练过程和决策的详细见解,这些见解为作者最终的设计提供了依据,并为未来的MLLM开发研究提供了宝贵的指导。 。
研究背景: 多模态大型语言模型(MLLMs)是近年来研究的热点,封闭源模型和开源模型都展示出了显著的多模态理解能力。然而,对于如何开发结合推理时技术的系统,我们的理解仍然有限。
主要贡献:
1. 提出了MM1.5,包括从1B到30B参数的密集模型和MoE变体。
2. 介绍了两个专门变体:MM1.5-Video和MM1.5-UI。
3. 通过广泛的实证研究和消融实验,提供了详细的训练过程和决策见解。
研究方法: MM1.5采用了包括OCR数据和合成字幕的高质量数据进行持续预训练,以及针对监督微调优化的数据混合。研究了模型架构、数据预处理、模型优化,并进行了动态高分辨率图像编码的详细消融研究。
实验结果: MM1.5在各种基准测试中显示出强大的性能,包括多图像数据和文本丰富图像理解的能力。实验结果表明,即使是相对较小的MLLM(如1B和3B参数规模)也能在各种下游任务上实现有竞争力的性能。
结论: MM1.5在多模态任务处理方面实现了显著的性能提升,特别是在较小规模的模型上。此外,通过精心策划的数据和训练策略,MM1.5在多模态任务中表现出色。
一句话总结: MM1.5通过精心设计的训练策略和数据策划,在多模态大型语言模型领域实现了显著的性能提升,尤其是在较小规模模型上。
论文链接https://arxiv.org/abs/2409.20566