苹果公布多模态模型MM1

今日，在一篇由多位作者署名的论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中，苹果正式公布自家的多模态大模型研究成果 —— 这是一个具有高达 30B参数的多模态 LLM 系列。

论文地址：https://arxiv.org/pdf/2403.09611.pdf

该团队在论文中探讨了不同架构组件和数据选择的重要性。并且，通过对图像编码器、视觉语言连接器和各种预训练数据的选择，他们总结出了几条关键的设计准则。具体来讲，本文的贡献主要体现在以下几个方面。

首先，研究者在模型架构决策和预训练数据选择上进行小规模消融实验，并发现了几个有趣的趋势。建模设计方面的重要性按以下顺序排列：图像分辨率、视觉编码器损失和容量以及视觉编码器预训练数据。

其次，研究者使用三种不同类型的预训练数据：图像字幕、交错图像文本和纯文本数据。他们发现，当涉及少样本和纯文本性能时，交错和纯文本训练数据非常重要，而对于零样本性能，字幕数据最重要。这些趋势在监督微调（SFT）之后仍然存在，这表明预训练期间呈现出的性能和建模决策在微调后得以保留。

最后，研究者构建了 MM1，一个参数最高可达 300 亿（其他为 30 亿、70 亿）的多模态模型系列，它由密集模型和混合专家（MoE）变体组成，不仅在预训练指标中实现 SOTA，在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。
具体来讲，预训练模型 MM1 在少样本设置下的字幕和问答任务上，要比 Emu2、Flamingo、IDEFICS 表现更好。监督微调后的 MM1 也在 12 个多模态基准上的结果也颇有竞争力。

得益于大规模多模态预训练，MM1 在上下文预测、多图像和思维链推理等方面具有不错的表现。同样，MM1 在指令调优后展现出了强大的少样本学习能力。

FinalSee

智者建桥，愚者筑墙

苹果公布多模态模型MM1

发表回复取消回复

发表回复 取消回复

发表回复取消回复