【深度解析】多模态MoE模型训练策略：LLaVA-MoE与Kimi-VL

本文对比分析了两种多模态混合专家模型(MoE)的训练策略。LLaVA-MoE采用三阶段渐进式训练：1)视觉-语言对齐(冻结ViT和LLM，训练投影器)；2)指令遵循能力训练(解冻LLM)；3)MoE结构优化(训练路由器和专家)。Kimi-VL则采用四阶段训练：1)单独预训练ViT和LLM；2)图文理解训练；3)联合冷却；4)长内容扩展训练，特别强化了128K长文本和高分辨率图像处理能力。两种策略各

AI 模力圈

519人浏览 · 2026-02-26 18:53:46

AI 模力圈 · 2026-02-26 18:53:46 发布

作者：昇腾实战派 * Ming-L

公众号：AI模力圈

1. 背景概述

随着多模态大模型的快速发展,如何在有限的计算资源下提升模型性能成为关键挑战。混合专家模型(MoE,Mixture of Experts)通过稀疏激活机制,在保持模型容量的同时显著降低推理成本,为多模态任务提供了高效解决方案。

本文将结合实践案例,深入分析两种典型的多模态MoE模型(LLaVA-MoE和Kimi-VL)的训练策略,为相关研究和应用提供参考。

推荐资源:昇腾MindSpeed加速库对Llava等多模态模型都做了适配,具有很好的效果和性能收益。

官方代码仓库:MindSpeed-MM

2. LLaVA-MoE训练策略

LLaVA-MoE采用经典的三阶段训练流程,逐步实现视觉-语言对齐、指令遵循能力和MoE结构优化。

2.1 训练流程图

阶段1: 视觉-语言对齐 → 阶段2: 指令遵循能力训练 → 阶段3: MoE结构优化

LLaVA-MoE训练流程

2.2 阶段划分与实施细节

阶段1: 视觉-语言对齐

• 主要目标: 建立视觉编码器与语言模型的有效连接,使语言模型能够正确理解图像内容

• 实施方法:

◦ 冻结ViT(Vision Transformer)参数

◦ 冻结LLM参数

◦ 仅训练MLP Projector模块

• 模型配置: 使用标准的Dense结构作为基础LLM

阶段2: 指令遵循能力训练

• 主要目标: 提升模型对复杂指令的理解和执行能力

• 实施方法:

◦ 继承第一阶段权重

◦ 解冻并训练LLM和Projector

◦ 保持ViT冻结

◦ 使用高质量的指令遵循数据集

阶段3: MoE结构优化

• 主要目标: 将Dense FFN转换为MoE结构并优化专家分工

• 实施方法:

◦ 复制预训练的FFN形成多个专家

◦ 初始化MoE参数

◦ 仅训练router和expert

◦ 保持ViT和Projector参数冻结

2.3 训练策略总结表

阶段	主要目的	冻结的部分	训练的部分
第一阶段	链接VIT和LLM,让LLM看懂图像	LLM-dense、VIT	Projector
第二阶段	训练模型的指令遵循能力	VIT	LLM-Dense、Projector
第三阶段	MoE训练	VIT、Projector	LLM-MoE-FFN

3. Kimi-VL-Moe训练策略

3.1 模型简介

月之暗面基于MoE架构的高效多模态模型Kimi-VL,它具有先进的多模态推理、长文本理解以及强大的agent能力。

模型参数:

• 模型总参数: 16B

• 推理时激活参数: < 3B

• 上下文窗口: 128K扩展上下文

性能表现:

测试集	得分
LongVideoBench	64.5
MMLongBench-Doc	35.1
InfoVQA	83.2
ScreenSpot-Pro	34.5

Kimi-VL在处理长文本和清晰感知方面推进了多模态模型的帕累托前沿,配备了128K扩展上下文窗口,能够处理长且多样化的输入。其原生分辨率的视觉编码器MoonViT(基于SigLIP-SO-400M微调),进一步使其能够看到并理解超高分辨率的视觉输入,同时在处理常见视觉输入和一般任务时保持较低的计算成本。

3.2 模型架构

Kimi-VL采用了专家混合(MoE)语言模型(之前发布的Moonlight-16B-A3B)、原生分辨率的视觉编码器(MoonViT)以及一个多层感知机(MLP)投影器。

Kimi-VL架构图

3.3 多模态训练策略

在加载语言模型之后,Kimi-VL的预训练总共包括4个阶段,总共训练了4.4T tokens。首先,独立进行ViT训练,以建立一个健壮的原生分辨率视觉编码器,随后是三个联合训练阶段(预训练、冷却和长上下文激活),这些阶段同时增强模型的语言和多模态能力。

Kimi-VL训练流程

阶段详细说明

阶段	主要目的	训练方式	冻结的部分	训练的部分
第一阶段	单独训练VIT和LLM	预先训练VIT和LLM	/	VIT、LLM
第二阶段	训练模型的图文理解	控制图文token数,提供图文混合数据及纯文本数据	/	VIT、LLM
第三阶段	联合冷却	使用高质量图文数据联合训练	/	VIT、LLM
第四阶段	联合长内容扩展	使用长文本、长视频等长内容进行训练	/	VIT、LLM

技术要点:

• 第二阶段中,图的token数要多的多,防止模型看完图忘了怎么写字

• 所有阶段均训练VIT和LLM,没有参数冻结策略

3.4 参考技术报告

• 官方技术报告:Kimi-VL-A3B-Instruct

• GitHub项目:MoonshotAI/Kimi-VL

4. 两种训练策略对比

对比维度	LLaVA-MoE	Kimi-VL
训练阶段数	3阶段	4阶段
总训练量	未公开	4.4T tokens
参数冻结策略	明确的分层冻结	无冻结,全程训练VIT+LLM
核心优势	渐进式训练,稳定性高	长文本+高分辨率处理能力强
上下文窗口	标准长度	128K扩展
激活参数	未公开	16B总参,< 3B激活

5. 总结

两种多模态MoE模型训练策略各有特色:

1. LLaVA-MoE采用渐进式三阶段训练策略,通过明确的参数冻结策略,逐步实现视觉-语言对齐、指令遵循能力和MoE结构优化,适合需要稳定训练流程的场景。

2. Kimi-VL采用四阶段预训练策略,特别强调长文本和高分辨率视觉处理能力,在图文token配比和长内容训练上有独到设计,适合需要处理长文本和高分辨率图像的应用场景。

6. 参考链接

• MindSpeed-MM

• Kimi-VL-A3B-Instruct技术报告

如果你对多模态大模型、强化学习、昇腾 NPU 部署、模型性能优化感兴趣，欢迎持续关注【AI模力圈】。

我们会持续更新：
1. 多模态模型结构拆解
2. 强化学习算法原理与实践
3. 昇腾 NPU 迁移部署与踩坑复盘
4. 模型训练与推理性能优化

图解版、速读版内容也会同步更新到公众号 / 小红书。

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

HarmonyOS 6 自定义人脸识别模型10：基于MindSpore Lite框架的自定义人脸识别功能实现

昇腾开源生态专区

DeepSeek 崩了 13 小时，不是故障，是 V4 在换引擎

昇腾开源生态专区

体系结构论文（107）：AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization

摘要：本文提出AscendOptimizer系统，针对华为Ascend NPU的AscendC算子优化难题，通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program：Stage I采用进化搜索优化tiling策略，利用硬件反馈探索可行解空间；Stage II通过"优化回退"机制从优质kernel反向构