英伟达加速Mistral 3开源模型:全栈优化驱动高效精准AI
英伟达加速的Mistral Large 3模型,通过利用针对大型先进MoE模型定制的一套全面优化技术栈,在某机构GB200 NVL72平台上实现了顶级性能。对于Ministral-3-3B-指令版,Jetson开发者可在某机构Jetson Thor平台上使用vLLM容器,单并发下实现每秒52令牌,并发数增至8时,吞吐量可扩展至每秒273令牌。与所有模型一样,未来的性能优化(例如:结合多令牌预测的推
英伟达加速的Mistral 3开源模型:在任何规模下实现高效与精准
新一代Mistral 3开源模型系列为开发者和企业提供了行业领先的精准度、效率和定制能力。从某机构GB200 NVL72到边缘平台,Mistral 3经过了全栈优化,包含以下模型:
- 一个总参数量达675B、采用稀疏多模态多语言混合专家架构(MoE)的大型SOTA模型。
- 一套高性能密集模型套件(命名为Ministral 3),参数规模为3B、8B和14B,每个规模均提供基础版(Base)、指令版(Instruct)和推理版(Reasoning)变体(共九个模型)。
所有模型均在英伟达Hopper GPU上完成训练,现可通过某AI机构在 Hugging Face 平台上获取。开发者可以根据不同的英伟达GPU、模型精度格式以及开源框架兼容性,选择多种部署方案(见表1)。
| 模型规格 | Mistral Large 3 | Ministral-3-14B | Ministral-3-8B | Ministral-3-3B |
|---|---|---|---|---|
| 总参数量 | 675B | 14B | 8B | 3B |
| 激活参数量 | 41B | 14B | 8B | 3B |
| 上下文窗口 | 256K | 256K | 256K | 256K |
| 基础版 | – | BF16 | BF16 | BF16 |
| 指令版 | – | Q4_K_M, FP8, BF16 | Q4_K_M, FP8, BF16 | Q4_K_M, FP8, BF16 |
| 推理版 | Q4_K_M, NVFP4, FP8 | Q4_K_M, BF16 | Q4_K_M, BF16 | Q4_K_M, BF16 |
| 推理框架支持 | ||||
| vLLM | ✔ | ✔ | ✔ | ✔ |
| SGLang | ✔ | – | – | – |
| TensorRT-LLM | ✔ | – | – | – |
| Llama.cpp | – | ✔ | ✔ | ✔ |
| Ollama | – | ✔ | ✔ | ✔ |
| 英伟达硬件支持 | ||||
| GB200 NVL72 | ✔ | ✔ | ✔ | ✔ |
| Dynamo | ✔ | ✔ | ✔ | ✔ |
| DGX Spark | ✔ | ✔ | ✔ | ✔ |
| RTX 系列 | – | ✔ | ✔ | ✔ |
| Jetson系列 | – | ✔ | ✔ | ✔ |
表1. Mistral 3 模型规格
Mistral Large 3 在某机构 GB200 NVL72 平台上实现顶级性能
英伟达加速的Mistral Large 3模型,通过利用针对大型先进MoE模型定制的一套全面优化技术栈,在某机构GB200 NVL72平台上实现了顶级性能。图1展示了GB200 NVL72与某机构H200在不同交互性指标下的性能帕累托前沿对比。
图1. Mistral Large 3 每兆瓦性能对比:某机构 GB200 NVL72 与某机构 H200 在不同交互性目标下的表现
在生产级AI系统需要兼顾优质用户体验与成本效益规模化时,GB200提供了比上代H200高达10倍的性能提升,在每用户每秒处理40个令牌的场景下,每兆瓦算力可处理超过5,000,000个令牌。
这一代际性能提升为新模型带来了更优的用户体验、更低的单令牌成本以及更高的能效。该增益主要得益于以下推理优化技术栈的核心组件:
- 英伟达 TensorRT-LLM 宽专家并行:提供优化的MoE分组GEMM内核、专家分发与负载均衡以及专家调度能力,充分利用NVL72的一致性内存域。尤为值得注意的是,该宽专家并行特性集对大型MoE模型的架构差异具有很强的适应性,使得Mistral Large 3(每层专家数约128个,约为DeepSeek-R1的一半)同样能够获得英伟达NVLink互联架构的高带宽、低延迟、无阻塞优势。
- 兼顾效率与精度的低精度推理:通过NVFP4量化实现,并已获得SGLang、TensorRT-LLM和vLLM的支持。
- 英伟达 Dynamo分布式推理框架:Mistral Large 3依赖此低延迟分布式推理框架,实现推理过程中预填充与解码阶段的分离,从而提升长上下文工作负载(如图1中8K/1K配置)的性能。
与所有模型一样,未来的性能优化(例如:结合多令牌预测的推测解码和EAGLE-3技术)预计将进一步提升性能,充分挖掘新模型的潜力。
NVFP4 量化技术
针对Mistral Large 3,开发者可部署经过计算优化的NVFP4检查点,该检查点通过开源库 llm-compressor 进行离线量化。该方法利用NVFP4更高精度的FP8缩放因子和更细粒度的块缩放来控制量化误差,从而在保持模型精度的同时,降低计算和内存成本。
该量化方案仅针对MoE权重,而模型其他部分则保留原始检查点的精度。由于NVFP4是Blackwell架构的原生格式,此量化变体可在GB200 NVL72上无缝部署。NVFP4的FP8缩放因子与细粒度块缩放确保了低量化误差,以极小的精度损失换取了更低计算与内存开销。
开源推理支持
这些开源权重模型可搭配您选择的任意开源推理框架使用。
- TensorRT-LLM:利用针对大型MoE模型的优化,提升GB200 NVL72系统上的性能。可开箱即用TensorRT-LLM的预配置Docker容器。
- vLLM:英伟达与vLLM项目合作,扩展了对推测解码内核集成、英伟达Blackwell架构、分离式推理以及扩展并行性的支持。可部署在英伟达云GPU上使用vLLM的方案。查看运行Mistral Large 3 675B指令版与vLLM于英伟达GPU的示例,获取模型服务的样板代码及常见用例的API调用示例。
- SGLang:英伟达亦与SGLang合作,实现了支持分离式推理与推测解码的Mistral Large 3。可立即尝试在英伟达云GPU上部署使用SGLang的方案。
图2. 英伟达构建平台提供的多种GPU选型,开发者可据此部署Mistral Large 3和Ministral 3
Ministral 3 模型:速度、多功能性与精准度
小型、密集的高性能Ministral 3系列模型专为边缘部署设计。为满足多样化需求,该系列提供3B、8B和14B三种参数规模,每种均包含基础版、指令版和推理版。您可以在某机构GeForce RTX AI PC、某机构DGX Spark以及某机构Jetson等边缘平台上体验这些模型。
即使在本地开发,您依然能获得英伟达加速的优势。英伟达与Ollama及Llama.cpp合作,实现了更快的迭代速度、更低的延迟和更强的数据隐私保护。在英伟达RTX 5090 GPU上运行Ministral-3B变体,推理速度可高达每秒385个令牌。
对于Ministral-3-3B-指令版,Jetson开发者可在某机构Jetson Thor平台上使用vLLM容器,单并发下实现每秒52令牌,并发数增至8时,吞吐量可扩展至每秒273令牌。
生产级部署:英伟达 NIM 微服务
Mistral Large 3 和 Ministral-14B-指令版现已通过某机构API目录及预览版API开放使用,开发者无需复杂配置即可快速上手。企业开发者不久后可通过可下载的英伟达NIM微服务,在任何GPU加速基础设施上轻松部署。
视频1. Mistral 3 用户可输入文本与图像,并查看托管模型的响应
开始使用开源AI构建应用
英伟达加速的Mistral 3开源模型家族,是跨大西洋AI合作在开源社区的一次重大飞跃。该系列模型兼顾了大规模MoE与边缘友好型密集Transformer的灵活性,适应了开发者当前所处的不同阶段与开发生命周期。
凭借英伟达优化的性能、先进的量化技术(如NVFP4)以及广泛的框架支持,开发者能够从云端到边缘实现卓越的效率与可扩展性。立即开始,从 Hugging Face 下载Mistral 3模型,或直接在 build.nvidia.com/mistralai 上进行免部署测试。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链
更多推荐



所有评论(0)