Qwen3大模型 SFT+DPO 全流程调优与部署

在大模型落地应用中，基于基座模型的指令微调（SFT）和直接偏好优化（DPO）是提升模型效果的核心环节。本文以 Qwen3-4B-Instruct-2507 模型为例，完整梳理从基座模型启动、SFT 微调、模型融合到 DPO 调优及最终部署的全流程命令，适配昇腾环境，可直接复用。

Al leng

901人浏览 · 2026-03-03 15:30:25

Al leng · 2026-03-03 15:30:25 发布

Qwen3-4B-Instruct 大模型 SFT+DPO 全流程调优与部署指南

一、环境说明

硬件：昇腾 NPU（单卡，ASCEND_RT_VISIBLE_DEVICES=0）
核心工具：vLLM（高效部署）、Swift（一站式大模型微调工具）
模型：Qwen3-4B-Instruct-2507（阿里云通义千问 3 系列 4B 指令版）
精度：bfloat16（兼顾性能与精度）

二、核心命令总览

1. 基座模型快速下载和启动（vLLM 部署）

先启动基座模型验证环境可用性，确保模型文件路径、硬件资源正常：

# Qwen3-4B-Instruct-2507基座模型下载
modelscope download --model Qwen/Qwen3-4B-Instruct-2507  --local_dir ./Qwen3-4B-Instruct-2507

# 启动Qwen3-4B-Instruct基座模型
vllm serve '/mnt/basemodel/Qwen3-4B-Instruct-2507/Qwen3-4B-Instruct-2507' \
  --tensor-parallel-size 1 \  # 单卡部署，多卡可调整数值
  --served-model-name Qwen3-4B-Instruct-2507  # 服务端模型名称，调用时使用

关键参数说明：

--tensor-parallel-size：张量并行数，单卡设为 1，多卡按实际 GPU/NPU 数量调整；
--served-model-name：自定义模型名称，用于后续 API 调用标识。

2. SFT（指令微调）训练

基于业务数据集对基座模型做指令微调，适配特定场景需求：

# 后台运行SFT微调，输出日志到指定目录
NPROC_PER_NODE=1 ASCEND_RT_VISIBLE_DEVICES=0 nohup swift sft \
  --torch_dtype 'bfloat16' \  # 训练精度，bfloat16适配昇腾/英伟达硬件
  --model '/mnt/basemodel/Qwen3-4B-Instruct-2507/Qwen3-4B-Instruct-2507' \  # 基座模型路径
  --model_type 'qwen3' \  # 模型类型，指定为qwen3
  --template 'qwen3' \  # 对话模板，匹配Qwen3格式
  --dataset '/mnt/workspace/sft_data.jsonl' \  # 微调数据集（JSONL格式）
  --split_dataset_ratio '0.1' \  # 验证集比例，10%数据用于验证
  --max_length '6144' \  # 单条样本最大长度
  --init_weights 'True' \  # 初始化权重
  --per_device_train_batch_size '2' \  # 单卡批次大小，按硬件显存调整
  --learning_rate '3e-4' \  # 学习率
  --attn_impl 'flash_attn' \  # 启用FlashAttention，提升训练速度
  --gradient_accumulation_steps '2' \  # 梯度累积步数，等效增大批次
  --eval_steps '10' \  # 每10步验证一次
  --output_dir '/mnt/data/output' \  # 微调结果输出路径
  --truncation_strategy 'delete' \  # 超长样本截断策略
  --lora_alpha '16' \  # LoRA超参数，控制适配器缩放
  --lora_dropout '0.1' \  # LoRA dropout率，防止过拟合
  --deepspeed 'zero3' \  # 启用DeepSpeed ZeRO-3，节省显存
  --report_to 'tensorboard' \  # 训练日志输出到TensorBoard
  --num_train_epochs '5' \  # 训练轮数
  --warmup_ratio '0.05' \  # 学习率预热比例
  --weight_decay '0.01' \  # 权重衰减，防止过拟合
  --save_strategy 'epoch' \  # 按轮次保存模型
  --add_version False \  # 不自动添加版本号
  --logging_dir /mnt/workspace/illegal_sft/log \  # 日志保存路径
  --ignore_args_error True \  # 忽略非关键参数错误
> /mnt/workspace/illegal_sft/log/run.log 2>&1 &  # 重定向日志到文件

核心优化点：

采用 LoRA 轻量化微调，避免全量微调显存不足；
DeepSpeed ZeRO-3 大幅降低显存占用，适配 4B 模型单卡训练；
FlashAttention 加速注意力计算，训练效率提升 30%+。

3. SFT 微调模型融合与启动

SFT 训练输出的是 LoRA 适配器权重，需与基座模型融合后部署，或直接加载 LoRA 启动：

方式1：LoRA 权重与基座模型融合（生成完整模型）

# 融合SFT的LoRA权重到基座模型
swift export \
  --adapters /mnt/data/output/checkpoint-1720 \  # SFT训练的LoRA权重路径
  --merge_lora true  # 开启LoRA融合
# 融合后自动生成 checkpoint-1720-merged 目录（完整模型）

方式2：融合后模型启动（vLLM）

# 启动融合后的SFT模型
vllm serve '/mnt/data/output/checkpoint-1720-merged' \
  --tensor-parallel-size 1 \
  --gpu-memory-utilization 0.95 \  # 显存利用率，最大化利用硬件
  --served-model-name Qwen3-4B-Instruct-2507-sft  # 自定义SFT模型名称

方式3：直接加载 LoRA 启动（无需融合，节省空间）

# 直接加载基座模型+SFT LoRA权重启动
vllm serve /mnt/basemodel/Qwen3-4B-Instruct-2507/Qwen3-4B-Instruct-2507 \
  --enable-lora \  # 启用LoRA加载
  --lora-modules Qwen3-4B-Instruct-2507-sft=/mnt/data/output/checkpoint-1720 \  # LoRA权重路径
  --override-generation-config '{"max_new_tokens": 12}' \  # 覆盖生成配置（最大生成长度）
  --tensor-parallel-size 1

4. DPO（直接偏好优化）训练

基于 SFT 融合后的模型，用偏好数据集做 DPO 调优，提升模型回答的对齐效果：

# 后台运行DPO训练，输出日志到指定目录
NPROC_PER_NODE=1 ASCEND_RT_VISIBLE_DEVICES=0 nohup swift rlhf \
  --rlhf_type dpo \  # 指定RLHF类型为DPO
  --model /mnt/data/output/checkpoint-1720-merged \  # SFT融合后的模型路径
  --train_type lora \  # 继续用LoRA轻量化调优
  --dataset '/mnt/workspace/dpo.jsonl' \  # DPO偏好数据集（JSONL格式）
  --split_dataset_ratio '0.1' \  # 验证集比例
  --torch_dtype bfloat16 \  # 训练精度
  --max_length '6144' \  # 样本最大长度
  --init_weights 'True' \  # 初始化权重
  --per_device_train_batch_size '2' \  # 单卡批次大小
  --learning_rate '3e-4' \  # DPO学习率
  --attn_impl 'flash_attn' \  # 启用FlashAttention
  --gradient_accumulation_steps '2' \  # 梯度累积
  --eval_steps '10' \  # 验证步数
  --output_dir '/mnt/data/dpooutput/' \  # DPO结果输出路径
  --truncation_strategy 'delete' \  # 截断策略
  --lora_alpha '16' \  # LoRA超参数
  --lora_dropout '0.1' \  # LoRA dropout
  --deepspeed 'zero3' \  # DeepSpeed ZeRO-3
  --report_to 'tensorboard' \  # 日志输出到TensorBoard
  --num_train_epochs '3' \  # DPO训练轮数（通常少于SFT）
  --warmup_ratio '0.05' \  # 学习率预热
  --weight_decay '0.01' \  # 权重衰减
  --save_strategy 'epoch' \  # 按轮次保存
  --add_version False \  # 不添加版本号
  --logging_dir /mnt/data/dpooutput/log \  # DPO日志路径
  --ignore_args_error True \  # 忽略非关键参数错误
> /mnt/data/dpooutput/log/run_dpo.log 2>&1 &

DPO 关键说明：

DPO 输入必须是 SFT 融合后的完整模型，而非基座模型；
DPO 训练轮数通常更少（3 轮左右），避免过拟合；
数据集需为「优选回答+次优回答」的偏好对格式。

5. DPO 调优后模型启动

DPO 输出的仍是 LoRA 权重，需结合 SFT 融合模型加载启动：

# 启动DPO调优后的模型（昇腾环境适配）
NPROC_PER_NODE=1 ASCEND_RT_VISIBLE_DEVICES=0 \
vllm serve /mnt/data/output/checkpoint-1720-merged \  # SFT融合后的基础模型
  --enable-lora \  # 启用LoRA加载
  --lora-modules Qwen3-4B-Instruct-2507-dpo=/mnt/data/dpooutput/checkpoint-1032 \  # DPO的LoRA权重路径
  --override-generation-config '{"max_new_tokens": 2048, "temperature": 0.7, "top_p": 0.95, "top_k": 40}' \  # 生成配置
  --tensor-parallel-size 1  # 单卡部署

生成配置参数说明：

max_new_tokens：最大生成文本长度；
temperature：温度系数，越低输出越确定，越高越随机；
top_p：核采样，控制生成多样性；
top_k：Top-K采样，限制候选词数量。

三、关键注意事项

路径规范：所有模型、数据集、日志路径需确保权限可读写，避免启动/训练时报错；
显存适配：若训练时显存不足，可降低 per_device_train_batch_size 或增大 gradient_accumulation_steps；
数据集格式：SFT/DPO 数据集需为 JSONL 格式，单条样本符合 Qwen3 模板要求；
昇腾适配：ASCEND_RT_VISIBLE_DEVICES 指定昇腾卡ID，需与实际硬件一致；
日志排查：训练/启动异常时，优先查看日志文件（run.log/run_dpo.log），定位参数、路径、硬件问题。

通过以上命令，可快速完成 Qwen3-4B-Instruct 模型的 SFT+DPO 全流程调优与部署。

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

DeepSeek 崩了 13 小时，不是故障，是 V4 在换引擎

昇腾开源生态专区

体系结构论文（107）：AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization

摘要：本文提出AscendOptimizer系统，针对华为Ascend NPU的AscendC算子优化难题，通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program：Stage I采用进化搜索优化tiling策略，利用硬件反馈探索可行解空间；Stage II通过"优化回退"机制从优质kernel反向构

昇腾开源生态专区

AtomGit模型托管与实验管理全指南

AtomGit模型托管指南：AI开发者的版本控制利器摘要：本文介绍AtomGit平台针对AI开发者推出的模型托管与实验管理功能，解决传统Git无法有效管理大模型文件、实验参数分散等问题。AtomGit通过Git LFS大文件存储、模型卡片元数据记录、代码与模型版本关联等创新功能，实现AI项目的一体化管理。文章详细演示了如何创建模型仓库、配置Git LFS管理大文件、编写结构化模型卡片，并特别介绍