vLLM 0.8.5实战：如何让DeepSeek-R1模型不再输出＜think＞标签（附完整配置模板）

本文详细介绍了如何通过vLLM 0.8.5配置解决DeepSeek-R1模型强制输出<think>标签的问题。通过自定义聊天模板和优化部署参数，实现直接输出最终答案，提升业务系统效率。特别适用于需要简洁响应的应用场景，如客服系统和内容生成。

weixin_30500105

11人浏览 · 2026-04-01 03:14:29

weixin_30500105 · 2026-04-01 03:14:29 发布

vLLM 0.8.5实战：如何让DeepSeek-R1模型不再输出标签（附完整配置模板）

在AI模型的实际部署中，我们常常会遇到一些意料之外的输出格式问题。以DeepSeek-R1-Distill-Qwen-1.5B模型为例，这个经过思维链(Chain-of-Thought, CoT)微调的模型会强制输出包含标签的完整思考过程，这在某些业务场景下反而成了负担。本文将详细介绍如何通过vLLM 0.8.5的配置技巧，彻底解决这个问题。

1. 问题背景与核心挑战

DeepSeek-R1-Distill-Qwen-1.5B是一个经过思维链微调的大语言模型。在训练过程中，它接触了大量特定格式的样本：

<|Assistant|><think>我来一步步计算...</think>
最终答案是...

这种训练方式导致模型在推理时，无论用户是否在prompt中插入标签，都会倾向于生成完整的思考流程。对于直接需要最终答案的业务系统来说，这带来了额外的处理负担。

常见的解决方案是在业务代码中添加后处理逻辑，例如：

def remove_thinking(content):
    if '</think>' in content:
        parts = content.split('</think>', 1)
        return parts[1].strip()
    return content.strip()

但这种方案存在几个明显缺陷：

增加了业务系统的复杂度
对于流式输出处理不够友好
可能影响整体响应速度

2. vLLM 0.8.5的核心解决方案

vLLM 0.8.5提供了通过自定义聊天模板从根本上解决这个问题的能力。其核心思路是：

理解模型行为根源：模型输出标签是因为训练数据格式固定
利用模板系统：vLLM的聊天模板可以重新定义输出格式
完全控制输出：通过模板设计，可以跳过思考过程直接输出最终答案

2.1 环境准备

在开始配置前，需要确保具备以下环境：

vLLM 0.8.5版本
DeepSeek-R1-Distill-Qwen-1.5B模型文件
至少128GB内存（CPU环境）或相应GPU资源

推荐使用Docker部署方式，可以避免环境依赖问题：

docker buildx build --build-arg VLLM_CPU_DISABLE_AVX512=true \
  -f docker/Dockerfile.cpu -t vllm-cpu:0.10 .

3. 完整配置流程

3.1 自定义聊天模板创建

创建名为qwen_nonthinking.jinja的模板文件，内容如下：

{% for message in messages %}
    {% if message['role'] == 'user' %}
        {{ '<|User|>' + message['content'] + '<|end|>' }}
    {% elif message['role'] == 'assistant' %}
        {{ '<|Assistant|>' + message['content'] + '<|end|>' }}
    {% endif %}
{% endfor %}
{{ '<|Assistant|>' }}

这个模板的关键点在于：

完全跳过了标签的生成环节
保留了模型原有的对话格式结构
确保输出直接进入最终答案部分

3.2 容器启动配置

使用以下命令启动vLLM服务：

docker run -dit --name vllm-cpu1 \
  --privileged --security-opt seccomp=unconfined \
  --ulimit memlock=-1:-1 --cap-add=SYS_PTRACE \
  -v /path/to/models:/opt/models \
  -p 9400:8000 \
  vllm-cpu:0.10 \
  --model /opt/models/DeepSeek-R1-Distill-Qwen-1.5B \
  --dtype auto \
  --enable-chunked-prefill \
  --tensor-parallel-size 1 \
  --max-num-seqs 16 \
  --max-model-len 2048 \
  --chat-template "/opt/models/qwen_nonthinking.jinja" \
  --chat-template-content-format "auto"

关键参数说明：

参数	作用	推荐值
--model	指定模型路径	根据实际位置调整
--chat-template	自定义模板路径	确保路径正确
--max-model-len	最大上下文长度	根据需求调整
--enable-chunked-prefill	启用分块预填充	提升推理效率

3.3 验证配置效果

发送测试请求：

curl -X 'POST' \
  'http://localhost:9400/v1/chat/completions' \
  -H 'accept: application/json' \
  -H 'Content-Type: application/json' \
  -d '{
    "messages": [
      {
        "content": "你是谁?",
        "role": "user"
      }
    ],
    "temperature": 0.7,
    "top_p": 0.95
  }'

预期将得到不包含标签的简洁回复：

{
  "content": "您好！我是由深度求索(DeepSeek)公司开发的智能助手DeepSeek-R1。"
}

4. 高级配置与优化建议

4.1 性能调优参数

对于生产环境，建议调整以下参数：

--max-num-batched-tokens 4096 \
--max-num-seqs 32 \
--max-paddings 128 \
--engine-use-ray false

这些参数可以根据实际硬件配置进行调整：

参数	作用	低配环境	高配环境
max-num-batched-tokens	批处理token数	2048	8192
max-num-seqs	最大并行序列数	16	64
max-paddings	最大填充长度	64	256

4.2 流式输出处理

如果需要支持流式输出，可以在请求中添加stream参数：

{
  "stream": true,
  "messages": [
    {
      "content": "请解释量子计算的基本原理",
      "role": "user"
    }
  ]
}

并在客户端处理时，直接接收最终答案内容，无需额外过滤标签。

4.3 模板进阶定制

对于更复杂的需求，可以扩展模板功能：

{% set skip_thinking = true %}
{% for message in messages %}
    {% if message['role'] == 'system' %}
        {{ message['content'] }}
    {% elif message['role'] == 'user' %}
        {{ '<|User|>' + message['content'] }}
    {% elif message['role'] == 'assistant' %}
        {% if not skip_thinking %}
            {{ '<|Assistant|><think>思考中...</think>' }}
        {% endif %}
        {{ message['content'] }}
    {% endif %}
{% endfor %}

这种模板可以实现：

条件性跳过思考过程
保留系统消息处理能力
灵活控制输出格式

5. 常见问题排查

在实际部署中可能会遇到以下问题：

问题1：模型仍然输出标签

检查模板文件路径是否正确
确认模板内容没有语法错误
验证模型是否加载了正确的模板

问题2：响应速度变慢

检查--max-num-seqs参数是否设置过小
监控内存使用情况
考虑启用--engine-use-ray选项

问题3：输出格式不符合预期

确保模板与模型架构匹配
检查请求中的message格式
验证模型版本是否兼容

对于更复杂的问题，可以启用vLLM的详细日志：

--log-level debug

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐