Qwen3-14b_int4_awq部署教程：Ubuntu/CentOS系统下vLLM+Chainlit环境搭建

本文介绍了如何在星图GPU平台上自动化部署Qwen3-14b_int4_awq镜像，快速搭建vLLM+Chainlit环境。该方案支持高效的大语言模型推理，适用于智能客服、文本生成等场景，通过Web界面实现便捷交互，显著降低部署门槛和显存需求。

Jason Hsiao

74人浏览 · 2026-03-16 01:12:08

Jason Hsiao · 2026-03-16 01:12:08 发布

Qwen3-14b_int4_awq部署教程：Ubuntu/CentOS系统下vLLM+Chainlit环境搭建

1. 环境准备与快速部署

在开始之前，请确保您的系统满足以下要求：

Ubuntu 20.04/22.04 或 CentOS 7/8
至少16GB内存（推荐32GB以上）
支持CUDA的NVIDIA显卡（推荐RTX 3090及以上）
已安装NVIDIA驱动和CUDA 11.7+

1.1 安装基础依赖

首先更新系统并安装必要的工具：

# Ubuntu系统
sudo apt update && sudo apt upgrade -y
sudo apt install -y python3-pip python3-dev git curl

# CentOS系统
sudo yum update -y
sudo yum install -y python3-pip python3-devel git curl

1.2 创建Python虚拟环境

建议使用虚拟环境隔离项目依赖：

python3 -m venv qwen_env
source qwen_env/bin/activate

2. 安装vLLM和Chainlit

2.1 安装vLLM框架

vLLM是一个高效的大语言模型推理框架：

pip install vllm

2.2 安装Chainlit前端

Chainlit提供了一个简洁的Web界面与模型交互：

pip install chainlit

3. 部署Qwen3-14b_int4_awq模型

3.1 下载模型

您可以从官方渠道获取Qwen3-14b_int4_awq模型：

git clone https://huggingface.co/Qwen/Qwen3-14b_int4_awq

3.2 启动vLLM服务

使用以下命令启动模型服务：

python -m vllm.entrypoints.api_server \
    --model Qwen3-14b_int4_awq \
    --tensor-parallel-size 1 \
    --gpu-memory-utilization 0.9

服务启动后，默认会在localhost:8000提供API接口。

4. 验证模型部署

4.1 检查服务状态

可以通过查看日志确认服务是否正常运行：

cat /root/workspace/llm.log

如果看到类似以下输出，表示服务已成功启动：

INFO:     Started server process [1234]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8000

4.2 使用Chainlit测试

创建一个简单的Chainlit应用来测试模型：

# app.py
import chainlit as cl
from vllm import LLM, SamplingParams

@cl.on_message
async def main(message: str):
    llm = LLM(model="Qwen3-14b_int4_awq")
    sampling_params = SamplingParams(temperature=0.7, top_p=0.9)
    output = llm.generate([message], sampling_params)
    
    await cl.Message(content=output[0].outputs[0].text).send()

启动Chainlit应用：

chainlit run app.py -w

访问http://localhost:8000即可与模型交互。

5. 常见问题解决

5.1 模型加载失败

如果遇到模型加载问题，可以尝试：

检查CUDA和cuDNN版本是否兼容
确保有足够的GPU内存
验证模型文件完整性

5.2 性能优化建议

对于多GPU环境，增加--tensor-parallel-size参数
调整--gpu-memory-utilization以优化内存使用
使用--quantization awq参数确保正确加载量化模型

6. 总结

通过本教程，您已经成功在Ubuntu/CentOS系统上部署了Qwen3-14b_int4_awq模型，并搭建了基于vLLM和Chainlit的交互环境。这套方案具有以下优势：

高效推理：vLLM框架提供了出色的推理性能
简单交互：Chainlit提供了直观的Web界面
资源优化：int4量化显著降低了显存需求

下一步，您可以尝试：

开发更复杂的应用场景
探索模型微调可能性
优化提示工程以获得更好结果

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐