Qwen3-14b_int4_awq部署教程:Ubuntu/CentOS系统下vLLM+Chainlit环境搭建
本文介绍了如何在星图GPU平台上自动化部署Qwen3-14b_int4_awq镜像,快速搭建vLLM+Chainlit环境。该方案支持高效的大语言模型推理,适用于智能客服、文本生成等场景,通过Web界面实现便捷交互,显著降低部署门槛和显存需求。
Qwen3-14b_int4_awq部署教程:Ubuntu/CentOS系统下vLLM+Chainlit环境搭建
1. 环境准备与快速部署
在开始之前,请确保您的系统满足以下要求:
- Ubuntu 20.04/22.04 或 CentOS 7/8
- 至少16GB内存(推荐32GB以上)
- 支持CUDA的NVIDIA显卡(推荐RTX 3090及以上)
- 已安装NVIDIA驱动和CUDA 11.7+
1.1 安装基础依赖
首先更新系统并安装必要的工具:
# Ubuntu系统
sudo apt update && sudo apt upgrade -y
sudo apt install -y python3-pip python3-dev git curl
# CentOS系统
sudo yum update -y
sudo yum install -y python3-pip python3-devel git curl
1.2 创建Python虚拟环境
建议使用虚拟环境隔离项目依赖:
python3 -m venv qwen_env
source qwen_env/bin/activate
2. 安装vLLM和Chainlit
2.1 安装vLLM框架
vLLM是一个高效的大语言模型推理框架:
pip install vllm
2.2 安装Chainlit前端
Chainlit提供了一个简洁的Web界面与模型交互:
pip install chainlit
3. 部署Qwen3-14b_int4_awq模型
3.1 下载模型
您可以从官方渠道获取Qwen3-14b_int4_awq模型:
git clone https://huggingface.co/Qwen/Qwen3-14b_int4_awq
3.2 启动vLLM服务
使用以下命令启动模型服务:
python -m vllm.entrypoints.api_server \
--model Qwen3-14b_int4_awq \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.9
服务启动后,默认会在localhost:8000提供API接口。
4. 验证模型部署
4.1 检查服务状态
可以通过查看日志确认服务是否正常运行:
cat /root/workspace/llm.log
如果看到类似以下输出,表示服务已成功启动:
INFO: Started server process [1234]
INFO: Waiting for application startup.
INFO: Application startup complete.
INFO: Uvicorn running on http://0.0.0.0:8000
4.2 使用Chainlit测试
创建一个简单的Chainlit应用来测试模型:
# app.py
import chainlit as cl
from vllm import LLM, SamplingParams
@cl.on_message
async def main(message: str):
llm = LLM(model="Qwen3-14b_int4_awq")
sampling_params = SamplingParams(temperature=0.7, top_p=0.9)
output = llm.generate([message], sampling_params)
await cl.Message(content=output[0].outputs[0].text).send()
启动Chainlit应用:
chainlit run app.py -w
访问http://localhost:8000即可与模型交互。
5. 常见问题解决
5.1 模型加载失败
如果遇到模型加载问题,可以尝试:
- 检查CUDA和cuDNN版本是否兼容
- 确保有足够的GPU内存
- 验证模型文件完整性
5.2 性能优化建议
- 对于多GPU环境,增加
--tensor-parallel-size参数 - 调整
--gpu-memory-utilization以优化内存使用 - 使用
--quantization awq参数确保正确加载量化模型
6. 总结
通过本教程,您已经成功在Ubuntu/CentOS系统上部署了Qwen3-14b_int4_awq模型,并搭建了基于vLLM和Chainlit的交互环境。这套方案具有以下优势:
- 高效推理:vLLM框架提供了出色的推理性能
- 简单交互:Chainlit提供了直观的Web界面
- 资源优化:int4量化显著降低了显存需求
下一步,您可以尝试:
- 开发更复杂的应用场景
- 探索模型微调可能性
- 优化提示工程以获得更好结果
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链
更多推荐



所有评论(0)